Blog da ZOOM

Acelerando o processo de serviço de IA com Huawei Data Lake

Notícias

Acelerando o processo de serviço de IA com Huawei Data Lake

19/09/2024

Acelerando o processo de serviço de IA com Huawei Data Lake: No Mobile World Congress (MWC) deste ano em Barcelona, Espanha, o gigante chinês de TIC Huawei anunciou sua solução AI Data Lake, que descreve como uma de suas “soluções voltadas para ajudar empresas em todo o mundo a construir infraestrutura de dados de ponta na era da IA”. Existem vários desafios que devem ser superados ao melhorar a qualidade dos modelos de IA.

Em primeiro lugar, a preparação de dados é um gargalo que normalmente representa 60% do tempo de treinamento do modelo de ponta a ponta. Duas razões que dificultam a preparação de dados de alta qualidade incluem o acesso diversificado aos dados e a escala EB dos dados brutos dos conjuntos de amostras. Estes são desafios difíceis de superar no treinamento de modelos.

GPUs são o componente mais crítico para este tipo de treinamento, pois melhorar a utilização da GPU geralmente se correlaciona com reduções significativas de custos. No treinamento de modelos, a latência de armazenamento frequentemente causa tempo ocioso da GPU, representando até 10% do tempo total de execução da GPU.

Este é um processo complexo que pode se estender por vários meses em certos casos, agravado por interrupções causadas pela baixa eficiência da computação em cluster, falhas frequentes e solução de problemas lenta. Esses problemas fazem com que o treinamento do modelo não consiga ser retomado rapidamente, reduzem as taxas de sucesso e aumentam os custos de treinamento. Para evitar o impacto de falhas ou interrupções, são usados pontos de verificação periodicamente para registrar e carregar os resultados do treinamento posteriormente. Mesmo com essa salvaguarda, o carregamento pode levar mais de dez minutos, o que é inadequado para o treinamento de modelos de linguagem de grande escala (LLM).

Acelerando o processo de serviço de IA com soluções Huawei Data Lake. Produtos únicos para as necessidades de um mercado em crescimento.
Produtos únicos para as necessidades únicas de um mercado em crescimento.

A DCD conversou com Michael Qiu, presidente do departamento de marketing global de armazenamento de dados e vendas de soluções da Huawei, para saber mais sobre a oferta. Começamos perguntando a Qiu sobre a escolha de se referir a uma solução de “AI Data Lake” quando a oferta se estende à funcionalidade de Data Warehouse e Data Lakehouse.

Ele nos disse: “DataLake/LakeHouse são conceitos da era do Big Data. A maioria dessas soluções são parte de uma construção com software de prateleira e hardware de propósito geral, mas à medida que entramos na era da IA/LLM, precisamos de uma infraestrutura de dados pronta para IA para suportar cargas de trabalho mistas de Big Data e IA, onde a infraestrutura de dados desempenha um papel importante. É por isso que planejamos a solução e a nomeamos como ‘AI Data Lake’, incluindo inovações na camada de software e hardware.”

A solução “AI Data Lake” da Huawei visa garantir dados visíveis, gerenciáveis e disponíveis, transformando grandes volumes de dados em ativos valiosos e acelerando todo o processo de serviço de IA. Veja como funciona:

À medida que entramos na era AI / LLM, precisamos de uma infraestrutura de dados pronta para AI para suportar cargas de trabalho mistas de Big Data e AI, onde a infraestrutura de dados desempenha um papel importante Michael Qiu, da Huawei.

Conheça as soluções da ZOOMtecnologia para sua empresa clicando aqui.

Um pool de recursos de armazenamento de dados unificado é equipado com um nível de alto desempenho e um nível de alta capacidade, que pode ser expandido de forma flexível para armazenar grandes volumes de dados. A camada de alto desempenho fornece 100M IOPS e 10 terabytes por segundo de largura de banda, melhorando a eficiência do treinamento de LLM.

Um recurso inteligente de hierarquização de dados é usado para armazenar os dados quentes, mornos e frios em camadas de armazenamento apropriadas e garantir o custo total de propriedade (TCO) ideal.

A estrutura de dados é usada para coletar de forma eficiente grandes volumes de dados de diversos fornecedores, regiões e sistemas, alcançando mobilidade de dados segura e sob demanda. Uma cadeia de ferramentas de dados é fornecida para implementar uma conversão automática de dados em conhecimento. Esse processo envolve a limpeza e o aprimoramento dos dados, como a geração automática de pares de perguntas e respostas de alta qualidade e a conversão automática de dados em uma base de conhecimento vetorial.

Tudo isso se reúne com uma plataforma de gerenciamento de dados para implementar o gerenciamento e controle global de ativos de dados, incluindo listas de ativos de dados globais, coleta e análise de dados e gerenciamento de compartilhamento de dados.

Clique aqui e leia a matéria completa no site da Huawei Brasil.

Compartilhe: