O custo da "dívida computacional" para os centros de pesquisa no desenvolvimento do Aprendizado de Máquina e Inteligência Artificial

Aprendizado de Máquina Infraestrutura Inteligência Artificial

Os pesquisadores podem se surpreender ao descobrir que um dos principais fatores que impedem o sucesso dos projetos de pesquisa relacionados ao aprendizado de máquina e inteligência artificial é a subutilização de GPUs, CPUs e recursos de memória.

Os centros de pesquisa realizam grandes investimentos que têm o potencial de acelerar drasticamente as cargas de trabalho de Inteligência Artificial (IA) e melhorar o desempenho, mas acabam utilizando apenas uma pequena fração dela, às vezes tão baixa quanto 20% desses recursos poderosos.

A lacuna entre a alocação de computação e a utilização real é chocante e pode custar às pesquisas mais do que elas imaginam. Essa gap entre computação, alocação e utilização é chamada de “dívida computacional” e basicamente refere-se ao “desperdício” entre alocação e capacidade.

O que causa “dívida computacional”?

A Inteligência Artificial (IA), o Aprendizado de Máquina (em inglês, Machine Leaerning, ou ML) e o Aprendizado Profundo (em inglês, Deep Learning ou DL) exigem muitos recursos de computação e são complexos de gerenciar, o que dificulta a redução dessa dívida computacional.

Um dos maiores desafios para as equipes de pesquisa é entender como aumentar a utilização e gerenciar os recursos de uma forma que maximize o consumo e aumente o Retorno sobre Investimento (ROI) de projetos de aprendizado de máquina.

Algumas das principais causas de “dívida computacional” são:

1. As equipes de pesquisa e infraestrutura não têm visibilidade real dos projetos de IA

Os custos de infraestrutura para projetos de ML aumentam cerca duas vezes a cada ano, mas as equipes de TI não têm as ferramentas para gerenciar, otimizar e orçar os recursos de ML de maneira adequada, no local ou na nuvem.

A maioria dos líderes de TI e de pesquisa não tem visibilidade total da utilização, alocação e capacidade de GPU / CPU e memória em um determinado momento. Isso impossibilita controlar o consumo e reduzir as ineficiências.

2. Crescente “dívida computacional”

À medida que as necessidades de computação de IA se tornam mais complexas, a lacuna entre a alocação computacional e a utilização real aumenta de tamanho.

Em média, as organizações tendem a consumir apenas cerca de 30% de seus recursos gerais. Isso deixa quase 70% da computação ociosa, desperdiçando grandes quantias de investimento para as empresas.

3. Incapacidade de identificar trabalhos ineficientes

As equipes de infraestrutura e pesquisa não conseguem identificar facilmente as cargas de trabalho que subutilizam consistentemente GPUs e CPUs.

Sem os dados coletados em cargas de trabalho históricas, não há como analisar e identificar cargas de trabalho que estão sendo executadas de maneira ineficiente. Essa falta de visibilidade dificulta melhorar a utilização e controlar como as cargas de trabalho estão sendo priorizadas.

4. Interrupção da produtividade

GPUs subutilizadas estão sendo bloqueadas para outros trabalhos e aumenta o tempo de espera para que os cientistas de dados concluam os projetos.

Isso resulta em mais tempo perdido esperando pela disponibilidade da GPU e, além disso, desperdício de recursos. Enquanto isso, existem outros recursos que estão ociosos que podem ser usados para outros trabalhos.

5. Falta de padronização e unificação

Frequentemente, as equipes não conseguem correlacionar um trabalho às suas métricas de utilização. Não existe uma ferramenta de visualização padrão que permite que você veja uma alocação, utilização e capacidade de trabalhos em um determinado momento.

Isso dificulta identificar trabalhos ineficientes e priorizar cargas de trabalho desnecessárias. O aprendizado de máquina atingiu o estágio de maturidade em que a estratégia de infraestrutura de IA é necessária para crescer.

6. Incapacidade de controlar estratégias de otimização

Embora algumas equipes de pesquisa e desenvolvimento possam ser capazes de identificar ineficiências e planejar uma estratégia de infraestrutura otimizada, existem poucas ferramentas para executar essas estratégias.

As equipes de TI e desenvolvimento exigem controle das cargas de trabalho de IA para otimizar o gerenciamento de recursos. Sem maneiras de priorizar tarefas, configurar modelos de computação e monitorar a alocação e utilização da carga de trabalho, nenhuma melhoria substancial pode ser feita.

Estratégias para reduzir a “dívida computacional”

Não há uma solução clara para esse problema, porém existem maneiras de aumentar a eficácia do gerenciamento de recursos. Aqui estão algumas estratégias que podem melhorar a utilização de seus recursos de computação.

Investir tecnologia de aceleração de GPU

Infraestrutura de IA acelerada por GPU já percorreu um longo caminho. Soluções de aceleração de aprendizagem profunda em hardware e software surgiram para oferecer desempenho sem precedentes.

Os sistemas NVIDIA DGX, por exemplo, são desenvolvidos especificamente para atender às demandas de IA científica e ciência de dados, oferecendo o início mais rápido no desenvolvimento do aprendizado de máquina e IA sem esforço e desempenho revolucionário.

Dimensione MLOps (Machine Learning Operations)

Apresente uma maneira de simplificar seu fluxo de trabalho de ML e padronizar as transições entre as funções de ciência e engenharia.

Como a TI e o DevOps são responsáveis por implantar e gerenciar cargas de trabalho, é importante ter um canal de comunicação claro ao executar diferentes trabalhos. Ferramentas de agendamento adequadas e modelos de recursos de estratégia também podem melhorar o gerenciamento de recursos de cargas de trabalho de IA.

Maximize a utilização e reduza o “débito computacional”

Focar no débito computacional como um KPI (indicadores-chave de desempenho) para sua equipe de infraestrutura e de ciência de dados é necessário para melhorar a utilização. As organizações que conseguem reduzir o débito computacional e aumentar a utilização prosperarão na corrida para a IA.

O desafio de escalar a IA em centros de pesquisa

Existem poucas soluções que maximizam a visibilidade de GPU / CPU e consumo de memória para equipes de pesquisa, desenvolvimento e infraestrutura para melhorar sua utilização e reduzir o desafio da dívida computacional.

Embora a indústria esteja construindo rapidamente hardware e software mais eficientes para resolver a ameaça do débito computacional, temos um longo caminho a percorrer. A realidade é que a maioria das organizações de pesquisa está de posse em grandes investimentos computacionais subutilizados.

Usando o que você tem e melhorando o gerenciamento de recursos, as organizações permitirão uma escalabilidade massiva de sua infraestrutura de IA. Ao adotar algumas dessas estratégias em sua infraestrutura de Inteligência Artificial moderna, você pode descobrir que a utilização total da computação é alcançável.

Os centros de pesquisa que se concentram na otimização da infraestrutura terão um maior ROI para seus esforços de IA e ganharão uma vantagem computacional em relação à pesquisa e desenvolvimento.

Sobre New Route

New Route é uma empresa especializada em infraestrutura de TI moderna. Utilizamos tecnologias da Computação de Alto Desempenho (HPC) e Inteligência Artificial (IA) para trazer maior insight e melhores resultados aos projetos de pesquisa científica em diversas áreas. Soluções personalizadas com um portfólio de ponta a ponta que inclui estações de trabalho, servidores, supercomputadores, armazenamento, redes, software, sistemas e serviços. Nossa atuação vai desde o planejamento e arquitetura da solução, até a instalação, deployment e suporte técnico local. New Route, há mais de 25 anos apoiando cientistas brasileiros a realizarem descobertas transformadoras.

O custo da “dívida computacional” para os centros de pesquisa no desenvolvimento do Aprendizado de Máquina e Inteligência Artificial