Dados Sintéticos: a nova fronteira da inteligência artificial
- Fábio Junior
- 19 de out. de 2022
- 5 min de leitura

"O que aconteceria no mundo se fosse possível conquistar em dez dias os avanços tecnológicos que normalmente demorariam dez anos para serem alcançados?
Essa pergunta já começa a ser respondida por algumas empresas de tecnologia que vêm avançando de forma significativa no uso de inteligência artificial pós-pandemia.
Este movimento deve-se, em grande parte, à evolução no uso de dados sintéticos."
Depender da coleta de dados reais ficou caro e demorado, perigoso (riscos cibernéticos, de segurança e privacidade) para muitos negócios
Simuladores de robótica são ferramentas inestimáveis que permitem que os desenvolvedores projetem, prototipem e
testar robôs em um ambiente controlado sem a necessidade de
hardware físico.
A simulação é uma ferramenta essencial para desenvolvedores que é usada extensivamente para construir e
testando o software do robô. Dada a sua importância, é fundamental
que compreendamos melhor os desafios que impedem
desenvolvedores de realizar todo o seu potencial.
No artigo publicado pela Carnegie Mellon, foi relaizado um estudo com 82 desenvolvedores de robótica para explorar como os simuladores de robótica são usados e
os desafios que os desenvolvedores geralmente enfrentam ao usar
simulação para fins gerais, testes e automação de testes.
Até 2024, 60% dos dados usados para o desenvolvimento de projetos de IA e analytics serão gerados sinteticamente
Por que os dados sintéticos são obrigatórios e essenciais para o futuro da IA?
Existem muitas outras formas de dados sintéticos,
como aumento de dados ou pseudomização/anonimização,
que são outros tipos de “síntese de dados”.
Esses métodos são obrigatórios em qualquer equipe moderna de ciência de dados.
Mas, com dados sintéticos, os profissionais injetam informações em seus modelos de IA e
obtêm dados gerados artificialmente que são mais valiosos do que a observação direta.
Dados sintéticos podem ser usados para hackathons, demonstrações de produtos e prototipagem interna para replicar um conjunto de dados com os atributos estatísticos corretos.
Por exemplo, bancos e instituições de serviços financeiros usam dados sintéticos configurando simulações de vários agentes para explorar comportamentos de mercado (como investimentos em pensões e empréstimos),
para tomar melhores decisões de empréstimos ou para combater fraudes financeiras. Os varejistas usam dados sintéticos para sistemas de check-out autônomos,
lojas sem caixa ou análise de dados demográficos dos clientes.
Além disso, dados sintéticos podem aumentar a precisão dos modelos de aprendizado de máquina. Os dados do mundo real são casuais e não contêm todas as permutações de condições ou eventos possíveis no mundo real. Os dados sintéticos podem combater isso gerando dados nas bordas ou para condições ainda não vistas.
A amplitude de sua aplicabilidade o tornará um acelerador crítico para a IA. Dados sintéticos tornam a IA possível onde a falta de dados torna a IA inutilizável devido a viés ou incapacidade de reconhecer cenários raros ou sem precedentes.
Quais são os riscos dos dados sintéticos?
Embora as técnicas de dados sintéticos possam ter uma pontuação bastante alta em termos de custo-benefício e privacidade,
elas apresentam riscos e limitações significativos.
A qualidade dos dados sintéticos geralmente depende da qualidade do modelo que os criou e do conjunto de dados desenvolvido.
O uso de dados sintéticos requer etapas de verificação adicionais, como a comparação dos resultados do modelo com dados do mundo real anotados por humanos,
para garantir a fidelidade dos resultados. Além disso, os dados sintéticos podem ser enganosos e podem levar a resultados inferiores,
e os dados sintéticos podem não ser 100% à prova de falhas quando se trata de privacidade.
Devido a esses desafios tecnológicos, o ceticismo do usuário também pode ser outro desafio difícil de ser superado pelos dados sintéticos,
pois os usuários podem percebê-los como dados “inferiores” ou “falsos”.
Finalmente, à medida que os dados sintéticos ganham uma adoção mais ampla, os líderes empresariais podem levantar questões sobre a abertura das técnicas de geração de dados,
especialmente quando se trata de transparência e explicabilidade.
Dados sintéticos são a forma definitiva de IA centrada em dados. Os dados não são mais um gargalo.
Os dados sintéticos fazem com que os dados estejam disponíveis em fornecimento contínuo. A coleta, a curadoria e a anotação de um novo conjunto de dados não são mais um fardo operacional enorme. Os dados sintéticos aproveitam os recursos de computação em vez do trabalho humano: os engenheiros podem simplesmente fazer uma chamada de API e obter dados novos e infinitos.
Os principais casos de uso de dados sintéticos incluem a capacidade de:
Treine modelos: crie novos modelos de ML totalmente com dados sintéticos ou misture dados sintéticos e do mundo real para melhorar o desempenho do modelo.
Caracterize modelos: gere varreduras de dados sintéticos em parâmetros específicos (como posição da câmera, iluminação ou tipos de corpo) e caracterize o desempenho do modelo em função de um parâmetro.
Corrigir casos de falha: gere gêmeos digitais sintéticos de casos de falha do mundo real (amplificação de amostra) e retreine no conjunto de dados de treinamento expandido para corrigir as falhas
Aumente a privacidade e minimize o viés de dados: cumpra as leis mais rígidas de proteção de dados, utilizando dados sintéticos em vez de exigir rostos de pessoas reais ou dados identificáveis; gerar conjuntos de dados diversificados e equilibrados para ML equitativo
Faça testes robustos (CI/CD): garanta que os modelos passem nos “testes de unidade de dados” antes de implantá-los em produção; gerar dados confiáveis para testes de integração; conduzir CI/CD para pipelines de dados em grande escala
Todas as principais empresas de tecnologia começaram a usá-lo no ano passado
Ficamos viciados em dados sintéticos no final de 2020. Acontece que muitas das grandes empresas de tecnologia também se tornaram fãs de treinamento em dados sintéticos:
Tesla — para condução autônoma. Assista à demonstração
Microsoft Hololens — para rastreamento manual. Assista a demonstração.
Apple — para compreensão natural da cena. Leia papel.
Microsoft — para rastreamento ocular. Leia papel.
NVIDIA — para dirigir sozinho. Veja demonstração.
Google — para estimativa de pose. Leia papel.
Esses anúncios são todos de 2021 ou início de 2022. Dados sintéticos são o futuro e a hora é agora.
No ano passado, pesquisadores da Data Science Nigeria observaram que os engenheiros que desejam treinar algoritmos de visão computacional podiam escolher entre uma variedade de conjuntos de dados com roupas ocidentais, mas não havia nenhum para roupas africanas.
A equipe abordou o desequilíbrio usando a IA para gerar imagens artificiais da moda africana – um novo conjunto de dados do zero.
Esses conjuntos de dados sintéticos – amostras geradas por computador com as mesmas características estatísticas do artigo genuíno – estão se tornando cada vez mais comuns no mundo faminto de dados do aprendizado de máquina. Essas falsificações podem ser usadas para treinar IAs em áreas onde os dados reais são escassos ou muito sensíveis para uso, como no caso de registros médicos ou dados financeiros pessoais.
A ideia de dados sintéticos não é nova: carros sem motorista foram treinados em ruas virtuais. Mas no ano passado a tecnologia se espalhou, com uma série de startups e universidades oferecendo esses serviços. Datagen e Synthesis AI, por exemplo, fornecem rostos humanos digitais sob demanda. Outros fornecem dados sintéticos para finanças e seguros. E o Synthetic Data Vault, um projeto lançado em 2021 pelo Data to AI Lab do MIT,
fornece ferramentas de código aberto para criar uma ampla variedade de tipos de dados.
Fonte:https://mittechreview.com.br/dados-sinteticos-a-nova-fronteira-da-inteligencia-artificial/
https://synthesis.ai/2021/07/20/synthetic-data-centric-ai/
https://arxiv.org/pdf/2004.07368.pdf
https://venturebeat.com/ai/89-of-tech-execs-see-synthetic-data-as-a-key-to-staying-ahead/
https://www.privitar.com/blog/survey-results-data-privacy-drive-customer-loyalty/
https://medium.com/infinity-ai/infinity-ai-for-ml-engineers-by-ml-engineers-cbf4a69738b3
https://www.gartner.com/en/newsroom/press-releases/2022-06-22-is-synthetic-data-the-future-of-ai
https://www.statista.com/statistics/1124283/internet-penetration-in-africa-by-country/
https://dl.acm.org/doi/abs/10.1145/3531056.3542774
https://www.technologyreview.com/2022/02/23/1044965/ai-synthetic-data-2/
https://blogs.gartner.com/andrew_white/2021/07/24/by-2024-60-of-the-data-used-for-the-development-of-ai-and-analytics-projects-will-be-synthetically-generated/
Comments