Qual é o atual ápice da Inteligência Artificial?

- Atualizado no dia 11 de novembro de 2019 -

Compartilhe o artigo:

Desde que o programa Deep Blue derrotou o campeão mundial de xadrez em 1997, o campo de pesquisa em Inteligência Artificial (IA) tem marcado consideráveis avanços. E a medida desse progresso, em muitos casos, tem utilizado como base o desempenho da IA em populares e desafiadores jogos. Resultados animadores foram primeiro alcançados em jogos mais simples, onde a força bruta numérica era a única necessária, como o próprio xadrez, para depois os programas de IA avançarem para o complicado domínio do Go (1) e do Pôquer (2). Aliás, em 2017, a IA desenvolvida pelo Google para o jogo Go - chamada de AlphaGo Zero - revelou-se autodidata e derrotou os melhores jogadores do mundo (1). Todos esses avanços também possibilitaram que a IA se ramificasse para outras áreas, como dois recentes programas que aprenderam sozinhos a traduzir diferentes idiomas a partir de textos aleatórios (3).

No entanto, esses programas são tipicamente construídos para um jogo em particular, explorando suas propriedades específicas, como as simetrias do tabuleiro onde são jogados. Ou seja, ainda não tinham demonstrando suficiente flexibilidade para aprender novas habilidades e estratégias necessárias para jogos mais complexos/subjetivos e/ou em múltiplas plataformas.

Mas três estudos recentemente publicados - um na Science e dois outros mais recentes na Nature -, descreveram a criação de três novos programas de IA chamados AlphaZero, DeepCubeA e AlphaStar, os quais dominaram sozinhos diferentes jogos, incluindo um RPG online. O AlphaZero aprendeu sozinho a como jogar Go, xadrez e shogi (uma versão Japonesa de xadrez), se tornando imbatível nos três jogos. Já o DeepCubeA aprendeu a dominar também sozinho vários jogos (puzzles) de combinação, se tornando o segundo mais rápido resolvedor não-humano do famoso Cubo Mágico. Já o AlphaStar se tornou um dos melhores jogadores de StarCraft II! E somando-se a isso, e saindo dos jogos, mais recentemente os cientistas revelaram uma AI, apelidada de Copernicus, que foi capaz de aprender sozinha as leis da física e re-descobrir que os planetas do Sistema Solar orbitam ao redor do Sol!

- Continua após o anúncio -

ALPHAZERO

Basicamente, o AlphaZero é uma versão evoluída do AlphaGo Zero, este o qual alcançou uma performance super-humana no Go ao reforçar seu auto-aprendizado ao jogar consigo mesmo repetidas vezes várias partidas. Nesse sentido, os pesquisadores generalizaram esse método em um único algoritmo - derivado dos mesmos algoritmos e arquitetura de rede do AlphaGo Zero - que consegue alcançar uma performance super-humana em vários jogos desafiadores. Dado apenas as regras de três jogos (xadrex, Go e shogi) aleatórios, o AlphaZero conseguiu derrotar de forma convincente um programa de IA campeão mundial para cada um desses jogos.

O AlphaZero substitui as estruturas comuns de programação usadas em programas de game-playing com redes neurais profundas, um algoritmo de aprendizado reforçado para propósitos gerais, e um algoritmo de busca ramificado (tree) para propósitos gerais.

- Redes neurais: Ao invés de uma função avaliativa feita de forma manual e ordens de movimento heurísticas, o AlphaZero usa uma rede neural profunda (p, v) = f_θ(s) com parâmetros θ. Essa rede neural f_θ(s) toma a posição de tabuleiro s como uma entrada e libera um vetor de probabilidades de movimento p com componentes p_a = Pr(a|s) para cada ação a e um valor escalar v estimando o resultado esperado z do jogo a partir da posição s,

O AlphaZero aprende essas probabilidades de movimento e estimativas de valores inteiramente a partir de auto-play (jogando consigo mesmo várias vezes); esses parâmetros são usados então para guiar sua busca em jogos futuros.

- Algoritmo de busca: Ao invés de uma busca alfa-beta com melhoras domínio-específicas, o AlphaZero usa um algoritmo MCTS (Monte Carlo Tree Serch) de propósitos gerais. Cada busca consiste de uma série de jogos simulados a partir de auto-play que cruza uma 'árvore' (tree) a partir de uma estado de raiz s_root até um estado de 'folha' (leaf) ser alcançado. Cada simulação procede ao selecionar em cada estado s um movimento a com baixa contagem de visitas (não previamente explorado de forma frequente), alta probabilidade de movimento, e alto valor (média sobre os estados de folha de simulações que selecionam a a partir de s) de acordo com a atual rede neural f_θ. A busca retorna um vetor π representando uma probabilidade de distribuição em termos de movimentos, π_a = Pr(a|s_root).

- Reforço de aprendizado: Os parâmetros θ da rede neural profunda no AlphaZero são treinados via reforço do aprendizado com base no auto-play, começando a partir de parâmetros aleatórios inicializados θ. Cada partida é jogada ao se rodar um MCTS a partir da posição atual s_root = s_t na vez t e então selecionando um movimento, a_t ~ π_t, seja proporcionalmente (para exploração justa) ou gananciosamente (para exploração injusta) em relação à contagem de visitas ao estado raiz. No final da partida, a posição terminal s_T é pontuada de acordo com as regras do jogo para computar o resultado z: -1 para derrota, 0 para empate e +1 para uma vitória. Os parâmetros θ da rede neural são atualizados para minimizar o erro entre o resultado esperado v_t;e o resultado da partida z e para maximizar a similaridade do vetor de política p_t para a busca de probabilidades π_t. Especificamente, os parâmetros θ são ajustados via descida gradual sobre uma perda de função l que resume sobre erros quadráticos e perdas de entropia-cruzada,

onde c é um parâmetro controlando o nível da regularização de peso L2. Os parâmetros atualizados são usados em partidas subsequentes de auto-play.

Essas novas otimizações tornam o AlphaZero bem diferente do AlphaGo Zero em vários aspectos. O AlphaGO Zero, por exemplo, estima e otimiza a probabilidade de vitória ao explorar o fato que as partidas de Go possuem um resultado binário de vitória ou derrota. No entanto, tanto o xadrez quanto shogi podem ter partidas terminadas empatadas. Aliás, acredita-se que a solução ideal para o xadrez é um empate (em termos de programação). Nesse sentido, o AlphaZero estima e otimiza o resultado esperado.

Além disso, para acomodar uma ampla classe de jogos, o AlphaZero não assume simetria. O Go é simétrico, mas as regras do xadrez e do shogi são assimétricas. No xadrez, por exemplo, enquanto o peão pode se movimentar apenas para frente, as outras peças não; a rainha e o rei assumem movimentações em todas as direções, enquanto as outras peças são limitadas em uma ou duas direções. Outra diferença importante levada em conta pelo AlphaZero é que no shogi e no xadrez o jogo é posição-dependente, ou seja, dependendo da posição da peça, 'efeitos especiais' ocorrem, como no peão, onde esta peça pode avançar duas casas a partir da sua posição original no início da partida e pode ser promovido para outra peça quando alcança o final oposto do tabuleiro.

O AlphaZero possui também uma rede neural que é continuamente atualizado e não espera uma interação ser completada para tal. No AlphaGo Zero, cada atualização espera o término de um treino, e baseia-se na comparação entre melhores jogadores. Seu desenvolvimento e sua performance foram descritos em um estudo publicado na Science (Ref.1).

- Continua após o anúncio -

PERFORMANCE

O AlphaZero treinou de forma separada para cada um dos três jogos, em um total de 700 mil passos (em mini-pacotes de 4096 posições de treino) e englobando aproximadamente 9 horas no xadrez, 12 horas no shogi, e 13 dias no Go. Durante seu auto-aprendizado, o AlphaZero primeiro ultrapassou a performance do Stockfish no xadrez após apenas 4 horas (300 mil passos); no shogi, ultrapassou o Elmo em apenas 2 horas (110 mil passos); e, no Go, ultrapassou o AlphaGo após 30 horas (74 mil passos).

Usando controles de tempo de 3 horas por partida, mais um adicional de 15 segundos para cada movimentação de peça, no Go, o AlphaZero derrotou o AlphaGo Zero, ganhando 61% das partidas. No xadrez, o AlphaZero derrotou o Stockfish, vencendo 155 partidas e perdendo 6 partidas em um total de 1000. No shogi, o Alpha Zero derrotou o Elmo, ganhando 98,2% das partidas quando jogando com as peças pretas, e 91,2% no geral.

Em outras modalidades de partidas e controles de tempo - incluindo contra outras IA oponentes -, o AlphaZero continuou ganhando em todos os três jogos e por uma robusta vantagem, especialmente no shogi.

E mesmo quando o AlphaZero era dado um tempo de busca 1/10 daquele do Stockfish para as jogadas (desvantagem), ele continuou derrotando esse programa no xadrez. E quando dado apenas 1/100 do tempo, ainda assim venceu 46% das partidas.

E o mais impressionante é que o AlfaZero empregou uma taxa de busca de somente 60 mil posições por segundo no xadrez e no shogi, enquanto o Stockfish usava 60 milhões e o Elmo 25 milhões (confiavam mais na força bruta). Nesse sentido, o AlphaZero provavelmente estava compensando pelo número bem mais baixo de avaliações ao usar sua rede neural profunda para focar mais seletivamente nas variações com maior potencial de sucesso, uma estratégia mais humana de jogo.

- Continua após o anúncio -

DEEPCUBEA

O DeepCubeA, um algoritmo de aprendizado (via reforço de aprendizado) programado por cientistas da computação e matemáticos da Universidade da Califórnica, EUA, foi o mais recente avanço no campo da inteligência artificial, contribuindo para mais um importante passo nessa área. O algoritmo funciona usando valor aproximado de iteração para treinar uma rede neural profunda (DNN), e foi capaz de solucionar em uma fração de segundo, sem qualquer domínio específico de conhecimento ou orientação in-game de humanos, o tão desafiado Cubo Mágico. E isso não é uma tarefa simples, considerando que o cubo pode ser solucionado em bilhões de caminhos alternativos mas com apenas um estado possível de solução (cada uma das suas seis fases precisam estar apenas com lados de uma única cor), algo que aparentemente não pode ser encontrado apenas com movimentos aleatórios. Mais especificamente, são 4,3x10¹⁹ diferentes estados possíveis.

No estudo descrevendo o DeepCubeA, publicado na Nature Machine Intelligence (Ref.2), os pesquisadores demostraram que essa IA resolveu 100% de todas as configurações de teste, encontrando o caminho mais curto de resolução de estado em 60,3% das vezes. Além disso, o algoritmo conseguiu trabalhar e resolver outros jogos combinatórios, como o Lights Out e o Sokoban, encontrando sempre o mais curto caminho de resolução na maioria dos casos verificáveis. É a primeira vez que um computador consegue resolver puzzles de alta dificuldade, os quais envolvem um pensamento mais simbólico, matemático e abstrato. Nesse sentido, a IA ficou perto de se tornar um sistema que pode pensar, racionalizar, planejar e tomar decisões.

Os pesquisadores já tinham demonstrado em 2018 um algoritmo auto-didata que conseguia resolver o Cubo Mágico (Ref.3) - chamado de DeepCube -, e estavam interessados em entender como e porque a IA faz seus movimentos e quanto tempo levou para aperfeiçoar seu método de auto-aprendizagem. Para investigar isso, eles começaram com uma simulação computacional de um cubo completado e então o misturaram. Uma vez que um novo código otimizado estava pronto e operando (DeepCubeA), este treinou em isolamento por dois dias, resolvendo uma série de combinações com dificuldade cada vez crescente (total de 1000 combinações).

O DeepCubeA - versão otimizada baseada no seu predecessor DeepCube (este o qual era inspirado no algoritmo do AlphaZero, MCTS) -, no final do seu auto-treino, precisou de apenas cerca de 20 movimentos para resolver o cubo e em 0,38 segundos, a maior parte das vezes requerendo o número mínimo de passos. Antes, a marca alcançada tinha sido 30 passos. Humanos que detêm o recorde de tempo mínimo para resolver o cubo precisam em torno de 50 movimentos. Os pesquisadores notaram que a estratégia da IA parece ser diferente daquela adotada por humanos.

O DeepCubeA não é o primeiro algoritmo ou o mais rápido a solucionar o Cubo Mágico, porém é o primeiro que aprendeu a solucioná-lo sozinho com um sistema baseado em redes neurais de aprendizado. No MIT (Instituto de Tecnologia de Massachusetts), um robô já tinha sido criado - chamado min2phase algorithm - que resolvia o cubo três vezes mais rápido, porém essa era sua única finalidade e não aprendeu sozinho a dominar o puzzle (não era algo próximo de uma real IA), necessitando de domínio de conhecimento.

A formidável performance do DeepCubeA sugere que ele pode ser usado para resolver problemas além de puzzles combinatórios, com potencial aplicação em áreas de planejamento, robótica e ciências naturais que lidam com amplos estados espaciais e poucos estados finais.

- Continua após o anúncio -

ALPHASTAR

Conhecida como ApphaStar, a mais recente IA do Google (DeepMind) se tornou mestre no jogo StarCraft II - um popular jogo online de estratégia. Liberada nos servidores Europeus, ela alcançou um lugar entre os melhores jogadores (top 0,15% dos 90 mil jogadores da região).

A nova IA e seu feito foram descritos em um estudo publicado na Nature (Ref.4), marcando um importante novo avanço no desenvolvimento de IAs capazes de aprender ou entender qualquer tarefa que humanos possam executar. Isso porque o StarCraft II é bastante complexo e rápido, envolvendo centenas de 'peças' (tipos) que se movem em tempo real e de forma não ordenada. Basicamente, a qualquer momento, são possíveis 10²⁶ ações a se escolher no jogo. E, para complicar, o jogo é baseado em informações imperfeitas, ou seja, os jogadores não podem ver o que o seu oponente está fazendo fora da tela.

"Eu não esperava que uma IA essencialmente se tornasse superhumana nesse domínio tão rapidamente, talvez não antes de mais alguns anos", disse Jon Dodge. pesquisador de IA da Universidade do Estado de Oregon, EUA (Ref.5).

No jogo em questão, os jogadores competem em tempo real como uma das três facções disponíveis (as forças humanas Terran ou as forças alienígenas Protoss e Zerg) batalhando uns contra os outros em uma zona de guerra futurística. Nesse sentido, os jogadores precisam administrar recursos, executar complexas manobras de combate e, ultimamente, criar estratégias contra os oponentes. Jogadores profissionais chegam a realizar 300 ações por minuto.

Baseada em redes neurais artificiais (como já mencionado, reconhecendo padrões de grandes bancos de dados, ao invés de ser alimentada com instruções específicas), a IA teve seus reflexos reduzidos (para não ter uma vantagem extra na precisão e velocidade de jogada, o que poderia compensar uma possível baixa capacidade de aprendizado e de estratégia), teve sua identidade mascarada e foi liberada nos servidores Europeus. Eventualmente, a AlphaStar atropelou os jogadores de baixo nível e conseguiu ganhar 61 partidas de um total de 90 contra jogadores de alto nível.

Após 27 dias de treino, a AlphaStar alcançou lugar entre os top 0,5% dos jogadores Europeus em todas as três raças do jogo (humanos e alienígenas). Após várias partidas ao longo de 44 dias de treino, a versão final dessa IA ficou pronta, e conseguiu vencer o melhor jogador do mundo em StarCraft II.

- Continua após o anúncio -

AI ASTRÔNOMA

Enquanto os astrônomos levaram séculos para descobrirem que os planetas do Sistema Solar giravam ao redor do Sol, passando por Copérnico e Galileu, e um intenso embate com a Igreja Católica (4), uma AI apelidada de 'Copernicus', descrita em um estudo publicado no Physical Review Letters (Ref.6), conseguiu sozinha aprender as leis da física e re-descobrir o modelo heliocêntrico por conta própria usando uma rede neural composta e otimizada.

----------
(4) Para saber mais, acesse: Galileu editou suas ideias hereges para enganar a Inquisição

Como já explorado, as redes neurais convencionais aprendem a reconhecer padrões e objetos ao treinarem sob alimentação de grandes conjuntos de dados. Essas redes neurais, então, descobrem características gerais - por exemplo, 'quatro pernas' e 'orelhas pontudas' está associado a gatos - e codificam essas últimas em 'nódulos' matemáticos, o equivalente artificial a neurônios. Porém, ao invés de condensarem os padrões de informações em regras simplificadas e fáceis de serem interpretadas - como os Físicos fazem - as redes neurais geram milhares ou mesmo milhões de nódulos, altamente complexos e difíceis de serem interpretados.

Nesse sentido, os pesquisadores resolveram otimizar a complexa organização das redes neurais, criando duas sub-redes conectadas uma a outra via algumas poucas pontes de comunicação. Assim, a primeira sub-rede aprenderia a partir da robusta alimentação de dados, como uma típica rede neural, e a segunda ira usar essa 'experiência' de aprendizagem para produzir e testar novas predições. Como eram poucas as pontes ligando as duas sub-redes, a primeira era forçada a passar as informações de forma condensada (como um professor ensinando um aluno).

Para testar a nova AI, os pesquisadores forneceram ao algoritmo dados sobre os movimentos de Marte e do Sol no céu, como vistos da superfície terrestre. Desse ponto de vista, a órbita de Marte em relação ao Sol parece errática (por exemplo, ela periodicamente segue de forma retrógrada, revertendo seu curso). Por séculos, astrônomos pensavam que a Terra era o centro do Universo, e explicavam o movimento de Marte ao sugerir que os planetas se moviam em pequenos círculos, chamados de epiciclos, na esfera celestial. Mas no início do século XVI, Nicolau Copérnico encontrou que os movimentos poderiam ser preditos a partir de um sistema muito mais simples de fórmulas se tanto a Terra quanto os outros planetas em sua volta estivessem orbitando o Sol (heliocentrismo).

A AI Copernicus fez o mesmo que Copérnico e derivou as mesmas fórmulas simples e corretas para a trajetória de Marte, redescobrindo uma das mais importantes mudanças de paradigma na história da ciência. Porém, apesar do algoritmo ter derivado as fórmulas, uma análise humana foi necessária para interpretar as equações e entender como elas se relacionavam aos movimentos dos planetas ao redor do Sol.

Os pesquisadores responsáveis pelo novo estudo - da Universidade de Toronto, Canadá - realçaram a importância do avanço, porque, segundo eles, esse tipo de descrição de sistemas físicos via AI é a única esperança da humanidade de continuar entendendo e descrevendo complexos fenômenos hoje limitados pelas atuais ferramentas de cálculos e análises de dados, especialmente no meio Quântico.

O objetivo dos pesquisadores agora é desenvolver uma versão da nova rede neural composta para que ela não apenas aprenda de dados experimentais, mas que também possa propor novos experimentos e testar suas próprias hipóteses.

- Continua após o anúncio -

CONCLUSÃO

Com um sistema altamente otimizado, o AlphaZero ultrapassou a performance de todas as atuais IA campeãs mundias em xadrez, shogi e Go. Apoiado no AlphaZero, o DeepCubeA não precisou de ajuda para se tornar um mestre no Cubo Mágico. Via auto-aprendizado e com uma estratégia mais humana de jogar, o AlphaZero foi capaz de vencer a força bruta dos programas estado-da-arte para xadrez e shogi. O DeepCubeA foi além das estratégias humanas para dominar os jogos combinatórios de puzzle. Já a AlphaStar dominou um dos jogos online mais difíceis e complexos do mundo. Além disso, temos agora uma AI capaz de desenvolver equações matemáticas simplificadas para explicar fenômenos físicos a partir da análise de dados experimentais.

Todos esses avanços sugerem que estamos cada vez mais próximos de alcançarmos uma ambição há muito tempo almejada no campo das IAs: um sistema geral que possa dominar qualquer tipo de jogo e de problemas espaciais, um one to rule them all. E isso nos aproxima também de IAs só vistas hoje em obras de ficção-científica.

REFERÊNCIAS CIENTÍFICAS