A evolução dos GTO solvers matou o poker online?

Esse tipo de preocupação está se tornando cada vez mais comum no jogo moderno, e tudo está conectado a uma pergunta simples:

O poker está solucionado?

Se o poker está solucionado, uma solução perfeita para o jogo já é conhecida. Se um número grande de jogadores (ou bots de poker) estiver usando a solução, ganhar no poker online no longo prazo será impossível para jogadores normais.

O advento dos solvers de poker indica que é hora de encontrar um novo hobby?

Talvez não precisemos ser tão afobados: consideremos o tema de solucionar o poker de forma um pouco mais abrangente.

Cepheus Soluciona o Poker

Em 2015, o bot de poker Cepheus solucionou o Limit Hold'em heads up, ou seja, o poker um-contra-um.

É completamente impossível para um humano derrotar o Cepheus ao longo de um número suficientemente grande de mãos.

Esse feito, inicialmente, pode ter parecido como o início do fim do poker online. Porém, é crucial manter as coisas dentro de seu devido contexto.

Ilustração com código de programação

Este resultado só se aplica ao Limit Hold'em heads up - uma modalidade que raramente é jogada online. Jogos mais complexos, como o No-Limit Hold'em ou modalidades de poker com mais de dois jogadores, ainda não têm solução completa.
O Limit Hold'em heads up ainda não está completamente solucionado. Uma solução completa é um solve forte. O Cepheus tem um solve fraco. Para contextualizar, uma solução de um solver de poker entra na categoria de solve ultrafraco.

Solve Forte x Fraco x Ultrafraco

Vamos separar e classificar os tipos diferentes de soluções:

Solução forte - É a melhor possível em qualquer cenário. Ela inclui, especificamente, cenários não ideais em que ambos jogadores cometeram erros para chegar à situação atual.

Solução fraca - Esta estratégia é perfeita do começo ao fim contra qualquer movimento possível do adversário. No entanto, o jogador deve sempre optar pela ação perfeita. Se ele se desviar da resposta ideal, a solução para o cenário seguinte pode não ser conhecida.

Solução ultrafraca - O requisito técnico para uma solução ultrafraca é provar qual jogador vai vencer, dado o estado inicial do jogo. No poker, uma solução ultrafraca é qualquer tentativa de solução que fique aquém da solução fraca.

O Momento dos Solvers de Poker

A boa notícia para nós é que uma solução oferecida por um solver no poker no-limit fica muito aquém de uma solução fraca. Em outras palavras, a resposta de um solver não é a igual ao feito atingido pelo Cepheus lá atrás, em 2015.

Ilustração de computador

O Cepheus conseguiu gerar uma solução para o limit poker heads up ao considerar todos cenários possíveis do jogo. O Limit Hold'em tem um número finito de opções de apostas em cada fase. Portanto, o "pequeno" conjunto de possibilidades tornou isso possível.

Por "pequeno", queremos dizer enorme. Portanto, um computador poderoso pode fornecer uma solução que leve em conta todo cenário possível do jogo dentro de um espaço de tempo razoável.

Por exemplo: o Cepheus precisou de 68 dias para solucionar o limite heads up em 2015, rodando em um supercomputador equipado com 48 CPUs.

Em tese, o mesmo tipo de algoritmo pode existir para solucionar o no-limit poker, mas a complexidade adicional dos tamanhos de apostas significa que até mesmo o mais poderoso dos computadores não chegaria a uma solução até o fim de nossas vidas. E isso vale apenas para um único stack de fichas, uma variável que muda de mão para mão.

Os solvers de poker funcionam porque o conjunto de cenários do jogo é fortemente simplificado. Os jogadores podem escolher apenas um pequeno número de tamanhos de apostas em cada tomada de decisão. Logo, a resposta do solver é uma solução ultrafraca na melhor das hipóteses.

Dito isto, os solvers de poker são ferramentas valiosas. Consideremos alguns dos prós e contras de usar uma solução ultrafraca.

Problemas Com uma Solução Ultrafraca

Um problema fundamental com uma solução ultrafraca é que ela não consegue lidar de forma efetiva com todas decisões que o adversário pode tomar.

Muitas soluções para o no-limit existem em torno de um único conjunto de tamanhos de apostas no pré-flop. Por exemplo: a resposta pode ter um único alcance no pré-flop para defender o BB ao encarar um BTN aberto.

Fichas de poker

O problema é que este alcance será baseado em um tamanho específico, como uma abertura de 2,5 bb do BTN. Como um jogador baseado em GTO ou um bot deve responder se o BTN abrir com 3bb?

Tecnicamente, o alcance de defesa deve ser mais rígido, mas a estratégia exata não está coberta pela solução. Um bot GTO geralmente vai usar a solução mais próxima (o tamanho de 2,5bb, que é impreciso neste caso).

Portanto, é tecnicamente possível "explorar" um bot GTO ao escolher tamanhos de apostas que não existem como parte de um game tree, ou seja, de uma "árvore de possibilidades". Esta estratégia, consequentemente, forçaria imprecisões.

Vantagens de uma Solução Ultrafraca

Embora o termo ultrafraco não nos encha de confiança, a verdade é que as opções dadas por um solver de poker assim são extremamente poderosas. O adversário humano médio não tem chance contra a capacidade de dar respostas de um robô solver.

Na era moderna, há uma enormidade de soluções "pré-solucionadas" (ultrafracas) para o poker que estão disponíveis comercialmente por preços baixos.

Isso diminui significativamente as barreiras de entrada para jogadores buscando uma vantagem desonesta ao reproduzir as respostas dadas por um solver. Esse tipo de trapaça é conhecida como RTA, ou "assistência em tempo-real".

Muitos jogadores se preocupam com o que isso significa para o futuro do poker online. Por exemplo: é possível se proteger de um trapaceiro RTA?

Fichas da 888poker

Proteção Contra RTA

Primeiro, é importante reconhecer que sites de poker têm times de segurança que monitoram ativamente em busca de RTA. O jogo com RTA tem uma assinatura específica que é muito diferente do jogo feito por um humano. Qualquer tentativa em larga escala de automatizar uma estratégia RTA tem poucas chances de sobreviver diante da vigilância dos times de segurança.

Tentativas manuais (não automatizadas) de usar RTA talvez escapem da segurança por mais tempo, mas há problemas sérios com uma abordagem assim.

O ritmo de jogo será incrivelmente lento porque será preciso fazer buscas manuais em tabelas de GTO a cada tomada de decisão. Mesmo se um humano tiver paciência para isso, é enorme a dificuldade de executar com precisão uma estratégia GTO perfeita.

Até no pior dos cenários, com a presença de bots RTA entre os jogadores, isso não significa que ganhar é impossível. À exceção dos bots, geralmente há jogadores que são mais melhores do que nós.

Ganhar dinheiro é possível de conseguirmos limitar efetivamente o número de mãos que jogamos contra adversários mais fortes.

O Estado de Outras Variantes

Os problemas com o uso de RTA existem quase que exclusivamente no No-Limit Hold'em. A ameaça de RTA quase não existe nas outras variantes do poker.

PLO (Pot-Limit Omaha) é a segunda modalidade mais popular de poker online. Solvers comerciais estão disponíveis, mas soluções PLO não são tão comuns como as de NLHE.

Jogo de poker

As game trees de PLO também são mais complexas, na média, do que as de NLHE devido ao simples número de combinações de mãos iniciais.

A maioria dos outros jogos sequer têm solvers comerciais disponíveis. Embora não seja impossível, é improvável que haja atividade RTA para essas variantes.

O Futuro do Poker Online

Não parece que o NLHM será solucionado de maneira forte ou fraca no futuro próximo. Atualmente, todas estratégias de poker online existentes estão abertas a contra-exploração.

Evidentemente, jogar contra soluções ultrafracas usando trapaceiros RTA não é ideal. A boa notícia é que atividade desse tipo é mínima e não nos impede de vencer no poker.

Mesmo no pior dos cenários, onde jogos de NLHE podem se tornar imbatíveis daqui a 20 anos, teremos a opção de jogar variantes mais novas e relativamente sem influência de esforços que busquem uma solução.

A EVOLUÇÃO DOS GTO SOLVERS MATOU O POKER ONLINE?