No Limit: Bot poker AI adalah yang pertama mengalahkan profesional di game multi pemain

Mesin telah menaikkan taruhan sekali lagi. Bot bermain poker manusia super yang disebut Pluribus telah mengalahkan profesional manusia papan atas di Texas Hold’em poker dengan enam pemain tanpa batas, varian permainan yang paling populer. Ini adalah pertama kalinya sebuah program AI kecerdasan buatan telah mengalahkan pemain manusia elit dalam permainan dengan lebih dari dua pemain.

“Meskipun beralih dari dua menjadi enam pemain mungkin tampak tambahan, itu sebenarnya masalah besar,” kata Julian Togelius di New York University, yang mempelajari permainan dan AI. “Aspek multi-pemain adalah sesuatu yang sama sekali tidak ada di game lain yang sedang dipelajari.”

Tim di belakang Pluribus telah membangun AI, yang disebut Libratus, yang telah mengalahkan para profesional di poker dua pemain. Itu membangun Pluribus dengan memperbarui Libratus dan menciptakan bot yang membutuhkan daya komputasi jauh lebih sedikit untuk memainkan pertandingan. Dalam sesi sehari dengan lebih dari, tangan, mengalahkan pemain manusia terbaik. “Banyak peneliti AI tidak berpikir itu mungkin dilakukan dengan menggunakan teknik kami,” kata Noam Brown di Carnegie Mellon University di Pittsburgh, Philadelphia, dan AI Research di New York, yang mengembangkan Pluribus dengan koleganya Carnegie Tuomas Sandholm.

AI lain yang telah menguasai permainan manusia – seperti Libratus dan DeepMind’s Go-playing bots – telah menunjukkan bahwa mereka tidak ada duanya dalam pertandingan zero-sum dua pemain. Dalam skenario ini, selalu ada satu pemenang dan satu pecundang, dan teori permainan menawarkan strategi terbaik yang terdefinisi dengan baik.

Tetapi teori permainan kurang membantu untuk skenario yang melibatkan banyak pihak dengan kepentingan yang bersaing dan tidak ada kondisi menang-kalah – yang mencerminkan sebagian besar tantangan kehidupan nyata. Dengan memecahkan poker multipemain, Pluribus meletakkan dasar bagi AI masa depan untuk mengatasi masalah rumit semacam ini, kata Brown. Dia berpikir bahwa kesuksesan mereka adalah langkah menuju aplikasi seperti negosiasi otomatis, deteksi penipuan yang lebih baik dan mobil self-driving.

Sangat rumit

Untuk mengatasi enam pemain poker, Brown dan Sandholm secara radikal memeriksa ulang algoritma pencarian Libratus. Sebagian besar AI bermain-game mencari maju melalui pohon keputusan untuk langkah terbaik yang harus dilakukan dalam situasi tertentu. Libratus mencari di akhir permainan sebelum memilih tindakan.

Tetapi kompleksitas yang diperkenalkan oleh pemain tambahan membuat taktik ini tidak praktis. Poker membutuhkan pertimbangan dengan informasi tersembunyi – pemain harus menyusun strategi dengan mempertimbangkan kartu apa yang mungkin dimiliki lawan mereka dan apa yang mungkin ditebak lawan tentang tangan mereka berdasarkan taruhan sebelumnya. Tetapi lebih banyak pemain membuat memilih tindakan pada saat tertentu menjadi lebih sulit, karena melibatkan menilai sejumlah kemungkinan yang lebih besar.

Terobosan kuncinya adalah mengembangkan metode yang memungkinkan Pluribus untuk membuat pilihan yang baik setelah melihat ke depan hanya beberapa langkah daripada sampai akhir permainan.

Pluribus mengajar dirinya sendiri dari awal menggunakan bentuk pembelajaran penguatan yang serupa dengan yang digunakan oleh DeepMind’s Go AI, AlphaZero. Ini dimulai dengan bermain poker secara acak dan meningkat saat bekerja di mana tindakan memenangkan lebih banyak uang. Setelah masing-masing tangan, itu melihat kembali pada bagaimana ia bermain dan memeriksa apakah itu akan menghasilkan lebih banyak uang dengan tindakan yang berbeda, seperti meningkatkan daripada menempel pada taruhan. Jika alternatif mengarah pada hasil yang lebih baik, itu akan lebih cenderung untuk memilih tema di masa depan.

Dengan memainkan triliunan tangan poker melawan dirinya sendiri, Pluribus menciptakan strategi dasar yang digunakannya dalam pertandingan. Pada setiap titik keputusan, ia membandingkan keadaan permainan dengan cetak biru dan mencari beberapa langkah ke depan untuk melihat bagaimana aksi itu dimainkan. Ia kemudian memutuskan apakah ia dapat memperbaikinya. Dan karena ia belajar sendiri untuk bermain tanpa input manusia, AI memutuskan beberapa strategi yang cenderung tidak digunakan oleh pemain manusia.

AI playpen

Keberhasilan Pluribus sebagian besar karena efisiensinya. Saat bermain, itu berjalan hanya pada dua unit pemrosesan pusat CPU. Sebaliknya, bot Go asli DeepMind menggunakan hampir, CPU, dan CPU Libratus, ketika mereka pertama kali mengalahkan para profesional top. Saat bermain melawan dirinya sendiri, Pluribus berperan dalam hitungan detik – kira-kira dua kali lebih cepat dari manusia profesional.

Game telah membuktikan cara yang bagus untuk mengukur kemajuan dalam AI karena bot dapat dinilai melawan manusia papan atas – dan secara objektif dianggap sebagai manusia super jika mereka menang. Tetapi Brown berpikir bahwa AI lebih besar dari playpen mereka. “Ini adalah tantangan terakhir yang tersisa di poker,” katanya.

Tapi Togelius berpikir masih ada jarak tempuh untuk peneliti dan game AI. “Ada banyak wilayah yang belum dijelajahi,” katanya. Beberapa AI telah menguasai lebih dari satu game, yang membutuhkan kemampuan umum daripada keterampilan niche. Dan ada lebih dari sekadar bermain game, kata Togelius. “Ada juga yang mendesainnya. Sebuah tantangan AI yang hebat jika memang ada. ”

Source: agen poker online