AI Fejlődési Mérföldkő

A Transformer forradalma

2017-ben a Google kutatói egy radikálisan új neurális hálózati architektúrát mutattak be, amely alapjaiban változtatta meg a mesterséges intelligencia fejlődésének irányát. Fedezd fel interaktívan, hogyan működik.

Fedezd fel az architektúrát

„Nem értjük az intelligenciát. Nem tudjuk, hogyan működik az agy... és ezeket a neurális hálózatokat sem értjük igazán. Ez olyan, mintha egy Petri-csészébe néznénk bele."

— Connor Leahy, AI kutató

2017
A Transformer bemutatása
8
Szerzős csapat (Google)
175B
GPT-3 paraméter
100+
Ezer idézés

Az AI fejlődés mérföldkövei

A mély tanulástól a Transformer forradalmon át a mai generatív AI-ig.

2012
AlexNet és a mély tanulás áttörése
Alex Krizhevsky mély neurális hálózata megnyeri az ImageNet versenyt, feleannyi hibával, mint a második helyezett. Ez a pillanat indítja el a deep learning forradalmat.
2014
Attention mechanizmus megjelenése
Bahdanau és társai bevezetik az attention (figyelem) mechanizmust az RNN-alapú fordítómodellekbe, lehetővé téve a szelektív fókuszálást a bemeneti szekvencia releváns részeire.
2017 — A fordulópont
„Attention Is All You Need"
Vaswani és társai bemutatják a Transformer architektúrát, amely teljesen elhagyja a rekurrens és konvolúciós rétegeket, és kizárólag az attention mechanizmusra épít. A „Attention Is All You Need" cikk az AI-történet egyik legbefolyásosabb tudományos munkájává válik.
2018
BERT és GPT — a pre-training korszak
A Google BERT és az OpenAI GPT modelljei megmutatják, hogy a Transformerek nagy adathalmazon előzetesen betaníthatók, majd finomhangolhatók specifikus feladatokra. Ez forradalmasítja az NLP-t.
2020
GPT-3 — 175 milliárd paraméter
Az OpenAI GPT-3 modellje megmutatja, hogy elegendő méretű és adattal betanított Transformer-alapú modellek képesek néhány példából tanulni (few-shot learning) és sokrétű feladatokat megoldani.
2022–2024
ChatGPT, Claude, Gemini
A Transformer architektúra a generatív AI mainstream alkalmazásaivá válik. A nagy nyelvi modellek beépülnek a mindennapi eszközökbe és munkafolyamatokba.

A Transformer felépítése

Kattints az egyes komponensekre a részletes magyarázatért.

Áttekintés

Kattints egy komponensre

Az interaktív diagramon kattints bármelyik komponensre, hogy részletes magyarázatot kapj a Transformer architektúra adott részéről.

Az architektúra fő részei: Encoder (bal oldal) és Decoder (jobb oldal) — mindkettő több rétegből áll, amelyek egymásra épülnek.

Önfigyelem-mechanizmus

Kattints egy szóra, és láthatod, mely más szavakra „figyel" a modell a mondat feldolgozásakor.

Kattints egy szóra a figyelmi súlyok megtekintéséhez

A Transformer alapfogalmai

Az architektúra legfontosabb komponenseinek áttekintése.

Transformer vs. korábbi architektúrák

Hogyan viszonyul a Transformer az RNN-ekhez és CNN-ekhez?

Jellemző RNN / LSTM CNN Transformer
Párhuzamos feldolgozás Szekvenciális Részleges ✓✓ Teljes
Hosszú távú függőségek Korlátozott Helyi kontextus ✓✓ Globális
Skálázhatóság Nehézkes Közepes ✓✓ Kiváló
Értelmezhetőség Alacsony Alacsony Attention maps
Betanítási idő Közepes Gyors Nagy adathalmazon lassabb, de hatékonyabb
Memóriaigény Alacsony Közepes O(n²) — nagy szekvenciáknál magas