AI Fejlődési Mérföldkő

A Transformer forradalma

2017-ben a Google kutatói egy radikálisan új neurális hálózati architektúrát mutattak be, amely alapjaiban változtatta meg a mesterséges intelligencia fejlődésének irányát. Fedezd fel interaktívan, hogyan működik.

Fedezd fel az architektúrát

„Nem értjük az intelligenciát. Nem tudjuk, hogyan működik az agy... és ezeket a neurális hálózatokat sem értjük igazán. Ez olyan, mintha egy Petri-csészébe néznénk bele."

— Connor Leahy, AI kutató

2017

A Transformer bemutatása

Szerzős csapat (Google)

175B

GPT-3 paraméter

100+

Ezer idézés

Történet

Az AI fejlődés mérföldkövei

A mély tanulástól a Transformer forradalmon át a mai generatív AI-ig.

2012

AlexNet és a mély tanulás áttörése

Alex Krizhevsky mély neurális hálózata megnyeri az ImageNet versenyt, feleannyi hibával, mint a második helyezett. Ez a pillanat indítja el a deep learning forradalmat.

2014

Attention mechanizmus megjelenése

Bahdanau és társai bevezetik az attention (figyelem) mechanizmust az RNN-alapú fordítómodellekbe, lehetővé téve a szelektív fókuszálást a bemeneti szekvencia releváns részeire.

2017 — A fordulópont

„Attention Is All You Need"

Vaswani és társai bemutatják a Transformer architektúrát, amely teljesen elhagyja a rekurrens és konvolúciós rétegeket, és kizárólag az attention mechanizmusra épít. A „Attention Is All You Need" cikk az AI-történet egyik legbefolyásosabb tudományos munkájává válik.

2018

BERT és GPT — a pre-training korszak

A Google BERT és az OpenAI GPT modelljei megmutatják, hogy a Transformerek nagy adathalmazon előzetesen betaníthatók, majd finomhangolhatók specifikus feladatokra. Ez forradalmasítja az NLP-t.

2020

GPT-3 — 175 milliárd paraméter

Az OpenAI GPT-3 modellje megmutatja, hogy elegendő méretű és adattal betanított Transformer-alapú modellek képesek néhány példából tanulni (few-shot learning) és sokrétű feladatokat megoldani.

2022–2024

ChatGPT, Claude, Gemini

A Transformer architektúra a generatív AI mainstream alkalmazásaivá válik. A nagy nyelvi modellek beépülnek a mindennapi eszközökbe és munkafolyamatokba.

Architektúra

A Transformer felépítése

Kattints az egyes komponensekre a részletes magyarázatért.

Áttekintés

Kattints egy komponensre

Az interaktív diagramon kattints bármelyik komponensre, hogy részletes magyarázatot kapj a Transformer architektúra adott részéről.

Az architektúra fő részei: Encoder (bal oldal) és Decoder (jobb oldal) — mindkettő több rétegből áll, amelyek egymásra épülnek.

Interaktív Demo

Önfigyelem-mechanizmus

Kattints egy szóra, és láthatod, mely más szavakra „figyel" a modell a mondat feldolgozásakor.

Kattints egy szóra a figyelmi súlyok megtekintéséhez

Kulcsfogalmak

A Transformer alapfogalmai

Az architektúra legfontosabb komponenseinek áttekintése.

Összehasonlítás

Transformer vs. korábbi architektúrák

Hogyan viszonyul a Transformer az RNN-ekhez és CNN-ekhez?

Jellemző	RNN / LSTM	CNN	Transformer
Párhuzamos feldolgozás	✗ Szekvenciális	✓ Részleges	✓✓ Teljes
Hosszú távú függőségek	✗ Korlátozott	✗ Helyi kontextus	✓✓ Globális
Skálázhatóság	✗ Nehézkes	✓ Közepes	✓✓ Kiváló
Értelmezhetőség	✗ Alacsony	✗ Alacsony	✓ Attention maps
Betanítási idő	Közepes	Gyors	Nagy adathalmazon lassabb, de hatékonyabb
Memóriaigény	Alacsony	Közepes	O(n²) — nagy szekvenciáknál magas