Ist «Attention» wirklich alles, was wir brauchen?
Mit ihrer Meilensteinpublikation «Attention Is All You Need» haben Vaswani et al. im Jahr 2017 die Transformer-Architektur vorgestellt und damit die Ära der grossen Sprachmodelle (LLM für Large Language Model) eingeläutet. Obwohl die Transformer bis heute die Kernkomponente aller LLMs darstellen, sind einige zentrale Konzepte hinzugekommen, die ein modernes LLM zu dem machen, was wir heute kennen.
Die Transformer Architektur, Quelle: https://www.ionio.ai/blog/a-deep-dive-into-the-function-of-self-attention-layers-in-transformers (30.8.2025)
Instruction Tuning und RLHF
Ein wichtiger Schritt auf dem Weg zu heutigen Chatbots wie ChatGPT war, dass man Modelle nicht nur auf riesige Textmengen trainiert, sondern ihnen auch beibrachte, menschliche Anweisungen zu befolgen. Dabei spielt Instruction Tuning eine Rolle: Das Modell bekommt viele Beispiele von Aufgaben in Form von Anweisungen („Übersetze diesen Satz ins Französische“, „Schreibe eine kurze Zusammenfassung“) und lernt, die gewünschte Struktur zu übernehmen.
Darauf aufbauend kam Reinforcement Learning from Human Feedback (RLHF). Menschen bewerten verschiedene Modellantworten danach, welche hilfreicher oder freundlicher ist. Diese Rückmeldungen werden genutzt, um das Modell noch besser auf unsere Erwartungen abzustimmen. Das Ergebnis: Antworten, die nicht nur korrekt, sondern auch hilfreich, respektvoll und nachvollziehbar sind (Ouyang et al., 2022).
FlashAttention
Je grösser Sprachmodelle wurden, desto stärker stieg der Rechenaufwand. Vor allem die Berechnung der sogenannten Attention-Schicht. Mit FlashAttention wurde 2022 eine clevere technische Lösung eingeführt: es wird keine komplette Matrixmultiplikation ausgeführt. Durch geschickten Einsatz von «tiling» und «streaming» wird die speicherbandbreite optimal ausgenützt und die Speicherkomplexität reduziert.(Dao et al., 2022).
Das klingt sehr technisch – bedeutet aber in der Praxis: Modelle können schneller trainiert und günstiger betrieben werden. Dadurch wird es realistisch, LLMs mit längeren Kontexten (z. B. ganze Bücher oder lange Gesprächsverläufe) auf handelsüblicher Hardware nutzbar zu machen.
RoPE
Damit ein Sprachmodell nicht nur Wörter kennt, sondern auch deren Reihenfolge versteht, braucht es ein „Gefühl“ für Positionen im Text. Ursprünglich nutzte man dafür einfache Muster wie Sinus- und Cosinus-Wellen. Später kam Rotary Position Embedding (RoPE) hinzu: eine elegantere Methode, die Positionsinformationen als Rotationen im mathematischen Raum darstellt und somit relative Distanzen natürlich kodiert (Su et al., 2021).
Das Ergebnis: Das Modell kann besser mit langen Texten umgehen und versteht, dass ein Wort am Satzanfang eine andere Rolle spielt als am Ende. Viele moderne LLMs – darunter GPT-4 oder LLaMA – setzen RoPE ein, um ihre Gedächtnisspanne deutlich zu verlängern.
Synthetische Datengenerierung
Ein oft übersehener, aber enorm wichtiger Baustein sind die Trainingsdaten. Irgendwann stösst man an die Grenze dessen, was das Internet hergibt – oder es fehlen Beispiele für spezielle Aufgaben. Hier kommt die synthetische Datengenerierung ins Spiel: Man nutzt bestehende Modelle, um neue, künstliche Trainingsbeispiele zu erzeugen.
Ein Beispiel: Forschende lassen ein starkes Modell viele Fragen-Antwort-Paare erfinden und trainieren ein kleineres Modell damit. So entstehen leistungsfähige Systeme, ohne dass man Millionen teurer menschlicher Annotationen braucht. Diese Technik ermöglicht es auch, Modelle auf seltene Sprachen oder Nischengebiete zu erweitern. Für die Open-Source-Community war synthetische Datengenerierung entscheidend, um konkurrenzfähige Modelle wie Alpaca oder Mistral zu entwickeln (Wang et al., 2022; Taori et al., 2023).
Es deutet einiges darauf hin, dass in Zukunft LLMs nicht mehr für ihr internes Wissen verwendet werden, sondern primär für die Orchestrierung von agentischen Systemen. Dazu werden spezifische Fähigkeiten wie Nutzung von Werkzeugen, API-aufrufe und ähnliches im Zentrum sein. Für das Eintrainieren solcher spezifischen Interaktionen sind synthetische Daten optimal geeignet.
Fazit
Auch wenn der Titel von Vaswani et al. provokant lautete: «Attention is all you need» (2017), zeigt sich heute, dass wir zwar weiterhin auf der Transformer-Architektur aufbauen, aber viele weitere Puzzlesteine nötig sind, damit moderne Sprachmodelle funktionieren – vier zentrale davon haben wir heute vorgestellt.
Attention ist nach wie vor das Herzstück, aber nicht alles. Die Kombination aus Architektur, cleveren Trainingsmethoden und immer besseren Datensätzen hat dafür gesorgt, dass Sprachmodelle von reinen Textvorhersagemaschinen zu vielseitigen, nützlichen und erstaunlich kompetenten Partnern geworden sind
Literaturhinweise
Vaswani, A. et al. (2017): Attention Is All You Need. NeurIPS.
Ouyang, L. et al. (2022): Training language models to follow instructions with human feedback. arXiv:2203.02155.
Dao, T. et al. (2022): FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. NeurIPS.
Su, J. et al. (2021): RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
Wang, Y. et al. (2022): Self-Instruct: Aligning Language Models with Self-Generated Instructions. arXiv:2212.10560.
Taori, R. et al. (2023): Alpaca: A Strong, Replicable Instruction-Following Model. Stanford CRFM Blog.