2026-06-09T18:49:12Z

Patrickdrouin : Patrickdrouin a déplacé la page Suppression de segment textuel vers Suppression de jeton textuel

== Définition ==
Technique utilisée pour le '''[[préentraînement]]''' d’un '''[[modèle de langue|modèle]]''' où les '''[[jeton textuel|jetons textuels]]''' sont retirés de manière aléatoire des documents afin de permettre au modèle de déterminer les jetons à partir desquels les positions sont supprimées.

== Français ==
''' suppression de jeton textuel'''

''' destruction de jeton textuel'''

== Anglais ==
''' token deletion'''


== Sources ==
[https://arxiv.org/abs/2405.12630 Source : arxiv]

[https://yangyutu.github.io/llm_book.github.io/docs/chapter_foundation/t5.html Source : GitHub]

[[Catégorie:GRAND_LEXIQUE_FRANÇAIS]]
[[Catégorie:Publication]]

Patrickdrouin : Patrickdrouin a déplacé la page DAPO vers Algorithme d'optimisation DAPO

== Définition ==
'''[[Algorithme]]''' d''''[[apprentissage par renforcement]]''' qui utilise une approche découplée pour augmenter la limite supérieure de la plage de l'échantillonnage dynamique.

Voir aussi '''[[optimisation de la politique proximale]]''', '''[[optimisation de la politique relative au groupe]]''', '''[[échantillonnage des p-meilleurs]]'''

==Complément==
L’échantillonnage dynamique favorise les données apportant un meilleur apprentissage.

L'un de ses avantages est qu'il n'affecte pas de manière significative la durée totale de l''''[[entraînement]]'''.

== Français ==
'''algorithme d'optimisation DAPO'''

'''optimisation de la politique d’échantillonnage dynamique et seuillage découplé'''

'''OPEDD'''

== Anglais ==
''' DAPO'''

''' Decoupled Clip and Dynamic Sampling Policy Optimization'''



== Sources ==
[https://arxiv.org/abs/2503.14476 Source : arxiv]

[https://dapo-sia.github.io/ Source : DAPO, GitHub]

[https://verl.readthedocs.io/en/latest/algo/dapo.html Source : verl]

[[Catégorie:publication]]

2026-04-14T19:02:26Z

Patrickdrouin : Patrickdrouin a déplacé la page Self-play fine-tuning vers Peaufinage par auto-jeu

== Définition ==
Algorithme de '''[[peaufinage]]''' pour les '''[[Grand modèle de langues (GML)|grands modèles de langues (GML)]]''' qui utilise un mécanisme qui lui permet de jouer contre lui-même ''self-play mechanism'' en utilisant les versions précédentes du modèle.

Voir aussi [[Optimisation de la politique relative au groupe]] et [[Apprentissage par curriculum auto-évolutif]]

== Complément ==
Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des [[Modèles enseignants|modèles enseignants]].

== Français ==
''' peaufinage par auto-jeu'''

== Anglais ==
''' self-play fine-tuning'''

''' self-play fine tuning'''

''' SPIN'''



== Sources ==

[https://theses.hal.science/tel-05430689v1/file/154915_XU_2025_archivage.pdf Zhuofan Xu (2025) - Auto-jeu]

[https://arxiv.org/abs/2401.01335 Source : arxiv]

[https://github.com/uclaml/SPIN Source : GitHub]

[https://verl.readthedocs.io/en/latest/algo/spin.html Source: verl]

[[Catégorie:Publication]]

Peaufinage par auto-jeu

2026-04-14T19:02:09Z

Patrickdrouin :

== Définition ==
Algorithme de '''[[peaufinage]]''' pour les '''[[Grand modèle de langues (GML)|grands modèles de langues (GML)]]''' qui utilise un mécanisme qui lui permet de jouer contre lui-même ''self-play mechanism'' en utilisant les versions précédentes du modèle.

Voir aussi [[Optimisation de la politique relative au groupe]] et [[Apprentissage par curriculum auto-évolutif]]

== Complément ==
Cette technique réduit la dépendance vis-à-vis des '''[[Jeu de données|jeux de données]]''' externes ou des [[Modèles enseignants|modèles enseignants]].

== Français ==
''' peaufinage par auto-jeu'''

== Anglais ==
''' self-play fine-tuning'''

''' self-play fine tuning'''

''' SPIN'''



== Sources ==

[https://theses.hal.science/tel-05430689v1/file/154915_XU_2025_archivage.pdf Zhuofan Xu (2025) - Auto-jeu]

[https://arxiv.org/abs/2401.01335 Source : arxiv]

[https://github.com/uclaml/SPIN Source : GitHub]

[https://verl.readthedocs.io/en/latest/algo/spin.html Source: verl]

[[Catégorie:Publication]]