RLHF
Reinforcement Learning from Human Feedback
Nel machine learning è una tecnica che addestra un reward model (modello di ricompensa) basato sulle catene di Markov (processo stocastico markoviano) direttamente dal feedback umano (processo per cui il risultato dall’azione di un sistema come un apparecchio, un dispositivo o un meccanismo si riflette sul sistema stesso per correggerne o modificarne il comportamento).
Il sistema prevede l’iterazione di 3 soggetti che collaborano al per la generazione di un reward model:
- Environment (database);
- Agent (chatbot);
- User (colui che fornisce il feedback).
L’Enviroment (database) contiene tutti i dati utili e vengono osservati dal Agent (chatbot) che, di rimando, fornisce al Enviroment (database) delle azioni comportamentali.
Queste azioni comportamentali vengono osservate dallo User (colui che fornisce il feedback) che tramite dei feedback può cambiarne il risultato finale per fare in modo di correggere il comportamento atteso.
Una volta che modificato il comportamento atteso si crea un reward model (modello di ricompensa) che viene inviato al Agent (chatbot).
Questo sistema consente di effettuare un addestrare preventivo affinché il comportamento atteso sia ottimizzato per avere un buon risultato (compensazione elevata) o un cattivo risultato (compensazione bassa).
I feedback umani sono raccolti e classificati sulle istanze del comportamento dell’Agent (chatbot) e, a loro volta, queste classifiche vengono utilizzate per valutare i risultati.
Le istanze vengono create sulla base del modello Bradley-Terry (modello probabilistico per il risultato di confronti a coppie tra individui, gruppi o oggetti) che consente di minimizzare la perdita di entropia incrociata per apprendere un reward model (modello di ricompensa).