Motivație
În
această lucrare v-om vorbi despre o tematica care a apărut în mintea mea
dintr-o simplă discuție cu unul dintre profesorii mei.
Într-una
dintre ore l-am întrebat cum facem să ne asigurăm că un model care are access
la internet să nu fie corrupt de știri înșelatoare sau alte lucruri care ar
putea dăuna publiclui cu care interacționează. Răspunsul sau a fost unul
simplu, asta este o problema la care încă se lucrează. Atunci a fost implantată
această idee de machine unlearning (MU) în capul meu, dar și al colegilor mei.
Introducere
Lucrarea
pe care dorim să o prezentăm a fost scrisă de Sijia Liu, Yuanshun Yao, Jinghan
Jia, Stephen Casper, Nathalie Baracaldo, Peter Hase, Xiaojun Xu, Yuguang Yao,
HangLi, KushR.Varshney, MohitBansal,
Sanmi Koyejo, Yang Liu.
Aceștia
vorbesc despre Large Language Models(LLM) și despre diferite metode de Mu. Să
fim mai exacți acestia recunosc potențialul exceptional al acestor modele
pentru a genera text care este apropiat cu cel scris de om, dar ridică o
problemă care poate ține mai mult de domeniul legal sau al etici decât de
știința calculatoarelor. Această problem se referă la faptul că abilitatea
aceasta de a incopora date massive poate duce la baiasuri sociale sau alte
probleme legale cum ar fi rasismul, proble legale cum ar fi jaibreaking sau
atacuri cibernetice.
O scurtă prezentare a conceptului de
MU
Acestia
îl citeaza o lucrare intitulata Undersanding factors influencing machine
unlearning, in aceasta ne se spune faptul ca dezvatarea care are si reinvarate
de la inceput dupa ce ai scos date specifice este considerat un standard de
aur, totusi aceasta ”miscare este una costisitoare”.
Acestia
mai vorbesc si despre provocarile pe care le întâlnești în MU în contextual
LLMs.
1. Este
greu sa definești și localizezi unlearning targets
2. Creșterea
LLMs-urilor si al black-boxurilor este o provocare pentru a developa tehnici de
MU care pot fi adaptate
3. Unlearning
este sub-specificat pentru LLMs (acesta imiplica totuși o serie de lucruri
destul de complexe)
4. Infomațiile
sensibile pot sa fie reversed-engineered din modelul editat
Aceștia definesc problema LLM unlearning
astfel:
(LLM unlearning) Cum putem elimina
influenta specifică a „unlearning targets„ in mod efficient si efectiv si sa
eliminam capabilitati associate
modelului in timp ce preservam preformanța modelului pentru lucruri care nu
sunt targheturi.
·
Unlearning targets:
acestea sunt strans legate de obiectivele pentu unlearning(ex focus pe
eliminarea influenței datelor, sau eliminarea capacitaii modelului)
·
Influence erasure:
se refera la faptul ca pentru a asigura stergea influențelor trebuie sa luăm în
calcul simultan datele si influențele modelului.
·
Unlearning effectiveness:
un astpect crucial al acestei părți este conceptul de scopul pentru unlearning,
acesta se referă la succesul de stergere a influenței.
·
Unleaning efficiency
& feasibility: costrurile sunt destul
de ridicate mai ales cand vine vorba de reinvatare
Metode pentru MU:
Gradien
ascent și variantele sale: face update la parametri
modelului prin maximizarea probabilității de predicție greșita pentru monstrele
din setul de uitare. Totuși acesta nu este sufficient singur. Alta varianta a
sa este gradient descent care minimalizează probabilitatea de predictii
pentru datele cu eticheta de uitare
Localization-informed
unlearning: obiectivul este acela de a indetifica si
localiza un subset al unității modelului care sunt esențiale pentru dezvățare.
Este important să ștergem aceste date pentru a nu fi expuși atacurilor
cibernetice.
Input-based
vs model-based: parametri care pot fi învățați sunt
dați prin solicitări de intrare nu prin greutăți/alte componente. Cu toate
acestea nu pot avea neaparat randament pentru modele neinvățate cea ce duce la
strategi slabe pentru unlearning.
Concluzii:
Lucrarea
pe care am prezentato doreste să descopere aspecte nexplorate ale LLM
unlearning. Să prezinte provocările care există în acest domeniu care sunt
prezentate de research si practică, Acestea include generalitate autenticitate
si precizie. Intorcândune la bazele științei calculatoarelor un algoritm
trebuie sa aibă proprietățile prezentate mai sus: generalitate, finalitate,
precizie.
Prin
prezentarea acestei lucrări am droit să va informăm în legătură cu aces concept
și să vă stârnim interesul.