본문 바로가기
étude/논문 리뷰

[논문 리뷰] CLEAR : Character Unlearning in Textual and Visual Modalities

by mummoo 2024. 12. 30.

MU는 딥러닝, 특히 MLLM (멀티모달)에서 프라이버시와 보안을 향상하는 데에 중요하다. MU가 텍스트, 시각적 모달리티에서 상당한 진보를 보였지만 멀티모달 언러닝 (MMU)의 성장은 그에 비해 미미한데, 마땅한 오픈소스 벤치마크가 부족하기 때문이라고 보인다. 이것을 설명하기 위해 연구에서는 MMU 모델들을 평가하기 위한 새로운 벤치마크인 CLEAR를 제안한다. 

CLEAR는 200개의 가상의 인물과 3700개의 질문-답변 쌍을 포함한다. 연구는 10개의 MU 방법을 제안해 MMU에 적응시키고, multimodal forgetting을 위한 새로운 어려움을 강조할 것이다.

 

I. Introduction

LLM은 사적인, 비윤리적인, 또는 허락받지 않은 정보들을 포함하는 대용량의 데이터로 학습된다. 따라서 MU는 스크래치를 통한 비싼 재훈련 없이 그러한 필요 없는 데이터들을 지우기 위해 개선되었다. 예를 들어 MU는 LLM에서 독성, 저작권과 프라이버시 이슈, 공정성 등과 관련된 이슈들을 완화하기 위해 사용된 바 있다. 추가적으로 모델 편집, 민감 정보 노출 등도 MU 기술의 발전에 도움을 주었다.

LLM 또는 비전 모델만을 위한 다양한 언러닝 기술이 있다. 다만 MLLM 중 특히 VLLM (Visual LLM)은 새로운 문제를 제기한다. MMU의 언러닝은 오픈소스 벤치마크의 부족으로 인해 대부분 탐구되지 않았다. 또한 현재 MU 벤치마크는 싱글 모달리티에 집중되어 있어서 해당 논문 제출 시기에는 멀티모달을 위한 언러닝을 평가하는 오픈 벤치마크는 존재하지 않는 상황이다. 

이 차이를 줄이기 위해 연구에서는 CLEAR를 제안한다 : 이는 '잊힐 권리' 개념과 일치하며 사람을 위주로 한 언러닝에 집중한 텍스트-시각 기반 MMU이다. 데이터셋은 합성 데이터셋으로 훈련 중 오브젝트가 빠지는 것을 막고 모델이 학습하는 데이터에 대한 통제를 확보한다. 

연구는 포괄적인 전략으로 연속적인 이미지를 생성했고, TOFU(대용량 텍스트 언러닝 벤치마크)에 기반해 각 이미지와 상응하는 작가와 관련된 질문에 그들을 연결시켰다. TOFU는 200개의 가상 작가, 3770개의 질문-답변 쌍, 4000개의 텍스트 기반 질문-답변 쌍을 포함해 싱글, 멀티 모달 모두에서의 철저한 언러닝 기술을 보장했다. 연구는 또한 MU와 MMU 모두를 평가하기 위한 벤치마크를 제안해 10가지의 기술을 평가하고, 여기에는 현재의 SOTA도 포함된다.

연구는 언러닝 기법을 텍스트, 시각적, 멀티모달 환경에서 평가한다.

1. 전체 데이터셋으로 모델을 파인튜닝한다.

2. 데이터를 forget set, retain set의 두 가지 세트로 나눈다. 미리 분류된 20개 작가로 forget set을 구성하고, 나머지 데이터는 retain set으로 묶는다.

3. 언러닝 절차를 적용해 더이상 forget set의 개개인만 "기억"하지 않는 새로운 모델을 만든다.

4. 언러닝 중간에 모델의 역량이 타협되지 않았다는 것을 보장하기 위해, 모델의 성능을 실제 세계의 task로 평가한다. (연예인, 얼굴 인식, VQA 등)

전반적으로, 연구에서는 4가지 세트로 일한다 : Forget, Retain, Real Faces, Real World

연구는 현존하는 언러닝 방법을 텍스트와 비전 모달리티로 나눠서 평가하고 MLLM으로 그들을 합한다. 각 도메인에 리더보드를 제작하고 멀티모달 언러닝이 새로운 어려움을 가진다는 결론을 내린다. 

전반적으로, 연구는 다음과 같은 두 가지로 요약된다 : 

새로운 벤치마크 CLEAR를 제안해 머신 언러닝을 멀티모달 세팅에서 평가한다. (첫번째 공식적인 MMU 벤치마크이다)

이미 존재하는 언러닝 방법을 텍스트, 시각적 도메인 포괄적으로 평가한다. 각 도메인에서 리더보드를 제작하고 SOTA 언러닝 알고리즘은 멀티모달 환경에서 어려움을 겪기 때문에 새로운 방법이 필요함을 제시한다.

 

2. Related Work

2.1 MU 방법과 Textual 벤치마크

MU는 전체 데이터를 재훈련하지 않고 훈련된 기존 모델로부터 특정한 데이터의 영향을 제거해, 결과적으로 forget 데이터가 한번도 훈련된 것 없었던 것처럼 작동하는 모델을 만든다. MU는 두 가지의 방향으로 형성될 수 있다. 언러닝된 모델이 forget 데이터 없이 훈련된 모델과 같은 결과를 내야만 하는 상황인 것이다. 정확하지 않은 언러닝 세팅에서 주목적은 forget 데이터에서의 어떠한 지식도 포함하지 않은 어떠한 형태의 모델이든 얻어내는 것이다. 다만 이 경우 retain 데이터 (forget 데이터 外) 인풋에서의 모델 응답에 있어서는 어떠한 제한도 보장도 없다.

 몇 가지의 텍스트 표준 언러닝 벤치마크들이 존재한다.

TOFU : 텍스트 기반 LLM 언러닝에 사용되는 벤치마크이다. 200개의 작가 프로필 (이름, 생년월일, 부모 성함, 직업, 작성한 책 등의 속성 포함) 4000개의 질문-답변 쌍, forget-retain 쌍으로 10-90, 5-95, 1-99의 사전분류된 데이터 세트가 사용된다. 모델은 전체 데이터셋으로 파인튜니오디고, forget쌍에 언러닝이 적용된다.

WMDO : 3668개의 중복선택 질문을 포함하고, LLM에 대한 위험한 지식을 포함하며 위험한 지식을 언러닝하는 것의 벤치마크로 존재한다. 현재 연구 중 작가들은 7개의 텍스트 언러닝 기술을 사용하는데, 그중 베스트는 경사상승법과 경사하강법을 각각 forget, retain 세트에 혼합해서 적용한 방법이었다. (이는 언러닝 - 재훈련의 상쇄 효과를 유지하기 위한 것이었다.) 이 실험의 연구진들은 500arXiv 논문, 2000개의 깃허브 파일, 그리고 학술적 텍스트, 코드, 문헌 등을 포함하는 100개의 책의 세 가지 벤치마크 데이터셋을 이용했다. 유감스럽게도 이 세 가지 벤치마크는 MMU 평가에 쓰일 수는 없다.

 

2.2 MMU 방법과 벤치마크

MLLM은 보통 세 가지의 중요 구성 성분으로 이루어진다.

모달리티 인코더 : raw 인풋 데이터를 피처 임베딩으로 전환한다.

모달리티 프로젝션 레이어 : 전환된 피처를 언어 공간에 나열한다.

pre-train된 언어 모델 : 최종 결과물을 합성한다.

그런데 이렇게 구성된 모델은 디코더만 가진 LLM으로는 바로 전달되지 않고 인코더-디코더 구조에만 적용 가능하다.

 

EFUF는 언러닝을 이용해 MLLM의 환각을 완화한다. 생성된 캡션과 이미지 사이의 유사성을 CLIP모델로 측정하고, 이때  MSCOCO 데이터셋 임계치로 교정된 환각이 일어난 (부정적인)  것과 환각이 일어나지 않은 예시를 자동적으로 측정해서 라벨링 수작업을 없앤다. 이 언러닝 과정은 세 가지의 손실 함수(loss function)을 적용한다

환각을 잊기 위한 negative loss

정확한 이미지를 강화하기 위한 positive loss

유창성을 유지하기 위한 sentence loss

하지만 그들의 벤치마크는 오픈소스가 아니다.

 

SIU(Single Image Unlearning)은 MLLM에서 텍스트 학습 요소는 유지함과 동시에 시각적 요소들을 언러닝하는 것에 집중한다. 동시에 다섯 가지 평가 기준을 갖춘 MMUBench를 제시한다. 벤치마크는 각 시각적 컨셉에 50개가 넘는 이미지를 가진 20개의 컨셉을 다루는데, 이때 실제 세계의 인물들과 만화 캐릭터들을 다룬다. 각 컨셉에서 한 이미지는 forget 으로 (나머지는 retain으로) 선정되고, 다양한 프롬프트와 쌍을 이룬다. 하지만 SIU의 하나의 이미지 활용은 복잡한 개념에 있어서 확장성 문제를 제기하며, VLLM의 언러닝은 시각적 영역으로만 한정된다. 또한 MMUBench 역시 오픈 소스가 아니다.

 

가장 최근에는 VLLM에서 유해 컨텐츠를 언러닝하는 연구가 진행되었다. 이는 텍스트 영역에서만 언러닝하는 것이 더 적은 자원을 사용하며 텍스트-이미지 언러닝의 성능과 비슷하다는 것을 증명해냈다. 이 방법은 언러닝 모델과 재훈련된 모델 사이의 치명적인 손실과 KL 다양성을 혼합한다. 이 방법은 여섯 개의 데이터셋(PKU-SafeRLHF,유해컨텐츠 데이터셋으로는 세 가지의 vision-text attack 데이터셋, 양성작업은 손상되지 않았다는 것을 증명하기 위해서는 Truthful-QA, VQA-v2)으로 테스트되었다. 하지만 생체 인식 프라이버시(biometric privacy)와 같이 일반적인 언러닝의 경우에는 안전을 위한 조정이 적용가능하지 않을 수 있다. 텍스트상 언러닝이 MMU에 충분하다고 주장하지만, 이번 논문의 연구에서는 모든 방법에서 그렇진 않음을 보인다. 또한 이 연구는 정확한 언러닝 평가 기준이 부족하다.

 

3. Methodology 

fθ = 가중치 θ를 가진 원래의 모델

D = fθ이 훈련한 훈련 데이터셋

언러닝 목적 = 모델이 D 일부(DF)를 잊는 것

DR(retain set) = D - DF

DR := D \ DF 로 모델 성능을 유지하고자 함

 

추가적으로 DH = 언러닝 후 DF에 대한 모델 행동의 레퍼런스

모델 트레이닝은 DH를 포함하지 않았으니 DH ∩ D = ∅

 

간단히 말해서 

DF(forget set) = 모델이 언러닝해야 할 샘플, 언러닝 효능을 측정하는 직접적인 측정 대상

DR(retain set) = 모델이 보유해야 하고 계속 좋은 성능을 내야 할 모델의 샘플, 모델이 계속 저장할 지식의 성능에 대한 지표

DH(holdout set) = 모델이 한번도 본 적 없는 샘플, 훈련 과정에 포함되지 않은 데이터로써 모델 행동의 레퍼런스가 됨

이러한 '잊기 과정'은 모델 fθ을 특정 언러닝 방법으로 업데이트함으로써 이루어지는데,  가중치 θ^를 가진 새롭게 언러닝된 모델 f θ^을 얻을 수 있다. 평가를 위해 별개로 DR에만 gold 모델 gw를 훈련할 수 있다.  

최종 목적은 f θ^를 얻는 것인데, 이는 DF를 잊고 DR에 대한 성능은 fθ과 같이 유지한다. 

이는 θ를 가진 특정 분야를 최적화(최대화 / 최소화)함으로써 이루어지고, θ^는 연구에서 원하는 모델 fθ^의 가중치가 될 것이다.

예를 들어 최적화를 위해 forget loss와 retain performance를 유지하는 MU 방법의 경사 차이를 확인할 수 있다.

λ : forget-retain 상쇄하는 하이퍼 파라미터

α : 학습 속도 (learning rate)

L : 손실 함수 (loss function) (e.g. negative log-likelihood)

x : 인풋 (e.g. text, image, VLLM의 경우 둘 다)

 

이 연구에서는 Retain Finetune, GA(Gradient Ascend), GD(Gradient Difference), SCRUB, DPO, NPO, LLMU, IDK, RMU, KL의 언러닝 방법 몇 가지를 시도한다.  이 방법들은 새로운 모달리티에 대한 모델의 적응성을 기준으로 선택되었으며, 인풋 데이터에 대한 변화만 요구했고 핵심 기능은 유지했다. 본질적으로 이 방법들은 DR에 대한 파인튜닝과 함께 DF에 대한 어려운 negative training의 변화된 형태를 포함하고 추가적인 제약 (Cross-Entropy나 KL 발산과 같은)으로 DR에 대한 아웃풋을 fθ과 일치하게 했다. 

 

4. CLEAR

MU(또는 MMU) 벤치마크는 이상적으로 잘 아는 지식에 대한 언러닝은 피해야 할 것이다. 특히 책, 게임, 영화 등과 같은 외부적인 요소로 얻을 수 있는 지식이라면 말이다. 이것은 모델의 retain and forget 성능에 대한 더 신뢰할 수 있는 평가를 위해서라면 중요한 것이다. 이 요구사항을 위해 우리는 TOFU 데이터셋을 연장하기로 했다. 이는 사용의 용이성, 새로운 모달리티에 적응할 수 있는 유연함 (얼굴 이미지를 더하거나 개인의 목소리를 담는 등의), 프라이버시 우려에 대한 강한 연결관계는 민감한 상황에서 언러닝을 테스트하는 것이 더 이상적이도록 하기 위해서였다.

 

4.1 Dataset Generation Process

먼저 TOFU 데이터셋의 각 200명의 작가로부터 이름,나이, 국적을 추출한다. 이때 원래 데이터셋에 제공된 지식을 사용한다.

또한 StyleGAN2를 이용해 2000개의 얼굴들을 만든다.  (StyleGAN2 : 얼굴 합성을 위한 생성 모델)

각 얼굴은 pre-train된 CNN으로 나이, 성별, 국적에 대한 평가 점수를 받는다. 

각 작가에 비슷한 성질을 가진 얼굴들을 씌우고, 가장 적절한 것을 고른다. 이 단게에서 작가들의 나이 분포가 고령층에 쏠려 있다는 것을 알아내고 이 차이를 줄이기로 했다. 이때 선행 연구를 통해 이미지 편집 프레임워크를 사용해 더 늙어보이게 하는 시각적 성질을 옮겼다. 얼굴과 작가 성질의 분포는 다음 그림에서 확인할 수 있다. 

작가를 얼굴과 매칭한 뒤, 개인화된 생성을 이용한 디퓨전 모델을 사용해 주어진 얼굴과 주어진 프롬프트를 이미지와 합성했다. 얼굴 생성과 수집 절차는 AppendixB에 더 자세히 나와 있다.

디퓨전 모델은 작가의 얼굴과 별개로 이미지를 생성하기 위해 텍스트 프롬프트가 필요하다. 여기에 GPT-4를 이용해 TOFU의 질문-답변 쌍을 이용해 작가의 프롬프트를 생성하도록 했다. 

각 프롬프트에 8개의 이미지를 사용했고, 오류 탐지 모델 앙상블을 사용해 그들을 평가하고, 가장 실제처럼 보이는 것을 선택했다. 추가적으로 GPT-4o는 각(이미지, 시각적 프롬프트)쌍에 대한 캡션을 생성하고, 그 후 (이미지, 캡션)쌍을 이루기 위해 데이터셋에 추가된다. 하지만 GPT 보안 정책과 TOFU에서 발생한 버그(e.g. 이름 없는 작가) 때문에 최종 데이터셋은 텍스트 쌍보다 더 적은 이미지를 가진다 (4000개보다 3770개가 더 적으니까) 또한 현실의 얼굴 사진과 자연의 사진을 담은 두 가지의 추가적인 분리된 데이터(additional data splits)를 통합해 언러닝동안 모델의 시각적 능력을 유지했다.  

 

4.2 Splits

결과적으로 언러닝을 평가하기 위해 다음과 같은 네 가지의 split을 이용한다.

 

Forget : DF는 2, 10, 20명의 사람(순서대로 총 200명인 전체 데이터 D의 1%, 5%, 10%) 에 대한 데이터로 만들어진다. DF는 모델에 의해 언러닝되어야 하는 데이터셋이다.

 

Retain : DR는 DF에 포함되지 않은 D의 나머지 모든 데이터이다. 모델은 DR에 대해 계속해서 최대한 좋은 성능을 내어야 하고 유지해야 한다. 

 

Real Faces : 모델이 관련된 개념 (e.g. 얼굴)에 대한 지식을 유지한다는 것을 보장하기 위해서 파인튜닝 데이터셋에는 없는 현실 세계의 얼굴들을 이용해 이를 평가한다. MillionCelebs 데이터셋을 이용하는데, 이 데이터는 유명인들의 얼굴과 이름 쌍을 포함한다. 이 데이터셋은 Forbes Celebrity 100 리스트의 연도에서 가장 잘 알려진 유명인들은 제외하는데, 이는 모델이 pretrain 과정에서 그 얼굴을 봤을 가능성을 배제하기 위해서이다. 결과적으로 150쌍의 얼굴-이름 쌍을 생성해낸다.

 

Real World : 모델의 전체적인 시각적 능력이 언러닝 절차 전반적으로 손상되지 않아야 함을 보장하기 위해서 VQA를 이용해 성능을 평가한다. 

 

4.3 Evaluation Metrics

언러닝 성능을 텍스트, 시각적, 텍스트-시각적인 영역에서 포괄적으로 평가하기 위해 다음과 같은 방법으로 MU와 MMU 성능을 평가한다. 

 

ROUGE-L : ROUGE-L 점수는 모델의 예측과 정답 사이의 점수를 계산한다. 이 방법은 모델이 정확한 공식으로 기억하는지의 여부를 측정한다. 하지만 모델의 생성은 항상 내부의 지식을 나타내는 것은 아니다. 그래서 다음 방법이 중요하다.

 

Probability Score : 모델에서 암시적인 지식을 나타내는 것은 logit을 이용해 실제 토큰을 이용하는 것이다. 

인풋 x에는 :

그리고 답변은 y로 한다. 이때 1/|y|는 길이 정규화를 위해 사용된다.

각 인풋 질문인 x는 가능한 답변 y1, ..., yn까지의 가능한 답변을 가진 다중 선택 질문이고, y1가 맞는 답변이라고 추정했을때 기대 확률 점수는 다음과 같이 계산되고, 0과 1 사이의 값이다.

더 낮은 확률 점수는 모델이 컨텐츠 생성에 있어서 더 자신이 없음을 의미한다.

 

Truth Ratio : 예측과 실제값 사이의 유사성을 수치화한다. 이때 요약된 정확한 정답을 몇개의 비슷하게 포맷된 오답 확률의 평균을 비교함으로써 가능성을 계산하는데, 전체적인 정확도는 유지하면서 구체적인 정보는 제거하나ㅡㄴ 언러닝 알고리즘의 효율성에 대한 인사이트를 제공한다. y^가 인풋 x에 대한 정답 y의 요약된 버전을 나타내고, y에 대한 다섯 가지의 변동이 Y'라고 해보자. 기대 truth ratio R은 다음과 같이 계산된다.

이 비율은 정규화되고 0과 1 사이에서 다시 조정되며, 더 큰 값은 더 개선된 성능의 언러닝을 뜻한다.

 

Forget Quality : 여기서 목적은 DR만으로 훈련된 모델과 구별되지 않는 모델을 만드는 것이다. 언러닝은 두 가지 방법으로 개념화 가능하다. 

1. 엄격한(Strict) 언러닝의 목적은 DR만으로 훈련된 모델과 동일하게 행동하는 모델을 만듦으로써 DF의 어떠한 지식도 현존하지 않음을 보장한다.

2. 정확하지 않은(Inexact) 언러닝의 목적은 DF로부터의 어떠한 데이터도 더이상 포함하지 않는 어떠한 모델이라도 만드는 것이다. 

하지만 이 방법은 모델이 forget 데이터와 관련된 인풋에 어떻게 대답할지에 대해 보장할 수 없다. 연구는 이 접근 방법들을 forget quality metric design에서 측정한다.

 

언러닝의 퀄리티를 측정하는 방법은 U-LIRA 점수를 측정하는 것인데, 이는 최소 128개의 모델 복사본을 훈련시켜야 하고 LLM에게는 상당히 비싸다. 이것을 위한 가능한 방법을 해당 논문에서 제안한다 : 두 가지 모델(우리가 언러닝시킨 모델과 gold 모델)의 아웃풋에 대한 통계적 테스트를 계산한다. Truth Ratio 방법은 정보성에 있어서의 효율성 결과를 나타낸다. 이 방법을 평가하기 위해 Kolmogorov-Smirnov 테스트가 각 모델에서의 Truth Ratio 분포를 비교하기 위해 사용된다. 높은 p-value는 '잊기'가 효율적이었음을 나타내고, 그 반대의 경우 잠재적인 프라이버시 유출과 언러닝이 제대로 이루어지지 않았음을 암시한다. 연구에서는 이 p-value를 언러닝 방법의 Forget Quality라고 부른다.

 

이 방법을 평가하기 위한 통계적 테스트의 적용은 상대적으로 많이 사용하는 방법은 아니다 : 따라서 우리는 이 효력을 보장하기 위해 추가적인 확인을 해봐야 한다. 따라서 모델의 행동을 검증하기 위해 두 가지 별개의 시나리오에서 평가한다.

첫 번째 시나리오에서 우리는 평가 데이터가 훈련 데이터에 포함되어 있는 사례와 그렇지 않은 사례를 비교한다. 결과는 아래 그림의 상위에 위치하는데 분포에서 확연한 차이를 보인다.  

 

두 번째 시나리오에서 평가 데이터는 두 모델에서 같지만 트레이닝 데이터가 다르다. 구체적으로 retain 90를 평가 데이터로 쓰고 전체 데이터셋과 retain90 세트를 트레이닝 세트로 쓴다. 결과는 이 방법이 여전히 주목할 만한 차이를 나타냄을 보인다.

 

전반적으로 다른 데이터셋에서 훈련된 모델은 같은 평가 세트로 평가되었을 때 다른 p-value를 보임을 깨달았다. 또한 p-value가 0에 가까울수록, 모델이 학습한 트레이닝 세트 간의 유사도는 더 높았다. 

Forget Quality 방법 외에도 우리는 Real, Retain, Forget 방법이 조화를 이루어 t상응하는 데이터 split으로 연산된 ROUCE, Probability score, Truth Ratio를 의미한다고 정의한다. 

 

5. Experiments

5.1에서 환경을 설명하고, 멀티모달 언러닝에서 텍스트 영역만 쓰는 것은 제한이 있고, 두 영역 모두를 쓰는 것으로 진행 가능함을 보였다. 추가적으로 현재 언러닝 방법의 능력을 하나의 영역에서만 확인해보았다.

 

5.1 Multimodal Step

소스 모델로는 LLaVa 모델 + ViT(시각 인코더) + LLaMa2-7B(언어 모델)을 사용한다.

먼저 시각적, 텍스트 부분을 모두 사용해 CLEAR로 이미지 캡셔닝 과제를 파인튜닝한다.

이 모델이 "원조"라고 할 수 있는데, forget 과 retain을 모두 포함하기 때문이다.

 

각 방법에는 같은 하이퍼 파라미터를 사용한다.

 

언러닝된 모델을 4.3의 메트릭 셋업을 참고해 평가한다. 

이때 평가는 다중 선택 VQA 태스크에 기반했고 Truth Ratio에는 이미지 캡셔닝 태스크에 기반했다. 비교를 위해서 gold 모델의 방법을 증명한다. 연구와 그에 상응하는 방법은 아래 그림에 나와 있다. 

 

5.2 Is Textual Unlearning Enough?

텍스트 기반 언러닝은 충분히 이루어지고 있는가? 즉, 우리는 텍스트 데이터를 잊는 것만으로도 그 사람을 지울 수 있는지, 그리고 멀티모달리티가 언러닝에 새로운 어려움을 제시하는가?

답을 하기 위해 20명의 개인을 forget set에서 텍스트만 잊도록 했다. 또한 시각적 데이터만 이용하거나 두 모달리티 모두를 이용하면서 언러닝을 시도했고, 결과를 비교했다. 그 결과 텍스트만 언러닝하는 것은 낮은 forget metric을 달성할 수 있었고, 기존 값들과 일치했다. 하지만 이것은 또한 retain metric에서의 성능 저하를 일으켰다. 

아래는 그 값을 나타낸 표이다.

 

5.3 Unlearning Both Domains

멀티모달 언러닝이 하나의 모달리티만 가지고는 설명할 수 없다는 것을 이해한 후, 우리는 두 모달리티를 동시에 언러닝하며 실험을 진행한다. fθ에 언러닝 방법을 적용하고, forget set으로서 전체 데이터셋 사이즈의 10% 정도인 20명 정도 사람들의 모든 데이터를 이용한다.결과는 table 2에서와 같다. 

 

6. Results and Discussion

멀티모달 언러닝에서 table1에서는 LLMU 방법에서 두 모달리티를 모두 언러닝하는 것은 텍스트만을 언러닝하는 것보다 좋은 결과를 냄을 보인다. forget metric은 텍스트만 언러닝할 때 0.37이었는데  두 영역 모두를 언러닝할 때 0.25로 내려갔고, retain 과 real metric은 기존 상태를 유지했다.

DPO에서 결과는 덜 직관적이지만 시각적 도메인을 언러닝하는 것은 중요하다는 것은 알 수 있다. 시각적 여역이나 두 영역 모두를 언러닝할 때 forget metric은 0.22이지만 텍스트만 언러닝했을 때에는 0.38이었다. retain과 real metric은 기존 상태를 동일하게 유지했다. 

하지만 SCRUB은 모든 모달리티에서 풍부하게 유지되고, 모든 세 가지 상황에서 동일한 성능을 유지했다.

 

그 후 두 영역 모두를 언러닝하는 실험을 진행했다. 이는 텍스트 도메인에서만 실행한 실험과 매우 유사하다. Table2에서는 GA, GD, KL, RMU가 forget set은 효과적으로 잊지만 (forget set값이 0이다) retain set에 대해서도 상당히 치명적인 결과를 나타냄을 확인했다(retain set 역시 0이다). 

반대로 IDK, SCRUB, LLMU, DPO에서는 retain set이 기존과 같은 상태를 계속 유지하지만 (0.48 정도로) 언러닝 성능은 더 나빴음을 확인했다. (0.37 vs 0.39 : 언러닝이 되기 전 모델). 언러닝과 성능 유지 사이의 균형을 이루는 것이 다시금 어려워질 것으로 보인다. 

 

Leaderboards

먼저 리더보드를 직접 제작한다.

1. retain set에서 지식 유지를 실패한 방법은 지우고 (테이블들에서 회색으로 표시된 곳) 나머지 방법들을 Forget metric (또는 시각적 영역에서늬 U-LIRA)을 이용해 순위를 매긴다.  각 모달리티의 상위 3가지 방법은 Figure2에서 확인 가능하다.

 

7.Conclusion

본 연구는 CLEAR를 제안하는데, 이는 머신 언러닝을 멀티모달 (텍스트, 시각적) 환경에서 평가하는 첫 번째 오픈소스 벤치마크이다. 두 도메인 모두를 포괄하는 기존 언러닝 기술에 대한 논문에서의 평가는 기존에 예상했던 것보다 훨씬 어려운 요소였고, 추후 연구가 필수적임을 의미한다. 오픈 소스 벤치마크를 제공함으로써 프라이버시와 보안을 대규모의 AI 모델에서 향상시키는 추후 연구에 기여할 것이다. 미래 연구는 MMU 알고리즘을 개선하고 새로운 모달리티(비디오, 목소리)를 언러닝하는 것으로 확장될 수 있을 것이다. 

 

Limitation

연구에서 밝힌 바에도 불구하고 추가 조사가 필요한 몇 가지 한계점이 존재한다. 첫번째 주요 한계점은 합성 데이터에 대한 의존성인데, CLEAR가 그러한 데이터에 기반하다 보니 현실 세계 시나리오의 복잡성을 충분히 고려하지 않았을 수도 있고 이는 연구에서 찾아낸 바의 일반화를 제한할 수 있다. 추가적으로 우리 연구가 프라이버시 위주로 언러닝을 적용하도록 디자인되었기 때문에 (e.g. 개인정보 지우기) , 유해한 컨텐츠를 지우는 등의 다른 언러닝 수요는 설명하지 못할 수 있다. 또한 이 벤치마크는 주로 복잡한 손실 함수를 이용한 파인 튜닝 기반 언러닝 방법을 평가하는데, 분석적 / 기게적 접근 등의 아직 탐구되지 않은 다른 더 많은 언러닝 기법을 다루지 못한다. 다른 어려움은 이 언러닝 방법들의 확장성에 있는데, 그들이 더 큰 모델이나 데이터셋에 적용되었을 때 현실 세계의 시스템에 의해 잠재력을 제한당해 효율적으로 확장하는 것이 어려울 수 있다는 것이다. 또한 retain에서의 치명적인 결과는 의도하지 않은 부작용을 간과하는데, 예를 들면 관련 없는 과제에 대한 모델의 성능 저하, 모순의 등장, 공정성과 안전의 언러닝에 대한 더 넓은 영향 등이 추후 해결되어야 할 과제일 것이다.

 

Ethics

A100 GPU로 84시간 이용했고, CO2 배출량은 9kg정도이다.