DEMO
GitHub : https://github.com/snaiws/NLP_project
Deploy URL : Model API
Team & Role
과제 목표
- 한국어 문장의 유사도 분석 모델 훈련 및 BEST 모델 API 구현
- 두 개의 한국어 분장을 입력 받아 두 문장의 의미적 유사도를 출력하는 사용자 interface 구현
Contents
- 데이터전처리
- 모델 선정
- 훈련 및 평가
- 실험
- Model API
- 한계 및 개선 방안
- Reference
1. 데이터 전처리
-
Data Set
- KLUE-STS (11668 x 6)
- AIRBNB(리뷰)
- policy(뉴스)
- parakQC(스마트홈 쿼리)
-
train data에서 중복 제거 (11668 → 11661)
-
regex를 사용하여 한글, 숫자만 남기고 문장 전처리
-
train, valid data를 9:1로 나누어 실험 진행
DataSet |
Size |
Train |
10494 |
Valid |
1167 |
Test |
519 |
2. 모델 선정