DEMO

GitHub : https://github.com/snaiws/NLP_project

Deploy URL : Model API

Team & Role

송민혜
엄정호
이규호
이용욱

과제 목표

한국어 문장의 유사도 분석 모델 훈련 및 BEST 모델 API 구현
두 개의 한국어 분장을 입력 받아 두 문장의 의미적 유사도를 출력하는 사용자 interface 구현

Contents

1. 데이터 전처리

Data Set
- KLUE-STS (11668 x 6)
  - AIRBNB(리뷰)
  - policy(뉴스)
  - parakQC(스마트홈 쿼리)
train data에서 중복 제거 (11668 → 11661)
regex를 사용하여 한글, 숫자만 남기고 문장 전처리
train, valid data를 9:1로 나누어 실험 진행

DataSet Size

Train 10494

Valid 1167

Test 519

2. 모델 선정