뽐뿌

문서/서식 입니다.

기업, 학교, 가정(생활)에서 필요한 각종 문서, 서식을 공유하는 공간입니다. 저작권이나 초상권이 있는 경우 등록을 금지합니다.
레이블 없는 데이터로 부터 학습
분류: 기타
이름: [* 비회원 *]


등록일: 2020-04-27 11:15
조회수: 124 / 추천수: 0




서론
점점 더 많은 수의 텍스트 문서가 전자화되면서, 자동
문서 분류의 중요성이 계속해서 증가하고 있다. 이 문제
에 적용된 많은 기계학습 기법은 대량의 레이블이 부여
된 학습 데이터를 필요로 한다[8]. 하지만, 각 데이터에
레이블을 부여하는 작업을 사람인 해야 하기 때문에, 그
러한 데이터는 일반적으로 매우 비싸고 구하는 데에 많
은 시간이 소요된다. 반면에, 레이블이 없는 데이터는 어
디에나 있으며 레이블이 있는 데이터에 비해 구하기도
쉽다. 따라서, 자동 문서 분류에서는 레이블이 있는 데이
터에 추가로 레이블이 없는 데이터를 활용하는 것은 자
연스러운 일이다.
본 논문은 레이블이 있는 데이터와 없는 데이터를 모
두 활용해서 문서를 분류하는 방법을 제시한다. 제시된
방법에서는 우선 분류기(classifier)가 레이블이 있는 데이
터로 학습되고 분류기의 신뢰도가 결정된다. 그 다음에,
레이블이 없는 데이터로부터 일련의 분류기가 학습된다.
분류기 순서에서 다음 분류기를 결정하기 위해서, 올바
르게 분류될 확률이 현재 분류기의 신뢰도보다 큰 모든
학습 예제는 레이블이 있는 데이터 집합과 없는 데이터
집합 양쪽에서 제거된다. 왜냐하면, 이런 학습 예제들은
다음 분류기를 위한 정보를 제공하지 않기 때문이다. 다
음 분류기는 남은 레이블이 있는 데이터와 레이블이 없
는 데이터 중에서 선택된 중요한 일부에 의해 학습된다.
이 과정은 레이블이 없는 데이터가 모두 다 사용될 때까
지 반복된다. 제시된 방법은 두 개의 표준 데이터 집합
인 NIPS 2000 워크숍 데이터 집합과 WebKB 데이터 집합
에 대해 평가되었다. 레이블이 없는 데이터를 사용함으
로써, 자동 문서 분류의 정확도가 증가하였고, 제시된 방
법은 co-training[2]보다 더 좋은 성능을 보였다.
[ 주소복사 http://www.ppomppu.co.kr/zboard/view.php?id=stylesheet&no=1104 ]

추천 0

다른 의견 0


상대에게 상처를 줄 수 있는 댓글은 삼가주세요. (이미지 넣을 땐 미리 보기를 해주세요.)
직접적인 욕설 및 인격모독성 발언을 할 경우 제재가 될 수 있습니다.
- 미리보기
이모티콘  익명요구    다른의견   
△ 이전글▽ 다음글