Quality for news is mostly about solving the reputation issue

짧은 코멘트

고품질 뉴스를 선별하는 방식에 대한 필루의 글인데요. 실제 작업을 진행 중인 모양입니다. 풀이하면, 언론사 품질 지수와 저자 품질 지수를 나누어 세부 변수를 구성합니다. 그리고 일부 변인이 각각의 지수에 부정적 영향을 미칠 수 있는 부분도 확인해냅니다.

이렇게 현재 40개 정도의 변인을 찾아냈는데, 각 변인들마다의 가중치 설정이 이슈로 남아있었던 모양입니다. 당연히 CS쪽 교수들은 딥러닝을 통한 해결법을 제안을 했을 거고요.

문제는 트레이닝 데이터 세트인데. 학습을 시키기 위해서는 고품질 뉴스와 아닌 것에 라벨링(Labelling)을 해줘야겠죠.(이걸binary classification이라고 하나요?) 대신 학습시킬 트레이닝 세트가 크면 클수록 좋아집니다.

‘좋은 기사'(good)로 라벨링을 할 만한 기사가 많아야 하는데, 수천 수만, 수십만? 좋은 기사가 다시 무엇인지 그리고 그 많은 기사를 또 어떻게 확보할 것인지 고민이 될 수밖에 없어 보입니다.

동일 방법론을 한글 기사에 적용한다고 하면, 학습할 만한 좋은 기사가 얼마나 확보될 수 있을지 이것 또한 관건이 되지 않을까 싶더라고요.
전체적으로 보면, 구글과 접근법이 크게 다르진 않았던 듯하지만, author score가 하나더 추가되면서 변수의 다양성을 확보한 점은 의미가 있다는 생각입니다.

결국 고품질 뉴스를 지속적으로 생산한 기자와 언론사는 앞으로도 계속 고품질 뉴스를 생산할 것이라는 전제가 어느 정도 깔려있습니다. 그래서 reputation이 더 중요하다고나 할까.