알고리즘 윤리와 미디어 연구방법론의 새로운 과제 토론문

이성규(메디아티 미디어테크랩장)

연구윤리에 대한 상징적인 두 가지 사건

소셜네트워크서비스 연구와 관련한 두 가지의 상징적 사건을 든다면 2014년 페이스북의 심리 조작 실험과 캠브리지 애널리티카의 데이터 유출이 있을 수 있습니다. 두 사건 모두 SNS 연구 윤리에 대한 사회적 관심과 우려를 불렀다는 점에서 공통점을 갖습니다.

하지만 한 가지 차이를 발견할 수 있습니다. 전자가 페이스북 내부 직원인 아담 크라머가 연구에 관여했다면 후자는 페이스북 외부 연구자가 참여했다는 사실입니다. 쉽게 말해 페이스북 사용자를 대상으로, 사용자 데이터를 활용한 연구의 주체라는 측면에서 전자는 당사자인 페이스북 직원이 연구를 주도했고, 후자는 페이스북 외부 연구자가 실험을 이끌었다는 차이가 존재합니다. 굳이 연구 수행자의 차이에 주목하는 이유는, 서로 다른 수준의 윤리 기준을 적용해야 한다는 담론으로 이어질 수 있기 때문입니다.

연구환경의 변화

사회과학의 연구 대상으로서 소셜네트워크서비스라는 가상의 관계맺기 공간은 높은 관심을 갖기에 이르렀습니다. 그러나 연구자들의 관심에 비례해 연구 방법론 등에 대한 윤리적 기준에 대한 논의는 더딘 것이 사실입니다. 김대원 박사가 지적한 대로 윤리의 논의에서 비어있는 곳이 바로 학계라고 할 수 있습니다.

이미 많은 수의 SNS 관련 연구들이 페이스북이 제공하거나 제공했던 API를 통해 데이터를 수집하는 방식으로 이뤄지고 있습니다. 2012년 기준으로 410건의 사회과학 논문이 이러한 방식으로 작성됐다는 연구가 있었습니다. 다시 API를 통해 데이터를 수집하기 위해서는 페이스북 등 SNS 사이트가 제시한 개발 가이드에 따라 데이터를 수집할 수 있는 코드를 작성해야 합니다. 이 또한 데이터와 논리의 결합으로 정의되는 ‘알고리즘’이라고 할 수 있습니다.

SNS 라는 공간에서 발생하는 인간의 행위에 대한 연구는 필수적으로 알고리즘과 데이터에 대한 깊은 이해를 수반합니다. 김대원 박사가 언급한 대로 이 분야의 연구는 연구자의 수작업으로 내용 분석을 시도할 수 있는 규모를 넘어섭니다. 대량화화 연구(massified research)가 보편적 흐름으로 자리를 잡으면서, 파이썬, R, 넷마이너 등과 같은 분석 도구를 활용해 데이터 크롤러를 제작하는 경우가 빈번해졌습니다.

하지만 크롤러의 코드가 연구자가 적시한 만큼의 데이터 수집하는 방식으로 설계됐는지는 논문 등의 결과물을 통해 확인되지 않는 경우가 적지 않습니다. 뿐만 아니라 직접 설계한 코드를 활용했는지 오픈소스를 활용했는지를 정확히 확인할 방법이 없습니다. 사회과학 논문에서 해당 코드를 공개하는 경우는 그리 흔하지 않기 때문이기도 합니다. 만약 후자일 경우 연구자가 충분히 코드를 숙지하지 못한 채 적용했다면 연구자 자신의 데이터 수집의 범위를 가늠할 수 없는 경우가 발생할 수 있습니다. 연구 윤리의 빈틈이 존재하는 영역이라고 볼 수 있습니다.

연구 윤리의 대두

영미권을 중심으로 SNS 연구에 대한 윤리 논의는 비교적 일찍 시작돼왔습니다. 애자일 윤리(neuhaus&webmoor. 2012)라는 개념이 제안됐고, 프리즈너(PRISONER)라는 연구 아키텍처도 공개된 적이 있습니다. 하지만 국내 학계에서는 이에 대한 담론이 부족한 것이 현실입니다. 특히 누하우스는 페이스북과 같은 사업자들보다 연구자들이 더 주의를 기울여야 한다고 강조하기도 했습니다. 그가 우려했던 대로 캠브리지 애널리티카를 통한 사용자 데이터의 거래와 남용은 전세계적인 우려를 낳기에 충분했습니다.

왜 연구 윤리가 필요한가

페이스북으로 한정하면, 연구자가 수집할 수 있는 데이터의 범위는 비교적 최근까지 사용자에 대한 정보뿐 아니라 사용자의 친구 정보까지였습니다. 하지만 연구자는 먼저 사용자와 직접적인 수집 동의를 받은 경우가 드물고(트위터 등) 심지어 사용자의 친구에까지 동의를 구한 적이 없는 경우가 허다합니다. 여기에 그치지 않습니다. 수집의 범위를 사용자가 확인할 수 없는 비대칭성이 존재합니다. 여기까지가 수집단계라면, 보관과 저장에 대한 이슈도 제기될 수 있습니다. 해당 데이터를 언제까지 어느 수준에서 보관하고 저장하는지 사용자들은 알길이 없습니다.

연구자들이 주의해야 할 것은 소위 프라이버시 패러독스입니다. 반즈(Barnes, 2006)는 성인과 달리 청소년의 경우 개인정보를 쉽게 포기하는 경우가 있는데 이는 인터넷의 공개적 속성을 인지하지 못하기 때문이라고 지적합니다. 단순히 청소년이라는 연령별 구분에 머무를 이유는 없습니다. 인터넷과 소셜네트워크서비스를 일상을 받아들이는 세대는 대규모 프라이버시 사건이 발생하기 전까지는 그것의 광범위한 개방적 속성이 가지는 위험성을 인식하기가 어렵습니다. 이러한 연구 환경의 변화를 이해하지 못한다면 연구자들의 연구 행위가 광범위한 사회적 부작용으로 이어질 수도 있습니다.

애자일 연구 윤리의 검토와 논의

이처럼 공개된 SNS 데이터를 수집해 연구에 활용할 경우 여러 가지 윤리적 위험 요소를 안고 있습니다. 위험성을 해결하기 위한 다양한 논의에 우리 연구자들도 참여해야 합니다.

첫 번째는 애자일 연구 윤리 방식에 대한 진지한 검토입니다. 애자일 윤리는 기존 IRB의 연구 윤리의 한계와 변화한 연구 환경의 갭을 줄이기 위한 모색입니다. IRB는 인간을 대상으로 한 연구에서 “ 연구대상자가 연구에 참여하기 위해 충분한 정보를 받고 이에 근거하여 자발적으로 선택할 수 있도록 해야 한다”고 명시하거나 권고합니다. 하지만 트위터, 페이스북을 통한 대량 데이터 기반 연구는 수십만명의 연구대상자(피험자)들에게 자발적 동의를 구하기란 사실상 불가능합니다. 이 갭을 줄이지 않고 IRB의 프로토콜을 준수할 경우 연구 자체에 어려움을 겪을 수 있습니다.

애자일 연구 윤리는 누하우스와 웹모브가 애자일 소프트웨어 방법론에서 고안안 개념입니다. 누하우스와 웹모브는 상황 윤리나 의무론적 윤리라는 형태와 달리 중간 수준의 윤리적 실천 프로그램이라고 설명합니다. 유연성과 실천의 컨틴전시(만일의 사태)가 애자일 연구에 필수적입니다.

이 접근법에 따라 투명성의 조건이 부과될 수 있습니다. 데이터 수집 코드(알고리즘)를 공개해야 할 뿐 아니라 해당 코드가 해당 사용자로 하여금 이해할 수 있는 수준으로 설명이 되어야 합니다. 휴턴의 프리즈너모델은 크롤링 엔진의 XML 코드를 제출토록 하고, 그 결과의 샘플을 확인할 수 있도록 함으로써 투명성의 조건을 충족시키려 합니다(Henderson. Hutton. & McNeilly. 2012). 자신의 데이터가 어떤 조건으로 어떤 범위까지 수집되는지를 인지하지 못한 채 연구에 활용된다는 사실을 연구자는 숨겨서는 안됩니다.

연구자에게도 유익입니다. 프로그램 코드, 데이터 세트 그 자체, 시각화된 산출물 자체가 연구의 기여로 기록될 수 있습니다(Neuhaus & Webmoor. 2012. p.59) 뿐만 아니라 재현 가능성을 입증하는데도 유익합니다. 인터넷 중심의 연구로 늘어나면서 피어리뷰에 대한 검증이 약화하는 문제를 해결하는데에도 애자일 윤리는 도움을 줄 수 있습니다.

두 번째는 플랫폼 사업자에 대한 보다 엄격한 연구 윤리 적용입니다. 페이스북의 심리 조작 연구에서도 드러났고, 5월24일 가디언 보도에서도 확인됐듯, 페이스북이라는 플랫폼은 다양한 형태로 사용자에게 구체적으로 고지하지 않은 채 실험을 진행하거나 데이터를 추출하고 있습니다. 제3자의 연구도 다르진 않겠으나 플랫폼 내부에서 진행되는, 사람을 대상으로 한 실험은 통제 영역의 밖에 존재합니다.

분명한 사실은, 사용자들이 플랫폼에 가입하면서 체결한 약관이 연구자의 책임성을 면책시키지 않는다는 사실입니다. 그렇다고 연구자들이 수십, 수백만명에 이르는 사용자들과 직접 계약을 맺기도 어렵습니다. IRB가 강조하듯, 인간 피험자에 대한 존중과 안전의 확보, 위험 최소화, 그리고 사생활 보호의 윤리는 massified research에서 준수돼야 하지만 현실적으로 어려운 측면이 있습니다. 이 문제를 해결하기 위한 윤리적 논의가 국내 학계에서도 진지하게 검토돼야 한다고 생각합니다.

[실천의 동등성, Parity of Practice] 연구자 자신의 데이터를 포함시키는 것도 검토돼야 합니다. 연구자도 네트워크 안으로 편입시킴으로써 윤리의 강제를 가져오는 효과를 발휘할 수 있다고 봅니다. 나아가 연구자의 데이터도 수집될 수 있도록 허락해야 한다는 의미이기도 합니다.

참고 문헌

  • Barnes, S. B. (2006). A privacy paradox: Social networking in the United States. First Monday, 11(9).
  • Henderson, T., Hutton, L., & McNeilly, S. (2012). Ethics and online social network research–developing best practices. In Proceedings of Proceedings of the 26th BCS Conference on Human Computer Interaction.
  • Kramer, A. D., Guillory, J. E., & Hancock, J. T. (2014). Experimental evidence of massive-scale emotional contagion through social networks. Proceedings of the National Academy of Sciences, 111(24), 8788-8790.
  • Neuhaus, F., & Webmoor, T. (2012). Agile ethics for massified research and visualization. Information, Communication & Society, 15(1), 43-65.
  • Zimmer, M. (2010). “But the data is already public”: on the ethics of research in Facebook. Ethics and information technology, 12(4), 313-325.