행위

비정형 데이터 마이닝

조무위키

그림이나 영상, 문서, 메일, 채팅 메시지 등 이곳 저곳 흩어져 있고 단순하고 정리가 안된 정보를 말한다


예를 들면 찢겨져 조각나있는 100억짜리 당첨 복권 조각 하나 하나는 비정형데이터고 그걸 하나씩 찾아서 테이프로 전부 붙이면 정형 데이터이다.


게임으로 치면 아무도 거들떠도 안 보는 잡템이나 제작 아이템의 재료라고 볼 수 있다.

이 제작 재료(비정형 데이터)를 모아서 만든 장비가 정형 데이터이다.


데이터 마이닝이 그냥 도서관에서 책을 찾는 과정이라면 비정형 데이터 마이닝은 쓰레기 더미를 뒤져서 원하는 걸 찾거나 원하는 걸 모아서 만드는 과정이다.



분류[편집]

  • 텍스트 마이닝

책이나 문서에서 필요한 정보를 찾는 것을 의미하고, 문서다 보니 가장 많은 비중을 차지한다

텍스트로 된 모든 분야(SNS, 서적, 블로그, 웹페이지 등등)를 대상으로 자신이 원하는 특정 주제를 찾아서 의미있는 정보를 찾거나 만드는 과정이다.

오마바 선거 캠프가 클라우드 컴퓨팅으로 뉴스와 레딧 댓글을 싹다 모아 종합해서 승리를 예견했다고 한다.


관련 기술로는 단어 빈도 분석, 비슷한 걸 묶어주는 군집 분석, 단어의 감정을 분석하는 감성 분석, 통계에 넣을 수 있게 처리하는 자연어 처리가 있다


  • 웹 마이닝

인터넷에서 정보는 찾는 것이다. 뉴스나 게시글은 정형 데이터라서 흔히 인터넷 검색으로 정보를 찾는 행위는 아니고 웹 서버 로그기록이나 크롤링 등 평범함과는 거리가 먼 방법으로 추출한다.

굳이 단순한 작업이라면 인기 검색어로 트랜드를 찾기나 하이퍼링크를 타면서 구조나 패턴을 파악 하는 정도이다.


분석 방법으로는 하이퍼링크를 타서 패턴을 찾거나 웹사이트의 노드 구조를 분석하는 '웹 구조 마이닝'과 웹서버 로그 파일을 분석해 웹사이트 개선이나 고객 특성을 반영하는 '웹 유시시 마이닝'이 있다.


  • 여론/오피니언 마이닝

온라인에서 특정 주제에 대한 댓글이나 단문에서 보이는 텍스트를 분석해서 보이는 감정이나 평가, 태도 등을 분석하는 것이다.

이를 사실과 의견으로 구분하고 뽑아낸 후 긍정과 부정으로 나누고 그 강도를 측정한다.

네이버 뉴스와 다음 뉴스 댓글을 보고 무지성 찢갈이인가 진짜 여론인가를 판단하고 좋아요 수에 따라 얼마나 해당 인물에 대해 긍정적인지 부정적인지 강도를 측정하는 거라고 볼 수 있다.


데이터가 대규모이다 보니 자동화된 분석방식을 사용한다. 여기에는 자연어 처리 방법이 있다.


그리고 오피니언 마이닝은 현재 보편화된 방식이라서 감정 분석, 브랜드 모니터링, 버즈 모니터링, 온라인 인류학 등등 다양한 용어로 불린다.



-