인공지능 (AI)2009/02/26 15:45

패턴 인식은 머신러닝의 또 다른 주제입니다. 논리적 귀결에 따른 자료이거나 패턴으로부터 추출된 통계적 정보를 분류하는데 패턴인식의 목적이 있습니다. 이 기본적인 패턴 인식 정의 따라 음성인식, 문자인식, 이미지인식, 필체인식등이 이미 널리 쓰이고 있는 것으로 알고 있습니다. 그 밖에 데이터 마이닝은 엄청난 데이터 안에 알기 힘든 패턴을 찾아 내는 과정입니다.


데이터 마이닝에 상당한 관심을 가지고 있습니다. 패턴인식을 위해 필요한 통계적 기술의 집합체라 생각이 되거든요. 상당히 보편적이고 탄탄한 배경이 있구요. 하지만, 접근하기가 상당히 힘든 부분도 있습니다. 큰 데이터를 얻기도 힘들고, 그 데이터의 패턴을 찾아내는데는 좋은 무기들이 필요합니다. 통계툴과 빠른 컴퓨터가 기본적 무기가 되고요. 빠른 컴퓨팅이 지원 된다고 해도 수많은 인력도 필요합니다. 사람들의 패턴인식은 기계의 패턴인식과는 다른 부분이 확실히 있습니다. 따라서, 인간의 패턴인식 능력이 반드시 필요하다고 생각합니다.


이렇게 많은 기반은 언제 채워질지 모르겠지만, 우리 랩의 특성을 살려 계획만이라도 치밀하게 세워보고자 합니다.



우선 형이 글을 올린, <단어에 대한 연관관계를 인지하는 법>를 생각해보겠습니다. 단순무식한 방법을 이야기하고, 좀 더 진화된 단어 연관성을 만드는 방법을 올리셨습니다. 단어를 인식하는 기술은 이미 상당히 고급화된 기술이라 여겨집니다. 일본이나 미국의 단어 인식은 음성, 문자를 넘어서고 있는 것으로 알고 있습니다. 그렇다면, 그 기술을 바탕으로 한 인식된 단어가 무엇인지 판단하는 문제가 있습니다. 그렇습니다. 우리의 문제는 이 단어의 진정한 뜻이 무엇일까 알아내는 과정에 있습니다.



과연 단어의 진정한 뜻이란 무엇일까요? 1층으로 들어갈 수 있고 2층으로 들어갈 수 있는 강남역의 스타벅스를 생각해봅시다. 그 안은 진한 커피향뿐만 아니라 사람들의 떠들거림으로 꽉 차있습니다. 그 중, 녹색 주름 치마를 입고 다홍색 스카프를 한 세련된 단발머리 25세 여자가 왼손 네번째 손가락에는 반지를 끼고 말쑥하게 정장을 한 42세 남성과 진솔한(?) 대화를 하고 있다고 생각해 봅시다. 그리고 저와 형은 단어를 잡아 낼 수 있었습니다. 그 단어들은 "뉴코아", "자전거", "분수", "일요일", 그리고 "사랑"과 "이명박" 이었습니다. 대체 무슨 말을 하고 있을까요? 대략 감이 잡히십니까? 이 이야기를 듣고 왜 그 두 사람이 "뉴코아"라는 단어를 꺼냈는지, 왜 "일요일"이란 단어를 내어 놓았는지를 알 수 있을까요? 저는 알 수 없습니다. 그리고 인간관계에서 아는 체를 하다가는 큰 봉변을 당할 수도 있습니다. ^^



이렇게 사람도 몇몇 단어만으로는 두 사람이 말하는 단어의 뜻을 명확하게 알아듣기는 어렵습니다. 그럼, 우리가 노트북을 가지고 다니니깐, 여섯개의 단어로 구글링을 해볼까요? 음.. 네이버링이 나으려나..ㅋ 해보겠습니다.

"뉴코아 자전거 분수 일요일 사랑 이명박" 요것을 두 번 검색해보았습니다. (네이버와 구글에서)

네이버에서 추천한 첫 글은… 블로그, 카페글은 접속이 잘안되서.. 웹문서가운데 첫글은

http://www.jinbocorea.org/bbs/board.php?bo_table=hq&wr_id=370&sfl=&stx=&sst=wr_hit&sod=asc&sop=and&page=18

입니다. 글 제목은 "1,000여개 시민사회단체 비상시국회의, 이명박 후보 즉시 사퇴하라!" 이네요. 그리고 검색을 찾아보니.. 페이지 안에서 찾아지네요. 그 페이지 안에 6개 단어가 모두 존재한다는데.. 놀랐습니다.

그리고 구글링한 첫 글은 엠파스로 연결이 되는데…

http://blog.empas.com/alona3/print.html?a=17863897 이글이고요. 제목은 "재앙들과 재난들의 원인"인데… 읽어보진 못했지만, 전미대통령 부시에 관한 글이네요. 마구 욕으로 포장해놓은.. 여기서 이야기 하는 것은 이명박과 부시는 아니니깐.. 여하간… 저도 찾아 보고 놀랬습니다. 여섯개 단어가 저런 글들을 찾아내다니..



그럼, 생각해보지요. 강남역의 25세 여자와 42세 남자가 부시나 이명박에 대한 욕을 하고 있었을까요? 아닐 것 같은데요. 이렇게 사람들이 실제로 이야기하는 내용과 검색엔진의 검색결과는 동떨어져 있는 것이 현실입니다. 바로 이 부분을 해결하는 것이 우리의 작은 목적이 되겠지요.



작은 목적을 이루고자, 여섯 개의 단어를 분류하고 카테고리를 만들어 봅시다. 우선, 통계적인 방법을 취하기 위함입니다. "뉴코아"는 한국에 잘 알려진 유통업체입니다. 유통업체 분류에 들어가겠네요. 그 분류안에는 {신세계, 롯데, 그랜드, 현대, 이마트, 홈플러스, …}이 있겠습니다. 또 다른 분류(뉴코아의 위치)가 존재합니다. {반포동, 인천, 창원, 평촌, 울산, 일산, 동수원,…} 그리고 또 다른 분류가 더 많이 존재하겠지요. 마찬가지로, "자전거", "분수", "일요일", "사랑", "이명박"의 단어에도 그러한 분류들이 있겠지요. 이러한 분류가 있는데 이 분류를 어떻게 만들어 내느냐도 하나의 패턴인식의 문제입니다. 하지만, 여기서는 주어졌다고 가정해봅시다.

(현재의 이런 패턴을 만들어내는 것은 네이버에 고용된 사람의 힘으로 알고 있습니다. 논외의 이야기이지만, 경제논리가 더 많이 이 패턴에 관여하는 것으로 알고 있구요. 이점은 정말 실망스런 부분이지만, 우리 사회의 단단한 기둥이기 때문에 받아들여야 한다고 생각합니다. 이런 분류를 정할 수 있는 패턴이론을 만들어 낸다는 것도 흥미로운 일입니다. 하지만, 분명한 것은 우리가 사회인으로써 공감할 수 있는 궁극적인 패턴은 더 다양하고 비인과적인 논리위에 놓여 있다는 점입니다.)



주어진 분류 안에서 어떤 알고리즘으로 원하는 정보를 선택해 내느냐가 지금의 관건이라 봅니다. 가치있는 아이디어가 상당히 필요한 부분이구요. 어떻게 분류들을 묶어내느냐.. 어려운 문제입니다. 아주 단순한 방법으로는 교집합을 찾아내는 겁니다. 하지만, 이런 패턴 인식을 논할 가치는 없습니다. 좀더 간결하면서도 놀라운 방법이 있을까요? 창의력을 발발해봅시다. 이 이야기가 설정되어 있는 카테고리를 어떻게 묶고 구조를 만들어내는지가 되겠지요. 기하적인 마인드가 필요하면서도 따뜻한 사람의 마음을 이해하는 폭신폭신한 사유가 필요합니다. 정말 어려운 문제이지만, 마음이 따뜻한 사람에게는 도전해 볼 만한 일이라 생각해봅니다.



혹시 앞으로 만들어낼 검색엔진은 이 두 사람의 대화를 추측할 수 있는 가치있는 정보를 저와 형에게 줄 수 있을지도 모르겠습니다. (아직은 두사람이야기가 궁금하다면, 노트북으로 구글링 하기보다는 커피를 두 사람앞에서 쏟는 편이 더 빠르고 정확한 두 사람 정보를 얻을 수 있는 방법이 아닐까 요..ㅋ)



음.. 얼마후에는 위의 여섯 단어의 검색결과는 바로 이 문서가 되겠습니다. 이런 것을 선견지명이라 하나요… 음 아직 원시적인 네이버와 구글의 더 빠른 발전을 위하는 마음이 간절합니다!! 결국 두 사람이 강남역 별다방에서 나누었던 단어들의 진정한 의미는 이 문서에 찾으라는 현재의 검색기술에는 발전의 여지가 크다고 하겠습니다. 그리고 이런 가격을 메워줄 기술은 상당히 단순한 아이디어에서 시작할 수 있다는 생각이 듭니다. 이 글을 읽는 블로거들 중에 번뜩이는 아이디어가 있다면 공유하고 함께 생각해보았으면 좋겠습니다.



sbpyun 씀

크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by 귤꼭지

TRACKBACK http://lab.namudal.com/trackback/5 관련글 쓰기

댓글을 달아 주세요