ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 대학교 커뮤니티 주제별 분석
    컴퓨럴/데이똬쓰 2016. 6. 4. 22:32

     A. 이딴 뻘짓 하는 이유

    비정형 데이터 분야에 관심이 많아서 애정 있게 보고만 있는 서담을 분석대상으로 해보고 싶었습니다데이터 관련 전공생도 아니고 데이터 내용도 잘 모르는 상태에서 해본 자료라 이게 정말 정확하고 쩌는 자료야!’라고 얘기할 수는 없지만 그냥 해봤더니 이렇더라했던 자료를 나눠볼까 합니다.(그냥 꼬마애가 그림 그려서 잘했지?’ 하는 것 정도로 생각해주세요ㅜㅜ)

     서담 데이터로 무엇을 알아볼 수 있을까 생각하다가

    서담과 sogang Univ, 대나무숲의 차이(dc는 본적이 없어서…dc미안)

    서담은 몇몇 사람들이 생각하는 것과 같이 정말 일베 성향을 가지고 있는가?

    하는 질문을 던져보았습니다.



    B.  과정

    1. 스크랩 및 데이터 정리

    서담이 열린 2015 2 2일부터 2016 4 30일까지의 자료를 스크랩 했습니다.

    컴퓨터 라이브러리(R,python)를 사용해서 서담 익게1 7230,익게2 78358개 총 85588개sogang Univ 7230서강대학교 대나무숲 8060개의 글을 긁어모았습니다.

    예를 들어서,

    제목

    작성 시간

    조회수

    내용/댓글

    테니스코트 이용 문의

     

    2016-04-30 14:09

     

    72

     

    :] 테니스 코트 주말 아침에 이용하고싶은데어디로 문의하면 되는지 아시는분있으신가요? :] 체육실 ㄱ

     

    이런 식으로 긁었습니다작성자가 누구인지는 전혀 알 수 없습니다

    그리고 혹시 서버에 무리가 갈 수도 있을 것 같아서 한 글을 읽을 때마다 몇 초간 쉬도록 했습니다.

    2. 분석

    Konlp라는 형태소 분석 라이브러리를 사용하여 모든 글의 형태소를 분석했습니다저는 뭣도 모르는 햇병아리라제일 쉬울거 같은 두 글자 이상 명사만 추출했습니다ㅜㅜ

    첫번째형태소 분석을 통해 만들어진 명사들 중에서 가장 많이 쓰인 1000개를 먼저 추리고 그 1000개중에서 서로 겹치지 않는 명사들만 뽑았습니다(‘겹치는 단어들을 빼면 그 문서 만의 독특한 특징이 나타난다’ 하는 말을 책에서 주워 들었음). 이 결과로 커뮤니티별 특정 성향을 알 수 있지 않을까 생각했습니다

    두번째의미 분석으로 문서를 주제별로 묶어주는 LDA 패키지를 사용하였습니다이 패키지를 사용하면 각 커뮤니티 별로 30개의 주제로 묶어줍니다주제는 명사들의 나열로 주어지는데 명사 나열을 통해 어떤 주제인지 추론할 수 있습니다.

    예를 들어한 주제에

    남양주 서강 캠퍼스 그린벨트 캠퍼스 해제 주민 사업 이전 개발

    이런 단어가 있으면 남양주캠퍼스 관련 글이구나 하는걸 알 수 있겠죠.



    C. 결과

    1. 커뮤니티 고유 단어

    Sogang Univ.

     유니브에서는  TOP 10 명사가 마감 메시지 참석 문의 지원서 페메 판매 습득 com 지갑인데요. 여기에서는 대부분이 사람을 찾거나 모집하는 활동이 이루어지고 있습니다. 유니브에서 사용하는 고유 단어들은 거의 대부분이 모집입니다.

    서강대학교 대나무숲

     대나무숲에서는 모든글에 늘 등장하는 ‘#번째날갯짓: 댓글) 제보 제보자를 제외하면

     TOP 10 명사가 고백 그녀 우울 스스로 용기 작성자 위로 대나무숲 인간관계 사연입니다. 역시 고민을 익명으로 올리는 대나무숲 특성상 인간관계에 대한 사연이 많이 있었습니다.

    서담

    서담에서는 TOP 10 명사가 성대 시발 서담 연고 서울대 의대 남양주 통합 재단 고시인데요. 타 커뮤니티에 비해서 다른 학교에 대한 견제 등 학교의 위상에 대한 고민이 많아 보입니다. 특히 성대에 대한 얘기가 많이 나오네요. 시발이 나온 건 익명 게시판의 특성으로 생각됩니다.

     처음에 던졌던 서담은 일베같은가?에 대한 질문에 대해서는 답변하기가 힘들 것 같습니다.(ㅜㅜ) 자주 사용된 명사중에 92위로 노무라는 단어가 있기는 하지만 이것만으로 일베 성향을 따질 수는 없겠죠. 다만, 페이스북과는 다르게 보수, 진보, 운동권, 시장, 일베, 운동권, 폐지, 국정, 정치 등 의 단어가 자주 등장하는 것을 보면 정치에 대한 논의가 자주 이루어진다고 추측할 수는 있을 것 같습니다.

     

    2. 커뮤니티 별 담론 주제 분석 결과

    앞의 분석결과와 결론이 그리 다르지는 않지만 조금 더 세세하게 주제를 나누어볼 수 있습니다. 원의 크기는 얼마나 주제가 자주 나오는가를 의미합니다.

     

     Sogang Univ에는 역시 대부분(60%)이 사람을 구하는 용도로 쓰입니다.

    이외에는 학교 22%, 성담론 12%, 댓글태그가 5% 입니다.

     

     


    대나무 숲의 경우 sogang Univ의 구인 기준보다 훨씬 높은 77%가 일상생활,고민에 대한 내용을 다루고 있습니다. 학교는 10%, 댓글/태그(동의) 11%, 대숲 1%, 사회담론0.06%정도의 비율입니다.

     


    익게 1의 경우에는 일상적인 얘기(51%)가 학교의 위상(3%)보다 이야기가 좀 더 많이 나오고 사회적인 주제에 대한 담론(1%)은 조금 적습니다. 서담은 운영자(진이뽀)가 의견을 반영해서 사이트를 고칠 수 있는 구조라서 그런지 서담 사이트에 대한 건의도 8%나 나옵니다.

     


    반면, 익게 2는 학교에 대한 이야기와 일상생활이 각각 35%입니다. 익게1과 달리 사회 담론은 20%나 차지하는 것을 보면 대부분의 정치, 사회적 이슈는 익게2에서 이루어지고 있는 듯 합니다.

     


    D. 결론

     서담이 다른 커뮤니티에 비해서 논의되는 주제도 다양하고 다른 사람들이 생각하는 것 만큼 일베 성향이 강하지 않다(이 결론은 잘 모른다고 했지만…)!



    E. 마치며

     뭐 이딴 뻔한 얘기를 이렇게 길게 주저리주저리 썼냐고 생각하시는 분도 있을 거에요. 이쪽 분야에 관심 있는 애가 뻘 짓 한번 했구나 생각해주세요ㅋㅋ 저는 우리가 보통 마음으로 느끼는 걸 수치화 해서 보여주는 걸 좋아하는데 평소에 서담을 읽으면서 느낀 인상을 수치화했다고 생각해주시면 감사하겠습니다! 

     

Designed by Tistory.