# 데이터셋 전처리

- 유사한 뉴스 기사들 제거 (문제: 기사 하나 남기고 유사한것만 제거되는게 아닌 전부 제거가 됨..)
- 처벌 컬럼 생성 (..형으로 시작하는 단어나, 무기징역, 그리고 징역일 경우 몇년 까지 포함)
- 정규표현식 후 명사 추출 및 컬럼 생성
- 피의자 나이대 컬럼 생성
- 국내로 제한 (국가 이름들이 나열된 리스트를 웹에서 클롤링해서 국가 이름이 언급될 시 제거)
- 피해자 컬럼 생성 (살인범죄사전)
- 가해자 컬럼 생성 (살인범죄사전)
- 피해자와 가해자의 관계를 파악해서 둘 중 하나가 Nan값인 경우 채워놓기 (예를 들어, 피해자가 부모면 가해자가 자식)
- Nan 값이 없는 행(뉴스기사)들만 추출하여 최종 데이터 프레임 생성

-----------

## 1. 데이터셋 불러오기

In [147]:
import pandas as pd 

pd.set_option('display.max_colwidth', None)

In [148]:
df1 = pd.read_csv('./news_df_1.csv', encoding='utf-8', index_col = 0)
df2 = pd.read_csv('./news_df_2.csv', encoding='utf-8', index_col = 0)
df3 = pd.read_csv('./news_df_3.csv', encoding='utf-8', index_col = 0)
df4 = pd.read_csv('./news_df_4.csv', encoding='utf-8', index_col = 0)
df5 = pd.read_csv('./news_df_5.csv', encoding='utf-8', index_col = 0)
df6 = pd.read_csv('./news_df_6.csv', encoding='utf-8', index_col = 0)

In [149]:
df = pd.concat([df1,df2,df3,df4,df5,df6])

In [150]:
df.drop(['Unnamed: 0.1'], axis = 1, inplace = True)

In [151]:
df.reset_index(drop=True, inplace=True)

------------------

## 2. 유사 뉴스 기사 제거

In [152]:
import difflib

In [153]:
df['index'] = df.index

In [154]:
df['index'] = df['index'].astype(str)+'$'

In [155]:
df['index_similarity'] = df['index']+df['title']

In [157]:
def similarites(row): # change similiar titles to indexs
    similarities_list  = difflib.get_close_matches(row, list(df[df.index_similarity!=row].index_similarity), cutoff = 0.8)
    
    index_lst =[]
    if len(similarities_list) > 1:
        for i in similarities_list:
            similar =  re.findall('^(\d{1,})[$]',i)
            index_lst.append(similar)
            
    return index_lst

In [158]:
df['title_similar_index'] = df.index_similarity.apply(lambda row : similarites(row))

In [239]:
dup_list = []
for i in df.title_similar_index:
    dup =  re.findall('\d+',str(i))
    if len(dup) == 0:
        pass
    else:
        dup_list.append(list(map(int, dup))) #숫자로 바꿔줌

In [242]:
flat_dup_list = [item for sublist in dup_list for item in sublist]

In [245]:
flat_dup_list = set(flat_dup_list)
len(flat_dup_list)

3199

In [257]:
df = df.drop(list(flat_dup_list))

-----------

In [254]:
df.iloc[8995]

date                                                2022.06.14.
title                          "모친 앞서 딸 살해…피해자 모친 정신적 피해도 심리돼야"
url                    https://www.nocutnews.co.kr/news/5771678
index                                                     8995$
index_similarity          8995$"모친 앞서 딸 살해…피해자 모친 정신적 피해도 심리돼야"
title_similar_index                    [[8895], [8795], [8695]]
Name: 8995, dtype: object

# 비슷한 거들 하나씩만 남기고 삭제하는 방법을 모르겠음..

In [285]:
df.drop(['index','index_similarity','title_similar_index'], axis=1, inplace=True)

In [261]:
df.reset_index(drop=True, inplace=True)

-------

## 3. 처벌 

In [262]:
import re

for i in range(len(df)): 
    punishment = df.loc[i,'title']

    punishment = re.sub('[-=+,#/\?:^.@*\"※~ㆍ!』‘|\(\)\[\]`\'…》\”\“\’·]', ' ', punishment)
    punishment = re.sub('\s{2,}',' ',punishment) 
    punishment =  re.findall('[가-힣]+형\s|사형|무기징역|징역\s*\d*년',punishment)     # 예. 집행유예형 ... 
    punishment = ' '.join(punishment)

    
    df.loc[i,'punish']= punishment

-----------------

## 4. 정규표현식과 명사 (뉴스 핵심 키워드)

In [264]:
from konlpy.tag import Okt
import re

for i in range(len(df)): # df 의 행 수만큼 for 문 돌린다.
    news = df.loc[i,'title'] # news 컬럼만의 각 값을 순서대로 가져온다.
    news =  re.findall('[가-힣]+|[가-힣]+\d+|\d+[가-힣]+',news)    # 가져온 행의 값에서 정규표현식 수행 # 영어 추가..\w
    news = ' '.join(news) # 위에서는 한글과 숫자만 추출된 요소들이 list 안에 있으니 전부를 하나로 묶어줌, 이때 스페이스로 분리
    news = re.sub('^\s+|\s+$|\s{2,}','',news) # 불필요한 공백들을 전부 제거

    okt = Okt()
    morph = okt.pos(news)
    noun_list = []
    for word, tag in morph:
        if (tag=='Noun') & (len(word) > 1):# 형용사 
            noun_list.append(word)
    noun_list= ' '.join(noun_list)
    
    df.loc[i,'nouns']= noun_list

------------

----------

## 5. 가해자 나이대

import re

for i in range(len(df)): 
    news = df.loc[i,'title'] 
    news =  re.search('살해\w*\s(\d+)[대]',news)
    if news:
        news = news.group()
    

    df.loc[i,'age']= news
    
df.head(30)

In [266]:
import re

for i in range(len(df)): # df 의 행 수만큼 for 문 돌린다.
    news = df.loc[i,'title'] # news 컬럼만의 각 값을 순서대로 가져온다.
    news =  re.findall('(\d+)[대]',news)    # 가져온 행의 값에서 정규표현식 수행 # 영어 추가..\w
    
    if len(news)== 0:
        news= None
    
    elif len(news) > 1 : # 두개 나오는 경우가 있는데 보통 가해자는 뒷쪽에 나오기 때문에 두번째 것
        news = news[1]
    else:
        news = news[0]

    df.loc[i,'age']= news
    
df.head(30)

Unnamed: 0,date,title,url,index,index_similarity,title_similar_index,징역,nouns,age
0,2022.01.31.,'제2의 자두 사건'...고양이 살해범 잡아주세요,https://www.ytn.co.kr/_ln/0115_202201312029383965,0$,0$'제2의 자두 사건'...고양이 살해범 잡아주세요,[],,자두 사건 고양이 살해,
1,2022.01.31.,"""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",http://www.newsis.com/view/?id=NISX20220131_0001743534&cID=10812&pID=10800,1$,"1$""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",[],,고양이 꼬리 잡고 바닥 살해 경찰 수사 착수,
2,2022.01.31.,"이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",http://news.kmib.co.kr/article/view.asp?arcid=0016723451&code=61111111&cp=nv,2$,"2$이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",[],,이재명 고양이 두부 잔혹 살해 사람 수도,
3,2022.01.31.,[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,https://www.news1.kr/articles/?4570950,3$,3$[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,[],,사건 구성 범행 피해자 언니 살해 인면수,30.0
4,2022.01.30.,"[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",https://www.news1.kr/articles/?4570040,4$,"4$[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",[],,사건 구성 연하 남친 살해 돌싱 창피해,
5,2022.01.30.,고양이 ‘두부’ 잔혹 살해 범죄에 이재명 “경찰 적극 수사해야”,https://www.hani.co.kr/arti/politics/politics_general/1029321.html,5$,5$고양이 ‘두부’ 잔혹 살해 범죄에 이재명 “경찰 적극 수사해야”,[],,고양이 두부 잔혹 살해 범죄 이재명 경찰 적극 수사,
6,2022.01.26.,16세 연하 남친 흉기 살해 30대 여성 징역 22년,https://www.seoul.co.kr/news/newsView.php?id=20220126500100&wlog_tag3=naver,6$,6$16세 연하 남친 흉기 살해 30대 여성 징역 22년,[],징역 22년,연하 남친 흉기 살해 여성 징역,30.0
7,2022.01.26.,결혼 1달 만에 아내 폭행·살해한 50대에 징역 30년 구형,http://www.newsis.com/view/?id=NISX20220126_0001738203&cID=10807&pID=10800,9$,9$결혼 1달 만에 아내 폭행·살해한 50대에 징역 30년 구형,[],징역 30년,결혼 아내 폭행 살해 징역 구형,50.0
8,2022.01.26.,"“내 번호 왜 지워”… 남친 살해한 여성, 무기징역→징역 22년 감형",https://biz.chosun.com/topics/law_firm/2022/01/26/CICTF4BSGBGEVFNH2M2SFIA7ZI/?utm_source=naver&utm_medium=original&utm_campaign=biz,10$,"10$“내 번호 왜 지워”… 남친 살해한 여성, 무기징역→징역 22년 감형",[],무기징역 징역 22년,번호 남친 살해 여성 무기징역 징역 감형,
9,2022.01.30.,창원서 고양이 꼬리 잡고 살해…이재명 “경찰의 적극 수사 요청”,http://www.segye.com/content/html/2022/01/30/20220130506469.html?OutUrl=naver,11$,11$창원서 고양이 꼬리 잡고 살해…이재명 “경찰의 적극 수사 요청”,[],,창원 고양이 꼬리 잡고 살해 이재명 경찰 적극 수사 요청,


-------------

## 6. 국내로 제한
1. 제외 대상인 국가 리스트  추출 

In [267]:
#https://ko.wiktionary.org/wiki/%EB%B6%80%EB%A1%9D:%EC%84%B8%EA%B3%84%EC%9D%98_%EB%82%98%EB%9D%BC# Q. 네이버 영화 랭킹 가져와서 첫번째 영화제목을 출력하세요
from bs4 import BeautifulSoup
import re
import pandas
import urllib.request as rq

url = 'https://ko.wiktionary.org/wiki/%EB%B6%80%EB%A1%9D:%EC%84%B8%EA%B3%84%EC%9D%98_%EB%82%98%EB%9D%BC'
html = rq.urlopen(url) # 사이트 열기
bs = BeautifulSoup(html,'html.parser')
countries = bs.find_all('tr') 

country_list = []
for country in countries:
    country=country.find('td') # 첫번째 열에 국가 이름이 있기 때문
    if  country:
        country = country.get_text()
        country = country[:-1] # 이름 마다 끝에 \n 이 있어서 
        country_list.append(country)

country_list.append('아베')
country_list.remove('한국')
country_list.append('중국')

###### country_list

In [268]:
df.head(15)

Unnamed: 0,date,title,url,index,index_similarity,title_similar_index,징역,nouns,age
0,2022.01.31.,'제2의 자두 사건'...고양이 살해범 잡아주세요,https://www.ytn.co.kr/_ln/0115_202201312029383965,0$,0$'제2의 자두 사건'...고양이 살해범 잡아주세요,[],,자두 사건 고양이 살해,
1,2022.01.31.,"""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",http://www.newsis.com/view/?id=NISX20220131_0001743534&cID=10812&pID=10800,1$,"1$""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",[],,고양이 꼬리 잡고 바닥 살해 경찰 수사 착수,
2,2022.01.31.,"이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",http://news.kmib.co.kr/article/view.asp?arcid=0016723451&code=61111111&cp=nv,2$,"2$이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",[],,이재명 고양이 두부 잔혹 살해 사람 수도,
3,2022.01.31.,[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,https://www.news1.kr/articles/?4570950,3$,3$[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,[],,사건 구성 범행 피해자 언니 살해 인면수,30.0
4,2022.01.30.,"[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",https://www.news1.kr/articles/?4570040,4$,"4$[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",[],,사건 구성 연하 남친 살해 돌싱 창피해,
5,2022.01.30.,고양이 ‘두부’ 잔혹 살해 범죄에 이재명 “경찰 적극 수사해야”,https://www.hani.co.kr/arti/politics/politics_general/1029321.html,5$,5$고양이 ‘두부’ 잔혹 살해 범죄에 이재명 “경찰 적극 수사해야”,[],,고양이 두부 잔혹 살해 범죄 이재명 경찰 적극 수사,
6,2022.01.26.,16세 연하 남친 흉기 살해 30대 여성 징역 22년,https://www.seoul.co.kr/news/newsView.php?id=20220126500100&wlog_tag3=naver,6$,6$16세 연하 남친 흉기 살해 30대 여성 징역 22년,[],징역 22년,연하 남친 흉기 살해 여성 징역,30.0
7,2022.01.26.,결혼 1달 만에 아내 폭행·살해한 50대에 징역 30년 구형,http://www.newsis.com/view/?id=NISX20220126_0001738203&cID=10807&pID=10800,9$,9$결혼 1달 만에 아내 폭행·살해한 50대에 징역 30년 구형,[],징역 30년,결혼 아내 폭행 살해 징역 구형,50.0
8,2022.01.26.,"“내 번호 왜 지워”… 남친 살해한 여성, 무기징역→징역 22년 감형",https://biz.chosun.com/topics/law_firm/2022/01/26/CICTF4BSGBGEVFNH2M2SFIA7ZI/?utm_source=naver&utm_medium=original&utm_campaign=biz,10$,"10$“내 번호 왜 지워”… 남친 살해한 여성, 무기징역→징역 22년 감형",[],무기징역 징역 22년,번호 남친 살해 여성 무기징역 징역 감형,
9,2022.01.30.,창원서 고양이 꼬리 잡고 살해…이재명 “경찰의 적극 수사 요청”,http://www.segye.com/content/html/2022/01/30/20220130506469.html?OutUrl=naver,11$,11$창원서 고양이 꼬리 잡고 살해…이재명 “경찰의 적극 수사 요청”,[],,창원 고양이 꼬리 잡고 살해 이재명 경찰 적극 수사 요청,


2. 국가 이름이 언급된 뉴스 제목들은 제거 

In [269]:
index = 0
delete_rows = []
for i in range(len(df)): 
    nouns = df.loc[i,'nouns'] #제목 내에 명사들
    nouns = nouns.split()
    for noun in nouns: # 각 명사 살펴보기
        if noun in country_list: # 리스트에 있으면 제거 요소로 추가
            print(noun)
            delete_rows.append(index)
        else: 
            pass
        
    index +=1

print(delete_rows)
df.drop(set(delete_rows), inplace=True) # 한 제목에 여러 국가 관련 단어 들어있을 수 잇으니 unique 로 
df

과테말라
중국
카자흐스탄
카자흐스탄
베트남
과테말라
중국
중국
중국
멕시코
중국
파키스탄
프랑스
피지
프랑스
베트남
카자흐스탄
파키스탄
프랑스
피지
프랑스
베트남
카자흐스탄
독일
온두라스
독일
온두라스
독일
온두라스
독일
온두라스
독일
온두라스
독일
온두라스
[74, 78, 88, 111, 220, 225, 230, 246, 251, 268, 291, 307, 316, 327, 435, 579, 582, 595, 604, 615, 722, 866, 869, 5265, 5321, 5391, 5447, 5491, 5547, 5591, 5647, 5691, 5747, 5791, 5847]


Unnamed: 0,date,title,url,index,index_similarity,title_similar_index,징역,nouns,age
0,2022.01.31.,'제2의 자두 사건'...고양이 살해범 잡아주세요,https://www.ytn.co.kr/_ln/0115_202201312029383965,0$,0$'제2의 자두 사건'...고양이 살해범 잡아주세요,[],,자두 사건 고양이 살해,
1,2022.01.31.,"""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",http://www.newsis.com/view/?id=NISX20220131_0001743534&cID=10812&pID=10800,1$,"1$""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",[],,고양이 꼬리 잡고 바닥 살해 경찰 수사 착수,
2,2022.01.31.,"이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",http://news.kmib.co.kr/article/view.asp?arcid=0016723451&code=61111111&cp=nv,2$,"2$이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",[],,이재명 고양이 두부 잔혹 살해 사람 수도,
3,2022.01.31.,[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,https://www.news1.kr/articles/?4570950,3$,3$[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,[],,사건 구성 범행 피해자 언니 살해 인면수,30
4,2022.01.30.,"[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",https://www.news1.kr/articles/?4570040,4$,"4$[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",[],,사건 구성 연하 남친 살해 돌싱 창피해,
...,...,...,...,...,...,...,...,...,...
5870,2022.06.14.,"""모친 앞서 딸 살해…피해자 모친 정신적 피해도 심리돼야""",https://www.nocutnews.co.kr/news/5771678,8595$,"8595$""모친 앞서 딸 살해…피해자 모친 정신적 피해도 심리돼야""","[[8995], [8895], [8795]]",,모친 앞서 살해 피해자 모친 정신 피해 심리,
5871,2022.06.26.,"'발달장애 자녀 살해' 친모들… 같은 죄, 다른 벌 이유는?",http://www.kyeongin.com/main/view.php?key=20220625010004576,8596$,"8596$'발달장애 자녀 살해' 친모들… 같은 죄, 다른 벌 이유는?","[[8996], [8896], [8796]]",,발달장애 자녀 살해 친모 다른 이유,
5872,2022.06.20.,"술취해 12년 사실혼 끝에 헤어지자 흉기 휘두른 60대, 징역형",http://www.newsis.com/view/?id=NISX20220620_0001912948&cID=10810&pID=10800,8597$,"8597$술취해 12년 사실혼 끝에 헤어지자 흉기 휘두른 60대, 징역형","[[8997], [8897], [8797]]",,술취해 사실혼 헤어지자 흉기 징역형,60
5873,2022.06.17.,‘스토킹 살해’ 김병찬 징역 35년… 모친 “예쁜 딸 안 돌아와” 오열,https://news.kmib.co.kr/article/view.asp?arcid=0924250762&code=11131200&cp=nv,8598$,8598$‘스토킹 살해’ 김병찬 징역 35년… 모친 “예쁜 딸 안 돌아와” 오열,"[[8998], [8898], [8798]]",징역 35년,스토킹 살해 김병찬 징역 모친 오열,


In [270]:
df.head(50)

Unnamed: 0,date,title,url,index,index_similarity,title_similar_index,징역,nouns,age
0,2022.01.31.,'제2의 자두 사건'...고양이 살해범 잡아주세요,https://www.ytn.co.kr/_ln/0115_202201312029383965,0$,0$'제2의 자두 사건'...고양이 살해범 잡아주세요,[],,자두 사건 고양이 살해,
1,2022.01.31.,"""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",http://www.newsis.com/view/?id=NISX20220131_0001743534&cID=10812&pID=10800,1$,"1$""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",[],,고양이 꼬리 잡고 바닥 살해 경찰 수사 착수,
2,2022.01.31.,"이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",http://news.kmib.co.kr/article/view.asp?arcid=0016723451&code=61111111&cp=nv,2$,"2$이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",[],,이재명 고양이 두부 잔혹 살해 사람 수도,
3,2022.01.31.,[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,https://www.news1.kr/articles/?4570950,3$,3$[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,[],,사건 구성 범행 피해자 언니 살해 인면수,30.0
4,2022.01.30.,"[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",https://www.news1.kr/articles/?4570040,4$,"4$[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",[],,사건 구성 연하 남친 살해 돌싱 창피해,
5,2022.01.30.,고양이 ‘두부’ 잔혹 살해 범죄에 이재명 “경찰 적극 수사해야”,https://www.hani.co.kr/arti/politics/politics_general/1029321.html,5$,5$고양이 ‘두부’ 잔혹 살해 범죄에 이재명 “경찰 적극 수사해야”,[],,고양이 두부 잔혹 살해 범죄 이재명 경찰 적극 수사,
6,2022.01.26.,16세 연하 남친 흉기 살해 30대 여성 징역 22년,https://www.seoul.co.kr/news/newsView.php?id=20220126500100&wlog_tag3=naver,6$,6$16세 연하 남친 흉기 살해 30대 여성 징역 22년,[],징역 22년,연하 남친 흉기 살해 여성 징역,30.0
7,2022.01.26.,결혼 1달 만에 아내 폭행·살해한 50대에 징역 30년 구형,http://www.newsis.com/view/?id=NISX20220126_0001738203&cID=10807&pID=10800,9$,9$결혼 1달 만에 아내 폭행·살해한 50대에 징역 30년 구형,[],징역 30년,결혼 아내 폭행 살해 징역 구형,50.0
8,2022.01.26.,"“내 번호 왜 지워”… 남친 살해한 여성, 무기징역→징역 22년 감형",https://biz.chosun.com/topics/law_firm/2022/01/26/CICTF4BSGBGEVFNH2M2SFIA7ZI/?utm_source=naver&utm_medium=original&utm_campaign=biz,10$,"10$“내 번호 왜 지워”… 남친 살해한 여성, 무기징역→징역 22년 감형",[],무기징역 징역 22년,번호 남친 살해 여성 무기징역 징역 감형,
9,2022.01.30.,창원서 고양이 꼬리 잡고 살해…이재명 “경찰의 적극 수사 요청”,http://www.segye.com/content/html/2022/01/30/20220130506469.html?OutUrl=naver,11$,11$창원서 고양이 꼬리 잡고 살해…이재명 “경찰의 적극 수사 요청”,[],,창원 고양이 꼬리 잡고 살해 이재명 경찰 적극 수사 요청,


In [271]:
df.reset_index(drop=True, inplace=True)

In [272]:
df.head(20)

Unnamed: 0,date,title,url,index,index_similarity,title_similar_index,징역,nouns,age
0,2022.01.31.,'제2의 자두 사건'...고양이 살해범 잡아주세요,https://www.ytn.co.kr/_ln/0115_202201312029383965,0$,0$'제2의 자두 사건'...고양이 살해범 잡아주세요,[],,자두 사건 고양이 살해,
1,2022.01.31.,"""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",http://www.newsis.com/view/?id=NISX20220131_0001743534&cID=10812&pID=10800,1$,"1$""고양이 꼬리잡고 바닥에 내리쳐 살해""…경찰 수사 착수",[],,고양이 꼬리 잡고 바닥 살해 경찰 수사 착수,
2,2022.01.31.,"이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",http://news.kmib.co.kr/article/view.asp?arcid=0016723451&code=61111111&cp=nv,2$,"2$이재명, 고양이 ‘두부’ 잔혹 살해에 “사람 향할 수도”",[],,이재명 고양이 두부 잔혹 살해 사람 수도,
3,2022.01.31.,[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,https://www.news1.kr/articles/?4570950,3$,3$[사건의 재구성]범행 감추려고 피해자 언니까지 살해한 인면수심 30대,[],,사건 구성 범행 피해자 언니 살해 인면수,30.0
4,2022.01.30.,"[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",https://www.news1.kr/articles/?4570040,4$,"4$[사건의 재구성] 16살 연하 남친 살해한 돌싱녀…""내가 창피해?""",[],,사건 구성 연하 남친 살해 돌싱 창피해,
5,2022.01.30.,고양이 ‘두부’ 잔혹 살해 범죄에 이재명 “경찰 적극 수사해야”,https://www.hani.co.kr/arti/politics/politics_general/1029321.html,5$,5$고양이 ‘두부’ 잔혹 살해 범죄에 이재명 “경찰 적극 수사해야”,[],,고양이 두부 잔혹 살해 범죄 이재명 경찰 적극 수사,
6,2022.01.26.,16세 연하 남친 흉기 살해 30대 여성 징역 22년,https://www.seoul.co.kr/news/newsView.php?id=20220126500100&wlog_tag3=naver,6$,6$16세 연하 남친 흉기 살해 30대 여성 징역 22년,[],징역 22년,연하 남친 흉기 살해 여성 징역,30.0
7,2022.01.26.,결혼 1달 만에 아내 폭행·살해한 50대에 징역 30년 구형,http://www.newsis.com/view/?id=NISX20220126_0001738203&cID=10807&pID=10800,9$,9$결혼 1달 만에 아내 폭행·살해한 50대에 징역 30년 구형,[],징역 30년,결혼 아내 폭행 살해 징역 구형,50.0
8,2022.01.26.,"“내 번호 왜 지워”… 남친 살해한 여성, 무기징역→징역 22년 감형",https://biz.chosun.com/topics/law_firm/2022/01/26/CICTF4BSGBGEVFNH2M2SFIA7ZI/?utm_source=naver&utm_medium=original&utm_campaign=biz,10$,"10$“내 번호 왜 지워”… 남친 살해한 여성, 무기징역→징역 22년 감형",[],무기징역 징역 22년,번호 남친 살해 여성 무기징역 징역 감형,
9,2022.01.30.,창원서 고양이 꼬리 잡고 살해…이재명 “경찰의 적극 수사 요청”,http://www.segye.com/content/html/2022/01/30/20220130506469.html?OutUrl=naver,11$,11$창원서 고양이 꼬리 잡고 살해…이재명 “경찰의 적극 수사 요청”,[],,창원 고양이 꼬리 잡고 살해 이재명 경찰 적극 수사 요청,


## 뉴스 기사 분석 토대로 만든 살인 범죄 사전 (+유사단어 및 통계에서 얻은 키워드 추가)

In [265]:
crime_dict = pd.read_csv('./범죄_사전.csv', encoding='utf-8')
crime_dict.head()

Unnamed: 0,person,method,reason
0,아내,흉기,생활고
1,남자친구,둔기,잔소리
2,아들,성폭행,빚
3,여친,성추행,장애
4,부부,폭행,복수


## 7. 피해자

In [273]:
for i in range(len(df)): # df 의 행 수만큼 for 문 돌린다.
    victim = df.loc[i,'nouns'] # 컬럼만의 각 값을 순서대로 가져온다.
    victim = list(victim.split())
    
    temp_li = []
    if '살해' in victim:
        index = victim.index('살해') #살해 라는 단어 전 단어들만 추출
        victim = victim[:index]

        if len(victim) > 0:

            for v in victim:
                v = list(v.split())
                for j in v:
                    if j in list(crime_dict['person']):
                        temp_li.append(j)
                    
                            
    
    
    if len(temp_li) > 0:
        print(temp_li)
        temp_li = temp_li[-1] #여러개 나올 경우 살해 바로 전 사람단어로 선택
        df.loc[i,'victim']= temp_li
        
    else:
        
        df.loc[i,'victim']= None
    


['피해자', '언니']
['아내']
['자매']
['이웃']
['아들']
['자매']
['남편']
['자매']
['자매']
['남편']
['동거']
['여자친구']
['여친']
['고교생']
['자매']
['지인', '여성']
['자매']
['자매']
['남자친구']
['자녀']
['아내']
['아내']
['아내']
['자매']
['아들']
['친구']
['아내']
['여자친구', '언니']
['친구']
['이웃']
['남자친구']
['자매']
['자매']
['이웃']
['친구']
['여자친구', '언니']
['자매']
['모친']
['아내']
['친구']
['아내']
['남자친구']
['자매']
['자매']
['이웃']
['아내']
['아내']
['친구']
['여자친구', '언니']
['연인']
['여친', '언니']
['지인']
['지인']
['자매']
['지인']
['남자친구']
['자매']
['자매']
['자매']
['자매']
['여자친구', '언니']
['고교생']
['형제']
['고교생']
['여성']
['지인']
['지인']
['아버지']
['아내']
['지인']
['아내']
['지인']
['아내']
['아내']
['아내']
['아내']
['아내']
['아버지']
['피해자']
['아내']
['동거']
['아내']
['여자친구']
['자녀', '아내']
['아들']
['아들', '아내']
['동거', '피해자']
['여친']
['동거']
['연인']
['부모']
['아내']
['누나']
['아내']
['애인']
['동거']
['아내']
['동생']
['친구']
['아내']
['아내']
['노모']
['여성']
['부모']
['아내']
['동거']
['친구']
['아내']
['노모']
['남편']
['아내']
['아내']
['지인']
['아버지']
['아내']
['동거']
['아내']
['아버지']
['아내']
['아내']
['아내']
['노모']
['아내']
['노모']
['아들']
['동거']
['여자친구']
['아내']
['아내']
['애인'

## 8. 가해자

In [275]:
for i in range(len(df)): # df 의 행 수만큼 for 문 돌린다.
    victim = df.loc[i,'nouns'] # 컬럼만의 각 값을 순서대로 가져온다.
    victim = list(victim.split())
    
    temp_li = []
    if '살해' in victim:
        index = victim.index('살해') #살해 라는 단어 후 단어들만 추출
        victim = victim[(index+1):]

        if len(victim) > 0:

            for v in victim:
                v = list(v.split())
                for j in v:
                    if j in list(crime_dict['person']):
                        temp_li.append(j)
                    
                            
    
    
    if len(temp_li) > 0:
        print(temp_li)
        temp_li = temp_li[0] #여러개 나올 경우 살해 바로 후 사람단어로 선택
        df.loc[i,'murderer']= temp_li
        
    else:
        
        df.loc[i,'murderer']= None
    

['여성']
['여성']
['직원']
['아버지']
['동생']
['아내']
['형제']
['직원']
['형제', '동생']
['동거']
['아버지']
['동거']
['형제']
['엄마']
['남편']
['형제']
['어머니']
['형제']
['여성']
['직원']
['형제', '동생']
['형제']
['여성']
['동생']
['형제']
['형제']
['동생']
['형제']
['자매']
['형제', '동생']
['형제']
['형제']
['형제']
['형제']
['여성']
['여친']
['동생']
['형제']
['형제']
['형제', '동생']
['동생', '형제']
['형제', '동생']
['형제', '동생']
['여성']
['남편']
['남편']
['피해자']
['계부']
['남편']
['아들']
['동생']
['남편']
['아들']
['부부']
['오빠']
['어머니']
['남편']
['여성']
['아들']
['아내']
['부부']
['여성']
['가해자']
['남편']
['부부']
['아내']
['아들']
['아들']
['부부']
['부부']
['남편']
['어머니']
['아들']
['아들', '어머니']
['남편']
['부부']
['아들']
['남편']
['부부']
['부부']
['남편']
['남편']
['어머니']
['아내']
['부부']
['아들']
['남편']
['아버지']
['여성']
['아들']
['아들']
['부부']
['아버지']
['남편']
['부부']
['어머니']
['친부']
['아들']
['직원']
['여성']
['아들']
['아버지']
['계부']
['여친', '엄마']
['누나']
['아들']
['이웃']
['남편']
['여성']
['가해자']
['여성']
['남편']
['남편']
['피해자']
['계부']
['남편']
['아들']
['동생']
['남편']
['아들']
['부부']
['오빠']
['어머니']
['남편']
['여성']
['아들']
['아내']
['부부']
['여성']
['가해자']
['남편']
['부부']
['아내'

## 9. 피해자와 가해자 둘중 하나가 None일 경우 관계를 파악

In [277]:
import re

for i in range(len(df)): # df 의 행 수만큼 for 문 돌린다.
    victim = df.loc[i,'victim']
    
    
    if df.loc[i,'murderer'] == None: # 비어있을 경우에만 
        if victim == '아내':
            df.loc[i,'murderer'] = '남편'

        if victim == '배우자':
            df.loc[i,'murderer'] = '배우자'

        if victim == '친구':
            df.loc[i,'murderer'] = '친구'

        if victim == '부모':
            df.loc[i,'murderer'] = '자식'

        if victim == '지인':
            df.loc[i,'murderer'] = '지인'
        

In [278]:
import re

for i in range(len(df)): # df 의 행 수만큼 for 문 돌린다.
    murderer = df.loc[i,'murderer']
    
    
    if df.loc[i,'victim'] == None: # 비어있을 경우에만 
        if murderer == '아내':
            df.loc[i,'victim'] = '남편'

        if murderer == '배우자':
            df.loc[i,'victim'] = '배우자'

        if murderer == '친구':
            df.loc[i,'victim'] = '친구'

        if murderer == '부모':
            df.loc[i,'victim'] = '자식'

        if murderer == '지인':
            df.loc[i,'victim'] = '지인'
            
        if murderer == '자식':
            df.loc[i,'victim'] = '부모'
            
        if murderer == '아버지' or murderer == '어머니':
            df.loc[i,'victim'] = '자녀'
        

## 10 . 결과

In [292]:
preprocessed_df = df[df[['title','url','징역','age','victim','murderer']].notna().all(axis=1)]

In [293]:
preprocessed_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 605 entries, 7 to 5821
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   date      605 non-null    object
 1   title     605 non-null    object
 2   url       605 non-null    object
 3   징역        605 non-null    object
 4   nouns     605 non-null    object
 5   age       605 non-null    object
 6   victim    605 non-null    object
 7   murderer  605 non-null    object
dtypes: object(8)
memory usage: 42.5+ KB


In [302]:
preprocessed_df.columns = ['date', 'title', 'url', '처벌','범죄_키워드','가해자_나이대','피해자','가해자']

In [303]:
preprocessed_df.head(50)

Unnamed: 0,date,title,url,처벌,범죄_키워드,가해자_나이대,피해자,가해자
7,2022.01.26.,결혼 1달 만에 아내 폭행·살해한 50대에 징역 30년 구형,http://www.newsis.com/view/?id=NISX20220126_0001738203&cID=10807&pID=10800,징역 30년,결혼 아내 폭행 살해 징역 구형,50,아내,남편
38,2022.01.29.,"술주정·폭언·욕설 시달려 남편 살해한 60대 아내, '징역 4년'",https://www.news1.kr/articles/?4570429,징역 4년,주정 폭언 욕설 남편 살해 아내 징역,60,남편,아내
80,2022.01.13.,아내 용서에도…흉기로 살해한 40대 '징역 25년' 구형,https://www.nocutnews.co.kr/news/5689758,징역 25년,아내 용서 흉기 살해 징역 구형,40,아내,남편
86,2022.01.26.,이혼 소송 중 장검으로 아내 살해한 40대에 무기징역 구형,https://view.asiae.co.kr/article/2022012615490412989,무기징역,이혼 소송 장검 아내 살해 무기징역 구형,40,아내,남편
91,2022.01.24.,“왜 수익금 안 줘”…동업 친구 살해하려 한 20대 3명 징역형,https://www.seoul.co.kr/news/newsView.php?id=20220124500042&wlog_tag3=naver,,수익금 동업 친구 살해 징역형,20,친구,친구
92,2022.01.26.,"혼인신고 한 달 뒤 아내 살해 혐의 50대… 검찰, 징역 30년 구형",http://moneys.mt.co.kr/news/mwView.php?no=2022012613218073461,징역 30년,혼인신고 아내 살해 혐의 검찰 징역 구형,50,아내,남편
95,2022.01.24.,수익 배분에 불만 품고 동업하는 친구 살해 시도한 20대 징역 4년,http://www.segye.com/content/html/2022/01/24/20220124502333.html?OutUrl=naver,징역 4년,수익 배분 불만 동업 친구 살해 시도 징역,20,친구,친구
116,2022.01.24.,"""왜 수익금 안 줘"" 동업 친구 살해 시도 20대 3명 실형·집유",https://hankookilbo.com/News/Read/A2022012409190003646?did=NA,실형,수익금 동업 친구 살해 시도 실형 집유,20,친구,친구
130,2022.01.26.,"장인 앞에서 아내 살해 40대男 ""평생 속죄""...檢 무기징역 구형",http://news.mt.co.kr/mtview.php?no=2022012616532912423,무기징역,장인 아내 살해 평생 속죄 무기징역 구형,40,아내,남편
136,2022.01.26.,"장인 앞에서 아내 수십차례 찔러 살해한 40대, 검찰 ‘무기징역’ 구형",http://www.segye.com/content/html/2022/01/26/20220126515897.html?OutUrl=naver,무기징역,장인 아내 차례 살해 검찰 무기징역 구형,40,아내,남편


In [309]:
preprocessed_df.reset_index(drop=True, inplace=True)

In [314]:
preprocessed_df.to_csv('preprocessed_df.csv')

## 같은 행에 다른 열에 있는 것들은 범죄 키워드에서 제거 

In [313]:
for i in range(len(preprocessed_df)): # df 의 행 수만큼 for 문 돌린다.
    keywords = preprocessed_df.loc[i,'범죄_키워드'] # 컬럼만의 각 값을 순서대로 가져온다.
    print(keywords)
    keywords = keywords.split()

    for keyword in keywords:
        if keyword == preprocessed_df.loc[i,'피해자']:
            print(keyword)
            keywords.remove(keyword)
        
        if keyword == preprocessed_df.loc[i,'가해자']:
            keywords.remove(keyword)
        
        if keyword == '징역':
            keywords.remove(keyword)
            
            
    preprocessed_df.loc[i,'범죄_키워드']= keywords
                            

['결혼', '폭행', '살해', '구형']


AttributeError: 'list' object has no attribute 'split'

In [None]:
import re

for i in range(len(df)): # df 의 행 수만큼 for 문 돌린다.
    victim = df.loc[i,'nouns'] # 컬럼만의 각 값을 순서대로 가져온다.
    victim = list(victim.split())
    
    temp_li = []
    if '살해' in victim:
        index = victim.index('살해') #살해 라는 단어 후 단어들만 추출
        victim = victim[(index+1):]

        if len(victim) > 0:

            for v in victim:
                v = list(v.split())
                for j in v:
                    if j in list(crime_dict['person']):
                        temp_li.append(j)
                    
                            
    
    
    if len(temp_li) > 0:
        print(temp_li)
        temp_li = temp_li[0] #여러개 나올 경우 살해 바로 후 사람단어로 선택
        df.loc[i,'murderer']= temp_li
        
    else:
        