In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import seaborn as sns

# 한글 폰트 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False ## 마이너스 부호 깨짐 방지

## 데이터 확인
1. 재범
2. 생활정도
3. 범행동기

### 재범기간 및 종류

In [2]:
recidivism_df = pd.read_csv("D:/토이프로젝트(범죄)/소년범죄자_재범기간_및_종류_4개년.csv", encoding='cp949')
print(recidivism_df.shape)
recidivism_df.head()

(126, 71)


Unnamed: 0,범죄별(1),범죄별(2),범죄별(3),2019,2019.1,2019.2,2019.3,2019.4,2019.5,2019.6,...,2022.7,2022.8,2022.9,2022.10,2022.11,2022.12,2022.13,2022.14,2022.15,2022.16
0,범죄별(1),범죄별(2),범죄별(3),합계,동종재범,동종재범,동종재범,동종재범,동종재범,동종재범,...,동종재범,동종재범,이종재범,이종재범,이종재범,이종재범,이종재범,이종재범,이종재범,이종재범
1,범죄별(1),범죄별(2),범죄별(3),소계,소계,1개월 이내,3개월 이내,6개월 이내,1년 이내,2년 이내,...,3년 이내,3년 초과,소계,1개월 이내,3개월 이내,6개월 이내,1년 이내,2년 이내,3년 이내,3년 초과
2,합계,소계,소계,26459,13013,2165,2481,2017,3816,1503,...,557,149,11922,2000,2233,1628,3628,1328,804,301
3,형법범,소계,소계,21911,11037,1957,2187,1699,3204,1159,...,393,104,9126,1734,1862,1241,2666,928,512,183
4,형법범,재산범죄,소계,13236,6821,1520,1469,1013,1917,515,...,184,44,5206,1249,1149,721,1410,381,216,80


### 생활정도 및 부모관계

In [3]:
life_df = pd.read_csv("D:/토이프로젝트(범죄)/소년범죄자_생활정도_및_부모관계_4개년.csv", encoding='cp949')
print(life_df.shape)
life_df.head()

(127, 75)


Unnamed: 0,범죄별(1),범죄별(2),범죄별(3),2019,2019.1,2019.2,2019.3,2019.4,2019.5,2019.6,...,2022.8,2022.9,2022.10,2022.11,2022.12,2022.13,2022.14,2022.15,2022.16,2022.17
0,범죄별(1),범죄별(2),범죄별(3),생활정도,생활정도,생활정도,생활정도,생활정도,부모관계,부모관계,...,부모관계,부모관계,부모관계,부모관계,부모관계,부모관계,부모관계,부모관계,부모관계,부모관계
1,범죄별(1),범죄별(2),범죄별(3),소계,하류,중류,상류,미상,소계,미혼,...,미혼,미혼,미혼,미혼,미혼,미혼,미혼,미혼,기혼,미상
2,범죄별(1),범죄별(2),범죄별(3),소계,소계,소계,소계,소계,소계,실(양)부모,...,실부계모,실부무모,실모계부,실모무부,계부무모,계모무부,무부모,미상,소계,소계
3,합계,소계,소계,66247,29085,29917,662,6583,66247,51197,...,238,2929,348,3479,34,45,673,3,225,6469
4,형법범,소계,소계,54497,23539,25048,542,5368,54497,42125,...,198,2324,290,2687,26,38,553,3,150,5387


### 범행동기

In [4]:
motive_crime_df = pd.read_csv("D:/토이프로젝트(범죄)/소년범죄자_범행동기_및_부모관계_4개년.csv", encoding='cp949')
print(motive_crime_df.shape)
motive_crime_df.head()

(25, 58)


Unnamed: 0,범행동기별(1),범행동기별(2),2019,2019.1,2019.2,2019.3,2019.4,2019.5,2019.6,2019.7,...,2022.4,2022.5,2022.6,2022.7,2022.8,2022.9,2022.10,2022.11,2022.12,2022.13
0,범행동기별(1),범행동기별(2),합계,미혼,미혼,미혼,미혼,미혼,미혼,미혼,...,미혼,미혼,미혼,미혼,미혼,미혼,미혼,미혼,기혼,미상
1,범행동기별(1),범행동기별(2),소계,소계,실(양)부모,계부모,실부계모,실부무모,실모계부,실모무부,...,실부계모,실부무모,실모계부,실모무부,계부무모,계모무부,무부모,미상,소계,소계
2,합계,소계,66247,59388,51197,115,369,2979,344,3506,...,238,2929,348,3479,34,45,673,3,225,6469
3,이욕,소계,6724,6674,5144,11,76,609,61,610,...,50,638,73,573,4,7,154,1,26,2
4,이욕,생활비마련,2252,2230,1619,8,22,252,32,224,...,24,262,37,229,1,2,52,0,7,0


# 데이터 전처리

## 재범 데이터 전처리

In [5]:
def data_cleaning(df, year):
    ## 컬럼명 수정 및 년도 데이터 프레임 생성
    df.columns = df.loc[0] + '_' + df.loc[1]
    df = pd.concat([recidivism_df.iloc[:,:3], recidivism_df[[year]], df], axis=1)
    df.drop(index=[0, 1], inplace=True)

    ## 소계 행 data 삭제
    df = df[df['범죄별(3)']!='소계']
    df = df.reset_index(drop=True)

    ## 데이터 타입 int 변환
    col = df.columns[3:]
    df[col] = df[col].astype(int) 
    
    return df

In [6]:
### 재범 데이터 전처리
# 1. 특별법은 (3)이 다 소계이다. 따라서 (2) -> (3)으로 옮기는 작업 필요 헝법범은 다 값이 있다. 
recidivism_df = pd.read_csv("D:/토이프로젝트(범죄)/소년범죄자_재범기간_및_종류_4개년.csv", encoding='cp949')

## 결측치 데이터 0으로 수정 
recidivism_df.replace({'-': '0'}, inplace=True)

# ## 년도 데이터 수정
recidivism_df[['2019', '2020', '2021', '2022']] = '2019', '2020', '2021', '2022'

### 1번 작업
condtion = (recidivism_df['범죄별(1)'] != "형법범") & (recidivism_df['범죄별(2)'] != "소계") & (recidivism_df['범죄별(3)'] == "소계")
recidivism_df.loc[condtion, '범죄별(3)'] = recidivism_df.loc[condtion, '범죄별(2)']

In [7]:
# 년도별 데이터 분할
df_2019 = recidivism_df.loc[:, '2019.1':'2019.16'].copy()
df_2020 = recidivism_df.loc[:, '2020.1':'2020.16'].copy()
df_2021 = recidivism_df.loc[:, '2021.1':'2021.16'].copy()
df_2022 = recidivism_df.loc[:, '2022.1':].copy()

# 데이터 전처리
df_2019 = data_cleaning(df_2019, '2019')

df_2020 = data_cleaning(df_2020, '2020')

df_2021 = data_cleaning(df_2021, '2021')

df_2022 = data_cleaning(df_2022, '2022')

## 데이터 확인
# df_2019,df_2020,df_2021,df_2022
df_2019

Unnamed: 0,범죄별(1),범죄별(2),범죄별(3),2019,동종재범_소계,동종재범_1개월 이내,동종재범_3개월 이내,동종재범_6개월 이내,동종재범_1년 이내,동종재범_2년 이내,동종재범_3년 이내,동종재범_3년 초과,이종재범_소계,이종재범_1개월 이내,이종재범_3개월 이내,이종재범_6개월 이내,이종재범_1년 이내,이종재범_2년 이내,이종재범_3년 이내,이종재범_3년 초과
0,형법범,재산범죄,절도,2019,4037,960,834,611,1113,316,159,44,3860,900,896,615,978,300,121,50
1,형법범,재산범죄,장물,2019,36,7,9,6,9,2,1,2,39,7,10,7,7,2,4,2
2,형법범,재산범죄,사기,2019,2351,500,552,340,680,143,104,32,1993,352,385,266,630,182,117,61
3,형법범,재산범죄,횡령,2019,206,26,28,33,67,29,21,2,253,33,35,27,92,38,19,9
4,형법범,재산범죄,배임,2019,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
108,특별법범,폐기물관리법,폐기물관리법,2019,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
109,특별법범,풍속영업의규제에관한법률,풍속영업의규제에관한법률,2019,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
110,특별법범,학원의설립운영및과외교습에관한법률,학원의설립운영및과외교습에관한법률,2019,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
111,특별법범,화물자동차운수사업법,화물자동차운수사업법,2019,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


## 생활정도 및 부모관계

In [9]:
def data_cleaning(df, year):
    
    ## 컬럼명 수정 및 년도 데이터 프레임 생성
    ## 부모관계에 대한 것만 미혼에 대한 것과 같이 묶으면 보기 편하다고 생각 (미혼이라고 생각하고 바로 컬럼을 수정해도 괜찮을 듯 -> 그렇다면 결합하지 않고 [2] 값을 [1]에 삽입하면 됨) 
    test = df.loc[1:, year+'.6': year+'.15'].copy()
    test.loc[1] = test.loc[1].values + '_' + test.loc[2].values 
    # test.loc[1] = test.loc[2].values #### 해당 부분 실행 시 결합하지 않는 방식
    df.loc[1:, year+'.6': year+'.15'] = test 

    ## 중복된 컬럼명이 존재 - '미상' 따라서 '생활정도_미상', '부모관계_미상'으로 수정
    df[year+'.4'][1] = '생활정도_미상'
    df[year+'.17'][1] = '부모관계_미상'
    df[year+'.15'][1] = '미혼_미상' #### 해당 부분 실행 시 결합하지 않는 방식
    df.columns = df.loc[1]

    ## 또한 소계 컬럼 삭제
    df.drop(columns=['소계'], inplace=True)

    ## 수정한 데이터 병합
    df = pd.concat([life_df.iloc[:,:3], life_df[[year]], df], axis=1)
    df.drop(index=[1,2], inplace=True)

    ## 소계 행 data 삭제
    df = df[df['범죄별(3)']!='소계']
    df = df.reset_index(drop=True)
    
    ## 데이터 타입 int 변환
    col = df.columns[3:]
    df[col] = df[col].astype(int) 
    
    return df

In [10]:
## 원본 데이터 불러오기
life_df = pd.read_csv("D:/토이프로젝트(범죄)/소년범죄자_생활정도_및_부모관계_4개년.csv", encoding='cp949')

## 특별법은 (3)이 다 소계이다. 따라서 (2) -> (3)으로 옮기는 작업 필요 헝법범은 다 값이 있다. 
condtion = (life_df['범죄별(1)'] != "형법범") & (life_df['범죄별(2)'] != "소계") & (life_df['범죄별(3)'] == "소계")
life_df.loc[condtion, '범죄별(3)'] = life_df.loc[condtion, '범죄별(2)']

## 0번째 인덱스는 삭제
life_df.drop([0], inplace=True)

## 결측치 데이터 '0'으로 수정 
life_df.replace({'-': '0'}, inplace=True)

## 년도 데이터 수정
life_df[['2019', '2020', '2021', '2022']] = '2019', '2020', '2021', '2022'

In [11]:
## 년도별 데이터 분할
df_2019 = life_df.loc[:, '2019.1':'2019.17'].copy()
df_2020 = life_df.loc[:, '2020.1':'2020.17'].copy()
df_2021 = life_df.loc[:, '2021.1':'2021.17'].copy()
df_2022 = life_df.loc[:, '2022.1':].copy()

# 데이터 전처리
df_2019 = data_cleaning(df_2019, '2019')

df_2020 = data_cleaning(df_2020, '2020')

df_2021 = data_cleaning(df_2021, '2021')

df_2022 = data_cleaning(df_2022, '2022')

## 데이터 확인
# df_2019,df_2020,df_2021,df_2022
df_2019

Unnamed: 0,범죄별(1),범죄별(2),범죄별(3),2019,하류,중류,상류,생활정도_미상,미혼_실(양)부모,미혼_계부모,미혼_실부계모,미혼_실부무모,미혼_실모계부,미혼_실모무부,미혼_계부무모,미혼_계모무부,미혼_무부모,미혼_미상,기혼,부모관계_미상
0,형법범,재산범죄,절도,2019,8571,7958,171,441,14271,36,127,902,113,949,9,8,247,0,38,441
1,형법범,재산범죄,장물,2019,73,89,3,10,149,0,0,4,0,11,0,1,0,0,0,10
2,형법범,재산범죄,사기,2019,4157,2850,64,1017,5765,6,49,506,42,518,5,3,125,0,50,1019
3,형법범,재산범죄,횡령,2019,588,601,15,76,1035,4,6,49,5,77,0,0,16,0,11,77
4,형법범,재산범죄,배임,2019,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
108,특별법범,폐기물관리법,폐기물관리법,2019,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
109,특별법범,풍속영업의 규제에 관한법률,풍속영업의 규제에 관한법률,2019,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
110,특별법범,학원의설립운영및과외교습에관한법률,학원의설립운영및과외교습에관한법률,2019,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
111,특별법범,화물자동차운수사업법,화물자동차운수사업법,2019,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1


## 범행 동기 전처리

In [12]:
def data_cleaning(df, year):
    ## 컬럼명 수정 및 년도 데이터 프레임 생성
    df.columns = df.loc[0] + '_' + df.loc[1]
    df = pd.concat([motive_crime_df.iloc[:,:2], motive_crime_df[[year]], df], axis=1)
    df.drop(index=[0,1], inplace=True)

    ## 소계 행 data 삭제
    df = df[df['범행동기별(2)']!='소계']
    df = df.reset_index(drop=True)

    ## 데이터 타입 int 변환
    col = df.columns[2:]
    df[col] = df[col].astype(int) 
    
    return df

In [13]:
motive_crime_df = pd.read_csv("D:/토이프로젝트(범죄)/소년범죄자_범행동기_및_부모관계_4개년.csv", encoding='cp949')
print(motive_crime_df.shape)

## 결측치 데이터 0으로 수정 
motive_crime_df.replace({'-': '0'}, inplace=True)

# ## 년도 데이터 수정
motive_crime_df[['2019', '2020', '2021', '2022']] = '2019', '2020', '2021', '2022'

(25, 58)


In [14]:
## 년도별 데이터 분할
df_2019 = motive_crime_df.loc[:, '2019.1':'2019.13'].copy()
df_2020 = motive_crime_df.loc[:, '2020.1':'2020.13'].copy()
df_2021 = motive_crime_df.loc[:, '2021.1':'2021.13'].copy()
df_2022 = motive_crime_df.loc[:, '2022.1':].copy()

# 데이터 전처리
df_2019 = data_cleaning(df_2019, '2019')

df_2020 = data_cleaning(df_2020, '2020')

df_2021 = data_cleaning(df_2021, '2021')

df_2022 = data_cleaning(df_2022, '2022')

## 데이터 확인
# df_2019,df_2020,df_2021,df_2022
df_2019

Unnamed: 0,범행동기별(1),범행동기별(2),2019,미혼_소계,미혼_실(양)부모,미혼_계부모,미혼_실부계모,미혼_실부무모,미혼_실모계부,미혼_실모무부,미혼_계부무모,미혼_계모무부,미혼_무부모,미혼_미상,기혼_소계,미상_소계
0,이욕,생활비마련,2019,2230,1619,8,22,252,32,224,2,0,71,0,17,5
1,이욕,유흥비마련,2019,985,745,3,26,75,10,104,2,0,20,0,3,0
2,이욕,도박비마련,2019,113,90,0,0,9,0,12,0,0,2,0,1,0
3,이욕,허영사치심,2019,42,35,0,1,2,1,2,0,0,1,0,0,0
4,이욕,치부,2019,11,11,0,0,0,0,0,0,0,0,0,0,0
5,이욕,기타,2019,3293,2644,0,27,271,18,268,4,0,61,0,21,3
6,보복,신고·고소,2019,6,5,0,0,0,0,1,0,0,0,0,0,0
7,보복,수사협조,2019,0,0,0,0,0,0,0,0,0,0,0,0,0
8,보복,증언,2019,0,0,0,0,0,0,0,0,0,0,0,0,0
9,보복,기타,2019,6,6,0,0,0,0,0,0,0,0,0,0,0
