[View in Colaboratory](https://colab.research.google.com/github/YoungestSalon/TIL/blob/master/%EB%B2%94%EC%A3%84%ED%86%B5%EA%B3%84(%EC%9D%B4%EC%9D%80%EC%A7%80)_v0.9.ipynb)

## 데이터 읽어오기

웹에 공개되어 있는 범죄 통계 데이터 파일을 가져와서 파이썬 리스트(list)로 변환한 후 `data`라는 이름의 변수에 담아 둡니다.

In [0]:
import pandas as pd
import numpy as np
import math

df = pd.read_csv('https://s3.ap-northeast-2.amazonaws.com/data10902/messy/crime_clean.csv')
data = [d for d in df.get_values().tolist() if not math.isnan(d[-1])]

위 코드에는 아직 배우지 않은 내용들(pandas, numpy 등)이 담겨 있습니다. 하지만 위 코드를 제외한 아래의 모든 코드는 [파이써 자습서](https://docs.python.org/ko/3/tutorial/) 3, 4, 5장에서 설명하는 내용으로만 구성되어 있습니다.

우선 데이터가 어떻게 생겼는지 확인하기 위해 리스트에서 처음 5개를 뽑아보겠습니다.

데이터는 범죄유형 대분류, 범죄유형 소분류, 발생년도, 성별, 연령대, 피해/가해 유형, 인원수 순서로 구성되어 있습니다.

In [0]:
data[:5]

[['강력범죄', '강간', 2012, '남자', '20세이하', '피해자', 0.0],
 ['강력범죄', '강간', 2012, '남자', '61세이상', '가해자', 0.0],
 ['강력범죄', '강간', 2012, '여자', '20세이하', '피해자', 0.0],
 ['강력범죄', '강간', 2012, '여자', '61세이상', '가해자', 0.0],
 ['강력범죄', '강간', 2013, '남자', '20세이하', '가해자', 1196.0]]

마지막 다섯개도 뽑아볼까요?

In [0]:
data[-5:]

[['풍속범죄', '성풍속범죄', 2016, '여자', '51-60세', '피해자', 256.0],
 ['풍속범죄', '성풍속범죄', 2016, '여자', '61세이상', '가해자', 20.0],
 ['풍속범죄', '성풍속범죄', 2016, '여자', '61세이상', '피해자', 78.0],
 ['풍속범죄', '성풍속범죄', 2016, '여자', '미상', '가해자', 5.0],
 ['풍속범죄', '성풍속범죄', 2016, '여자', '미상', '피해자', 443.0]]

 전체 데이터는 몇 건이나 있을까요?

In [0]:
len(data)

3860

전체 가해자 수는 몇 명일까요?

In [0]:
sum([d[6] for d in data if d[5] == '가해자'])

3687871.0

2015년 데이터 중 여성이 피해자인 데이터를 모두 뽑아볼까요?

In [0]:
female_victims_2015 = [d for d in data if d[2] == 2015 and d[3] == '여자' and d[5] == '피해자']
len(female_victims_2015)

190

아이디어들

1. 강력범죄 / 지능범죄 / 폭력범죄 / 풍속범죄의 비율을 구하는 함수 (전체 연도 대상)
2. 연도별 비율을 구하는 함수
3. 범죄 유형별 대분류별 소분류 중 최빈값인 소분류 구하기 (또는 많은 순서대로 sort)
4. 가해자, 피해자의 남녀 비율을 구하는 함수
5. 강력범죄 내에서 가해자, 피해자의 남녀 비율을 구하는 함수 (전체 연도 대상)
6. 강력범죄 가해자의 연령대별 비율을 구하는 함수 (전체 연도 대상)
7. 강력범죄 피해자의 연령대별 비율을 구하는 함수 (전체 연도 대상)


궁금한 점

1. 이 데이터로 최빈값, 최소값, 중앙값, 분산, 표준편차를 구하는 것이 의미가 있을까?
2. 추세선 등의 그래픽 적인 요소들을 활용하려면, matplotlib을 활용해야 할까?
3. numpy 등의 수학/과학 계산 라이브러리를 쓰면 좀 더 쉽게 분석이 가능할까?
4. pandas 라이브러리 사용해서 csv 파일 그대로 테이블로 보고 분석할 수는 없을까?
5. (너무 멀리 갔나 싶지만) 이 데이터에 scikit-learn 라이브러리 쓰면 머신러닝이 가능할까?

우선,  칼럼별로 종류를 확인해보자.

In [0]:
set(d[0] for d in data)    # 대분류

{'강력범죄', '지능범죄', '폭력범죄', '풍속범죄'}

In [0]:
set(d[1] for d in data)    # 소분류

# 대분류별 소분류를 볼 수 있는 방법은 없을까? set() 함수를 중첩해서 딕셔너리로 만들려다가 실패.

{'강간',
 '강간·강제추행',
 '강도',
 '강제추행',
 '공갈',
 '기타(강간·강제추행)',
 '도박범죄',
 '문서·인장',
 '방화',
 '배임',
 '사기',
 '살인(기수)',
 '살인(미수등)',
 '상해',
 '성풍속범죄',
 '손괴',
 '약취·유인',
 '유가증권인지',
 '유사강간',
 '증수뢰',
 '직권남용',
 '직무유기',
 '체포·감금',
 '통화',
 '폭력행위',
 '폭행',
 '협박',
 '횡령'}

소분류 + 대분류를 다시 시도해보자!

In [2]:
class_combined = list(zip(data[0], data[1]))
set(d[0] for d in class_combined)

NameError: ignored

In [0]:
 set(d[2] for d in data)    # 발생년도

{2012, 2013, 2014, 2015, 2016}

In [0]:
set(d[3] for d in data)    # 성별

{'남자', '불상', '여자'}

잠깐, 성별이 불상인 경우는 모두 피해자인가?

In [0]:
non_victims = [d for d in data if d[3] == '불상' and d[5] == '가해자']
print(len(non_victims))

0


성별이 불상이고 가해자인 경우는 없는 것으로 보아, 모든 성별 불상인 경우는 피해자일 것이다.

In [0]:
set(d[4] for d in data)    # 연령대

{'20세이하', '21-30세', '31-40세', '41-50세', '51-60세', '61세이상', '미상', '불상'}

In [0]:
set(d[5] for d in data)    # 가해, 피해 구분
# 인원수는 이산형 변수가 아니라 연속형 변수일 것 같아서 제외

{'가해자', '피해자'}


Q1-1. 전체 범죄 중 강력범죄의 비율은?

In [0]:
violent_crime = [d for d in data if d[0] == '강력범죄']
violent_percent = str(round((len(violent_crime) / len(data) * 100), 2))
print(violent_percent + "%")

28.63%


Q2. 피해자 중 여성의 비율은?

In [0]:
woman_victim = [d for d in data if d[3] == '여자' and d[5] == '피해자']
victim = [d for d in data if d[5] == '피해자']
woman_percent = str(round((len(woman_victim) / len(victim) * 100), 2))
print(woman_percent + "%")

46.69%


Q3. 강력범죄 피해자 중 여성의 비율은?

In [0]:
woman_violent_victim = [d for d in data if d[0] == '강력범죄' and d[3] == '여자' and d[5] == '피해자']
violent_victim = [d for d in data if d[0] == '강력범죄' and d[5] == '피해자']
woman_violent_victim_percent = str(round((len(woman_violent_victim) / len(violent_victim) * 100), 2))
print(woman_violent_victim_percent + "%")

# 어라, 결과값이 뭔가 이상한데...?

46.76%
