# 소개 (Introduction)


<center><img src=https://i.imgur.com/sX3K62b.png></center>

2015년 1월 1일부터 [*The Washington Post*](https://www.washingtonpost.com/)는 미국 내 경찰이 공무 수행 중 발생한 모든 총기 사망 사건을 데이터베이스화하고 있습니다.


데이터 수집 및 보고와 관련하여 많은 어려움이 있지만, *The Washington Post*는 각 사건에 대한 12개 이상의 정보를 추적해왔습니다.
이 정보에는 희생자의 **인종, 연령, 성별**, 무장 여부, 정신 건강 상태 등이 포함됩니다.

이 데이터는 **법 집행 기관 웹사이트, 지역 뉴스, 소셜 미디어** 및
*"Killed by Police"*, *"Fatal Encounters"* 와 같은 독립적인 데이터베이스를 모니터링하여 수집되었습니다.
또한 *The Washington Post*는 여러 사건에 대해 추가적인 취재를 진행하였습니다.

추가적으로, 4개의 **미국 인구 조사 데이터셋**이 포함되어 있습니다:
- 빈곤율 (Poverty rate)
- 고등학교 졸업률 (High school graduation rate)
- 중위 가계 소득 (Median household income)
- 인종 통계 (Racial demographics)

데이터 출처: [미국 인구조사 데이터](https://www.census.gov)


# Plotly 업그레이드

Google Colab을 사용하고 있다면, 아래의 셀을 실행하여 최신 버전의 Plotly를 설치하세요.


In [6]:
# pip Upgrade
!python -m pip install --upgrade pip
# plotly Upgrade
%pip install --upgrade plotly

Note: you may need to restart the kernel to use updated packages.


## Import 목록

In [8]:
import numpy as np
import pandas as pd
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns

# This might be helpful:
from collections import Counter

## Notebook Presentation (데이터 가독성 향상을 위한 설정 변경)

In [9]:
#pandas의 float 숫자 표시 형식을 변경합니다.
# 소수점 둘째 자리까지 표시 (.2f)
# 숫자에 천 단위 구분 기호(쉼표 ,) 추가
pd.options.display.float_format = '{:,.2f}'.format

## Data 로드 하기

In [10]:
df_hh_income = pd.read_csv('Median_Household_Income_2015.csv', encoding="windows-1252")
df_pct_poverty = pd.read_csv('Pct_People_Below_Poverty_Level.csv', encoding="windows-1252")
df_pct_completed_hs = pd.read_csv('Pct_Over_25_Completed_High_School.csv', encoding="windows-1252")
df_share_race_city = pd.read_csv('Share_of_Race_By_City.csv', encoding="windows-1252")
df_fatalities = pd.read_csv('Deaths_by_Police_US.csv', encoding="windows-1252")

# 데이터 탐색 (Preliminary Data Exploration)

- 데이터프레임의 **형태(shape)** 는 어떻게 되는가?
- **행과 열의 개수** 는 몇 개인가?
- **컬럼(열) 이름** 은 무엇인가?
- **결측치(NaN) 또는 중복 데이터** 가 존재하는가?


# 데이터 정리 - 결측값 및 중복 데이터 확인

결측값(NaN)을 어떻게 처리할지 고려하세요.
경우에 따라 **0으로 대체(substituting 0)** 하는 것이 적절할 수도 있습니다.


# 미국 각 주의 빈곤율 차트

미국 각 주(State)의 빈곤율을 **높은 순에서 낮은 순으로 정렬한 막대 그래프(Bar Chart)** 를 생성하세요.
어느 주가 가장 높은 빈곤율을 가지고 있는가?
어느 주가 가장 낮은 빈곤율을 가지고 있는가?


# 미국 각 주의 고등학교 졸업률 차트

미국 각 주(State)의 **고등학교 졸업률**을 **오름차순(낮은 순부터 높은 순으로) 정렬한 차트**를 생성하세요.
어느 주의 **고등학교 졸업률이 가장 낮은가?**
어느 주의 **고등학교 졸업률이 가장 높은가?**


# 빈곤율과 고등학교 졸업률 간의 관계 시각화

두 개의 **y축(y-axes)** 을 가진 **선형 차트(Line Chart)** 를 생성하여
빈곤율과 고등학교 졸업률이 함께 변하는지 확인

**Seaborn의 `jointplot()`** 을 활용하여
**커널 밀도 추정(KDE, Kernel Density Estimate) 및/또는 산점도(Scatter Plot)** 를 사용해 동일한 관계를 시각화

Seaborn의 **`.lmplot()`** 또는 **`.regplot()`** 을 활용하여
빈곤율과 고등학교 졸업률 간의 **선형 회귀 분석(Linear Regression)** 을 수행

# 각 미국 주의 인종 구성 비율을 나타내는 막대 차트 생성

- 각 미국 주(State)별 **백인, 흑인, 히스패닉, 아시아인 및 원주민(Native American) 인구 비율**을
- **하위 섹션(subsections)** 이 포함된 **막대 그래프(Bar Chart)** 를 사용하여 시각화

# 인종별 사망자를 나타내는 도넛 차트 생성

- 각 인종별 경찰 사망자의 비율을 **도넛 차트(Donut Chart)** 로 시각화
- 💡`.value_counts()` 를 사용하여 데이터를 집계

# 남성과 여성의 총 사망자 수 비교 차트 생성

- **남성과 여성의 사망자 수 차이**를 비교하는 차트를 생성
- 💡 `df_fatalities` 데이터를 활용하여 남성 사망자가 여성보다 얼마나 많은지 나타냄

# 연령 및 사망 유형을 나타내는 박스 플롯 생성

- 남성과 여성의 **연령(Age)** 및 **사망 유형(Manner of Death)** 을 나타내는 **박스 플롯(Box Plot)** 을 생성
- 💡 `df_fatalities` 데이터를 사용하여 성별(Gender)별로 데이터를 구분
- 남성과 여성 간에 사망 유형에 차이가 있는지 분석

# 무기를 소지하고 있었는가?

- 경찰 총격 사건에서 **무기를 소지한 사람의 비율**을 분석
- 사망자가 소지한 **무기의 종류**(또는 무기를 소지하지 않았는지)를 나타내는 차트를 생성
- 특히 **총기(Guns) 소지자와 비무장(Unarmed) 사망자의 수를 비교

# 사망자의 연령 분석

- **25세 이하**의 사망자가 전체에서 차지하는 비율을 계산

- 경찰에 의해 사망한 사람들의 **연령 분포**를 나타내는
  **히스토그램(Histogram)과 커널 밀도 추정(KDE) 플롯**을 생성

- 각 인종별로 개별 **KDE(Kernel Density Estimate) 플롯**을 생성, 인종에 따라 분포의 차이가 존재하는지 확인

# 인종별 사망자 수 비교 차트 생성

- 경찰에 의해 사망한 사람들의 **인종별 총 사망자 수**를 나타내는 차트를 생성

# 정신질환과 경찰 총격

- 경찰에 의해 사망한 사람들 중 **정신질환(Mental Illness)** 을 진단받은 사람이 차지하는 비율을 계산

# 경찰 총격 사건이 가장 많이 발생한 도시

- **경찰 총격 사건이 가장 많은 상위 10개 도시**를 나타내는 차트를 생성
- 어떤 도시가 가장 위험한가?

# 인종별 사망 비율 비교

- **상위 10개 도시에서 각 인종별 비율**을 분석
- 경찰 총격이 가장 많은 상위 10개 도시와 비교하여, 인종별 사망 비율이 어떻게 차이 나는지 분석

# 미국 각 주의 경찰 총격 사건을 나타내는 지도(Choropleth Map) 생성

- 경찰 총격 사건이 가장 많은 주(State)를 지도 위에 시각화
- 해당 주들은 높은 빈곤율을 가진 주와 일치하는가?

# 경찰 총격 사건의 시간에 따른 변화 분석

- 시간에 따른 **경찰 총격 사건의 추세(Trend)** 를 분석
- 데이터에서 특정한 경향이 보이는가?

# 에필로그

지금까지 데이터를 직접 분석해 보았습니다.
더 자세한 분석을 원한다면 [워싱턴 포스트의 분석](https://www.washingtonpost.com/graphics/investigations/police-shootings-database/)을 참고하세요.