# Pandas with CSV

> CSV에 있는 데이터를 Python으로 읽어와 MySQL을 이용해 DB에 데이터를 적재한다.

### 1. Read CSV

- 제공받은 police_station.csv 파일을 Pandas로 읽어와 데이터를 확인한다.

In [10]:
import pandas as pd

df = pd.read_csv("./data/police_station.csv")
df

Unnamed: 0,서울특별시경찰청,서울시 종로구 사직로8길 31
0,서울중부경찰서,서울특별시 중구 수표로 27
1,서울종로경찰서,서울특별시 종로구 율곡로 46
2,서울남대문경찰서,서울특별시 중구 한강대로 410
3,서울서대문경찰서,서울특별시 서대문구 통일로 113
4,서울혜화경찰서,서울특별시 종로구 창경궁로 112-16
5,서울용산경찰서,서울특별시 용산구 원효로89길 24
6,서울성북경찰서,서울특별시 성북구 보문로 170
7,서울동대문경찰서,서울특별시 동대문구 약령시로 21길 29
8,서울마포경찰서,서울특별시 마포구 마포대로 183
9,서울영등포경찰서,서울특별시 영등포구 국회대로 608


### 2. Connect MySQL

- AWS RDS (database-1)의 zerobase DB에 연결한다.

In [12]:
import mysql.connector

connector = mysql.connector.connect(
	host = "database-1.cjyesy60ukq4.us-east-2.rds.amazonaws.com",
	port = 3306,
	user = "zero",
	password = "zerobase",
	database = "zerobase"
)

### 3. Create Cursor

- 읽어올 양이 많을 경우 cursor 생성 시 buffer=True 설정을 해준다.

In [13]:
cursor = connector.cursor(buffered=True)

### 4. INSERT Query

- pandas.DataFrame 형태의 데이터를 police_station Table의 Tuple 데이터로 넣기 위한 INSERT Query문을 만든다.

- 참고: https://dev.mysql.com/doc/connector-python/en/connector-python-api-mysqlcursor.html

In [14]:
sql = "INSERT INTO police_station VALUES (%s, %s)"

### 5. Insert Data

- `commit()` 은 데이터를 DB에 적용하기 함수이다.

In [15]:
for idx, row in df.iterrows():
    cursor.execute(sql, tuple(row))
    print(row)
    print(idx, ' -> ', tuple(row))
    connector.commit()

서울특별시경찰청                    서울중부경찰서
서울시 종로구 사직로8길 31    서울특별시 중구 수표로 27
Name: 0, dtype: object
0  ->  ('서울중부경찰서', '서울특별시 중구 수표로 27')
서울특별시경찰청                     서울종로경찰서
서울시 종로구 사직로8길 31    서울특별시 종로구 율곡로 46
Name: 1, dtype: object
1  ->  ('서울종로경찰서', '서울특별시 종로구 율곡로 46')
서울특별시경찰청                     서울남대문경찰서
서울시 종로구 사직로8길 31    서울특별시 중구 한강대로 410
Name: 2, dtype: object
2  ->  ('서울남대문경찰서', '서울특별시 중구 한강대로 410')
서울특별시경찰청                      서울서대문경찰서
서울시 종로구 사직로8길 31    서울특별시 서대문구 통일로 113
Name: 3, dtype: object
3  ->  ('서울서대문경찰서', '서울특별시 서대문구 통일로 113')
서울특별시경찰청                          서울혜화경찰서
서울시 종로구 사직로8길 31    서울특별시 종로구 창경궁로 112-16
Name: 4, dtype: object
4  ->  ('서울혜화경찰서', '서울특별시 종로구 창경궁로 112-16')
서울특별시경찰청                        서울용산경찰서
서울시 종로구 사직로8길 31    서울특별시 용산구 원효로89길 24
Name: 5, dtype: object
5  ->  ('서울용산경찰서', '서울특별시 용산구 원효로89길 24')
서울특별시경찰청                      서울성북경찰서
서울시 종로구 사직로8길 31    서울특별시 성북구 보문로 170
Name: 6, dtype: object
6  ->  ('서울성북경찰서', '서울특별시 성북구 보문로 170')
서울특별시경찰청     

### 6. Check Result

- DB에 데이터가 잘 반영되어 있는지 확인한다.

In [16]:
cursor.execute("SELECT * FROM police_station")

result = cursor.fetchall()
for row in result:
    print(row)

('서울중부경찰서', '서울특별시 중구 수표로 27')
('서울종로경찰서', '서울특별시 종로구 율곡로 46')
('서울남대문경찰서', '서울특별시 중구 한강대로 410')
('서울서대문경찰서', '서울특별시 서대문구 통일로 113')
('서울혜화경찰서', '서울특별시 종로구 창경궁로 112-16')
('서울용산경찰서', '서울특별시 용산구 원효로89길 24')
('서울성북경찰서', '서울특별시 성북구 보문로 170')
('서울동대문경찰서', '서울특별시 동대문구 약령시로 21길 29')
('서울마포경찰서', '서울특별시 마포구 마포대로 183')
('서울영등포경찰서', '서울특별시 영등포구 국회대로 608')
('서울성동경찰서', '서울특별시 성동구 왕십리광장로 9')
('서울동작경찰서', '서울특별시 동작구 노량진로 148')
('서울광진경찰서', '서울특별시 광진구 광나루로 447 광진소방서 임시청사 (능동)')
('서울서부경찰서', '서울특별시 은평구 은평로9길 15')
('서울강북경찰서', '서울특별시 강북구 오패산로 406')
('서울금천경찰서', '서울특별시 관악구 남부순환로 1435')
('서울중랑경찰서', '서울특별시 중랑구 중랑역로 137')
('서울강남경찰서', '서울특별시 강남구 테헤란로 114길 11')
('서울관악경찰서', '서울특별시 관악구 관악로5길 33')
('서울강서경찰서', '서울특별시 양천구 화곡로 73')
('서울강동경찰서', '서울특별시 강동구 성내로 33')
('서울종암경찰서', '서울특별시 성북구 종암로 135')
('서울구로경찰서', '서울특별시 구로구 가마산로 235')
('서울서초경찰서', '서울특별시 서초구 반포대로 179')
('서울양천경찰서', '서울특별시 양천구 목동동로 99')
('서울송파경찰서', '서울특별시 송파구 중대로 221')
('서울노원경찰서', '서울특별시 노원구 노원로 283')
('서울방배경찰서', '서울특별시 서초구 방배천로 54')
('서울도봉경찰서', '서울특별시 도봉구 노해로 40

### 7. DisConnection

In [17]:
connector.close()

### 8. DataFrame

- 결과를 Pandas DataFrame으로 읽는다.

In [18]:
result_df = pd.DataFrame(result)
result_df

Unnamed: 0,0,1
0,서울중부경찰서,서울특별시 중구 수표로 27
1,서울종로경찰서,서울특별시 종로구 율곡로 46
2,서울남대문경찰서,서울특별시 중구 한강대로 410
3,서울서대문경찰서,서울특별시 서대문구 통일로 113
4,서울혜화경찰서,서울특별시 종로구 창경궁로 112-16
5,서울용산경찰서,서울특별시 용산구 원효로89길 24
6,서울성북경찰서,서울특별시 성북구 보문로 170
7,서울동대문경찰서,서울특별시 동대문구 약령시로 21길 29
8,서울마포경찰서,서울특별시 마포구 마포대로 183
9,서울영등포경찰서,서울특별시 영등포구 국회대로 608


</br>

-----

</br>

# 실습 예제

> crime_status Table에 2020_crime.csv 데이터를 입력하는 코드를 작성한다.

- 1> 2020_crime.csv 데이터 읽어오기

	- `encoding=‘euc-kr’`

In [19]:
import pandas as pd

df = pd.read_csv("./data/2020_crime.csv", encoding='euc-kr')
df

Unnamed: 0,구분,죄종,발생검거,건수
0,중부,살인,발생,1
1,중부,살인,검거,1
2,중부,강도,발생,3
3,중부,강도,검거,4
4,중부,"강간,추행",발생,113
...,...,...,...,...
305,수서,"강간,추행",검거,194
306,수서,절도,발생,1010
307,수서,절도,검거,475
308,수서,폭력,발생,1394


- 2> AWS RDS (database-1)의 zerobase DB에 접속

In [20]:
import mysql.connector

connector = mysql.connector.connect(
	host = "database-1.cjyesy60ukq4.us-east-2.rds.amazonaws.com",
	port = 3306,
	user = "zero",
	password = "zerobase",
	database = "zerobase"
)

- 3> INSERT Query 작성

In [21]:
sql_query = """INSERT INTO crime_status VALUES ("2020", %s, %s, %s, %s)"""
cursor = connector.cursor(buffered=True)

- 4> 데이터를 crime_status Table에 INSERT

In [22]:
for idx, row in df.iterrows():
    cursor.execute(sql_query, tuple(row))
    print(tuple(row))
    connector.commit()

('중부', '살인', '발생', 1)
('중부', '살인', '검거', 1)
('중부', '강도', '발생', 3)
('중부', '강도', '검거', 4)
('중부', '강간,추행', '발생', 113)
('중부', '강간,추행', '검거', 76)
('중부', '절도', '발생', 943)
('중부', '절도', '검거', 495)
('중부', '폭력', '발생', 997)
('중부', '폭력', '검거', 830)
('종로', '살인', '발생', 9)
('종로', '살인', '검거', 6)
('종로', '강도', '발생', 4)
('종로', '강도', '검거', 4)
('종로', '강간,추행', '발생', 115)
('종로', '강간,추행', '검거', 93)
('종로', '절도', '발생', 602)
('종로', '절도', '검거', 284)
('종로', '폭력', '발생', 964)
('종로', '폭력', '검거', 792)
('남대문', '살인', '발생', 1)
('남대문', '살인', '검거', 1)
('남대문', '강도', '발생', 2)
('남대문', '강도', '검거', 2)
('남대문', '강간,추행', '발생', 73)
('남대문', '강간,추행', '검거', 52)
('남대문', '절도', '발생', 699)
('남대문', '절도', '검거', 368)
('남대문', '폭력', '발생', 579)
('남대문', '폭력', '검거', 494)
('서대문', '살인', '발생', 3)
('서대문', '살인', '검거', 3)
('서대문', '강도', '발생', 2)
('서대문', '강도', '검거', 1)
('서대문', '강간,추행', '발생', 159)
('서대문', '강간,추행', '검거', 149)
('서대문', '절도', '발생', 1077)
('서대문', '절도', '검거', 524)
('서대문', '폭력', '발생', 1292)
('서대문', '폭력', '검거', 1029)
('혜화', '살인', '발생', 0)
('혜화', 

- 5> crime_status Table의 데이터 조회

In [23]:
cursor.execute("SELECT * FROM crime_status")

result = cursor.fetchall()
for row in result:
    print(row)
    
connector.close()

(2020, '중부', '살인', '발생', 1)
(2020, '중부', '살인', '검거', 1)
(2020, '중부', '강도', '발생', 3)
(2020, '중부', '강도', '검거', 4)
(2020, '중부', '강간,추행', '발생', 113)
(2020, '중부', '강간,추행', '검거', 76)
(2020, '중부', '절도', '발생', 943)
(2020, '중부', '절도', '검거', 495)
(2020, '중부', '폭력', '발생', 997)
(2020, '중부', '폭력', '검거', 830)
(2020, '종로', '살인', '발생', 9)
(2020, '종로', '살인', '검거', 6)
(2020, '종로', '강도', '발생', 4)
(2020, '종로', '강도', '검거', 4)
(2020, '종로', '강간,추행', '발생', 115)
(2020, '종로', '강간,추행', '검거', 93)
(2020, '종로', '절도', '발생', 602)
(2020, '종로', '절도', '검거', 284)
(2020, '종로', '폭력', '발생', 964)
(2020, '종로', '폭력', '검거', 792)
(2020, '남대문', '살인', '발생', 1)
(2020, '남대문', '살인', '검거', 1)
(2020, '남대문', '강도', '발생', 2)
(2020, '남대문', '강도', '검거', 2)
(2020, '남대문', '강간,추행', '발생', 73)
(2020, '남대문', '강간,추행', '검거', 52)
(2020, '남대문', '절도', '발생', 699)
(2020, '남대문', '절도', '검거', 368)
(2020, '남대문', '폭력', '발생', 579)
(2020, '남대문', '폭력', '검거', 494)
(2020, '서대문', '살인', '발생', 3)
(2020, '서대문', '살인', '검거', 3)
(2020, '서대문', '강도', '발생', 2)
(2020, '서대문',

- 6> 조회한 결과를 pandas.DataFrame으로 변환해서 확인

In [24]:
result_df = pd.DataFrame(result)
result_df

Unnamed: 0,0,1,2,3,4
0,2020,중부,살인,발생,1
1,2020,중부,살인,검거,1
2,2020,중부,강도,발생,3
3,2020,중부,강도,검거,4
4,2020,중부,"강간,추행",발생,113
...,...,...,...,...,...
305,2020,수서,"강간,추행",검거,194
306,2020,수서,절도,발생,1010
307,2020,수서,절도,검거,475
308,2020,수서,폭력,발생,1394


</br>

-----

</br>

# 문제

> 

- Q1. AWS RDS (database-1)의 zerobase DB에 접속한다.

In [28]:
import mysql.connector

connector = mysql.connector.connect(
	host = "database-1.cjyesy60ukq4.us-east-2.rds.amazonaws.com",
	port = 3306,
	user = "zero",
	password = "zerobase",
	database = "zerobase"
)

- Q2. cctv table을 생성한다.

- Q3. Seoul_CCTV.csv 파일에서 데이터를 Pandas로 읽어온다.

In [26]:
import pandas as pd

df = pd.read_csv("./data/Seoul_CCTV.csv", encoding='utf-8')
df.head()

Unnamed: 0,기관명,소계,2013년도 이전,2014년,2015년,2016년
0,강남구,3238,1292,430,584,932
1,강동구,1010,379,99,155,377
2,강북구,831,369,120,138,204
3,강서구,911,388,258,184,81
4,관악구,2109,846,260,390,613


In [30]:
sql_query = "CREATE TABLE cctv (기관명 varchar(8), 소계 int, 2013년도이전 int, 2014년 int, 2015년 int, 2016년 int)"
cursor = connector.cursor(buffered=True)
cursor.execute(sql_query)

- Q4. 읽어온 데이터를 cctv Table에 INSERT 한다.

In [31]:
sql_query = "INSERT INTO cctv VALUES (%s, %s, %s, %s, %s, %s)"
cursor = connector.cursor(buffered=True)

for i, row in df.iterrows():
    cursor.execute(sql_query, tuple(row))
    print(tuple(row))
    connector.commit()

('강남구', 3238, 1292, 430, 584, 932)
('강동구', 1010, 379, 99, 155, 377)
('강북구', 831, 369, 120, 138, 204)
('강서구', 911, 388, 258, 184, 81)
('관악구', 2109, 846, 260, 390, 613)
('광진구', 878, 573, 78, 53, 174)
('구로구', 1884, 1142, 173, 246, 323)
('금천구', 1348, 674, 51, 269, 354)
('노원구', 1566, 542, 57, 451, 516)
('도봉구', 825, 238, 159, 42, 386)
('동대문구', 1870, 1070, 23, 198, 579)
('동작구', 1302, 544, 341, 103, 314)
('마포구', 980, 314, 118, 169, 379)
('서대문구', 1254, 844, 50, 68, 292)
('서초구', 2297, 1406, 157, 336, 398)
('성동구', 1327, 730, 91, 241, 265)
('성북구', 1651, 1009, 78, 360, 204)
('송파구', 1081, 529, 21, 68, 463)
('양천구', 2482, 1843, 142, 30, 467)
('영등포구', 1277, 495, 214, 195, 373)
('용산구', 2096, 1368, 218, 112, 398)
('은평구', 2108, 1138, 224, 278, 468)
('종로구', 1619, 464, 314, 211, 630)
('중구', 1023, 413, 190, 72, 348)
('중랑구', 916, 509, 121, 177, 109)


- Q5. cctv Table의 데이터를 조회하여 확인한다.

In [32]:
cursor.execute("SELECT * FROM cctv")

result = cursor.fetchall()
for row in result:
    print(row)

('강남구', 3238, 1292, 430, 584, 932)
('강동구', 1010, 379, 99, 155, 377)
('강북구', 831, 369, 120, 138, 204)
('강서구', 911, 388, 258, 184, 81)
('관악구', 2109, 846, 260, 390, 613)
('광진구', 878, 573, 78, 53, 174)
('구로구', 1884, 1142, 173, 246, 323)
('금천구', 1348, 674, 51, 269, 354)
('노원구', 1566, 542, 57, 451, 516)
('도봉구', 825, 238, 159, 42, 386)
('동대문구', 1870, 1070, 23, 198, 579)
('동작구', 1302, 544, 341, 103, 314)
('마포구', 980, 314, 118, 169, 379)
('서대문구', 1254, 844, 50, 68, 292)
('서초구', 2297, 1406, 157, 336, 398)
('성동구', 1327, 730, 91, 241, 265)
('성북구', 1651, 1009, 78, 360, 204)
('송파구', 1081, 529, 21, 68, 463)
('양천구', 2482, 1843, 142, 30, 467)
('영등포구', 1277, 495, 214, 195, 373)
('용산구', 2096, 1368, 218, 112, 398)
('은평구', 2108, 1138, 224, 278, 468)
('종로구', 1619, 464, 314, 211, 630)
('중구', 1023, 413, 190, 72, 348)
('중랑구', 916, 509, 121, 177, 109)


- Q6. 조회된 데이터를 Pandas로 변환하여 출력한다.

In [33]:
result_df = pd.DataFrame(result)
result_df.tail()

Unnamed: 0,0,1,2,3,4,5
20,용산구,2096,1368,218,112,398
21,은평구,2108,1138,224,278,468
22,종로구,1619,464,314,211,630
23,중구,1023,413,190,72,348
24,중랑구,916,509,121,177,109
