In [None]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

# - 한셀안의 인쇄동작을 모두 수행
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# - matplotlib 초기 설정(한글 폰트 설정)
font_name = mpl.font_manager.FontProperties(fname='C:/Windows/Fonts/malgun.ttf').get_name()
mpl.rc('font', family=font_name)
mpl.rc('font',size=16) # 전체 폰트크기 지정

## << 전 처리 >>
### [1] 전국인구조사 데이터 '202102_census.csv'파일을 파악하기
#### 다음은 인구조사 데이터셋에서 사전에 처리해야 할 목록이다
1. 세자리마다 콤마(,)제거하고 object형을 수치형으로 타입 변환하기
2. "2021년02월-계-"문자열을 제거하여 나이로 구성한 컬럼명 편집하기

In [None]:
df = pd.read_csv('202102_census.csv')
df.info()
df.head(3)

### [2] 콤마 제거하여 파일 읽어오기
1. 세자리마다 콤마(,)제거하고 수치형으로 변환하여 파일을 읽어와 df변수에 대입한다
- 참고) read_csv()의 thousands=','옵션을 이용한다
2. df을 인쇄하고 info() 또는 dtypes로 타입을 확인하라
![image-2.png](attachment:image-2.png)

In [None]:
file = '202102_census.csv'

# [2] 코드 작성
df = pd.read_csv(file, thousands=',')
df.head()
df.info()

### [3] 컬럼명 편집하기
#### "2021년02월-계-"문자열을 제거하여 컬럼명을 편집한다. 반드시 원본 df을 편집하고 인쇄하라
![image-2.png](attachment:image-2.png)

In [None]:
# [3] 코드 작성
df.rename(columns=lambda x: x.split('_')[-1], inplace=True)
df.head()

## << 새로운 주소록 addr 데이터프레임 만들기 >>
### 새로운 주소록을 만들기 위한 단계는 다음과 같다
1. df['행정구역'] 컬럼을 크게 행정구역과 지역코드로 분리하여 addr변수에 대입한다
2. addr['행정구역'] 컬럼을 다시 '도/시', '시/구', '구/동', '동' 4개 컬럼으로 분리한다
3. 그외 불필요한 컬럼 삭제, 문자열 편집등 addr 데이터프레임을 편집 한다
4. 최종 addr 데이터프레임을 'address.csv'파일로 저장하고 읽어온다

### [4] df['행정구역']컬럼을 행정구역과 코드로 분리하기
#### 행정구역과 코드로 분리한 새로운 데이터프레임을 addr변수에 대입하는 다음 코드를 이해하라
![image-4.png](attachment:image-4.png)
1. .str.extract() 이해
- 정규식을 이용하여 그룹(())단위로 분리하여 컬럼화한 새로운 데이터프레임을 생성
- 컬럼명은 자동으로 일련번호로 부여된다
2. df['행정구역']컬럼내 문자열 분석  
- 예로 서울특별시 종로구 청운효자동(1111051500) ==> '서울특별시 종로구 청운효자동'과 (1111051500)로 분리한다
- 단, '서울특별시 종로구 (1111000000)'의 경우 코드 앞에 공백이 위치하고 있다
- 정규식에서 1번 그룹과 2번 그룹을 어느것으로 구분해야 하나? 위 정규식을 분석하라

3. addr 컬럼명을 ['행정구역', '코드']로 변경한다
4. 새로운 데이터프레임 addr의 결과를 확인하라

![image.png](attachment:image.png)

In [None]:
# [4] 코드 이해
addr = df['행정구역'].str.extract( '(.+)\s*(\(\d+\))' )  
addr.columns = ['행정구역', '코드']
addr.head()

### [5] addr['행정구역']의 주소를 4개 컬럼으로 분리하여 addr DF에 추가하기
1. 다음 주어진 코드를 이해하라
![image-11.png](attachment:image-11.png)


2. split() 메서드의 이해
- split()는 공백을 기준으로 분리하여 expand=True옵션에 의해 컬럼단위로 분리되어 새로운 DF을 반환한다
- 예로 '서울특별시 종로구 청운효자동'인 경우는 3개 컬럼으로 '경기도 수원시 장안구 파장동'인 경우는 4개 컬럼으로 분리된다
3. addr컬럼에 추가할 컬럼명은 ['도/시', '시/구', '구/동', '동']이다
4. 어떤 행의 경우 4개 컬럼중 비어있는 컬럼이 발생할 수 있다


5. 다음은 완성한 addr 데이터프레임의 인쇄 일부이다
    - 서울시 일부와 수원시 일부를 인쇄하여 분리된 결과를 확인하라
    - 참고로 수원시는 1271행부터 1319행에 위치한다
![image-8.png](attachment:image-8.png)

In [None]:
# [5] 코드 이해

col = ['도/시', '시/구', '구/동', '동'] # 컬럼명 
addr[col] = addr['행정구역'].str.split(expand=True)

# # 인쇄 확인
addr.head()
addr.loc[1271:1319].head() # 수원시

### [6] addr 주소록 편집하기
1. '행정구역' 컬럼을 삭제하라  
2. '코드' 컬럼내 괄호기호를 제거하라  
- 참고) str.strip() 메서드를 이용한다  
3. 완성한 addr 데이터프레임을 인쇄하여 확인하라
![image-5.png](attachment:image-5.png)

In [None]:
# [6-1] 코드 작성
addr.drop(columns='행정구역', inplace=True)
addr.head()

In [None]:
# [6-2] 코드 작성
addr['코드'] = addr['코드'].str.strip('()')
addr.head()

### [7] 완성한 addr DF을 newfile('address.csv')파일로 저장하고 읽어오기
- 파일로 저장하고 df2 변수로 읽어온 후 인쇄하여 파일 내용을 확인하라
- 다음 그림은 서울시와 수원시 일부 인쇄 결과이다. 
![image-3.png](attachment:image-3.png)

In [None]:
newfile ='address.csv'

# [7] 코드 작성
addr.to_csv(newfile, index=False)
df2 = pd.read_csv(newfile)

# 인쇄 확인
df2.head() #서울시
df2.loc[1271:1319].head() # 수원시

## << Missing data 처리하기 >>
### 위에서 읽어 온 df2를 이용하여 다음 조건을 순서대로 처리하라
### [8] 컬럼단위로 누락된 데이터의 개수를 확인하기 
- 주어진 코드를 이해하라
![image-6.png](attachment:image-6.png)

In [None]:
df2 = pd.read_csv('address.csv')
df2.head()

# [8] 코드 이해
df2.isna().sum()

### [9] '시/구', '구/동' 컬럼에서 하나라도 누락된(NaN) 경우 행단위로 삭제하라. 
- 단 df2 원본을 삭제하여 편집한다
- 다음은 삭제된 df2 결과로 시나 구만 있는 행들이 제거됨을 알수 있다.(일부만 인쇄함)
![image-2.png](attachment:image-2.png) 

In [None]:
df2 = pd.read_csv('address.csv')
df2.head()

# [9] 코드 작성
df2.dropna(subset=['시/구', '구/동'], inplace=True)
df2.head()

### [10] '동'컬럼에 대하여 누락된 NA값을 '-'문자로 대체하라. 
- 단 df2원본을 수정한다
- 다음은 누락처리한 df2 인쇄 결과의 일부이다
![image.png](attachment:image.png)

In [None]:
# [10] 코드 작성
df2['동'] = df2['동'].fillna('-')
# df2.fillna({'동':'-'}, inplace=True)
df2.head()

### [11] 2022년도 행정명칭이 변경된 다음 사항에 따라 값을 변경한다
1. '시/구'컬럼내 '수원시'를 '수원특례시'로 변경한다
2. '구/동'컬럼내 강원도 영월군의 '중동면'를 '산솔면'으로 변경한다.
3. 단 df2원본을 수정하여 편집한다
- 참고) replace()메서드를 이용한다
- 다음은 수원시와 영월군의 변경전과 후의 일부를 인쇄한 결과이다. 참고하라   
![image-6.png](attachment:image-6.png)

In [None]:
# 수정전 인쇄 확인(아래 코드는 추후 학습할 예정임)

df2[ df2['시/구'].str.contains('수원') ].head() #경기도 수원시 일부
df2[ df2['시/구'].str.contains('영월') ].head() # 강원도 영월면 일부

In [None]:
# [11] 코드 작성
df2.replace({'수원시' : '수원특례시', '중동면' : '산솔면'}, inplace=True)
df2['시/구'] = df2['시/구'].replace('수원시', '수원특례시')
df2['구/동'] = df2['구/동'].replace('중동면', '산솔면')
df2.replace({'시/구':'수원시', '구/동':'중동면'}, {'시/구':'수원특례시', '구/동':'산솔면'})

# 변경 후 인쇄 확인
df2[ df2['시/구'].str.contains('영월') ].head()
df2[ df2['시/구'].str.contains('수원') ].head()

### [12] 전국 도/시별 행정 구역의 수를 pie챠트로 시각화
1. sr변수는 df2에서 '도/시'별 행정구역의 개수로 빈도 집계한 Series이다
2. sr를 이용하여 도시별 빈도율로 분석한 pie 챠트로 시각화한 다음 코드를 이해하라
    - 참고) pie 챠트의   wedgeprops옵션 이해
        - wedgeprops={'width': 0.5, 'edgecolor': 'w', 'linewidth': 5} 
        - 부채꼴 영역의 너비 (반지름에 대한 비율), 테두리의 색상, 테두리 선의 너비순 의미임

In [None]:
sr = df2['도/시'].value_counts()
sr

In [None]:
# [12] pie 차트로 시각화
sr = df2['도/시'].value_counts()
sr

wedgeprops={'width': 0.5, 'edgecolor': 'w', 'linewidth': 5} 
sr.plot(kind='pie', figsize=(9,9),autopct='%1.1f%%', wedgeprops=wedgeprops);