### 실제 데이터를 Pandas를 활용해 다루기

In [6]:
# [4-1] 시군구별 빵집의 분포도(normalize로 비율 및 dropna로 결측치 제거)
import pandas as pd
df= pd.read_csv('data/bread_after.csv',encoding='cp949')
df['시군구명'].value_counts(normalize=True,dropna=True)

시군구명
강남구     0.100149
강동구     0.086376
서초구     0.064637
송파구     0.060156
강서구     0.050116
마포구     0.048540
양천구     0.043976
영등포구    0.039330
노원구     0.038002
중구      0.035430
동대문구    0.035181
성북구     0.034517
관악구     0.034268
은평구     0.032775
구로구     0.032692
금천구     0.031613
동작구     0.030617
광진구     0.030368
서대문구    0.030037
중랑구     0.025141
성동구     0.024975
종로구     0.024560
용산구     0.023150
강북구     0.021822
도봉구     0.021573
Name: proportion, dtype: float64

### 오류 없이 파일 읽어오기
1. encoding= cp949는 한글이 포함되어 있는 경우 encoding 방식을 지정
2. low_memory =False는 대용량의 데이터를 불러오는 경우 각 칼럼의 데이터 타입(dtype)을 추측하는 것이 매우 많은 메모리를 사용하기 때문에 대용량의 데이터를 불러올때 메모리 에러가 발생하는 경우 이를 False로 설정

In [12]:
# [4-2] 제과점 파일 불러오기
# column에 여러가 나지 않기 위해 여러 타입의 데이터가 저장되어 있는 경우,
# dtype={'건물소유구분명': object, '전통업소지정번호': object} 으로 데이터 타입 지정해줄 것
df=pd.read_csv('./data/bread_data.csv',encoding='cp949',dtype={'건물소유구분명': object, '전통업소지정번호': object})

In [15]:
# dtypes를 출력하면 object로 변한것 확인가능
df.dtypes.to_frame().reset_index().head()

Unnamed: 0,index,0
0,번호,int64
1,개방서비스명,object
2,개방서비스id,object
3,개방자치단체코드,int64
4,관리번호,object


In [16]:
# [4-2] df의 '상세영업상태명'에 대해 값별 개수를 구합니다.
df['상세영업상태명'].value_counts(normalize=False, dropna=True)

상세영업상태명
폐업    33669
영업    19011
Name: count, dtype: int64

In [17]:
# [4-2] df의 '폐업일자'에 대해 값별 비율을 구합니다.
df['폐업일자'].value_counts(normalize=True,dropna=False)

폐업일자
NaN           0.360877
20030402.0    0.000911
20201228.0    0.000892
20051229.0    0.000816
20060216.0    0.000797
                ...   
20000612.0    0.000019
20031104.0    0.000019
20010823.0    0.000019
20040108.0    0.000019
20210207.0    0.000019
Name: proportion, Length: 5689, dtype: float64

In [18]:
# [4-3] df의 '상세영업상태코드'에 대해 값별 개수를 구합니다.
# 1: 영업, 2: 폐업
df['상세영업상태코드'].value_counts(normalize=True,dropna=False)

상세영업상태코드
2    0.639123
1    0.360877
Name: proportion, dtype: float64