# Pandas 외부 파일 다루기

1. 텍스트 파일
1. 엑셀파일


In [None]:
#-*- coding: utf-8 -*-
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

## 1. 텍스트 파일
    - comma, tap, space 구분된 데이터

data/sample_address.txt 읽어 보자

## 2. Excel 파일

외부 데이터 파일 xls, xlsx 사용

 - pandas 사용
 - openpyxl 설치
 - xlrd 설치

####  openpyxl 과 xlrd

openpyxl 은 Excel 2010 xlsx/xlsm/xltx/xltm 파일을 읽고/쓰기가 가능하다.

 - https://pypi.org/project/openpyxl/ 
 
```Shell
pip install -U openpyxl xlrd

conda install -c anaconda openpyxl  xlrd
```

In [None]:
! pip install openpyxl xlrd

### xls 파일

In [None]:
Seoul_dong = pd.read_excel('../data/seoul_pop_22Q4Report.xls')
Seoul_dong.head(3)

### xlsx 파일

In [None]:
foreign_201901 = pd.read_excel('../data/kto_201901.xlsx', 
                          header=1,
                          usecols='A:G',
                          skipfooter=4)

foreign_201901.head()

# 서울지역 - 편의점 시급

시급으로 본 서울지역 아르바이트 환경 분석에서 사용했던 자료 중 편의점에 해당하는 데이터입니다.

핑크팬더 님 자료

In [None]:
#-*- coding: utf-8 -*-
import pandas as pd
import matplotlib as plt
%matplotlib inline

### 편의점 시급 데이터

In [None]:
Hourly_wages = pd.read_csv('./data/convenient_store.csv')
Hourly_wages.head()

In [None]:
Hourly_wages.info()

### 시급 데이터 파악하기


시급 값이 있는 컬럼의 중간,표준편차,최소,25%,50%,75%, 최대값

In [None]:
Hourly_wages.describe()     #데이터 프레임에 숫자 컬럼에서 요약해 준다.

In [None]:
Hourly_wages.hourly_wage.describe()  # 특정 컬럼의 중간,표준편차,최소 값을 요약한다.

시급이 6000원 이상인 데이터만 필터

In [None]:
#시급이 6000원 이상인 데이터
Hourly_wages[Hourly_wages.hourly_wage > 6000].describe()

In [None]:
# 마포구에 시급이 6000원 이상인 편의점
Hourly_wages[(Hourly_wages.area1 == '마포구') & (Hourly_wages.hourly_wage > 6000)]

조건식을 괄호로 묶고 `&, |, !` 논리연산자 묶어야!

In [None]:
# 편의점명, 시급, 체인명
tmp = Hourly_wages[Hourly_wages['area1'] == '마포구'][['company','hourly_wage','name']]
tmp.describe()

In [None]:
# 편의점이 세븐일레븐인 경우
tmp = Hourly_wages[Hourly_wages['company'].str.contains('세븐일레븐*')][['company','hourly_wage']]
tmp.describe()

In [None]:
# 편이점 이름에 CU가 있고 시급이 6000원 이상인 경우
tmp = Hourly_wages[ (Hourly_wages.company.str.contains('CU')) & ( Hourly_wages.hourly_wage > 6000)]
tmp.head()

### 데이터 정리하기

In [None]:
def more_than_6000(x):
    """6000 보단 크고 작은지 판단한다"""
    if x > 6000:
        return 1
    else:
        return 0

# 새로운 컬럼 'Seoul' 추가 
Hourly_wages['Seoul'] = 'in Seoul'
Hourly_wages['more_than_6000'] = Hourly_wages.hourly_wage.map(lambda x:more_than_6000(x))
Hourly_wages[Hourly_wages.more_than_6000 == 1].head()

In [None]:
# 컬럼 중 '구' 와 시급 6000원 이상인 데이터셋트
tmp = Hourly_wages[Hourly_wages.more_than_6000 == 1][['area1','hourly_wage']]
tmp.head()

In [None]:
# csv 출력
# data2.to_csv('data2.csv', index=False) 
#    - index=False: 행번호 제외

---

## 시급현황 그래프로 분석하기

In [None]:
import platform
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
%matplotlib inline

plt.rcParams['axes.unicode_minus'] = False

# 폰트를 적재한다.
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    path = "c:/Windows/Fonts/malgun.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
elif 'Ubuntu' in platform.platform() or 'Linux' in platform.platform():
    path = "/usr/share/fonts/truetype/nanum/NanumMyeongjo.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
elif 'SuSE' in platform.platform():
    path = "/usr/share/fonts/truetype/NanumMyeongjo.ttf"
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    print('Unknown system... sorry~~~~') 

In [None]:
#
#   Histogram
# 
Hourly_wages.hourly_wage.hist(bins=10)
plt.show()

In [None]:
"""
    barh
"""
Hourly_wages[ Hourly_wages['area1'] == '영등포구' ].hourly_wage.plot( kind='barh', grid=True, figsize=(7,7))
plt.show()

In [None]:
# Box plot
Hourly_wages.boxplot(column='hourly_wage')
plt.show()

In [None]:
Hourly_wages.boxplot(column=['hourly_wage'], by='name')

In [None]:
Hourly_wages.boxplot(column='hourly_wage', by='area1', figsize=(10,6))

In [None]:
# 가로 박스 플로팅
plt.rc('font', family='NanumGothic') #폰트
Hourly_wages.boxplot(column='hourly_wage', by=['area1', 'name'], vert=False,  figsize=(10,6))