# 파이썬 엑셀 01 - pandas DataFrame

<img width="30%" src="https://i.imgur.com/4NZ1Tiw.jpg" >
    
### 2018 FinanceData.KR http://financedata.kr

# CSV 데이터 파일 생성

In [1]:
관심종목_데이터 = """
종목코드,종목명
005930,삼성전자
000660,SK하이닉스
105560,KB금융
051910,LG화학
090430,아모레퍼시픽
"""

with open('stock_picks.csv', 'wt') as f:
    f.write(관심종목_데이터)

파일을 열때 인코딩(encoding)을 지정하지 않으면 기본적으로 운영체제의 기본 인코딩을 따라갑니다. 한글 윈도우를 사용하고 있다면 기본 인코딩은 'euc-kr'이 됩니다.

다른 운영체제나 다른 프로그램과 호환성을 고려하여 가급적 유니코드를 사용하는 것을 추천하며 특히, 외부로 .csv를 파일을 전달하는 경우라면 인코딩을 'utf-8'로 지정할 것을 권고한다.
 
다음과 같이 encoding을 지정하면 유니코드(utf-8)로 저장됩니다.

```python
with open('stock_picks.csv', 'wt', encoding='utf-8') as f:
    f.write(관심종목_데이터)
```

In [2]:
팩터_데이터 = """
종목코드,종목명,PER,PBR,주당배당금,배당수익률
005930,삼성전자,15.91,1.98,21000.0,1.05
000660,SK하이닉스,8.2,1.67,500.0,1.02
005380,현대차,6.12,0.67,4000.0,2.74
015760,한국전력,2.01,0.4,3100.0,7.45
035420,NAVER,45.41,12.41,1100.0,0.14
005490,POSCO,153.39,0.6,8000.0,2.83
012330,현대모비스,7.62,0.93,3500.0,1.43
028260,삼성물산,5.84,1.4,500.0,0.41
055550,신한지주,9.89,0.75,1200.0,2.53
032830,삼성생명,16.75,0.91,1800.0,1.67
105560,KB금융,11.15,0.66,980.0,2.0
017670,SK텔레콤,11.77,1.31,10000.0,4.05
051910,LG화학,17,1.52,4500.0,1.69
"""

with open('stock_factors.csv', 'wt') as f:
    f.write(팩터_데이터)

In [3]:
!dir *.csv

 C 드라이브의 볼륨: BOOTCAMP
 볼륨 일련 번호: 2EBB-6C19

 C:\Users\Seung-June\Documents\자동화 디렉터리

2018-03-13  오전 02:31               548 stock_factors.csv
2018-03-13  오전 02:31               106 stock_picks.csv
               2개 파일                 654 바이트
               0개 디렉터리  15,257,387,008 바이트 남음


In [4]:
!type stock_picks.csv


종목코드,종목명
005930,삼성전자
000660,SK하이닉스
105560,KB금융
051910,LG화학
090430,아모레퍼시픽


# csv를 DataFrame으로 읽기

In [5]:
# pandas
import pandas as pd

df_관심종목 = pd.read_csv('stock_picks.csv', encoding='euc-kr')
df_관심종목

Unnamed: 0,종목코드,종목명
0,5930,삼성전자
1,660,SK하이닉스
2,105560,KB금융
3,51910,LG화학
4,90430,아모레퍼시픽


In [6]:
# 종목코드의 타입을 str로 지정

df_관심종목 = pd.read_csv('stock_picks.csv', dtype={'종목코드':str}, encoding='euc-kr')
df_관심종목

Unnamed: 0,종목코드,종목명
0,5930,삼성전자
1,660,SK하이닉스
2,105560,KB금융
3,51910,LG화학
4,90430,아모레퍼시픽


파이썬은 기본적으로 유니코드를 가정하고 있으므로 csv 파일을 읽는 도중에 에러(UnicodeDecodeError)가 발생했다면, 다음과 같이 인코딩을 지정해줘 봅니다. 한글이 깨지는 경우 대부분 인코딩 문제이며, 인코딩 문제의 대부분은 문서의 인코딩을 지정하는 것으로 해결됩니다.

```python
# csv 파일의 인코딩 지정 방법
pd.read_csv('파일.csv', encoding='utf-8')
pd.read_csv('파일.csv', encoding='euc-kr')

# 파일명이 한글일 때 읽기 오류가 생긴다면, csv 파서 엔진을 'python'로 지정해 보십시오
pd.read_csv('관심종목.csv', encoding='utf-8', engine='python')
```

In [7]:
# 종목코드의 타입을 str로 지정, 종목코드를 인덱스로 지정

df_관심종목 = pd.read_csv('stock_picks.csv', dtype={'종목코드':str}, encoding='euc-kr')
df_관심종목 = df_관심종목.set_index('종목코드') 
df_관심종목

Unnamed: 0_level_0,종목명
종목코드,Unnamed: 1_level_1
5930,삼성전자
660,SK하이닉스
105560,KB금융
51910,LG화학
90430,아모레퍼시픽


In [8]:
# 종목코드의 타입을 str로 지정, 종목코드를 인덱스로 지정

df_팩터 = pd.read_csv('stock_factors.csv', dtype={'종목코드':str}, encoding='euc-kr')
df_팩터 = df_팩터.set_index('종목코드') 
df_팩터

Unnamed: 0_level_0,종목명,PER,PBR,주당배당금,배당수익률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
5930,삼성전자,15.91,1.98,21000.0,1.05
660,SK하이닉스,8.2,1.67,500.0,1.02
5380,현대차,6.12,0.67,4000.0,2.74
15760,한국전력,2.01,0.4,3100.0,7.45
35420,NAVER,45.41,12.41,1100.0,0.14
5490,POSCO,153.39,0.6,8000.0,2.83
12330,현대모비스,7.62,0.93,3500.0,1.43
28260,삼성물산,5.84,1.4,500.0,0.41
55550,신한지주,9.89,0.75,1200.0,2.53
32830,삼성생명,16.75,0.91,1800.0,1.67


# 데이터를 엑셀 파일로 저장, 읽기

In [9]:
df_관심종목.to_excel('stock_picks.xlsx')
df_팩터.to_excel('stock_factors.xlsx')

In [10]:
!dir *.xlsx

 C 드라이브의 볼륨: BOOTCAMP
 볼륨 일련 번호: 2EBB-6C19

 C:\Users\Seung-June\Documents\자동화 디렉터리

2018-03-13  오전 02:11             5,550 KT.xlsx
2018-03-13  오전 02:11             5,579 merged.xlsx
2018-03-13  오전 02:11             4,992 merged_02.xlsx
2018-03-13  오전 02:11             5,086 merged_03.xlsx
2018-03-13  오전 02:11             5,551 SKT.xlsx
2018-03-13  오전 02:31             6,163 stock_factors.xlsx
2018-03-13  오전 02:31             5,581 stock_picks.xlsx
               7개 파일              38,502 바이트
               0개 디렉터리  15,257,370,624 바이트 남음


In [11]:
df_관심종목 = pd.read_excel('stock_picks.xlsx', dtype={'종목코드':str})
df_관심종목 = df_관심종목.set_index('종목코드') 
df_관심종목

Unnamed: 0_level_0,종목명
종목코드,Unnamed: 1_level_1
5930,삼성전자
660,SK하이닉스
105560,KB금융
51910,LG화학
90430,아모레퍼시픽


In [12]:
df_팩터 = pd.read_excel('stock_factors.xlsx', dtype={'종목코드':str})
df_팩터 = df_팩터.set_index('종목코드') 
df_팩터

Unnamed: 0_level_0,종목명,PER,PBR,주당배당금,배당수익률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
5930,삼성전자,15.91,1.98,21000,1.05
660,SK하이닉스,8.2,1.67,500,1.02
5380,현대차,6.12,0.67,4000,2.74
15760,한국전력,2.01,0.4,3100,7.45
35420,NAVER,45.41,12.41,1100,0.14
5490,POSCO,153.39,0.6,8000,2.83
12330,현대모비스,7.62,0.93,3500,1.43
28260,삼성물산,5.84,1.4,500,0.41
55550,신한지주,9.89,0.75,1200,2.53
32830,삼성생명,16.75,0.91,1800,1.67


# 데이터프레임 간에 컬럼 복사

In [13]:
# 개별 컬럼 복사 (없으면 생성된다)
df_관심종목['PER'] = df_팩터['PER']
df_관심종목

Unnamed: 0_level_0,종목명,PER
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1
5930,삼성전자,15.91
660,SK하이닉스,8.2
105560,KB금융,11.15
51910,LG화학,17.0
90430,아모레퍼시픽,


In [14]:
df_관심종목['PBR'] = df_팩터['PBR']
df_관심종목

Unnamed: 0_level_0,종목명,PER,PBR
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5930,삼성전자,15.91,1.98
660,SK하이닉스,8.2,1.67
105560,KB금융,11.15,0.66
51910,LG화학,17.0,1.52
90430,아모레퍼시픽,,


In [15]:
# 여러 컬럼을 한번에 복사

df_관심종목[['주당배당금', '배당수익률']] = df_팩터[['주당배당금', '배당수익률']]
df_관심종목

Unnamed: 0_level_0,종목명,PER,PBR,주당배당금,배당수익률
종목코드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
5930,삼성전자,15.91,1.98,21000.0,1.05
660,SK하이닉스,8.2,1.67,500.0,1.02
105560,KB금융,11.15,0.66,980.0,2.0
51910,LG화학,17.0,1.52,4500.0,1.69
90430,아모레퍼시픽,,,,


# 엑셀 파일로 저장

In [16]:
df_관심종목.to_excel('merged.xlsx')

In [17]:
!dir *.xlsx

 C 드라이브의 볼륨: BOOTCAMP
 볼륨 일련 번호: 2EBB-6C19

 C:\Users\Seung-June\Documents\자동화 디렉터리

2018-03-13  오전 02:11             5,550 KT.xlsx
2018-03-13  오전 02:31             5,746 merged.xlsx
2018-03-13  오전 02:11             4,992 merged_02.xlsx
2018-03-13  오전 02:11             5,086 merged_03.xlsx
2018-03-13  오전 02:11             5,551 SKT.xlsx
2018-03-13  오전 02:31             6,163 stock_factors.xlsx
2018-03-13  오전 02:31             5,581 stock_picks.xlsx
               7개 파일              38,669 바이트
               0개 디렉터리  15,257,370,624 바이트 남음


# 리뷰
* csv 데이터 파일과 인코딩
* 데이터를 엑셀 파일로 저장, 읽기 - df = pd.read_excel('a.xlsx')
* 데이터프레임 간에 컬럼 복사
* 엑셀 파일로 저장 - df.to_excel('a.xlsx')

### 2018 FinanceData.KR