# `pandas` 표 연습<br>Practices for `pandas` table

## `pandas` 소개<br>About `pandas`

`pandas`는 데이터 취급과 분석을 위한 파이썬 라이브러리 가운데 하나이다.<br>`pandas` is one of python libraries to handle and analyze data.

주로 *시리즈* `Series` 또는 *데이터 프레임* `DataFrame`에 데이터를 저장하는데, 각각 파이썬의 `dict` 또는 표와 비슷하다.<br>
`pandas` mostly store data in `Series` or `DataFrame`, similar to `dict` of python or a table, respectively.



In [None]:
import pandas as pd



## 데이터 가져오기<br>Importing data

`pandas`의 `read_html()` 함수로 아래 url로부터 데이터를 가져와보자.<br>Let's import data from the following url using `read_html()` of `pandas`.



In [None]:
domestic_url = 'https://finance.naver.com/sise/sise_quant.nhn'



위 웹사이트의 표 가운데 `%` 기호가 포함된 열은, 다른 조치가 없다면, `read_html()`이 문자열로 인식할 것이다.<br>
The `read_html()` would recognize columns with `%` as strings by default.



아래 파이썬 함수를 적용하면 해당 열을 `float`로 변환할 것이다.<br>
Applying following python function would convert the string to float.



In [None]:
# https://stackoverflow.com/a/25669685
def percent(percent_str):
    return float(percent_str.strip('%'))*0.01



위 함수가 예상 대로 작동하는지 확인하자.<br>
Let's check the function above would work as expectation.



In [None]:
assert 0.1 == percent('10%')
assert -0.1 == percent('-10%')



아래 셀이 해당 url로부터 `<table>`로 표시된 자료를 일련의 *데이터 프레임*으로 받아 올 것이다.<br>Following cell would obtain data within `<table>` tags as a list of *DataFrame*s.



In [None]:
table_list = pd.read_html(
    domestic_url,
    encoding='cp949',
    converters={'등락률': percent},
    header=0
)



표의 갯수:<br>
Number of tables:



In [None]:
len(table_list)



첫번째 표:<br>
The first table:



In [None]:
table_list[0]



두번째 표:<br>
The second table:



In [None]:
table_list[1]



두번째 표를 `table`이라는 이름으로 계속 사용하자.<br>
Let's continue to use the second table as `table`.



In [None]:
table = table_list[1]



그런데, `table`의 자료형은 무엇일까?<br>
BTW, what is the type of the `table`?



In [None]:
type(table)



### 인덱스 설정과 자료 없는 행 삭제<br>`set_index()` and `dropna()`



`table`의 어떤 행은 자료 값이 없는 경우가 있었는데, 이런 행들을 제거하자.<br>Let's remove the rows of the `table` without data.



In [None]:
table.dropna(how='all', inplace=True)



`종목명` 이라는 이름의 열을 앞으로 행 인덱스로 사용하자.<br>Let's use one of the columns as the row index.



해당 열이 `table`에 포함되어 있는지 확인하자.<br>Let's check the column is in the `table`.



In [None]:
assert '종목명' in table.columns, table.columns



아래 셀은 해당 열을 인덱스로 지정한다.<br>Following cell designate the column as the index.



In [None]:
table.set_index('종목명', inplace=True)



각 열의 자료형을 확인해 보자.<br>Let's check the data types of each column.



In [None]:
table.dtypes



어떤 열이 `object`를 담고 있는 것으로 보인다. 일단 `float`형으로 덮어쓰자.<br>
One column seems to contain `object`s.  For now, let's overwrite as `float`s.



In [None]:
table['등락률'] = table['등락률'].astype(float)



각 열의 자료형을 다시 확인해 보자.<br>Let's check the data types again.



In [None]:
table.dtypes



`table`이 담고 있는 내용을 확인해보자.<br>Let's check what the `table` is containing.



In [None]:
table.head()



### 데이터를 파일로 저장하기<br>Storing data in files



#### CSV : Comma-separated values



In [None]:
csv_filename = 'sample.csv'

table.to_csv(csv_filename)
!ls -l *.csv



#### Excel



In [None]:
xls_filename = 'sample.xls'

table.to_excel(xls_filename)
!ls -l sample.*



## 시리즈<br>Series



표의 한 열을 따로 살펴보자.<br>Let's take a look at one of the columns.



In [None]:
roe_series = table.ROE



In [None]:
roe_series[:10]



자료형:<br>Data type:



In [None]:
type(roe_series)



인덱스:<br>
Index:



In [None]:
roe_series.index



저장된 값:<br>
Stored values:



In [None]:
roe_series.values



시리즈의 속성<br>
As a property of the Series



In [None]:
roe_series.써니전자



인덱스로 값을 선택:<br>
Selecting values using indices



In [None]:
roe_series['써니전자']



In [None]:
roe_series[['삼성전자', '써니전자', '광전자']]



논리연산으로 선택<br>Logical indexing



In [None]:
roe_series[roe_series > 10]



산술 계산<br>Arithmetic calculation



In [None]:
roe_series[:10] * 0.01



인덱스에 어떤 값이 포함되는지 확인<br>
Is an object in the index?



In [None]:
'삼성전자' in roe_series



시리즈와 인덱스 이름<br>Names of Series and index



In [None]:
roe_series.name



In [None]:
roe_series.index.name



## 데이터 프레임<br>DataFrame



### 열 선택<br>Selecting a column



속성<br>Property



In [None]:
table.ROE.head()



키<br>Key



In [None]:
table['PER'].head()



### 열 추가<br>Adding a column



In [None]:
import time

table['time'] = time.asctime()



In [None]:
table.head()



### 행 선택<br>Selecting a row



인덱스<br>Index



In [None]:
table.loc['삼성전자']



## 조건에 맞는 행 검색<br>Filtering rows



### 특정 열 조건<br>Condition for a column



In [None]:
table.ROE.dtypes



In [None]:
df_roe_10 = table.loc[table.ROE > 10]



In [None]:
df_roe_10



### 특정 행의 값이 어떤 모임에 소속<br>Membership of the values of a row

#### 또 다른 표 받아 오기<br>Getting another table



In [None]:
machinary_url = 'https://finance.naver.com/sise/sise_group_detail.nhn?type=upjong&no=138'



In [None]:
machinary_df_list = pd.read_html(machinary_url, encoding='cp949', header=0)



In [None]:
len(machinary_df_list)



In [None]:
machinary_df_list[-1]



In [None]:
machinary_df = machinary_df_list[-1]



In [None]:
machinary_df.dropna(how='all', inplace=True)



In [None]:
machinary_df



#### 소속 여부 적용<br>Membership

In [None]:
machinary_table = table.loc[
    table.index.isin(machinary_df['종목명'])
]



In [None]:
machinary_table



### 패턴<br>Pattern



특정 열의 문자열 값이 'KODEX'로 시작하는 행 선택<br>Selecting rows with string fo one of columns starts with 'KODEX'



In [None]:
kodex_table = table.loc[table.index.str.startswith('KODEX')]



In [None]:
kodex_table



## 시각화

### `seaborn`

In [None]:
import seaborn as sns



#### 1차원 히스토그램<br>One-dimensional histogram



In [None]:
x = table['거래량']
sns.distplot(x, bins=20)
sns.utils.axlabel("volume", "frequency")



#### 히스토그램과 산점도<br>Histogram and scatter plot



In [None]:
table_xy = table.loc[:, ['거래량', '등락률', 'PER', 'ROE']]
table_xy.rename(
    columns={
        '거래량': 'volume',
        '등락률': 'change',
    },
    inplace=True,
)



In [None]:
table_xy['EPR'] = 1.0 / table['PER']



In [None]:
table_xy.dtypes



In [None]:
table_xy.shape



In [None]:
sns.jointplot(x="ROE", y="EPR", data=table_xy, kind="reg")



#### 이변량 산점도<br>pairplot()

In [None]:
sns.pairplot(table_xy.loc[:, ['volume', 'PER', 'EPR', 'ROE']])



## Wes McKinny, Data science without borders, 2017

[![video](https://i.ytimg.com/vi/wdmf1msbtVs/hqdefault.jpg)](https://youtu.be/wdmf1msbtVs)



## 참고문헌<br>References



* 매키니 저, 김영근 역, 파이썬 라이브러리를 활용한 데이터 분석, 한빛미디어, 2013.<br>Wes McKinney, Python for Data Analysis, 2nd Ed., O'Reilly, 2017.
* 브라운리 저, 한창진 외 역, 파이썬 데이터 분석 입문, 한빛미디어, 2017.<br>
Reference : Brownley, Foundations for Analytics with Python, O.Reilly, 2016.
* Excelsior-JH, Pandas를 이용한 Naver금융에서 주식데이터 가져오기, Tistory, 2017 [Online] Available : https://excelsior-cjh.tistory.com/109.
* Wikipedia contributors, Pandas (software), Wikipedia, [Online] Available : https://en.wikipedia.org/wiki/Pandas_(software).
* Pandas contributors, Pandas Documentation, [Online] Available : https://pandas.pydata.org/pandas-docs/stable/.
* Wikipedia contributors, Comma-separated values, Wikipedia, [Online] Available : https://en.wikipedia.org/wiki/Comma-separated_values.



## Final Bell<br>마지막 종



In [None]:
# stackoverfow.com/a/24634221
import os
os.system("printf '\a'");

