<a href="https://colab.research.google.com/github/kangwonlee/nmisp/blob/main/20_probability/30_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# `pandas` 표 연습<br>Practices for `pandas` table



## 참고문헌<br>References



* 맥키니 저, 김영근 역, 파이썬 라이브러리를 활용한 데이터 분석, 2판, 한빛미디어, 2019, ISBN 979-11-6224-190-5 ([코드와 데이터](https://github.com/wesm/pydata-book/)) <br>Wes McKinney, Python for Data Analysis, 2nd Ed., O'Reilly, 2017. ([Code and data](https://github.com/wesm/pydata-book/))
* 브라운리 저, 한창진 외 역, 파이썬 데이터 분석 입문, 한빛미디어, 2017.<br>
Reference : Brownley, Foundations for Analytics with Python, O.Reilly, 2016.
* Excelsior-JH, Pandas를 이용한 Naver금융에서 주식데이터 가져오기, Tistory, 2017 [Online] Available : https://excelsior-cjh.tistory.com/109.
* Wikipedia contributors, Pandas (software), Wikipedia, [Online] Available : https://en.wikipedia.org/wiki/Pandas_(software).
* Pandas contributors, Pandas Documentation, [Online] Available : https://pandas.pydata.org/pandas-docs/stable/.
* Wikipedia contributors, Comma-separated values, Wikipedia, [Online] Available : https://en.wikipedia.org/wiki/Comma-separated_values.
* Michael Waskom, An introduction to seaborn, [Online] Available : https://seaborn.pydata.org/introduction.html.
* Pandas contributors, 10 minutes to pandas, Pandas Documentation, [Online] Available : https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html.
* Wes McKinney, pandas in 10 minutes | Walkthrough, PyData, Youtube.com. [Online] Available : [![Pandas in 10 minutes](https://i.ytimg.com/vi/_T8LGqJtuGc/hqdefault.jpg)](https://youtube.com/watch?v=_T8LGqJtuGc)



## `import pandas`



아래와 같이 `pandas` 모듈을 불러들인다.<br>First, let's import `pandas`.



In [None]:
import pandas as pd



## 데이터 가져오기<br>Importing data



`pandas`의 `read_html()` 함수로 아래 url로부터 데이터를 가져와보자.<br>Let's import data from the following url using `read_html()` of `pandas`.



In [None]:
domestic_url = 'https://finance.naver.com/sise/sise_market_sum.nhn'



html 을 읽기 위해 기본적으로는 `lxml` 모듈을 사용한다.<br>By default, `lxml` parses the html.



`%` 기호가 포함된 열은, 다른 조치가 없다면, `read_html()`이 문자열로 인식할 것이다.<br>
The `read_html()` would recognize columns with `%` as strings by default.



다음 규칙을 적용하여 실수로 변환하자.<br>Let's define a conversion rule.



In [None]:
# https://stackoverflow.com/a/25669685
def percent(percent_str):
    return float(percent_str.strip('%'))*0.01



여기서 `strip()` 메소드는 다음과 같이 작동한다.<br>
Here, `strip()` method works as follows.



In [None]:
'1.23%'.strip('%')



위 `percent()` 함수가 예상 대로 작동하는지 확인하자.<br>
Let's check the function `percent()` above would work as expectation.



In [None]:
assert 0.1 == percent('10%')
assert -0.1 == percent('-10%')



`pandas.read_html()` 함수로 표를 읽어오자.<br>Let's read tables using the `pandas.read_html()`.



In [None]:
table_list = pd.read_html(
    domestic_url,
    encoding='cp949',
    converters={'등락률': percent},
    header=0
)



`encoding` 을 통해 대상 웹사이트가 문자를 이진수로 표시하는 방식을 `read_html()` 함수에 알려준다.<br>
Using `encoding`, we notify `read_html()` how the website indicates characters in binary numbers.



반환된 `table_list`의 변수형은 무엇인가?<br>What is the type of the returned `table_list`?


In [None]:
type(table_list)



항목의 변수형은 무엇인가?<br>What is the type of the item?


In [None]:
type(table_list[0])



읽어 온 표의 갯수<br>Number of tables read:



In [None]:
len(table_list)



첫번째 표:<br>
The first table:



In [None]:
table_list[0]



두번째 표:<br>
The second table:



In [None]:
table_list[1]



두번째 표를 `table`이라는 이름으로 계속 사용하자.<br>
Let's continue to use the second table as `table`.



In [None]:
table = table_list[1]



`table`의 자료형은 무엇인가?<br>
What is the type of the `table`?



In [None]:
type(table)



### 자료 없는 행 삭제<br>`dropna()`



`table`의 어떤 행은 자료 값이 없는 경우가 있었는데, 이런 행들을 제거하자.<br>Let's remove the rows of the `table` without data.



In [None]:
table.dropna(how='all', inplace=True)



`inplace` 를 `True` 로 설정하면, `.dropna()`는 `table`의 `NaN` 행을 삭제할 것이다.<br>
When `inplace` is `True`, `.dropna()` will delete the rows with `NaN` in `table`.<br>
그렇지 않다면, `.dropna()`는 `NaN` 행이 없는 `table`의 새로운 사본을 반환할 것이다.<br>
Otherwise, `.dropna()` will return a new copy of `table` without `NaN` rows.



In [None]:
table



### 색인 지정<br>`set_index()`



`종목명` 이라는 이름의 열을 앞으로 색인으로 사용하자.<br>Let's use one of the columns as the row index.



해당 열이 `table`에 포함되어 있는지 확인하자.<br>Let's check the column is in the `table`.



In [None]:
assert '종목명' in table.columns, table.columns



아래 셀은 해당 열을 색인으로 지정한다.<br>Following cell designate the column as the index.



In [None]:
table.set_index('종목명', inplace=True)



In [None]:
table



### 열의 자료형<br>Types of columns



각 열의 자료형을 확인해 보자.<br>Let's check the data types of each column.



In [None]:
table.dtypes



어떤 열이 `object`를 담고 있는 것으로 보인다. 일단 `float`형으로 덮어쓰자.<br>
One column seems to contain `object`s.  For now, let's overwrite as `float`s.



In [None]:
table['등락률'] = table['등락률'].astype(float)



각 열의 자료형을 다시 확인해 보자.<br>Let's check the data types again.



In [None]:
table.dtypes



`table`이 담고 있는 내용을 확인해보자.<br>Let's check what the `table` is containing.



In [None]:
table.head(7)



`.tail()`는 마지막 몇 행을 보여 줄 것이다.<br>
`.tail()` will show last a few rows.



In [None]:
table.tail()



### 데이터를 파일로 저장하기<br>Storing data in files



#### CSV : Comma-separated values



In [None]:
csv_filename = f'sample-{pd.Timestamp.today().date()}.csv'

table.to_csv(csv_filename)
!ls -l *.csv



We can use `pandas.read_csv()` to read the csv file.<br>
읽을 때는 `pandas.read_csv()` 를 사용할 수 있다.



In [None]:
df_csv = pd.read_csv(csv_filename, header=0, index_col="종목명")
df_csv.head()



#### Excel



내부적으로 `xlwt` 모듈을 사용한다.<br>Internally `xlwt` module is used.



In [None]:
xls_filename = f'sample-{pd.Timestamp.today().date()}.xlsx'

table.to_excel(xls_filename)
!ls -l sample-*.*



## 시리즈<br>Series



표의 한 열을 따로 살펴보자.<br>Let's take a look at one of the columns.



열의 이름은 데이터 프레임의 속성으로 해당 열을 가리킨다.<br>
The name of each column is one of properties of the `DataFrame` indicating the column.



In [None]:
roe_series = table.ROE



In [None]:
roe_series[:10]



열의 자료형은 무엇인가?<br>
What is the data type of the column?



In [None]:
type(roe_series)



색인은 딕셔너리의 키와 유사하다고 할 수 있다.<br>
Index could be similar to the key of `dict`.



In [None]:
roe_series.index



시리즈의 값도 딕셔너리의 밸류와 유사하다고 할 수 있다.<br>
Values of a series might also be similar to the values of a `dict`.



In [None]:
roe_series.values



위 색인(`index`)의 각 항목은 시리즈(`Series`)의 속성으로 해당 값(value)을 가리킨다.<br>
Each item of the `index` is a property of the `Series` indicating the associate value.



In [None]:
roe_series.한국전력



색인으로도 값을 선택할 수 있다.<br>
We can also select values using indices.



In [None]:
roe_series["한국전력"]



여러 항목을 선택할 때는 항목들의 list를 사용할 수 있다.<br>
To select multiple items, we may use a list of items.



In [None]:
roe_series.loc[["삼성전자", "한국전력"]]



만일 한 항목이라도 `index`에 포함되어 있지 않을 가능성이 있다면 `reindex()` 메소드를 권한다.<br>
If one of the items may not be in the `index`, `reindex()` would be more recommendable.



In [None]:
roe_series.reindex(["삼성전자", "한국전력", "없는항목"])



In [None]:
try:
    roe_series.loc[["삼성전자", "없는항목"]]
except KeyError as e:
    print("Tried to find an item not in the index\nindex에는 없는 항목을 찾으려 함")
    print(e)



논리식으로 선택<br>Logical indexing



In [None]:
roe_series[roe_series > 10]



산술 계산<br>Arithmetic calculation



In [None]:
roe_series[:10] * 0.01



색인에 어떤 값이 포함되는지 확인<br>
Is an object in the index?



In [None]:
"삼성전자" in roe_series



시리즈와 색인 이름<br>Names of Series and index



In [None]:
roe_series.name



In [None]:
roe_series.index.name



## 데이터 프레임<br>DataFrame



### 열 선택<br>Selecting a column



속성<br>Property



In [None]:
table.ROE.head()



키<br>Key



In [None]:
table['PER'].head()



### 열 추가<br>Adding a column



In [None]:
import time

table['time'] = time.asctime()



In [None]:
table.head()



In [None]:
assert 'time' in table, table.columns



In [None]:
table.dtypes



### 열 삭제<br>Deleting a column



In [None]:
del table['time']



In [None]:
table.columns


In [None]:
del table["토론실"]



In [None]:
table.head()



In [None]:
assert 'time' not in table, table.columns



In [None]:
del table['N']



In [None]:
table.head()



In [None]:
assert 'N' not in table, table.columns



### 행 선택<br>Selecting a row



#### 색인<br>Index



In [None]:
table.loc["삼성전자"]



#### 논리 연산<br>Logical indexing



`ROE` 값이 10보다 큰 행을 선택 보자.<br>
Let's try selecting rows with `ROE` larger than 10.



`ROE` 열의 자료형을 확인하자.<br>
Let's check the data type of the `ROE` column.



In [None]:
table.ROE.dtypes



`.loc` 로 논리식을 적용할 수 있다.<br>
We may index logically through `.loc`.



In [None]:
df_roe_10 = table.loc[table.ROE > 10]



선택된 행으로 만들어진 새로운 데이터프레임은 다음과 같다.<br>
The new `DataFrame` of the selected rows are as follows.



In [None]:
df_roe_10



#### 특정 행의 값이 어떤 모임에 소속<br>Membership of the values of a row



다음 주소의 표에 소속된 행을 선택해 보자.<br>
Let's select rows associated a table of the following url.



In [None]:
machinary_url = 'https://finance.naver.com/sise/sise_group_detail.nhn?type=upjong&no=299'



In [None]:
# 표를 받아 오자.
# Let's get the table.

machinary_df_list = pd.read_html(machinary_url, encoding='cp949', header=0)

# 받아온 표의 갯수
# Number of tables

len(machinary_df_list)

# 마지막 표
# The last table

machinary_df = machinary_df_list[-1]

# 자료가 없는 행 삭제
# Drop rows with all columns NaN, Not a Number

machinary_df.dropna(how='all', inplace=True)



새로 받아온 표:<br>Newly received table:



In [None]:
machinary_df



아래 셀은 `table` 의 `index` 가 새로 받아온 표의 `종목명` 열에 포함된 행만 선택하여 새로운 표를 만든다.<br>
Following cell creates a new DataFrame by selecting rows of `table` with its `index` in a specific column of the new table.



In [None]:
machinary_table = table.loc[
    table.index.isin(machinary_df['종목명'])
]



선택한 행으로 만들어진 표:<br>
New table of rows selected:



In [None]:
machinary_table



#### 패턴<br>Pattern



인덱스가 '스'로 끝나는 행 선택<br>Selecting indices ending with '스'



In [None]:
s_table = table.loc[table.index.str.endswith('스')]



In [None]:
s_table



### 표 항목 하나 선택<br>Selecting one item from the table



`.loc` or `.at`로 한 행의 한 열에 해당되는 항목 하나만 선택할 수 있다.<br>
We can index one item using either `.loc` or `.at`.



In [None]:
table.loc["삼성전자", "PER"]



In [None]:
table.at["삼성전자", "PER"]



`.at`가 다른 기능이 많은 `.loc` 보다 더 빠른 것으로 알려져 있다.<br>It is known that `.at` is faster than `.loc` loaded with many other features.



## 시각화



### `seaborn`



In [None]:
import seaborn as sns



#### 1차원 히스토그램<br>One-dimensional histogram



In [None]:
import matplotlib.pyplot as plt


x = table['거래량']
ax = sns.histplot(x, bins=20)
# https://stackoverflow.com/a/47592107
ax2 = plt.twinx(ax)
sns.kdeplot(x, ax=ax2)
# https://stackoverflow.com/a/31632745
ax.set(xlabel="volume", ylabel="frequency");



#### 히스토그램과 산점도<br>Histogram and scatter plot



`table` 로 부터 몇 개의 열만 선택해 보자.<br>Let's choose a few columns from `table`.



In [None]:
table_xy_view = table[['거래량', '등락률', 'PER', 'ROE']]



위 `table_xy_view` 의 사본을 만들어서 일부 열의 이름을 바꾸어 보자.<br>Let's make a copy of `table_xy_view` above and rename some of the columns.



In [None]:
table_xy_copy = table_xy_view.copy()
table_xy_copy.rename(
    columns={
        '거래량': 'volume',
        '등락률': 'change',
    },
    inplace=True,
)



또는, `.loc`를 사용하여 한 행으로 열을 선택하고 사본을 만들 수도 있다.<br>
Or, we can use `.loc` to select columns and make a copy in one line.



In [None]:
table_xy_copy = table.loc[:, ['거래량', '등락률', 'PER', 'ROE']]
table_xy_copy.rename(
    columns={
        '거래량': 'volume',
        '등락률': 'change',
    },
    inplace=True,
)



사본을 만들지 않고 열의 이름을 바꾸려고 하면 어떻게 되는가?<br>What would happen if we try to make changes to the table without making the copy?



열 연산:<br>Column operation:



In [None]:
table_xy_copy['EPR'] = 1.0 / table_xy_copy['PER']



In [None]:
table_xy_copy.dtypes



In [None]:
table_xy_copy.shape



In [None]:
sns.jointplot(x="ROE", y="EPR", data=table_xy_copy, kind="reg");



#### 이변량 산점도<br>pairplot()



In [None]:
sns.pairplot(table_xy_copy[['volume', 'PER', 'EPR', 'ROE']]);



## Wes McKinny, Data science without borders, 2017



[![video](https://i.ytimg.com/vi/wdmf1msbtVs/hqdefault.jpg)](https://youtu.be/wdmf1msbtVs)



## 연습 문제<br>Exercises



아래 링크의 정보는 여러 페이지에 결쳐 표시되어 있다.<br>
The following link is the first of multiple pages of a certain information.



In [None]:
capitalization_url = 'https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0&page=1'



ex 1. `read_html()`와 `pandas.concat()` 등을 이용하여 여러 페이지의 주요 표 정보를 하나의 표로 합쳐보시오.<br>
ex 1. Using `read_html()`, `pandas.concat()` and/or other functions, collect major information of multiple pages into one table.



hint : https://pandas.pydata.org/pandas-doc/stable/user_guide/merging.html



ex 2. 열 연산으로 새로운 열을 추가해 보시오.<br>
ex 2. Add a new column as a result of a column operation.



hint : https://seaborn.pydata.org/examples/index.html



ex 3. `seaborn`을 이용하여 하나의 플롯에 위 표의 가능한 많은 열의 정보를 표시해 보시오.<br>
ex 3. Using `seaborn`, on one plot, present information of as many columns from the table above as possible.



hint : https://seaborn.pydata.org/examples/index.html



## Final Bell<br>마지막 종



In [None]:
# stackoverfow.com/a/24634221
import os
os.system("printf '\a'");

