<a href="https://colab.research.google.com/github/kangwonlee/nmisp/blob/main/00_introduction/50_pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# About `pandas`<br>`pandas` 소개



## 참고문헌<br>References



* 맥키니 저, 김영근 역, 파이썬 라이브러리를 활용한 데이터 분석, 2판, 한빛미디어, 2019, ISBN 979-11-6224-190-5 ([코드와 데이터](https://github.com/wesm/pydata-book/)) <br>Wes McKinney, Python for Data Analysis, 2nd Ed., O'Reilly, 2017. ([Code and data](https://github.com/wesm/pydata-book/))



* https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html



`pandas` is one of python libraries to handle and analyze data.<br>`pandas`는 데이터 취급과 분석을 위한 파이썬 라이브러리 가운데 하나이다.



`pandas` mostly store data in `Series` or `DataFrame`, similar to `dict` of python or a table, respectively.<br>주로 *시리즈* `Series` 또는 *데이터 프레임* `DataFrame`에 데이터를 저장하는데, 각각 파이썬의 `dict` 또는 표와 비슷하다.



In general, it is imported as follows.<br>일반적으로 다음과 같이 불러들인다.




In [None]:
# Import pandas for tables
import pandas as pd



## Series


Let's make a series as follows.<br>다음과 같이 `Series`를 하나 만들어 보자.



In [None]:
x_series_int = pd.Series(range(0, 10+1), name='x')
x_series_int



If you prefer a `Series` of `float` values, `dtype` argument is available.<br>
`float` 값의 `Series`를 선호한다면, `dtype` 매개변수로 지정할 수 있다.



In [None]:
x_series_float = pd.Series(range(0, 10+1), name='x float', dtype=float)
x_series_float



Or you can also generate one from an existing `Series`.<br>기존의 `Series`로 부터 생성하는 것도 가능하다.



In [None]:
x_series_float_from_int = x_series_int.astype(float)
x_series_float_from_int



Two `Series` are identical.<br>두 `Series`는 동일하다.



In [None]:
x_series_float.equals(x_series_float_from_int)



Because all corresponding elements of two `Series` are identical.<br>왜냐하면 두 `Series`의 대응되는 원소가 모두 동일하기 때문이다.



In [None]:
x_series_float.eq(x_series_float_from_int)



## DataFrame



Let's make a `DataFrame` by combining a few `Series` above.<br>위 여러 `Series`를 조합하여 `DataFrame`을 만들어 보자.



In [None]:
df = pd.DataFrame({
        "float":x_series_float
    },
    index=x_series_int, columns=['float']
)
df



We can choose a column as follows.<br>열 선택은 다음과 같이 가능하다.



In [None]:
df.float



In [None]:
df["float"]



Adding a new column looks similar to another key-value pair of a `dict`.<br>열을 더 추가하는 것은 `dict`에 새로운 키-밸류 쌍과 비슷하다.



In [None]:
df["twice"] = df.float.add(df.float)
df["square"] = df["float"] * df.float
df



Also available is the `shift` method.<br>`shift` 메소드로 열을 하나씩 앞으로 당기거나 뒤로 미는 것도 가능하다.



In [None]:
df["shift by one"] = df.float.shift(1)
df["shift by minus one"] = df.float.shift(-1)
df



## Vectorization<br>벡터화



Let's think about calculating sum of a sequence using a `DataFrame`.<br>`DataFrame`으로 수열의 합을 계산하는 경우를 생각해 보자.



In [None]:
n = [0]
s = [0]

for i in range(1, 10+1):
  n.append(i)
  s.append(s[-1] + i)

df_sum = pd.DataFrame(
    {
        'n': n,
        "for": s,
    }, index=n
)
df_sum



Also, we may utilize followng formula.<br>또한 아래 식을 사용할 수도 있을 것이다.



$$
\sum_{i=1}^{n}i = \frac{n(n+1)}{2}
$$



In [None]:
df_sum["vec"] = df_sum.n * (df_sum.n + 1) // 2
df_sum



## Pandas in 10 minutes<br> 10분 Pandas 사용법



English subtitle (10m27s)<br>
영문 자막 (10m27s)



[![Pandas in 10 minutes](https://i.ytimg.com/vi/_T8LGqJtuGc/hqdefault.jpg)](https://youtube.com/watch?v=_T8LGqJtuGc)



## Final Bell<br>마지막 종



In [None]:
# stackoverfow.com/a/24634221
import os
os.system("printf '\a'");

