<a href="https://colab.research.google.com/github/drawcodeboy/pandas_practice/blob/main/pandas_practice04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:
# 1. DataFrame 만들기

import pandas as pd
import numpy as np

np.random.seed(0)

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

print(df)

                   A         B         C         D
2013-01-01  1.764052  0.400157  0.978738  2.240893
2013-01-02  1.867558 -0.977278  0.950088 -0.151357
2013-01-03 -0.103219  0.410599  0.144044  1.454274
2013-01-04  0.761038  0.121675  0.443863  0.333674
2013-01-05  1.494079 -0.205158  0.313068 -0.854096
2013-01-06 -2.552990  0.653619  0.864436 -0.742165


In [37]:
# 2. 인덱스 변경/추가/삭제하기

"""
value가 위치에 따라 reindex되는 것인지 index와 column에 따라 reindex되는 것인지에 대한
실험

-> index와 column에 따라 value가 찾아가는 것을 볼 수 있다.
-> 어찌보면 당연한 결과다. 위치에 따라 찾아가면 다른 index와 column에 아예 관련없는
value가 있게 되는 것인데 이는 데이터의 의미로써도 적합하지 않다.

dates_reverse = []
for i in range(3, -1, -1):
    dates_reverse.append(dates[i])

df1 = df.reindex(index=dates_reverse[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[1]:dates[0], 'E'] = 1

print(df1)
"""

df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1], 'E'] = 1

print(df1)

df1_ = df.reindex(index=dates[0:4], columns=df.columns)
df1_.loc[dates[0]:dates[1], 'E'] = 1

print(df1_)

                   A         B         C         D    E
2013-01-01  1.764052  0.400157  0.978738  2.240893  1.0
2013-01-02  1.867558 -0.977278  0.950088 -0.151357  1.0
2013-01-03 -0.103219  0.410599  0.144044  1.454274  NaN
2013-01-04  0.761038  0.121675  0.443863  0.333674  NaN
                   A         B         C         D    E
2013-01-01  1.764052  0.400157  0.978738  2.240893  1.0
2013-01-02  1.867558 -0.977278  0.950088 -0.151357  1.0
2013-01-03 -0.103219  0.410599  0.144044  1.454274  NaN
2013-01-04  0.761038  0.121675  0.443863  0.333674  NaN


>* 지정한 축에 대해 인덱스를 변경/추가/삭제할 수 있습니다.
>* reindex()를 사용해서 인덱스를 변경하면, 데이터의 사본을 반환합니다.
>* 이어서 loc을 사용해서 'E'열의 첫번째, 두번째 데이터를 1로 설정했습니다.
>* <b>reindex는 해당 데이터를 위치에 해당하는 행과 열에 그대로 가져가며 새로 생긴 행과 열에는 NaN이 할당된다.</b>
>* columns에 list로 반환 후 넘기지 않을 시 columns이 A, B, C, D, E가 아닌 AE, BE, CE, DE, E가 되어버리며 데이터들은 모두 NaN이 된다.
>* 아래 df1_처럼 만들어도 .loc에 의해 'E' column이 생기므로 reindex에서 만들 필요는 없다.

In [26]:
# 3. 누락된 데이터가 있는 행 삭제하기

print(df1.dropna(how='any', inplace=False))

                   A         B         C         D    E
2013-01-01  1.764052  0.400157  0.978738  2.240893  1.0
2013-01-02  1.867558 -0.977278  0.950088 -0.151357  1.0
2013-01-03 -0.103219  0.410599  0.144044  1.454274  NaN
2013-01-04  0.761038  0.121675  0.443863  0.333674  NaN
                   A         B         C         D    E
2013-01-01  1.764052  0.400157  0.978738  2.240893  1.0
2013-01-02  1.867558 -0.977278  0.950088 -0.151357  1.0


>* dropna()는 누락된 데이터가 있는 행을 삭제합니다.
>* dropna()또한 inplace=True 매개변수를 통해 해당 데이터프레임에 바로 적용할 수 있다.
>* axis를 통해 index or column의 축을 정함, default는 index
>* how parameter는 any or all인데 any는 na가 하나라도 있으면 해당 index를 삭제하고, all는 축의 모든 value가 na이어야 삭제한다는 뜻이다.
>* [Pandas Documentation - dropna()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html#pandas.DataFrame.dropna)

In [28]:
# 4. 누락된 데이터를 특정 값으로 채우기

print(df1.fillna(value=5))

                   A         B         C         D    E
2013-01-01  1.764052  0.400157  0.978738  2.240893  1.0
2013-01-02  1.867558 -0.977278  0.950088 -0.151357  1.0
2013-01-03 -0.103219  0.410599  0.144044  1.454274  5.0
2013-01-04  0.761038  0.121675  0.443863  0.333674  5.0


>* fillna()는 누락된 데이터를 특정 값으로 채웁니다.

In [29]:
# 5. 누락된 데이터 참/거짓 여부 확인하기

print(pd.isna(df1))

                A      B      C      D      E
2013-01-01  False  False  False  False  False
2013-01-02  False  False  False  False  False
2013-01-03  False  False  False  False   True
2013-01-04  False  False  False  False   True


>* isna()는 값이 nan인 조건으로 boolean mask를 얻습니다.
>* 값이 nan일 때 True, 그렇지 않으면 False가 됩니다.