<a href="https://colab.research.google.com/github/drawcodeboy/pandas_practice/blob/main/pandas_practice03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np

In [2]:
# 1. DataFrame 만들기

np.random.seed(42)

dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

df

Unnamed: 0,A,B,C,D
2013-01-01,0.496714,-0.138264,0.647689,1.52303
2013-01-02,-0.234153,-0.234137,1.579213,0.767435
2013-01-03,-0.469474,0.54256,-0.463418,-0.46573
2013-01-04,0.241962,-1.91328,-1.724918,-0.562288
2013-01-05,-1.012831,0.314247,-0.908024,-1.412304
2013-01-06,1.465649,-0.225776,0.067528,-1.424748


In [3]:
# 2. 열 선택하기

print(df['A'])
# print(df.A)

print(type(df['A']))
# print(type(df.A))

2013-01-01    0.496714
2013-01-02   -0.234153
2013-01-03   -0.469474
2013-01-04    0.241962
2013-01-05   -1.012831
2013-01-06    1.465649
Freq: D, Name: A, dtype: float64
<class 'pandas.core.series.Series'>


>* DataFrame의 하나의 열을 선택하면, 하나의 Series를 만든다.
>* df['A']는 df.A와 같다.

In [4]:
# 3. 행 선택하기

print(df[0:3])

                   A         B         C         D
2013-01-01  0.496714 -0.138264  0.647689  1.523030
2013-01-02 -0.234153 -0.234137  1.579213  0.767435
2013-01-03 -0.469474  0.542560 -0.463418 -0.465730


>* 인덱스 숫자를 사용하면 행을 슬라이스할 수 있다.
>* <b>슬라이싱은 되는데 df[0]같은 코드는 KeyError가 난다.</b> loc이나 iloc을 사용하는 이유인가?

In [5]:
print(df['20130102':'20130104'])

                   A         B         C         D
2013-01-02 -0.234153 -0.234137  1.579213  0.767435
2013-01-03 -0.469474  0.542560 -0.463418 -0.465730
2013-01-04  0.241962 -1.913280 -1.724918 -0.562288


>* 인덱스를 직접 사용해서 행을 선택할 수도 있다.

In [6]:
# 4. 레이블로 선택하기 (df.loc)

print(df.loc[dates[0]])
print(type(df.loc[dates[0]]))

A    0.496714
B   -0.138264
C    0.647689
D    1.523030
Name: 2013-01-01 00:00:00, dtype: float64
<class 'pandas.core.series.Series'>


>* 레이블을 이용해서 횡 방향 데이터를 얻습니다.

In [7]:
print(df.loc[:, ['A', 'B']])

                   A         B
2013-01-01  0.496714 -0.138264
2013-01-02 -0.234153 -0.234137
2013-01-03 -0.469474  0.542560
2013-01-04  0.241962 -1.913280
2013-01-05 -1.012831  0.314247
2013-01-06  1.465649 -0.225776


>* 레이블을 이용해서 여러 축을 선택합니다.

In [8]:
print(df.loc['20130102':'20130104', ['A', 'B']])

                   A         B
2013-01-02 -0.234153 -0.234137
2013-01-03 -0.469474  0.542560
2013-01-04  0.241962 -1.913280


>* 슬라이스를 사용하면, 양 끝이 모두 포함됩니다.

In [9]:
print(df.loc['20130102', ['A', 'B']])

A   -0.234153
B   -0.234137
Name: 2013-01-02 00:00:00, dtype: float64


>* 1차원으로 축소된 차원의 객체가 반환됩니다.
>* type 출력 결과, Series로 나온다.

In [10]:
print(df.loc[dates[0], 'A'])

0.4967141530112327


>* 스칼라 값을 반환합니다.
>* type 출력 결과, numpy.float64로 나온다.

In [11]:
print(df.at[dates[0], 'A'])

0.4967141530112327


>* at를 사용하면 스칼라 값에 빠르게 접근할 수 있습니다.
>* at는 loc과 달리 하나만 콕 집어서 가져오는 메소드

In [12]:
# 5. 위치로 선택하기 (df.iloc)

print(df.iloc[3])

A    0.241962
B   -1.913280
C   -1.724918
D   -0.562288
Name: 2013-01-04 00:00:00, dtype: float64


>* iloc[n]과 같이 정수를 입력하면 해당 행을 선택합니다.

In [13]:
print(df.iloc[3:5, 0:2])

                   A         B
2013-01-04  0.241962 -1.913280
2013-01-05 -1.012831  0.314247


>* 정수 슬라이스는 NumPy와 Python과 비슷하게 동작합니다.

In [14]:
print(df.iloc[[1, 2, 4], [0, 2]])

                   A         C
2013-01-02 -0.234153  1.579213
2013-01-03 -0.469474 -0.463418
2013-01-05 -1.012831 -0.908024


>* 정수 위치의 리스트도 NumPy/Python과 비슷하게 동작합니다.

In [15]:
print(df.iloc[1:3, :])

                   A         B         C         D
2013-01-02 -0.234153 -0.234137  1.579213  0.767435
2013-01-03 -0.469474  0.542560 -0.463418 -0.465730


>* iloc[1:3, :]은 행을 명시적으로 슬라이스합니다.

In [16]:
print(df.iloc[:, 1:3])

                   B         C
2013-01-01 -0.138264  0.647689
2013-01-02 -0.234137  1.579213
2013-01-03  0.542560 -0.463418
2013-01-04 -1.913280 -1.724918
2013-01-05  0.314247 -0.908024
2013-01-06 -0.225776  0.067528


>* iloc[:, 1:3]은 열을 명시적으로 슬라이스합니다.

In [17]:
print(df.iloc[1, 1])

-0.23413695694918055


>* iloc[m, n]과 같이 명시적으로 해당 위치의 값을 얻을 수 있습니다.

In [18]:
print(df.iat[1, 1])

-0.23413695694918055


>* 값에 대한 빠른 접근을 하기 위해서는 at처럼 iat를 사용합니다.

In [19]:
# 6. 불리언 인덱싱

print(df[df.A > 0])

                   A         B         C         D
2013-01-01  0.496714 -0.138264  0.647689  1.523030
2013-01-04  0.241962 -1.913280 -1.724918 -0.562288
2013-01-06  1.465649 -0.225776  0.067528 -1.424748


>* 하나의 열의 값을 기준으로 데이터를 선택할 수 있습니다.
>* df[df.A >0]은 df로부터 A열이 0보다 큰 데이터를 보여줍니다.

In [20]:
print(df[df > 0])

                   A         B         C         D
2013-01-01  0.496714       NaN  0.647689  1.523030
2013-01-02       NaN       NaN  1.579213  0.767435
2013-01-03       NaN  0.542560       NaN       NaN
2013-01-04  0.241962       NaN       NaN       NaN
2013-01-05       NaN  0.314247       NaN       NaN
2013-01-06  1.465649       NaN  0.067528       NaN


>* 조건식이 성립하는 값들을 DataFrame으로부터 선택합니다.
>* 바로 위 불리언 인덱싱과 헷갈릴 수 있겠다는 생각이 들었다. 열에 대한 조건을 만족하여 특정 vector 데이터를 가져오는데 이 불리언 인덱싱은 값들을 가져온다.

In [21]:
df2 = df.copy()
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']

print(df2)
print(df2[df2['E'].isin(['two', 'four'])])

                   A         B         C         D      E
2013-01-01  0.496714 -0.138264  0.647689  1.523030    one
2013-01-02 -0.234153 -0.234137  1.579213  0.767435    one
2013-01-03 -0.469474  0.542560 -0.463418 -0.465730    two
2013-01-04  0.241962 -1.913280 -1.724918 -0.562288  three
2013-01-05 -1.012831  0.314247 -0.908024 -1.412304   four
2013-01-06  1.465649 -0.225776  0.067528 -1.424748  three
                   A         B         C         D     E
2013-01-03 -0.469474  0.542560 -0.463418 -0.465730   two
2013-01-05 -1.012831  0.314247 -0.908024 -1.412304  four


>* isin() 메서드를 이용해서 E열의 값이 'two'와 'four'를 포함하는 경우를 필터링합니다.

In [22]:
# 7. 데이터 설정하기

s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130102', periods=6))
# s1 = np.array(np.arange(1, 7), dtype='float32')

df['F'] = s1
print(df)

                   A         B         C         D    F
2013-01-01  0.496714 -0.138264  0.647689  1.523030  NaN
2013-01-02 -0.234153 -0.234137  1.579213  0.767435  1.0
2013-01-03 -0.469474  0.542560 -0.463418 -0.465730  2.0
2013-01-04  0.241962 -1.913280 -1.724918 -0.562288  3.0
2013-01-05 -1.012831  0.314247 -0.908024 -1.412304  4.0
2013-01-06  1.465649 -0.225776  0.067528 -1.424748  5.0


>* 새로운 열을 설정하면, 인덱스에 따라 데이터가 자동으로 정렬됩니다.
>* 인덱스가 지정되어있지 않다면 순서대로 빈 칸을 채웁니다. (주석으로 실험 결과)
>* 새로운 Series를 하나 만들어서 DataFrame의 'F'열로 지정했습니다.

In [23]:
df.at[dates[0], 'A'] = 0

print(df)

                   A         B         C         D    F
2013-01-01  0.000000 -0.138264  0.647689  1.523030  NaN
2013-01-02 -0.234153 -0.234137  1.579213  0.767435  1.0
2013-01-03 -0.469474  0.542560 -0.463418 -0.465730  2.0
2013-01-04  0.241962 -1.913280 -1.724918 -0.562288  3.0
2013-01-05 -1.012831  0.314247 -0.908024 -1.412304  4.0
2013-01-06  1.465649 -0.225776  0.067528 -1.424748  5.0


>* at와 레이블을 사용해서 값을 설정할 수 있습니다.

In [24]:
df.iat[0, 1] = 0

print(df)

                   A         B         C         D    F
2013-01-01  0.000000  0.000000  0.647689  1.523030  NaN
2013-01-02 -0.234153 -0.234137  1.579213  0.767435  1.0
2013-01-03 -0.469474  0.542560 -0.463418 -0.465730  2.0
2013-01-04  0.241962 -1.913280 -1.724918 -0.562288  3.0
2013-01-05 -1.012831  0.314247 -0.908024 -1.412304  4.0
2013-01-06  1.465649 -0.225776  0.067528 -1.424748  5.0


>* iat와 위치 인덱스를 이용해서 값을 설정할 수도 있습니다.

In [25]:
df.loc[:, 'D'] = np.array([5] * len(df))

print(df)

                   A         B         C  D    F
2013-01-01  0.000000  0.000000  0.647689  5  NaN
2013-01-02 -0.234153 -0.234137  1.579213  5  1.0
2013-01-03 -0.469474  0.542560 -0.463418  5  2.0
2013-01-04  0.241962 -1.913280 -1.724918  5  3.0
2013-01-05 -1.012831  0.314247 -0.908024  5  4.0
2013-01-06  1.465649 -0.225776  0.067528  5  5.0


>* loc을 사용해서 NumPy 어레이를 할당함으로써 값을 설정했습니다.
>* +DataFrame에다가 len() 함수를 물리면 행의 개수가 나온다.

In [26]:
df2 = df.copy()
df2[df2 > 0] = -df2

print(df2)

                   A         B         C  D    F
2013-01-01  0.000000  0.000000 -0.647689 -5  NaN
2013-01-02 -0.234153 -0.234137 -1.579213 -5 -1.0
2013-01-03 -0.469474 -0.542560 -0.463418 -5 -2.0
2013-01-04 -0.241962 -1.913280 -1.724918 -5 -3.0
2013-01-05 -1.012831 -0.314247 -0.908024 -5 -4.0
2013-01-06 -1.465649 -0.225776 -0.067528 -5 -5.0


>* 조건식을 이용해서 값을 설정할 수 있습니다.
>* DataFrame(df2)를 하나 만들고 0보다 큰 값들의 부호를 반대로 했습니다.