# 편한대로 쓰는 10 Minutes to pandas

* 판다스 정식 문서에 있는 10 Minutes to pandas를 내가 보기 편하게 정리하려고 만듦
* 정식 문서 같은 어투로 정리하지 않고, 맞춤법도 딱히 신경쓰지 않을 것임!
* 어차피 볼 사람도 없으니까 걍 대충 깔끔하게 정리하자!
* 혹시나 어딘가의 누군가가 쉬운 한글 문서 찾다가 아주 낮은 확률로 올 수 있으니 아주 조금 친절하게 쓰자
* 쓰다보니까 파이썬 관련 경험이 좀 필요한 거 같아서 완전 초심자가 보는 걸 대비해서 이것저것 추가 설명 썼음

## 0.필수 기능 불러오기

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

- pandas는 데이터분석, numpy는 수학계산, matplotlib.pyplot는 시각화라고 생각하면 간단
- import pandas as pd는 쉽게 이야기 하면 pandas라는 기능을 쓸때 줄임말로 pd라고 쓸 수 있도록 했다고 하자. <br>온라인이나 게임에서 글쓰거나 채팅할때 '수고하셨어요'라고 안하고 'ㅅㄱ'나 'ㅅㄱㅇ' 하는 것과 같다

## 1. 오브젝트 생성(Object Creation)

### 1.1 Series를 생성해보자

In [6]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

- pd.Series([1, 3, 5, np.nan, 6, 8])는 말하듯이 풀어쓰면 판다스에서(pd.) Series라는 기능으로 오브젝트를 만들건데(Series) 오브젝트 안에 들어가는 것들은 괄호안에 있는 것과 같아요([1, 3, 5, np.nan, 6, 8])라고 하는 것
- dtype을 보면 float형식으로 들어간 것을 알 수 있다. 그냥 정수로 써도 들어갈때는 소수 형식으로 들어간다고 이해하자.
- 3번 row에 있는 NaN은 값이 없다는 것이다. 값이 0이라는 게 아니라 없다는 거다. 시험을 봐서 0점 받은거랑 시험조차 보지 않아서 점수가 없는 거랑 다른 정도로 생각하자.

### 1.2 이번엔 DataFrame을 만들어보자

In [9]:
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

- 딱 봐도 알겠지만 20130101을 시작으로 6일의 기간(periods=6)을 dates에 할당시키는 것

In [14]:
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,-1.007036,0.798452,-0.081278,0.03991
2013-01-02,-1.014781,0.970709,0.411871,-0.506244
2013-01-03,-0.248305,-0.552049,-0.729117,1.433478
2013-01-04,0.197788,0.40534,1.572548,-0.24166
2013-01-05,-0.001139,-2.038972,0.623207,-0.168299
2013-01-06,1.041731,-0.111841,0.787711,-2.135954


- np.random.randn(6,4)는 표준정규분포에서 숫자를 랜덤으로 뽑는다. 6,4 는 데이터프래임 크기로 row가 6개고 column이 4개라는 소리다
- index=dates는 row를 아까 설정한 dates로 한다는 것이다. dates에 있던 6일이 각 행에 색인(index)로 들어간다
- columns=list('ABCD')는 각 column에 문자를 하나씩 header로 준다.

### 1.3 dict를 써서 데이터프래임을 만들어보자

In [18]:
df2 = pd.DataFrame({ 'A' : 1.,
                              'B' : pd.Timestamp('20130102'),
                              'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                              'D' : np.array([3] * 4,dtype='int32'),
                              'E' : pd.Categorical(["test","train","test","train"]),
                              'F' : 'foo' })
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


- dict는 'A' : 1 이라고 써있는 것을 그냥 읽어보자면 "A는 1이다"라고 말하는 것 처럼 정리되는 형식이다.
- 따라서 A 항목에는 모두 1이 들어가고
- B에는 20130102라는 숫자가 Timestamp기능으로 날짜 방식으로 변해서 2013-01-02로 들어가고
- C에는 Series 형식으로 1이 들어가는데 index=list(range(4))에 따라 4개가 들어갈거고, dtype='float32'에 따라 데이터는 float32 형식으로 들어간다.
- D에는 np.array기능으로 [3] * 4,dtype='int32'에 따라 3이 4개 들어가 있는 int32 형식의 array를 만듦.
- F에는 foo라는 오브젝트가 들어감

결국 각 column에 다른 자료형이 들어가는 걸 보여주려고 이렇게 만든 듯. 판다스에서 다양한 자료형으로 데이터프레임을 만들 수 있다는 것을 알고 넘어가면 된다!

In [24]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

### 1.4 자동완성 기능에 대해 알아보자

- IPython(주피터 노트북이 IPython기반)을 사용하면 df2. 까지 입력한 상태에서 키보드의 TAB키를 누르면 쓸 수 있는 기능들이 나온다.
- 만약에 df2.mean()으로 평균값을 구하고 싶으면 df2.m 까지 치고 탭누르면 m 으로 시작하는 기능들이 쭉 나온다
- 기능 뒤에 ()가 자동으로 안쳐지니까 직접 쓰도록
- 이건 주피터 노트북에 표현하는 법을 몰라서 그냥 직접 실습해보기!

## 2. 데이터 보는 법(Viewing Data)

### 2.1 처음과 끝을 기준으로 몇 줄의 데이터만 봐보자

홈페이지에는 Basic section 참고 하라는데, 일단 그냥 아래처럼 데이터프레임을 만들자

In [104]:
index = pd.date_range('1/1/2013', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=index, columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.708209,-0.13387,-1.133807,1.495762
2013-01-02,-0.150721,-0.049005,-1.729745,0.089446
2013-01-03,0.733766,-0.955212,-1.183222,-0.398022
2013-01-04,0.737467,-0.455747,-0.654403,-1.010262
2013-01-05,0.064927,-0.173009,0.900711,0.95041
2013-01-06,0.810304,1.153982,-0.749885,0.449935


랜덤숫자를 주는 거니까 홈페이지랑 다르다고 겁먹지 말고

In [105]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,-0.708209,-0.13387,-1.133807,1.495762
2013-01-02,-0.150721,-0.049005,-1.729745,0.089446
2013-01-03,0.733766,-0.955212,-1.183222,-0.398022
2013-01-04,0.737467,-0.455747,-0.654403,-1.010262
2013-01-05,0.064927,-0.173009,0.900711,0.95041


위에서 부터 5개를 보여준다. 그러니까 head임

In [106]:
df.head(2)

Unnamed: 0,A,B,C,D
2013-01-01,-0.708209,-0.13387,-1.133807,1.495762
2013-01-02,-0.150721,-0.049005,-1.729745,0.089446


괄호에 숫자 넣으면 그만큼 보여준다 숫자가 몇이던 데이터프레임 자료 숫자 이내면 괜찮음

In [107]:
df.tail()

Unnamed: 0,A,B,C,D
2013-01-02,-0.150721,-0.049005,-1.729745,0.089446
2013-01-03,0.733766,-0.955212,-1.183222,-0.398022
2013-01-04,0.737467,-0.455747,-0.654403,-1.010262
2013-01-05,0.064927,-0.173009,0.900711,0.95041
2013-01-06,0.810304,1.153982,-0.749885,0.449935


밑에서 부터 5개를 보여준다. 그러니까 tail임

In [108]:
df.tail(2)

Unnamed: 0,A,B,C,D
2013-01-05,0.064927,-0.173009,0.900711,0.95041
2013-01-06,0.810304,1.153982,-0.749885,0.449935


head()에서 했던 설명과 동일한 원리다

### 2.2 행, 열, 값을 보자

row부터 보자

In [109]:
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

column을 보자

In [110]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

value를 보자

In [111]:
df.values

array([[-0.70820922, -0.13386964, -1.13380701,  1.49576215],
       [-0.15072086, -0.04900486, -1.72974458,  0.08944643],
       [ 0.73376554, -0.95521153, -1.18322215, -0.39802202],
       [ 0.73746706, -0.45574737, -0.65440298, -1.01026212],
       [ 0.06492709, -0.173009  ,  0.90071081,  0.95041033],
       [ 0.81030405,  1.15398163, -0.74988492,  0.44993461]])

이건 정말 쉬우니까 설명 안씀

### 2.3 데이터프레임 행, 열을 서로 바꿔보자

기존 데이터프레임의 row와 column을 바꾸고 싶으면 어떻게 해야할까

In [112]:
df.T

Unnamed: 0,2013-01-01 00:00:00,2013-01-02 00:00:00,2013-01-03 00:00:00,2013-01-04 00:00:00,2013-01-05 00:00:00,2013-01-06 00:00:00
A,-0.708209,-0.150721,0.733766,0.737467,0.064927,0.810304
B,-0.13387,-0.049005,-0.955212,-0.455747,-0.173009,1.153982
C,-1.133807,-1.729745,-1.183222,-0.654403,0.900711,-0.749885
D,1.495762,0.089446,-0.398022,-1.010262,0.95041,0.449935


- row와 column이 변경되었다
- 매트릭스 연산을 아시는 분은 전치행렬(matrix transpose)라고 이해하시면 된다

### 2.4 데이터프레임의 행과 열의 순서를 각각 역순으로 변경해보자

df의 column의 순서를 역순으로 해보자

In [113]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,1.495762,-1.133807,-0.13387,-0.708209
2013-01-02,0.089446,-1.729745,-0.049005,-0.150721
2013-01-03,-0.398022,-1.183222,-0.955212,0.733766
2013-01-04,-1.010262,-0.654403,-0.455747,0.737467
2013-01-05,0.95041,0.900711,-0.173009,0.064927
2013-01-06,0.449935,-0.749885,1.153982,0.810304


- axis=1 부분이 column을 뜻 한다

In [114]:
df.sort_index(axis=0, ascending=False)

Unnamed: 0,A,B,C,D
2013-01-06,0.810304,1.153982,-0.749885,0.449935
2013-01-05,0.064927,-0.173009,0.900711,0.95041
2013-01-04,0.737467,-0.455747,-0.654403,-1.010262
2013-01-03,0.733766,-0.955212,-1.183222,-0.398022
2013-01-02,-0.150721,-0.049005,-1.729745,0.089446
2013-01-01,-0.708209,-0.13387,-1.133807,1.495762


- axis=0 이면 row의 순서가 바뀌니 참고!

### 2.5 데이터프레임의 값을 기준으로 정렬해보자

특정 column의 값을 순서대로 정렬해보자

In [115]:
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-03,0.733766,-0.955212,-1.183222,-0.398022
2013-01-04,0.737467,-0.455747,-0.654403,-1.010262
2013-01-05,0.064927,-0.173009,0.900711,0.95041
2013-01-01,-0.708209,-0.13387,-1.133807,1.495762
2013-01-02,-0.150721,-0.049005,-1.729745,0.089446
2013-01-06,0.810304,1.153982,-0.749885,0.449935


- by='B'에 따라 B는 value의 크기가 작은 순서대로 정렬되었다
- 그리고 나머지 column의 값들은 B가 정렬된 순서에 따라 자동으로 정렬되었다(row의 날짜가 변경된걸로 뭐가 변경 됐는지 파악해봐요)

## 3. 선택하기(Selection)

데이터프레임에서 특정 자료를 선택하는 법을 배우자

### 3.1 기본적인 자료 선택법

column 중에서 A의 값을 가져오려면?

In [116]:
df['A']

2013-01-01   -0.708209
2013-01-02   -0.150721
2013-01-03    0.733766
2013-01-04    0.737467
2013-01-05    0.064927
2013-01-06    0.810304
Freq: D, Name: A, dtype: float64

1~3 row에 해당하는 정보를 가져오려면?(2가지 방법)

In [117]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-0.708209,-0.13387,-1.133807,1.495762
2013-01-02,-0.150721,-0.049005,-1.729745,0.089446
2013-01-03,0.733766,-0.955212,-1.183222,-0.398022


In [119]:
df['20130101':'20130103']

Unnamed: 0,A,B,C,D
2013-01-01,-0.708209,-0.13387,-1.133807,1.495762
2013-01-02,-0.150721,-0.049005,-1.729745,0.089446
2013-01-03,0.733766,-0.955212,-1.183222,-0.398022


### 3.2 라벨이름 별 선택법

먼저 dates를 상기하고 보자

In [121]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

2013-01-01의 데이터를 보려면?

In [122]:
df.loc[dates[0]]

A   -0.708209
B   -0.133870
C   -1.133807
D    1.495762
Name: 2013-01-01 00:00:00, dtype: float64

- dates의 첫번째 값이 2013-01-01이고, 파이썬에서 첫번째를 나타내는 것은 0 이므로 dates[0]은 2013-01-01을 나타낸다
- df.loc[dates[0]]는 결국 첫번째 row의 값을 보여주세요! 라고 요청하는 것

이번에는 데이터프레임의 일부분을 보는 방법이다

In [124]:
df.loc[:,['A','B']]

Unnamed: 0,A,B
2013-01-01,-0.708209,-0.13387
2013-01-02,-0.150721,-0.049005
2013-01-03,0.733766,-0.955212
2013-01-04,0.737467,-0.455747
2013-01-05,0.064927,-0.173009
2013-01-06,0.810304,1.153982


- df.loc[:,['A','B']] 에서 콜론(:)만 써있는 경우에는 모든 값이라고 이해하자. 결국 row의 모든 값을 불러오는 것임
- ['A','B']부분은 column 중에 A와 B만 가져오겠다는 것이다
- 잘 모르겠다고? 그럼 이어서 보자

In [126]:
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,-0.150721,-0.049005
2013-01-03,0.733766,-0.955212
2013-01-04,0.737467,-0.455747


- df.loc[보고싶은 row, 보고싶은 column]이라고 생각하면 된다.
- 말로 쓰자면 2~3일의 데이터를 조회할건데, 그 중에서 A랑 B 것만 보는 거다

홈페이지 구성 순서에 따라 일단 설명을 적는다

In [131]:
df.loc['20130102',['A','B']]

A   -0.150721
B   -0.049005
Name: 2013-01-02 00:00:00, dtype: float64

- 설명으로는 Reduction in the dimensions of the returned object 라고 적혀있다.
- 호출되는 오브젝트의 차원 감소라고 하는데 비교를 위해 아래를 보자

In [130]:
temp1 = df.loc['20130102':'20130104',['A','B']]
temp2 = df.loc['20130102',['A','B']]
print(type(temp1))
print(type(temp2))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>


- temp1과 temp2의 차이는 row의 수가 얼마나 있느냐이다
- 선택한 row가 1개인 temp2의 경우 Series로 나오고 여러개인 temp1은 DataFrame으로 나오는게 차원 차이가 난다는 설명으로 보인다.
- DataFrame이 매트릭스의 성질, Series가 벡터의 성질을 갖고 있는 것을 설명하는 부분인듯

하나의 값만 선택하려면

In [134]:
df.loc[dates[0],'A']

-0.7082092223540133

- 이것은 Series보다 한차원이 작으니(벡터보다 작으니까) Scalar 값이다!
- 그리고 이렇게 쓰는 방법이 스칼라에 접근하는 가장 빠른 방법이다(코드 속도가 빠른 것을 말한다)
- 다른 방식으로 접근하면 위의 방법보다 비교적 느린 속도로 스칼라에 접근한다

 ### 3.3 라벨위치 별 선택법

이번에는 행과 열의 이름으로 선택하는게 아니라 위치를 나타내는 숫자로 선택하는 방법이다