#### 1.1 Pandas 데이터 타입

Pandas에서는 크게 2가지 데이터 타입이 존재한다.
- 1차원 데이터 : Series
- **2차원 데이터 : DataFrame**

---

##### [ 2차원 데이터 ]
→ **DataFrame**를 이용한다.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [3]:
data = [[10,20],[30,40],[50,60],[70,80]] # 리스트의 리스트
df = pd.DataFrame(data, columns=['kor','eng'],
                 index=['aa','bb','cc','dd'])
df

Unnamed: 0,kor,eng
aa,10,20
bb,30,40
cc,50,60
dd,70,80


In [4]:
data = [{'kor':10,'eng':20},
        {'kor':30,'eng':40},
        {'kor':50,'eng':60},
        {'kor':70,'eng':80},
       ]
df = pd.DataFrame(data)
df

Unnamed: 0,eng,kor
0,20,10
1,40,30
2,60,50
3,80,70


In [6]:
data = {'kor':[10,20,30,40],'eng':[20,40,60,80]}
df = pd.DataFrame(data)
df

Unnamed: 0,kor,eng
0,10,20
1,20,40
2,30,60
3,40,80


In [19]:
data = {'kor':[10,20,30,40],
        'eng':[20,40,60,80],
        'math':[60,50,34,50]}
df = pd.DataFrame(data,index=['aa','bb','cc','dd'])
df

Unnamed: 0,kor,eng,math
aa,10,20,60
bb,20,40,50
cc,30,60,34
dd,40,80,50


### DataFrame의 기본 성질

In [8]:
df.ndim # 2차원

2

In [9]:
df.shape # 4행 2열 행열

(4, 2)

In [11]:
df.size # 4*2 = 8 개

8

In [12]:
df.columns

Index(['kor', 'eng'], dtype='object')

In [13]:
df.index

Index(['aa', 'bb', 'cc', 'dd'], dtype='object')

In [15]:
df.values # numpy 2차원 array

array([[10, 20],
       [20, 40],
       [30, 60],
       [40, 80]])

### index slicing

In [17]:
#df['aa'] # key error...column을 줘야한다
df['kor'] # 결과값은 series

aa    10
bb    20
cc    30
dd    40
Name: kor, dtype: int64

In [18]:
df.kor

aa    10
bb    20
cc    30
dd    40
Name: kor, dtype: int64

In [21]:
df[['kor','math']] # 복수개의 컬럼들을 선택할 경우...결과는 아직 데이터 프레임

Unnamed: 0,kor,math
aa,10,60
bb,20,50
cc,30,34
dd,40,50


In [23]:
df[0:3] # 0만 했으면 에러..하지만 이렇게 하면 slicing은 row가 선택

Unnamed: 0,kor,eng,math
aa,10,20,60
bb,20,40,50
cc,30,60,34


In [24]:
df[1:]

Unnamed: 0,kor,eng,math
bb,20,40,50
cc,30,60,34
dd,40,80,50


In [25]:
df['aa':'cc'] # slicing 은 row로 선택

Unnamed: 0,kor,eng,math
aa,10,20,60
bb,20,40,50
cc,30,60,34


In [26]:
df.iloc[0] # zero base index로 숫자를 넣어야함 결과는 series를 반환해줌

kor     10
eng     20
math    60
Name: aa, dtype: int64

In [27]:
df.loc['aa'] # 부여된 index로

kor     10
eng     20
math    60
Name: aa, dtype: int64

예전 `ix`와 같은 문법은 이제 `loc`과 `iloc`으로 통합되었음

In [28]:
df.iloc[1:4]

Unnamed: 0,kor,eng,math
bb,20,40,50
cc,30,60,34
dd,40,80,50


In [29]:
df.loc['bb':'cc']

Unnamed: 0,kor,eng,math
bb,20,40,50
cc,30,60,34


In [31]:
df.iloc[1:,0] # kor 컬럼만 가져오게 됨

bb    20
cc    30
dd    40
Name: kor, dtype: int64

In [32]:
df.iloc[1:,0:2] # 항상 row먼저 선택하고 그 다음에 col을 선택하

Unnamed: 0,kor,eng
bb,20,40
cc,30,60
dd,40,80


In [33]:
df.iloc[1:,0::2] # kor와 math만 선택하고 싶다면

Unnamed: 0,kor,math
bb,20,50
cc,30,34
dd,40,50


In [34]:
df.iloc[1:,[0,2]] # 특정 컬럼을 선택하고 싶다면 list로 묶는다

Unnamed: 0,kor,math
bb,20,50
cc,30,34
dd,40,50


In [39]:
df.iloc[3,2]

50

In [36]:
df.loc['bb':,] # loc은 부여된 인덱스와 컬럼

Unnamed: 0,kor,eng,math
bb,20,40,50
cc,30,60,34
dd,40,80,50


In [37]:
df.loc[['bb','cc'],['kor','math']]

Unnamed: 0,kor,math
bb,20,50
cc,30,34


In [44]:
df1 = df+2 # 전체 개별 데이터에 2를 더해줌
df1

Unnamed: 0,kor,eng,math
aa,12,22,62
bb,22,42,52
cc,32,62,36
dd,42,82,52


In [45]:
df2 = df['kor']+2 # return 타입이 series
df2

aa    12
bb    22
cc    32
dd    42
Name: kor, dtype: int64

In [51]:
df1['kor'] = df['kor']+2
df1

Unnamed: 0,kor,eng,math
aa,12,22,62
bb,22,42,52
cc,32,62,36
dd,42,82,52


In [52]:
df1['kor'] = [1,2,3,4]
df1

Unnamed: 0,kor,eng,math
aa,1,22,62
bb,2,42,52
cc,3,62,36
dd,4,82,52


In [55]:
df1 = df
df1.iloc[0:2,1:] = 3
df1

Unnamed: 0,kor,eng,math
aa,10,3,3
bb,20,3,3
cc,30,60,34
dd,40,80,50


In [56]:
df[[True,False,False,True]] # row boolean indexing

Unnamed: 0,kor,eng,math
aa,10,3,3
dd,40,80,50


In [59]:
df['kor']>20 # return 값도 row에 대해서 True,False로

aa    False
bb    False
cc     True
dd     True
Name: kor, dtype: bool

In [60]:
df[df['kor']>20]

Unnamed: 0,kor,eng,math
cc,30,60,34
dd,40,80,50
