# Pandas


In [1]:
import pandas as pd

# Series

1차원 배열 자료형으로, **인덱스와 값의 쌍**으로 구성되어있다.  

> 정의 방식: 딕셔너리를 이용하거나, 리스트를 이용한 후 인덱스를 부여한다.  
  인덱스를 정의하는 경우보다는 리스트를 이용하는 경우가 더 많다.  
`
pd.Series({"a": 1, "b": 2, "c":3, "d":4})
pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
`

여기의 데이터는 ndarray로, Series는 ndarray에 인덱스가 부여된 형태의 데이터이다.  
Series에도 유니버설 함수와 브로드캐스팅 등이 적용된다.  


## Series 

### 시리즈 만들기

In [2]:
# 딕셔너리 구조 이용 

S = pd.Series({"a": 1, "b": 2, "c":3, "d":4})
S

a    1
b    2
c    3
d    4
dtype: int64

In [3]:
# 리스트와 인덱스 리스트 이용

S = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
S

a    1
b    2
c    3
d    4
dtype: int64

In [4]:
# 리스트를 이용하면 위치인덱스를 이용하여 자동적으로 0부터 인덱스가 부여됨

S2 = pd.Series([1, 2, 3, 4])
S2

0    1
1    2
2    3
3    4
dtype: int64

### Series.values

Series에는 `values`라는 어트리뷰트가 있다.  
S라는 Series에 포함된 데이터(ndarray)를 볼 수 있다.  


In [5]:
S2.values

array([1, 2, 3, 4])

In [6]:
type(S2.values)

numpy.ndarray

### Series.index

인덱스를 확인할 수 있다.

In [7]:
S = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
S.index

Index(['a', 'b', 'c', 'd'], dtype='object')

### Series에 유니버설 함수와 브로드캐스팅

`S`는 시리즈여서 제곱이라는 개념이 적용이 되지 않을 것 같지만 유니버설 함수가 적용된다

In [8]:
S ** 2 # 유니버설 함수와 브로드캐스팅이 적용됨

a     1
b     4
c     9
d    16
dtype: int64

# DataFrame

데이터프레임은 2차원 배열 자료형으로 값, 행 인덱스, 열 인덱스로 구성되어 있다.

> 정의: 딕셔너리를 이용하거나, 데이터-컬럼-인덱스를 따로 정의함.  
`
pd.DataFrame({"col1": [1, 2, 3, 4], "col2": [5, 6, 7, 8]}, 
            index = ['a', 'b', 'c', 'd'])
pd.DataFrame([[1, 5], [2, 6], [3, 7], [4, 8]],
            columns = ['Col1', 'Col2'],
            index = ['a', 'b', 'c', 'd'])
`

기존에 있는 데이터를 그대로 가져와서 쓰기위해 쓰는 경우가 더 많기 때문에, 딕셔너리를 이용하는 경우가 더 많다.

DataFrame은 ndarray에 행과 열 인덱스가 부여된 형태의 데이터이다.  
즉, DataFrame은 하나 이상의 Series의 집합이라고 볼 수 있다.  


## DataFrame 만들기

In [9]:
df = pd.DataFrame({"col1": [1, 2, 3, 4],
                  "col2": [5, 6, 7, 8]}, 
                  index = ['a', 'b', 'c', 'd'])
df

Unnamed: 0,col1,col2
a,1,5
b,2,6
c,3,7
d,4,8


In [10]:
df = pd.DataFrame([[1, 5], [2, 6], [3, 7], [4, 8]],
            columns = ['Col1', 'Col2'],
            index = ['a', 'b', 'c', 'd'])
df

Unnamed: 0,Col1,Col2
a,1,5
b,2,6
c,3,7
d,4,8


## DataFrame.values
값에 접근하기

한 행의 값들이 리스트로 묶이고, 여러 행이 리스트로 묶여 array가 된다. 

In [11]:
df.values

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [12]:
type(df.values)

numpy.ndarray

## index, columns


In [13]:
# 행 인덱스 출력

df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [14]:
# 열 인덱스(컬럼들) 출력: 자주 쓰임

df.columns

Index(['Col1', 'Col2'], dtype='object')

In [15]:
# 한 열의 타입: 판다스 시리즈

type(df['Col1'])

pandas.core.series.Series

### 인덱싱과 슬라이싱

판다스의 객체는 암묵적인 인덱스(위치 인덱스)와 명시적 인덱스라는 두 종류의 인덱스가 있다.  
명시적 인덱스 : 우리가 실제로 사용하는 것, loc 인덱서 사용  
암묵적 인덱스 : 컴퓨터가 보는 것, iloc 인덱서 사용  

위치를 위해 암묵적 인덱스를 사용하는 경우가 더 많다.  

> 차이점
loc를 이용한 슬라이싱에서는 맨 뒤 값을 포함 O  
`df.loc['a':'c'] = [1,2,3]`  
iloc를 이용한 슬라이싱에서는 맨 뒤 값을 포함 X  
`df.iloc[1:3] = [2, 3]`  

데이터 프레임의 컬럼을 선택하기 위해서는  
`df[col_name]`  
`df[col_name_list]`  
를 사용한다. ndarray에서 열을 선택하는 것과 같다.

In [16]:
S

a    1
b    2
c    3
d    4
dtype: int64

In [17]:
# 명시적 인덱스 사용
# 사전에서 키를 가지고 값을 찾는 것과 완벽히 동일

S.loc['a']

1

In [18]:
# 암묵적 인덱스 사용

S.iloc[2]

3

#### 범위로 인덱스를 찾을 떄

In [19]:
S.loc['a':'c']

a    1
b    2
c    3
dtype: int64

In [20]:
# 사실상 0,1,2,3 에서 1~3 인데 3이 출력되지 않는 것

S.iloc[1:3]

b    2
c    3
dtype: int64

#### 데이터 프레임에서 리스트로 컬럼 불러오기

주의할 것! 단일 컬럼을 불러올때 컬럼이름을 리스트로 감싸서 넣으면 데이터 프레임 형태로 나오지만, 감싸지 않고 그냥 호출할 경우 시리즈 형태로 나온다.  

In [21]:
df

Unnamed: 0,Col1,Col2
a,1,5
b,2,6
c,3,7
d,4,8


In [22]:
df[['Col1', 'Col2']]

Unnamed: 0,Col1,Col2
a,1,5
b,2,6
c,3,7
d,4,8


In [23]:
df['Col1'] # column name => Series

a    1
b    2
c    3
d    4
Name: Col1, dtype: int64

In [24]:
df[['Col1']] # column name list => Data Frame

Unnamed: 0,Col1
a,1
b,2
c,3
d,4


#### 행과 열을 지정해서 조회할 때

컬럼 또한 암묵적 인덱스 넘벌로 데려올 수 있다.

In [25]:
df.loc['a', 'Col2']

5

In [26]:
df.loc['a':'c', 'Col1']

a    1
b    2
c    3
Name: Col1, dtype: int64

In [27]:
df.iloc[1:3, 1]

b    6
c    7
Name: Col2, dtype: int64

## 값 조회하기

주피터 환경에서는 데이터프레임 혹은 시리즈 자료를 갖는 변수를 출력할 수 있다.

`pd.set_option('display.max_rows', None)` :  
모든 행을 보이게 함. None 대신 정수를 넣어 출력 행 개수 조절 가능.  
`pd.set_option('display.max_columns', None)` :  
모든 열을 보이게 함.  



In [28]:
# 임의의 데이터 프레임 생성

import numpy as np
df_bin = pd.DataFrame(np.random.random(size = (500, 5)),
                 columns = ['X1', 'X2', 'X3', 'X4', 'X5'])
df_bin

Unnamed: 0,X1,X2,X3,X4,X5
0,0.051591,0.601917,0.763733,0.372495,0.768890
1,0.357465,0.636911,0.266193,0.674526,0.040346
2,0.459028,0.096492,0.534070,0.250490,0.414433
3,0.867566,0.131960,0.148176,0.740926,0.169625
4,0.646140,0.274708,0.280718,0.371735,0.825771
...,...,...,...,...,...
495,0.901616,0.306467,0.698825,0.985384,0.293438
496,0.960600,0.787532,0.459179,0.897335,0.207408
497,0.921373,0.657361,0.713769,0.225982,0.075324
498,0.070771,0.169303,0.114803,0.929087,0.899722


In [29]:
# 모든 행, 열 출력 

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [30]:
# 500개의 행이 출력될 것

df_bin

Unnamed: 0,X1,X2,X3,X4,X5
0,0.051591,0.601917,0.763733,0.372495,0.76889
1,0.357465,0.636911,0.266193,0.674526,0.040346
2,0.459028,0.096492,0.53407,0.25049,0.414433
3,0.867566,0.13196,0.148176,0.740926,0.169625
4,0.64614,0.274708,0.280718,0.371735,0.825771
5,0.855344,0.593161,0.522118,0.500803,0.375899
6,0.989402,0.781507,0.761277,0.502806,0.271916
7,0.301477,0.071414,0.824826,0.952026,0.193393
8,0.266618,0.301844,0.938285,0.428351,0.013888
9,0.683929,0.467693,0.372991,0.701081,0.703312


### 값 일부 조회하기

데이터 크기 때문에 데이터의 일부만 확인하거나 요약 정보를 확인한다.

>`df.head()` : 맨 앞 n개 확인  
`df.tail()` : 맨 앞 n개 확인  
`df.columns` : 구성하는 컬럼명 집합 조회  
`df.dtypes` : 구성하는 컬럼별 데이터 타입 확인  


In [31]:
df_bin.head()

Unnamed: 0,X1,X2,X3,X4,X5
0,0.051591,0.601917,0.763733,0.372495,0.76889
1,0.357465,0.636911,0.266193,0.674526,0.040346
2,0.459028,0.096492,0.53407,0.25049,0.414433
3,0.867566,0.13196,0.148176,0.740926,0.169625
4,0.64614,0.274708,0.280718,0.371735,0.825771


In [32]:
df_bin.head(10)

Unnamed: 0,X1,X2,X3,X4,X5
0,0.051591,0.601917,0.763733,0.372495,0.76889
1,0.357465,0.636911,0.266193,0.674526,0.040346
2,0.459028,0.096492,0.53407,0.25049,0.414433
3,0.867566,0.13196,0.148176,0.740926,0.169625
4,0.64614,0.274708,0.280718,0.371735,0.825771
5,0.855344,0.593161,0.522118,0.500803,0.375899
6,0.989402,0.781507,0.761277,0.502806,0.271916
7,0.301477,0.071414,0.824826,0.952026,0.193393
8,0.266618,0.301844,0.938285,0.428351,0.013888
9,0.683929,0.467693,0.372991,0.701081,0.703312


In [33]:
df_bin.tail()

Unnamed: 0,X1,X2,X3,X4,X5
495,0.901616,0.306467,0.698825,0.985384,0.293438
496,0.9606,0.787532,0.459179,0.897335,0.207408
497,0.921373,0.657361,0.713769,0.225982,0.075324
498,0.070771,0.169303,0.114803,0.929087,0.899722
499,0.081166,0.93085,0.525565,0.183589,0.359131


In [34]:
df_bin.columns

Index(['X1', 'X2', 'X3', 'X4', 'X5'], dtype='object')

In [35]:
df_bin.dtypes

X1    float64
X2    float64
X3    float64
X4    float64
X5    float64
dtype: object

float64일때 64라는 숫자는 크면 클 수록 자료형의 크기가 크다고 알면 됨.  

## 값 변경하기

인덱서를 사용하여 접근하여, 조회한 값을 직접 변경할 수 있다. (가장 좋은 방법).  

In [36]:
df_bin.iloc[3, 4] = 'Changed'
df_bin.head()

Unnamed: 0,X1,X2,X3,X4,X5
0,0.051591,0.601917,0.763733,0.372495,0.76889
1,0.357465,0.636911,0.266193,0.674526,0.040346
2,0.459028,0.096492,0.53407,0.25049,0.414433
3,0.867566,0.13196,0.148176,0.740926,Changed
4,0.64614,0.274708,0.280718,0.371735,0.825771


바꾸고 나면 object로 바뀐다. Changed라는 값이 문자열이기 때문에, 시리즈는 ndarray의 성격을 그대로 가져가기 때문에, 상위자료형인 오브젝트로 통합된다.  

In [37]:
df_bin['X5'].dtypes

dtype('O')

In [38]:
df_bin.iloc[3:20, 2:4] = 'Changed2'
df_bin.iloc[:25]

Unnamed: 0,X1,X2,X3,X4,X5
0,0.051591,0.601917,0.763733,0.372495,0.76889
1,0.357465,0.636911,0.266193,0.674526,0.040346
2,0.459028,0.096492,0.53407,0.25049,0.414433
3,0.867566,0.13196,Changed2,Changed2,Changed
4,0.64614,0.274708,Changed2,Changed2,0.825771
5,0.855344,0.593161,Changed2,Changed2,0.375899
6,0.989402,0.781507,Changed2,Changed2,0.271916
7,0.301477,0.071414,Changed2,Changed2,0.193393
8,0.266618,0.301844,Changed2,Changed2,0.013888
9,0.683929,0.467693,Changed2,Changed2,0.703312
