# Pandas


In [1]:
import pandas as pd

# Series

1차원 배열 자료형으로, **인덱스와 값의 쌍**으로 구성되어있다.  

> 정의 방식: 딕셔너리를 이용하거나, 리스트를 이용한 후 인덱스를 부여한다.  
  인덱스를 정의하는 경우보다는 리스트를 이용하는 경우가 더 많다.  
`
pd.Series({"a": 1, "b": 2, "c":3, "d":4})
pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
`

여기의 데이터는 ndarray로, Series는 ndarray에 인덱스가 부여된 형태의 데이터이다.  
Series에도 유니버설 함수와 브로드캐스팅 등이 적용된다.  


## Series 

### 시리즈 만들기

In [2]:
# 딕셔너리 구조 이용 

S = pd.Series({"a": 1, "b": 2, "c":3, "d":4})
S

a    1
b    2
c    3
d    4
dtype: int64

In [3]:
# 리스트와 인덱스 리스트 이용

S = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
S

a    1
b    2
c    3
d    4
dtype: int64

In [4]:
# 리스트를 이용하면 위치인덱스를 이용하여 자동적으로 0부터 인덱스가 부여됨

S2 = pd.Series([1, 2, 3, 4])
S2

0    1
1    2
2    3
3    4
dtype: int64

### Series.values

Series에는 `values`라는 어트리뷰트가 있다.  
S라는 Series에 포함된 데이터(ndarray)를 볼 수 있다.  


In [5]:
S2.values

array([1, 2, 3, 4])

In [6]:
type(S2.values)

numpy.ndarray

### Series.index

인덱스를 확인할 수 있다.

In [7]:
S = pd.Series([1, 2, 3, 4], index = ['a', 'b', 'c', 'd'])
S.index

Index(['a', 'b', 'c', 'd'], dtype='object')

### Series에 유니버설 함수와 브로드캐스팅

`S`는 시리즈여서 제곱이라는 개념이 적용이 되지 않을 것 같지만 유니버설 함수가 적용된다

In [8]:
S ** 2 # 유니버설 함수와 브로드캐스팅이 적용됨

a     1
b     4
c     9
d    16
dtype: int64

# DataFrame

데이터프레임은 2차원 배열 자료형으로 값, 행 인덱스, 열 인덱스로 구성되어 있다.

> 정의: 딕셔너리를 이용하거나, 데이터-컬럼-인덱스를 따로 정의함.
`
pd.DataFrame({"col1": [1, 2, 3, 4],
                  "col2": [5, 6, 7, 8]}, 
                  index = ['a', 'b', 'c', 'd'])
pd.DataFrame([[1, 5], [2, 6], [3, 7], [4, 8]],
            columns = ['Col1', 'Col2'],
            index = ['a', 'b', 'c', 'd'])
`

기존에 있는 데이터를 그대로 가져와서 쓰기위해 쓰는 경우가 더 많기 때문에, 딕셔너리를 이용하는 경우가 더 많다.

DataFrame은 ndarray에 행과 열 인덱스가 부여된 형태의 데이터이다.  
즉, DataFrame은 하나 이상의 Series의 집합이라고 볼 수 있다.  


## DataFrame 만들기

In [9]:
df = pd.DataFrame({"col1": [1, 2, 3, 4],
                  "col2": [5, 6, 7, 8]}, 
                  index = ['a', 'b', 'c', 'd'])
df

Unnamed: 0,col1,col2
a,1,5
b,2,6
c,3,7
d,4,8


In [10]:
df = pd.DataFrame([[1, 5], [2, 6], [3, 7], [4, 8]],
            columns = ['Col1', 'Col2'],
            index = ['a', 'b', 'c', 'd'])
df

Unnamed: 0,Col1,Col2
a,1,5
b,2,6
c,3,7
d,4,8


## DataFrame.values
값에 접근하기

한 행의 값들이 리스트로 묶이고, 여러 행이 리스트로 묶여 array가 된다. 

In [11]:
df.values

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

In [12]:
type(df.values)

numpy.ndarray

## index, columns


In [13]:
# 행 인덱스 출력

df.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [14]:
# 열 인덱스(컬럼들) 출력: 자주 쓰임

df.columns

Index(['Col1', 'Col2'], dtype='object')

In [15]:
# 한 열의 타입: 판다스 시리즈

type(df['Col1'])

pandas.core.series.Series

### 인덱싱과 슬라이싱

판다스의 객체는 암묵적인 인덱스(위치 인덱스)와 명시적 인덱스라는 두 종류의 인덱스가 있다.  
명시적 인덱스 : 우리가 실제로 사용하는 것, loc 인덱서 사용  
암묵적 인덱스 : 컴퓨터가 보는 것, iloc 인덱서 사용  

위치를 위해 암묵적 인덱스를 사용하는 경우가 더 많다.  

> 차이점
loc를 이용한 슬라이싱에서는 맨 뒤 값을 포함 O  
`df.loc['a':'c'] = [1,2,3]`  
iloc를 이용한 슬라이싱에서는 맨 뒤 값을 포함 X  
`df.iloc[1:3] = [2, 3]`  

데이터 프레임의 컬럼을 선택하기 위해서는  
`df[col_name]`  
`df[col_name_list]`  
를 사용한다. ndarray에서 열을 선택하는 것과 같다.

In [16]:
S

a    1
b    2
c    3
d    4
dtype: int64

In [17]:
# 명시적 인덱스 사용
# 사전에서 키를 가지고 값을 찾는 것과 완벽히 동일

S.loc['a']

1

In [19]:
# 암묵적 인덱스 사용

S.iloc[2]

3

#### 범위로 인덱스를 찾을 떄

In [20]:
S.loc['a':'c']

a    1
b    2
c    3
dtype: int64

In [21]:
# 사실상 0,1,2,3 에서 1~3 인데 3이 출력되지 않는 것

S.iloc[1:3]

b    2
c    3
dtype: int64

#### 데이터 프레임에서 리스트로 컬럼 불러오기

주의할 것! 단일 컬럼을 불러올때 컬럼이름을 리스트로 감싸서 넣으면 데이터 프레임 형태로 나오지만, 감싸지 않고 그냥 호출할 경우 시리즈 형태로 나온다.  

In [22]:
df

Unnamed: 0,Col1,Col2
a,1,5
b,2,6
c,3,7
d,4,8


In [24]:
df[['Col1', 'Col2']]

Unnamed: 0,Col1,Col2
a,1,5
b,2,6
c,3,7
d,4,8


In [25]:
df['Col1'] # column name => Series

a    1
b    2
c    3
d    4
Name: Col1, dtype: int64

In [26]:
df[['Col1']] # column name list => Data Frame

Unnamed: 0,Col1
a,1
b,2
c,3
d,4


#### 행과 열을 지정해서 조회할 때

컬럼 또한 암묵적 인덱스 넘벌로 데려올 수 있다.

In [27]:
df.loc['a', 'Col2']

5

In [28]:
df.loc['a':'c', 'Col1']

a    1
b    2
c    3
Name: Col1, dtype: int64

In [29]:
df.iloc[1:3, 1]

b    6
c    7
Name: Col2, dtype: int64

### 값 조회하기

In [None]:
# 모든 행과 모든 열을 보여주기
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [None]:
import numpy as np
df = pd.DataFrame(np.random.random(size = (500, 5)),
                 columns = ['X1', 'X2', 'X3', 'X4', 'X5'])
df

In [None]:
df

In [None]:
df.head()

In [None]:
df.head(10)

In [None]:
df.tail()

In [None]:
df.columns

In [None]:
df.dtypes

In [None]:
df.iloc[3, 4] = 'Changed'
df.head()

In [None]:
df['X5']

In [None]:
df.iloc[3:20, 2:4] = 'Changed2'
df.iloc[:25]