Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

# Data Handling - Pandas  
> **Pandas**  
파이썬에서 데이터 핸들링을 가능하게 해주는 가장 인기 있는 라이브러리

> **DataFrame**  
DataFrame은 Pandas의 핵심 객체, DataFrame은 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체

> **Index**  
RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key 값

> **Series**  
칼럼이 하나뿐인 데이터 구조체  
(cf) DataFrame은 칼럼이 여러 개인 데이터 구조체

## 2. DataFrame과 list, dictionary, 넘파이 ndarray 상호 변환

### 2-1. Numpy ndarray, list, dict를 DataFrame으로 변환하기  

- **pd.DataFrame(data, columns)**  
: 기본적으로 DataFrame은 행과 열을 가지는 2차원 데이터이므로 2차원 이하 데이터들만 DataFrame으로 변환될 수 있다.
  - data : ndarray, list, dictionary  
  - columns : 칼럼명 list (칼럼명을 지정하지 않으면 자동으로 칼럼명을 할당)  

- **dictionary를 DataFrame으로 변환하기**  
: 딕셔너리의 Key는 칼럼명, Value는 Key에 해당하는 칼럼 데이터로 변환된다.  
따라서 Key는 문자열로, Value는 리스트(또는 ndarray) 형태로 딕셔너리를 구성한다.  

In [None]:
#1차원 데이터로 DataFrame 만들기 : 칼럼명은 1개 필요
import numpy as np
import pandas as pd

# 1차원 list와 ndarray 생성
col_name1=['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)
print('array1 shape: ', array1.shape)

#list를 이용해 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)

#Numpy ndarray를 이용해 DataFrame 생성
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

array1 shape:  (3,)
1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3
1차원 ndarray로 만든 DataFrame:
    col1
0     1
1     2
2     3


In [None]:
# 2차원 데이터로 DataFrame 만들기

# 2차원 list, ndarray 생성
list2 = [[1, 2, 3],
         [11, 12, 13]]
array2 = np.array(list2)
print('array2 shape: ', array2.shape)

#2행 3열 형태의 2차원 list, ndarray를 DataFrame으로 변환 : 3개 칼럼명이 필요
col_name2 = ['col1', 'col2', 'col3']

df_list2 = pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame:\n', df_list2)

df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame:\n', df_array2)

array2 shape:  (2, 3)
2차원 리스트로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1    11    12    13


In [None]:
# 딕셔너리를 DataFrame으로 변환하기
dict = {'col1':[1, 11], 'col2':[2, 12], 'col3':[3, 13]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame')
df_dict

딕셔너리로 만든 DataFrame


Unnamed: 0,col1,col2,col3
0,1,2,3
1,11,12,13


### 2-2. DataFrame을 Numpy ndarray, list, dict로 변환하기  

- **DataFrame.values**  
: DataFrame 객체를 ndarray로 변환  
많은 머신러닝 패키지가 기본 데이터 형으로 넘파이 ndarray를 사용하기 때문에 DataFrame 객체를 ndarray로 변환하기 위해 이 메서드가 매우 많이 사용됨  

- **DataFrame.values.tolist()**  
: DataFrame을 ndarray로 변환하고 list로 최종 변환  

- **DataFrame.to_dict()**  
: DataFrame 객체를 딕셔너리로 변환  
인자로 'list'를 입력하면 딕셔너리의 값이 리스트로 반환됨

In [None]:
# DataFrame 객체를 ndarray로 변환
array3 = df_dict.values
print('df_dict.values 타입: ', type(array3))
print('df_dict.values shape: ', array3.shape)
print('df_dict.values:\n', array3)

df_dict.values 타입:  <class 'numpy.ndarray'>
df_dict.values shape:  (2, 3)
df_dict.values:
 [[ 1  2  3]
 [11 12 13]]


In [None]:
# DataFrame을 list로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입: ', type(list3))
print('df_dict.values.tolist(): ', list3)

df_dict.values.tolist() 타입:  <class 'list'>
df_dict.values.tolist():  [[1, 2, 3], [11, 12, 13]]


In [None]:
# DataFrame을 dictionary로 변환
dict3 = df_dict.to_dict('list')
print('df_dict.to_dict() 타입: ', type(dict3))
print('df_dict.to_dict(): ', dict3)

df_dict.to_dict() 타입:  <class 'dict'>
df_dict.to_dict():  {'col1': [1, 11], 'col2': [2, 12], 'col3': [3, 13]}
