# 데이터 핸들링 - 판다스

판다스는 많은 부분이 넘파이 기반으로 작성됐는데, 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링 기능을 하게 해줌  
RDBMS의 SQL이나 엑셀 시트의 편의성만큼은 아니더라도, 판다스는 이에 버금가는 고수준 API를 제공함  
판다스는 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터뿐만 아리나 CSV 등의 파일도 쉽게 DataFrame으로 변경 가능함  
판다스의 핵심 객체는 DataFrame임  

___
## 판다스 시작 - 파일을 DataFrame으로 로딩, 기본 API

In [1]:
import pandas as pd

read_csv(filepath_or_buffer, sep=',', ...) 함수에서 가장 중요한 인자는 filepath임  
나머지 인자는 지정하지 않으면 디폴트 값으로 할당됨  
filepath에는 로드하려는 데이터 파일의 경로를 포함한 파일 명을 입력하면 됨  

In [6]:
# 경로 앞에 붙는 r은 문자열 그대로 해석하라는 의미임 r'hello\nworld' 는 'hello\nworld로 출력됨'
titanic_df = pd.read_csv(r'/Users/jiwon/Google_drive/DS050_Python_MachineLearning/Chapter1-4_Titanic/titanic_train.csv')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


다음 예제 코드의 맨 마지막에 titanic_df를 호출하면 Data_Frame의 모든 데이터를 출력함  

In [9]:
titanic_df = pd.read_csv('/Users/jiwon/Google_drive/DS050_Python_MachineLearning/Chapter1-4_Titanic/titanic_train.csv')
print('titanic 변수 type :', type(titanic_df))
titanic_df

titanic 변수 type : <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


DataFrame의 행과 열 크기를 알아보는 가장 좋은 방법은 생성된 DataFrame 객체의 shape변수를 이용하는 것  
**shape는 DataFrame의 행과 열을 튜플 형태로 반환함**

In [10]:
print(titanic_df.shape)

(891, 12)


DataFrame은 데이터 뿐만 아리나 칼럼의 타입, Null 데이터 개수, 데이터 분포도 등의 메타 데이터 등도 조회 가능함  
대표적 메소드로는 `info()`, `describe()` 가 있음

### info()
`info()` 메서드를 통해서 총 데이터 건수와 데이터 타입, Null 건수를 알 수 있음  

In [11]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### descirbe()
`describe()` 메서드는 칼럼별 숫자형 데이터값의 n-percentile 분포도, 평균값, 최댓값, 최솟값을 나타냄  
오직 숫자형(int, float) 칼럼 분포도만 조사하며 자동으로 object 타입의 칼럼은 출력에서 제외함  

데이터의 분포도를 아는 것은 머신러닝 알고리즘의 성능을 향상시키는 중요한 요소임  
DataFrame 객체에 describe() 메서드를 입력하면 숫자형 칼럼에 대한 개략적인 데이터 분포도 확인 가능  

In [12]:
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


* count : not null 인 데이터의 건수
* mean : 전체 데이터의 평균값
* std : 표준편차
* min : 최솟값
* max : 최댓값

### value_counts()
데이터의 분포도를 확인하는데 유용한 함수

In [13]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts)

3    491
1    216
2    184
Name: Pclass, dtype: int64


values_counts()의 반환 결과는 많은 건수 순서대로 정렬되어 값을 반환함  
DataFrame의 []연산자 내부에 칼럼명을 입력하면 해당 칼럼에 해당하는 Series 객체를 반환함  

In [14]:
titanic_pclass = titanic_df['Pclass']
print(type(titanic_pclass))

<class 'pandas.core.series.Series'>


Series 는 Index와 단 하나의 칼럼으로 구성된 데이터 세트임  
이렇게 반환된 Serires 객체가 어떤 값으로 구성돼 있는지 알아보자  

In [15]:
titanic_pclass.head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

모든 Serires와 DataFrame은 인덱스를 반드시 가짐  
value_counts()메서드의 데이터 타입과 변환값 다시 한번 확인하기

In [16]:
value_counts = titanic_df['Pclass'].value_counts()
print(type(value_counts))
print(value_counts)

<class 'pandas.core.series.Series'>
3    491
1    216
2    184
Name: Pclass, dtype: int64


values_counts()가 반환하는 데이터 타입 역시 Series 객체임  
반환된 Series 객체 값을 보면 맨 왼쪽이 인덱스값이며, 오른쪽이 데이터 값임  
근데 이번에는 단순히 0부터 시작하는 순차 값이 아님 Pclass 칼럼 값이 3, 1, 2를 나타내고 있음  
이처럼 인덱스는 단순히 순차값과 같은 의미 없는 식별자만 할당하는 것이 아니라  
고유성이 보장된다면 의미 있는 데이터값도 할당 가능함  

___
## DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환

DataFrame은 파이썬의 리스트, 딕셔너리 그리고 넘파이 ndarray 등 다양한 데이터로부터 생성됨  
또한 DataFrame은 반대로 파이썬의 리스트, 딕셔너리 그리고 넘파이 ndarray 등으로 변환 가능함  
DataFrame과 넘파이 ndarray 상호간의 변환은 매우 빈번하게 발생

### 넘파이 ndarray, 리스트, 딕셔너리를 DataFrame으로 변환하기

DataFrame은 기본적으로 행과 열을 가지는 2차원 데이터임  
따라서 2차원 이하의데이터들만 DataFrame으로 변환될 수 있음  
아래 예제는 1차원 형태의 리스트와 넘파이 ndarray부터 DataFrame으로 변환함

In [21]:
import numpy as np

col_name1 = ['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)
print('array1 shape :', array1.shape)
print()

# 리스트를 이용해서 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame :\n', df_list1)
print()

# 넘파이 ndarray를 이용해 DataFrame 생성
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame :\n', df_array1)

array1 shape : (3,)

1차원 리스트로 만든 DataFrame :
    col1
0     1
1     2
2     3

1차원 ndarray로 만든 DataFrame :
    col1
0     1
1     2
2     3


1차원 형태의 데이터를 기반으로 DataFrame을 생성하므로 칼럼명이 한 개만 필요하다는 사실에 주의해야함  
이번에는 2차원 형태의 데이터를 기반으로 DataFrame을 생성해보자  
2행 3열 형태의 리스트와 ndarray를 기반으로 DataFrame을 생성하므로 칼럼명은 3개가 필요함  

In [22]:
# 3개의 칼럼명이 필요함
col_name2 = ['col1', 'col2', 'col3']

# 2행x3열 형태의 리스트와 ndarray 생성한 뒤 이를 DataFrame으로 변환
list2 = [[1, 2, 3],
         [11, 12, 13]]
array2 = np.array(list2)
print('array2.shape :', array2.shape)

df_list2 = pd.DataFrame(list2, columns=col_name2)
print('2차원 리스트로 만든 DataFrame :\n', df_list2)

df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame :\n', df_array2)

array2.shape : (2, 3)
2차원 리스트로 만든 DataFrame :
    col1  col2  col3
0     1     2     3
1    11    12    13
2차원 ndarray로 만든 DataFrame :
    col1  col2  col3
0     1     2     3
1    11    12    13


이번에는 딕셔너리를 DataFrame으로 변환해 보자  
일반적으로 딕셔너리를 DataFrame으로 변환 시에는 딕셔너리의 키는 칼럼명으로, 딕셔너리의 값은 키에 해당하는 칼럼 데이터로 변환됨  
따라서 키의 경우는 문자열, 값의 경우 리스트 형태로 딕셔너리를 구성함  

In [24]:
# Key는 문자열 칼럼명으로 매핑, Value는 리스트 형 (또는 ndarray) 칼럼 데이터로 매핑
dict = {'col1':[1, 11], 'col2':[2, 22], 'col3':[3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame :\n', df_dict)

딕셔너리로 만든 DataFrame :
    col1  col2  col3
0     1     2     3
1    11    22    33


Key 값은 칼럼명, 각 Value는 각 칼럼 데이터로 매핑됐음을 알 수 있음

### DataFrame 을 넘파이 ndarray, 리스트, 딕셔너리로 변환하기

데이터 핸들링은 DataFrame을 이용하더라도 머신러닝 패키지의 입력 인자 등에 적용하기 위해  
다시 넘파이 ndarray로 변화하는 경우가 빈번하게 발생함  
방금 전에 생성한 DataFrame객체인 df_dict를 ndarray로 변환해보자

In [25]:
# DataFrame을 ndarray로 변환
array3 = df_dict.values
print('df_dict.values 타입 :', type(array3), 'df_dict.values.shape :', array3.shape)
print(array3)

df_dict.values 타입 : <class 'numpy.ndarray'> df_dict.values.shape : (2, 3)
[[ 1  2  3]
 [11 22 33]]


이번에는 DataFrame을 리스트와 딕셔너리로 변환해보자  
리스트로의 변환은 values로 얻은 ndarray에 tolist()를 호출하면 됨  
딕셔너리로의 변환은 DataFrame 객체의 to_dirct() 메서드를 호출하는데, 인자로 'list'를 입력하면  
딜셔너리의 값이 리스트형으로 반환됨  

In [None]:
# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입 :', type(list3))
printnt(list3)

# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입')