<a href="https://colab.research.google.com/github/koogk7/ML_perfect_guide/blob/master/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas Introduction
- 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링을 가능하게 해주며 고수준 API를 제공
- 파이선의 리스트, 컬렉션, 넘파이등의 내부 데이터뿐만 아니라 CSV등의 파일을 쉽게 DataFrame으로 변경해 데이터의 가공/분석을 편리하게 수행 할 수 있게 도와줌
- ***Series***는 컬럼이 하나뿐인 데이터 구조체, ***DataFrame****은 컬럼이 여러개인 데이터 구조체이다.

In [0]:
import pandas as pd

# Data Load
- 코랩에서 파일업로드를 위해서는 아래와 같이 ***files.upload()***함수를 호출하여 파일을 업로드한다. 이후 ***!ls*** 명령어를 통해 파일이 정상적으로 업로드 되었는지 확인 할 수 있다.
- ***read_csv('파일명', sep='\t')***과 같이 sep 인자에 구분 문자를 입력하면 어떤 파일 포맷도 DataFrame으로 변환이 가능하다. sep 인자를 생략할 경우 자동으로 콤마로 할당한다.
- read.csv()는 별 다른 파라미터 지정이 없으면 파일의 맨 처음 로우를 칼럼명으로 인지하고 칼럼으로 변환한다. 
- ***모든 DataFrame내의 데이터는 생성되는 순간 고유의 Index 값을 가지게 된다.***
- DataFrame 객체의 ***shape *** 변수는 행과 열을 튜플 형태로 반환한다.
- ***info()*** 메서드를 통해 총 데이터 건수, 데이터 타입, NULL 건수를 알 수 있다.
- ***describe()***메서드는 칼럼별 숫자형 데이터 값의 분포도, 평균값, 최댓값, 최솟값을 나타낸다. 이 메서드는 오직 숫자형 칼럼의 분포만 조사하며 자동으로 object타입의 칼럼은 출력에서 제외된다.
- describe()는 해당 숫자 칼럼이 카테고리 칼럼인지를 판단 할 수 있게 도와준다. 카테고리 컬럼은 특정 범주에 속하는 값을 코드화한 칼럼이다.
- DataFrame[ ] 내부의 칼럼명을 입력하면 Series 형태로 특정 칼럼 데이터 셋이 반환된다. 이렇게 반환된 Series 객체에 ***value_count()*** 메서드를 호출하면 해당 칼럼값의 유형과 건수를 확인 할 수 있다.
- 회귀에서 결정 값이 정규 분포를 이루지 않고 특정값으로 왜곡돼 있는 경우, 또는 데이터값에 이상치가 많을 경우 예측 성능이 저하된다.


In [0]:
from google.colab import files
uploaded = files.upload()

Saving titanic_train.csv to titanic_train.csv


In [0]:
!ls

sample_data  titanic_train.csv


In [0]:
titanic_df = pd.read_csv("titanic_train.csv")
titanic_df.head(3) # default는 5, 하위에 출력버퍼를 사용하는 다른 명령이 있을 경우 무시된다.

DataFrame의 크기:  (891, 12)


In [0]:
print('DataFrame의 크기: ', titanic_df.shape)

DataFrame의 크기:  (891, 12)


In [0]:
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


In [0]:
titanic_df.describe()
# Survived 칼럼을 보았을 때 0~50%가 0이고, 75~100%도 1이기때문에 카테고리 컬럼으로 볼 수 있다.
# Pclass 칼럼 역시 1,2,3으로 이루어진 숫자형 카테고리 컬림으로 예상된다.

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [0]:
value_counts = titanic_df['Pclass'].value_counts()
print(value_counts) # value_counts()은 많은 건수 순서로 정렬되어 값을 반환, Series 타입으로 반환된다.

3    491
1    216
2    184
Name: Pclass, dtype: int64


# DataFrame 변환

- 2차원 이하의 데이터들만 DataFrame으로 변환 될 수 있다.
- 많은 머신러닝 패키지가 기본 데이터 형으로 넘파이 ***ndarray***를 사용, 따라서 데이터 핸들링은 DataFrame을 이용하더라도 머신러닝 패키지의 입력 인자등에 적용하기 위해 다시 넘파이로 변환하는 경우가 빈번하게 발생, 이는 DataFrame의 ***values***를 이용해 쉽게 할 수 있다.

In [0]:
import numpy as np

col_name1 = ['col1']
col_name2 = ['col1', 'col2', 'col3']

list1 = [1,2,3]
list2 = [[1,2,3]
        ,[4,5,6]]
array1 = np.array(list1)
array2 = np.array(list2)
print("array 1 shape:", array1.shape)

# 리스트를 이용해 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns= col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)

# 넘파이 ndarray를 이용해 DataFrame 생성
df_array2 = pd.DataFrame(array2, columns=col_name2)
print('2차원 ndarray로 만든 DataFrame:\n', df_array2)

# 딕셔너리를 이용해 DataFrame 생성
# Key는 문자열 칼럼명으로 매핑, Value는 리스트형 칼럼데이터로 매핑
dict = {'dcol1': [1,11], 'dcol2': [2, 22], 'dcol3': [3, 33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

# DataFrame을 ndarray로 변환
array3 = df_dict.values
list3 = df_dict.values.tolist()
dict3 = df_dict.to_dict('list') # 딕셔너리 값이 list로 반환
print('df_dict.values 타입: ', type(array3), 'df_dict.value shape: ', array3.shape)

array 1 shape: (3,)
1차원 리스트로 만든 DataFrame:
    col1
0     1
1     2
2     3
2차원 ndarray로 만든 DataFrame:
    col1  col2  col3
0     1     2     3
1     4     5     6
딕셔너리로 만든 DataFrame:
    dcol1  dcol2  dcol3
0      1      2      3
1     11     22     33
df_dict.values 타입:  <class 'numpy.ndarray'> df_dict.value shape:  (2, 3)


# DataFrame 조작


In [0]:
# 새로운 칼럼 추가 
titanic_df['Age_0'] = 0 # 새로운 칼럼 'Age_0'을 추가하고 0으로 초기화
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head()

# 데이터 삭제
# DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, erros='raise')
# axis 값에 따라서 특정 칼럼 또는 특정 행을 드롭,  0을 지정할 경우 lables에 오는 값을 인덱스로 간주, 1일 경우 칼럼명을 의미
# inplace가 False이면 자기 자신의 DataFrame의 데이터는 삭제하지 않고, 삭제된 결과 DataFrame을 반환
drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis=1, inplace=True)
print('inplace=True로 drop 후 반환된 값: ', drop_result)
titanic_drop_df.head(3)

inplace=True로 drop 후 반환된 값:  None


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,220.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,380.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,260.0


In [0]:
# DataFrame.index, Series.index 속성을 통해 index 객체만 추출 가능
# 한번 만들어진 Index 객체는 함부로 변경 될 수 없다. 또한 연산 함수를 적용 할 때 index는 연산에서 제외 된다. 오직 식별용으로만 사용
indexes = titanic_df.index
print(indexes)
print('Index 객체 array값:\n', indexes.values[1:10])

# reset_index() 메서드를 수행하면 새롭게 인덱스를 연속 숫자형으로 할당, 기존 인덱스는 'index'라는 새로운 칼럼명으로 
# reset_index() 는 기존 인덱스가 칼럼으로 추가돼 칼럼이 2개가 되므로 Series가 아닌 DataFrame이 반환된다.
titanic_reset_df = titanic_df.reset_index(inplace=False)
titanic_reset_df.head(3)

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값:
 [1 2 3 4 5 6 7 8 9]


Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [0]:
# reset_index() 파라미터 중 drop=True로 설정하면 기존 인덱스는 새로운 칼럼으로 추가되지 않고 삭제된다. 때문에 Series로 유지할 수 있다.
titanic_series = titanic_df.reset_index(inplace=False, drop=True)
titanic_series.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


# 데이터 셀렉션 및 필터링

- 넘파이의 경우 '[ ]' 연산자 내 단일 값 추출, 슬라이싱등을 통해 데이터를 추출했으나, 판다스의 경우 ix[ ], iloc[ ], loc[ ] 연산자를 통해 동일한 작업을 수행한다.

- DataFrame의 [ ] 연산자
  - 넘파이에서 [ ] 연산자는 행의 위치, 열의 위치,  슬라이싱 범위 등을 지정해 데이터를 가져올 수 있다.
  - DataFrame에서는 칼럼 명 문자 또는 인덱스로 변환 가능한 표현식이 들어간다. 즉 칼럼만 지정 할 수 있는 칼럼지정 연산자로 우선 이해하는게 좋다.
  
  - ***ix[ ]*** 연산자는 컬럼 명칭과 칼럼 위치기반 모두 제공하면서 코드의 가독성이 떨어져 현재는 deprecated 되었고 ***칼럼 명치기반인 loc[]*** 와 ***인덱싱 연산자인 iloc[]***가 등장하였다. 형식은 ix['row', 'col'] 형태이다
  - iloc는 위치기반 인덱싱만 허용 때문에 컬럼명이 아니라 반드시 인덱스가 와야한다. 즉 행, 열의 위치 좌표에만 의존한다.
  - loc는 명칭기반으로 반드시 명칭이 와야한다. 단 주의할점은 loc[] 슬라이싱 기호를 적용하면 종료값 - 1이 아니라 종료값까지 포함된다. 이는 인덱스가 아닌 명칭 기반 인덱싱이기 때문이다.
  - loc나 iloc중 둘중 하나만 쓸 것을 권고한다.

In [0]:
print('단일 컬럼 데이터 추출:\n', titanic_df['Pclass'].head(3))
print('\n여러 칼럼의 데이터 추출:\n', titanic_df[['Survived', 'Pclass']].head(3))
print('[] 안에 숫자 index 표현식:\n', titanic_df[0:2]) # 두개의 row 반환
print('Boolean 표현식:\n', titanic_df[titanic_df['Pclass'] == 3].head(3))
print("60세 이상인 승객의 나이와 이름만 추출 :\n" ,titanic_df[titanic_df['Age'] >= 60][['Name', 'Age']].head(3))

단일 컬럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

여러 칼럼의 데이터 추출:
    Survived  Pclass
0         0       3
1         1       1
2         1       3
[] 안에 숫자 index 표현식:
    PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C

[2 rows x 12 columns]
Boolean 표현식:
    PassengerId  Survived  Pclass  ...   Fare Cabin  Embarked
0            1         0       3  ...  7.250   NaN         S
2            3         1       3  ...  7.925   NaN         S
4            5         0       3  ...  8.050   NaN         S

[3 rows x 12 columns]
60세 이상인 승객의 나이와 이름만 추출 :
                               Name   Age
33           Wheadon, Mr. Edward H  66.0
54  Ostby, Mr. Engelhart Cornelius  65.0
96       Goldschmidt, Mr. George B  71.0


# 정렬 Aggregation 함수, GroupBy 

- DataFrame과  Series의 정렬을 위해서는 ***sort_values()*** 메서드를 사용, 이는 SQL의 order by 키워드와 매우 유사, 주요 입력파라미터로는 by, ascending, inplace가 있다.
- min(), max(), sum(), count()의 Aggregation 함수 지원
- groupby() 사용 시 파라미터 by에 칼럼을 입력하면 대상 칼럼으로 grouby된다. 반환결과는 DataFrameGroupBy라는 형태이다.

In [0]:
titanic_sorted = titanic_df.sort_values(by=['Pclass','Name'], inplace=False, ascending=True)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
730,731,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
305,306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
297,298,0,1,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S


In [0]:
print(titanic_df[['Age', 'Fare']].mean())

titanic_groupby = titanic_df.groupby(by='Pclass')
print(type(titanic_groupby))

# SQL의 group by와 다르게, DataFrame에서 groupby()호출 결과에 aggregation 함수를 호출하면 대상 칼럼을 제외한 모든 칼럼에 적용된다.
print(titanic_groupby.count())

# 필터링
print(titanic_groupby[["PassengerId", "Survived"]].count())
print(titanic_groupby["Age"].agg([max,min])) # agg 함수를 통해 여러 aggregation를 적용 할 수 있다.

# 복잡한 형태의 group by
agg_format = {'Age':'max', 'SibSp': 'sum', 'Fare':'mean'}
print(titanic_df.groupby('Pclass').agg(agg_format))


Age     29.699118
Fare    32.204208
dtype: float64
<class 'pandas.core.groupby.generic.DataFrameGroupBy'>
        PassengerId  Survived  Name  Sex  ...  Ticket  Fare  Cabin  Embarked
Pclass                                    ...                               
1               216       216   216  216  ...     216   216    216       214
2               184       184   184  184  ...     184   184    184       184
3               491       491   491  491  ...     491   491    491       491

[3 rows x 11 columns]
        PassengerId  Survived
Pclass                       
1               216       216
2               184       184
3               491       491
         max   min
Pclass            
1       80.0  0.92
2       70.0  0.67
3       74.0  0.42
         Age  SibSp       Fare
Pclass                        
1       80.0     90  84.154687
2       70.0     74  20.662183
3       74.0    302  13.675550


0             C000
1              C85
2             C000
3             C123
4             C000
5             C000
6              E46
7             C000
8             C000
9             C000
10              G6
11            C103
12            C000
13            C000
14            C000
15            C000
16            C000
17            C000
18            C000
19            C000
20            C000
21             D56
22            C000
23              A6
24            C000
25            C000
26            C000
27     C23 C25 C27
28            C000
29            C000
          ...     
861           C000
862            D17
863           C000
864           C000
865           C000
866           C000
867            A24
868           C000
869           C000
870           C000
871            D35
872    B51 B53 B55
873           C000
874           C000
875           C000
876           C000
877           C000
878           C000
879            C50
880           C000
881           C000
882         

# Missing Data

- 기본적으로 머신러닝 알고리즘은 NaN 값을 처리하지 않으므로 이 값을 다른 값으로 대체해야한다. 또한 이 값들은 평균, 총합 등의 함수 연산 시 제외된다. NaN 여부를 확인하는 API는 ***isna()***이며, 이를 다른 값으로 대체하는 API는 ***fillna()*** 이다.

In [0]:
print(titanic_df.isna().sum()) # sum() 함수를 통해 NaN 개수를 구할 수 있다.
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000') # inplace=False 가 디폴트이다.
titanic_df.head(3)

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin            0
Embarked         2
dtype: int64


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S


# apply lambda 식으로 데이터 가공
- 파이썬의 람다식과 동일

In [0]:
titanic_df['Name_len']= titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name', 'Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22


In [0]:
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x: 'Child' if x<=15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,,Adult
6,54.0,Adult
7,2.0,Child
