## **1. 데이터 핸들링-판다스**

- **판다스는 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리이다.**

> - **행과 열의 2차원 데이터가 인기 있는 이유는 바로 인간이 가장 이해하기 쉬운 데이터 구조이면서도 효과적으로 데이터를 담을 수 있는 구조이기 때문이다.**

> - **이처럼 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능을 제공한다.**

- **판다스는 많은 부분이 넘파이 기반으로 작성됐는데, 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링을 가능하게 해준다.**

> - **외부 데이터를 쉽게 DataFrame으로 변경해 데이터의 가공/분석을 편리하게 수행할 수 있게 만들어준다.**

- **판다스의 핵심 객체는 DataFrame이다. 데이터 프레임은 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체이다. 판다스가 다루는 대부분의 영역은 바로 DataFrame에 관련된 부분이다.**

> - **Data Frame을 이해하기 전에 다른 중요 객체인 Index와 Series를 이해하는 것도 중요하다.**

> - **index는 RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key값이다. Series와 DataFrame은 모두 Index를 Key값으로 가지고 있다.**

- **Series와 DataFrame의 가장 큰 차이는 Series는 칼럼이 하나뿐인 데이터 구조체이고, DataFrame은 칼럼이 여러 개인 데이터 구조체라는 점이다.**

> - **DataFrame은 여러 개의 Series로 이뤄졌다고 할 수 있다.**

In [1]:
import pandas as pd

In [2]:
# read.csv()는 호출 시 파일명 인자로 들어온 파일을 로딩해 DataFrame 객체로 반환
titanic_df = pd.read_csv('./train.csv') # 데이터 불러오기

In [3]:
# PassengerId 왼쪽의 번호를 Index라 한다.
# 모든 DataFrame 내의 데이터는 생성되는 순간 고유의 Index를 가지게 된다.
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [4]:
print('titanic 변수 type:',type(titanic_df)) # DataFrame
print('DataFrame 크기:',titanic_df.shape) # 891 row, 12 columne

titanic 변수 type: <class 'pandas.core.frame.DataFrame'>
DataFrame 크기: (891, 12)


In [5]:
# dtypes는 전체 12개의 칼럼들의 타입을 요약한 것 2개의 칼럼이 float64, 5개의 칼럼이 int64 등..
# info() 메서드를 통해서 총 데이터 건수와 데이터 타입, Null의 개수를 알 수 있다.
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [6]:
# describe() 메서드는 컬럼별 숫자형 데이터값의 n-percentile 분포도, 평균값, 최대/최소값을 나타낸다.
# describe() 메서드는 오직 숫자형(int,float 등) 칼럼의 분포도만 조사하며 자동으로 object는 제외
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


**데이터의 분포도를 아는 것은 머신러닝 알고리즘의 성능을 향상시키는 중요한 요소이다.**

> **예를 들어 회귀에서 결정 값이 정규 분포를 이루지 않고 특정 값으로 왜곡돼 있는 경우, 또는 데이터값에 이상치가 많을 경우 예측 성능이 저하된다.**

> **describe() 메서드만으로 정확한 분포도를 알기는 무리지만, 개략적인 수준의 분포도를 확인할 수 있어 유용하다.**

In [7]:
# DataFrame의 [] 연산자 내부에 칼럼명을 입력하면 Series 형태로 특정 칼럼 데이터 세트가 반환
# 이렇게 반환된 Series 객체에 value_counts() 메서드를 호출하면 해당 칼럼값의 유형과 빈도 확인
# value_counts() 데이터의 분포도를 확인하는 데 매우 유용하며 자주 사용
# value_counts()는 많은 빈도 수 순서대로 출력을 진행
titanic_df['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

In [8]:
# DataFrame의 [] 연산자 내부에 칼럼명을 입력하면 해당 칼럼에 해당하는 Series객체를 반환
print(type(titanic_df['Pclass']))

<class 'pandas.core.series.Series'>


In [9]:
# Series는 Index와 단 하나의 칼럼으로 구성된 데이터 세트이다.
# 왼쪽은 Series의 Index이고, 오른쪽은 Series의 해당 칼럼의 데이터 값이다. 
titanic_df['Pclass'].head()

0    3
1    1
2    3
3    1
4    3
Name: Pclass, dtype: int64

In [10]:
# 방금 소개한 value_counts() 메서드는 Series 객체에서만 정의
# DataFrame은 value_counts() 메서드를 가지고 있지 않다.
value_counts = titanic_df['Pclass'].value_counts()
print(type(value_counts))
print(value_counts)

<class 'pandas.core.series.Series'>
3    491
1    216
2    184
Name: Pclass, dtype: int64


**value_counts()가 반환하는 데이터 타입 역시 Series 객체이다.**

**이 반환된 Series 객체의 값을 보면 맨 왼쪽이 인덱스 값이며, 오른쪽이 데이터값이다.**

> **그런데 이번에는 인덱스가 순차 값이 아니다. 이처럼 인덱스는 단순히 순차 값과 같은 의미 없는 식별자만 할당하는 것이 아니라 고유성이 보장된다면 의미 있는 데이터값 할당도 가능하다.**

> **value_counts()는 칼럼 값별 데이터 건수를 반환하므로 고유 칼럼 값을 식별자로 사용할 수 있다.**

> **인덱스는 DataFrame, Series가 만들어진 후에도 변경 가능하며, 인덱스는 또한 숫자형뿐만 아니라 문자열도 가능하다. 단, 모든 인덱스는 고유성이 보장돼야 한다.**

## **1.1 DataFrame과 리스트, 딕셔너리, 넘파이 ndarray 상호 변환**

- **기본적으로 DataFrame은 파이썬의 리스트, 딕셔너리 그리고 넘파이 ndarray 등 다양한 데이터로부터 생성될 수 있다.** 

- **또한 DataFrame은 반대로 파이썬의 리스트, 딕셔너리 그리고 넘파이 ndarray 등으로 변환될 수 있다.**

> - **특히 사이킷런의 많은 API는 DataFrame을 인자로 입력 받을 수 있지만, 기본적으로 넘파이 ndarray를 입력 인자로 사용하는 경우가 대부분이다.**

> - **따라서 DataFrame과 넘파이 ndarray 상호 간의 변환은 매우 빈번하게 발생한다.**

### **넘파이 ndarray, 리스트, 딕셔너리를 DataFrame으로 변환하기**

- **DataFrame은 리스트와 넘파이 ndarray와 다르게 칼럼명을 가지고 있다. 이 칼럼명으로 인하여 리스트와 넘파이 ndarray보다 상대적으로 편하게 데이터 핸들링이 가능하다.**

> - **일반적으로 DataFrame으로 변환 시 칼럼명을 지정해 준다.(지정하지 않으면 자동으로 칼럼명 할당)**

> - **판다스 DataFrame 객체의 생성 인자 data는 리스트나 딕셔너리 또는 넘파이 ndarray를 입력 받고, 생성 인자 columns는 칼럼명 리스트를 입력 받아서 쉽게 DataFrame을 생성**



In [11]:
import numpy as np

In [12]:
col_name1 = ['Col1'] # 칼럼 명

list1 = [1,2,3] # Series 값들 
array1 = np.array(list1) # list -> array로 자료형 변환
print('array.shape:',array1.shape)

array.shape: (3,)


In [13]:
# 1차원 형태의 데이터를 기반으로 DataFrame을 생성하므로 칼럼명이 한 개만 필요하다는 사실에 주의

# 리스트를 이용해 DataFrame 생성
df_list = pd.DataFrame(list1,columns=col_name1) 
print('list(DataFrame):\n',df_list)

# 넘파이 ndarray를 이용해 DataFrame 생성
df_array = pd.DataFrame(array1, columns=col_name1)
print('array(DataFrame):\n',df_array)

list(DataFrame):
    Col1
0     1
1     2
2     3
array(DataFrame):
    Col1
0     1
1     2
2     3


In [14]:
df_list

Unnamed: 0,Col1
0,1
1,2
2,3


In [15]:
# 2차원 형태의 데이터를 기반으로 DataFrame을 생성

# 3개의 칼럼명
col_name2 = ['col1', 'col2', 'col3']
# 2행 3열의 리스트
list2 = [[1,2,3],[11,12,13]]
# 리스트 -> ndarray로 변환
array2 = np.array(list2)

print('array2 shape:',array2.shape)

df_list2 = pd.DataFrame(list2,columns=col_name2)
print('df_list2: \n', df_list2)

df_array2 = pd.DataFrame(array2,columns=col_name2)
print('df_array2 \n',df_array2)

array2 shape: (2, 3)
df_list2: 
    col1  col2  col3
0     1     2     3
1    11    12    13
df_array2 
    col1  col2  col3
0     1     2     3
1    11    12    13


In [16]:
# 딕셔너리를 DataFrame으로 변환 시에는 딕셔너리의 키(Key)는 칼럼명으로,
# 딕셔너리의 값(value)는 키에 해당하는 칼럼 데이터로 변환이 된다.
# 따라서 키의 경우는 문자열, 값의 경우는 리스트 형태로 딕셔너리를 구성한다.
dict2 = {'col1':[1,11],'col2':[2,22],'col3':[3,33]}
df_dict = pd.DataFrame(dict2)
print('df_dict: \n',df_dict)

df_dict: 
    col1  col2  col3
0     1     2     3
1    11    22    33


In [1]:
# 문제 풀이
import pandas as pd

In [2]:
# 1번
col_name = ['중간고사','퀴즈','기말고사']
indexes = ['승민','종화','형우','정연','은아']
data = [[70,60,70],
       [70,70,70],
       [80,80,60],
       [80,80,70],
       [80,80,80]]

In [3]:
df = pd.DataFrame(data=data, columns=col_name, index=indexes)

In [20]:
df

Unnamed: 0,중간고사,퀴즈,기말고사
승민,70,60,70
종화,70,70,70
형우,80,80,60
정연,80,80,70
은아,80,80,80


In [21]:
# 2번
df['평균점수'] = (df['중간고사']+df['퀴즈']+df['기말고사'])/3

In [22]:
df

Unnamed: 0,중간고사,퀴즈,기말고사,평균점수
승민,70,60,70,66.666667
종화,70,70,70,70.0
형우,80,80,60,73.333333
정연,80,80,70,76.666667
은아,80,80,80,80.0


In [8]:
df['평균점수'] = df.mean(axis=1)

In [9]:
df

Unnamed: 0,중간고사,퀴즈,기말고사,평균점수
승민,70,60,70,66.666667
종화,70,70,70,70.0
형우,80,80,60,73.333333
정연,80,80,70,76.666667
은아,80,80,80,80.0


In [23]:
# 3번
def grade(x):
    for i in range(len(x)):
        if x[i] >= 80:
            x[i] = 'A+'
        elif x[i] >= 70:
            x[i] = 'B+'
        else:
            x[i] = 'C+'
    return x

In [24]:
df['평균점수']

승민    66.666667
종화    70.000000
형우    73.333333
정연    76.666667
은아    80.000000
Name: 평균점수, dtype: float64

In [25]:
#grade_score = list(df['평균점수'])
grade_score = df['평균점수'].values.tolist()

In [26]:
grade_score

[66.66666666666667, 70.0, 73.33333333333333, 76.66666666666667, 80.0]

In [27]:
df['학점'] = grade(grade_score) 

In [28]:
df

Unnamed: 0,중간고사,퀴즈,기말고사,평균점수,학점
승민,70,60,70,66.666667,C+
종화,70,70,70,70.0,B+
형우,80,80,60,73.333333,B+
정연,80,80,70,76.666667,B+
은아,80,80,80,80.0,A+


### **DataFrame을 넘파이ndarray, 리스트, 딕셔너리로 변환하기**

- **많은 머신러닝 패키지가 기본 데이터 형으로 넘파이 ndarray를 사용한다. 따라서 데이터 핸들링은 DataFrame을 이용하더라도 머신러닝 패키지의 입력 인자 등에 적용하기 위해 다시 넘파이 ndarray로 변환하는 경우가 자주 발생한다.**

- **DataFrame을 넘파이 ndarray로 변환하는 것은 DataFrame 객체의 values를 이용해 쉽게 할 수 있다.**

> - **values를 이용한 ndarray로의 변환은 매우 많이 사용되므로 반드시 기억한다.**

In [29]:
# DataFrame을 ndarray로 변환

array3 = df_dict.values # DataFrame의 values값들을 추출(DataFrame -> ndarray)
print('df_dict.values 타입:',type(array3),'df_dict.values shape:',array3.shape)
print(array3)

df_dict.values 타입: <class 'numpy.ndarray'> df_dict.values shape: (2, 3)
[[ 1  2  3]
 [11 22 33]]


In [30]:
# DataFrame을 리스트로 변환

list3 = df_dict.values.tolist() # DataFrame -> list
print('df_dict.values.tolist() 타입:',type(list3))
print(list3)

df_dict.values.tolist() 타입: <class 'list'>
[[1, 2, 3], [11, 22, 33]]


In [31]:
# DataFrame을 딕셔너리로 변환

dict3 = df_dict.to_dict('list') # DataFrame -> dict
print('\n df_dict_to_dict() 타입:',type(dict3))
print(dict3)


 df_dict_to_dict() 타입: <class 'dict'>
{'col1': [1, 11], 'col2': [2, 22], 'col3': [3, 33]}


## **1.2 DataFrame의 칼럼 데이터 세트 생성과 수정**

**DataFrame의 칼럼 데이터 세트 생성과 수정 역시 [] 연산자를 이용해 쉽게 할 수 있다.**

In [32]:
titanic_df['Age_0'] = 0 # 'Age_0' Series가 기존 DataFrame에 추가된다.

In [33]:
# 새로운 칼럼명 'Age_0'으로 모든 데이터값이 0으로 할당된 Series가 기존 DataFrame에 추가됨
# Series에 상숫값을 할당하면 Series의 모든 데이터 세트에 일괄적으로 적용

titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


In [34]:
# 기존 칼럼 Series의 데이터를 이용해 새로운 칼럼 Series를 만든다.

titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0,1


In [35]:
# DataFrame 내의 기존 칼럼 값을 일괄적으로 업데이트

titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


## **DataFrame 데이터 삭제**

- **DataFrame에서 데이터의 삭제는 drop() 메서드를 이용한다.**

> - **DataFrame.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')**

> - **이 중 가장 중요한 파라미터는 labels, axis, inplace이다. 먼저 axis 값에 따라서 특정 칼렁 또는 특정 행을 드롭한다.**

![test](./img/axis.png)

> - **위 그림처럼 axis=0은 로우 방향 축, axis=1은 칼럼 방향 축이다.**

> - **pandas의 DataFrame은 2차원 데이터만 다루므로 axis 0, axis 1로만 axis가 구성돼 있다.**

> - **따라서 drop() 메서드에 axis=1을 입력하면 칼럼 축 방향으로 드롭을 수행하므로 칼럼을 드롭하겠다는 의미**

- **labels에 원하는 칼럼 명을 입력하고 axis=1을 입력하면 지정된 칼럼을 드롭한다.**

> - **drop()메서드에 axis=0을 입력하면 로우 축 방향으로 드롭을 수행하므로 특정 로우를 드롭하겠다는 것이다.**

- **DataFrame의 특정 로우를 가리키는 것은 인덱스이다. 따라서 axis를 0으로 지정하면 DataFrame은 자동으로 label에 오는 값을 인덱스로 간주한다.**

- **drop()메서드가 사용되는 대부분의 경우는 칼럼을 드롭하는 경우이다.**

> - **기존 칼럼 값을 가공해 새로운 칼럼을 만들고 삭제하는 경우가 많다 보니 axis=1로 설정하고 드롭하는 경우가 많을 수밖에 없다. axis=0으로 설정하고 row label로 삭제하는 경우는 이상치 데이터를 삭제하는 경우에 주로 사용된다.**



In [36]:
# DataFrame에 Age_0 칼럼 전체 삭제

titanic_drop_df = titanic_df.drop('Age_0',axis=1)
titanic_drop_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,360.0,1


In [37]:
# 원본 Titanic DataFrame엔 여전히 Age_0가 존재
# 그 이유는 앞의 예제 코드에서 inplace=False로 설정했기 때문
# Inplace=False이면 자기 자신의 DataFrame의 데이터는 삭제하지 않으며, 삭제된 결과 DataFrame을 반환
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10,Family_No
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0,1


In [38]:
# Age_0, Age_by_10, Family_No 칼럼 삭제
# inplace = True로 설정하면 반환 값이 None(아무 값도 아님)이 된다.
# 따라서 다음 코드와 같이 inplace=True로 설정한 채로 반환 값을 다시 자신의 DataFrame 객체로 할당X
drop_result = titanic_df.drop(['Age_0','Age_by_10','Family_No'],axis=1, inplace=True)
print('inplace=True로 drop 후 반환된 값:', drop_result)

inplace=True로 drop 후 반환된 값: None


In [39]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [40]:
# Index 0,1,2에 위치한 로우를 삭제
# 삭제 후 head(3)으로 확인한 맨 앞 3개 데이터의 인덱스는 3,4,5

pd.set_option('display.width',1000)
pd.set_option('display.max_colwidth',15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))

titanic_df.drop([0,1,2],axis=0,inplace=True)
print('#### after axis 0 drop ####')
print(titanic_df.head(3))

#### before axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch          Ticket     Fare Cabin Embarked
0            1         0       3  Braund, Mr....    male  22.0      1      0       A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mr...  female  38.0      1      0        PC 17599  71.2833   C85        C
2            3         1       3  Heikkinen, ...  female  26.0      0      0  STON/O2. 31...   7.9250   NaN        S
#### after axis 0 drop ####
   PassengerId  Survived  Pclass            Name     Sex   Age  SibSp  Parch  Ticket     Fare Cabin Embarked
3            4         1       1  Futrelle, M...  female  35.0      1      0  113803  53.1000  C123        S
4            5         0       3  Allen, Mr. ...    male  35.0      0      0  373450   8.0500   NaN        S
5            6         0       3  Moran, Mr. ...    male   NaN      0      0  330877   8.4583   NaN        Q


In [41]:
titanic_drop_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S,320.0,2
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S,360.0,1
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S,450.0,2
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S,450.0,1


In [42]:
titanic_drop_df.isnull().head() # 결측값이 들어있으면 True로 반환

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [43]:
titanic_drop_df.dropna().head(10) # 결측값이 들어있는 행 제거

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0,2
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S,450.0,2
6,7,0,1,"McCarthy, M...",male,54.0,0,0,17463,51.8625,E46,S,640.0,1
10,11,1,3,"Sandstrom, ...",female,4.0,1,1,PP 9549,16.7,G6,S,140.0,3
11,12,1,1,"Bonnell, Mi...",female,58.0,0,0,113783,26.55,C103,S,680.0,1
21,22,1,2,"Beesley, Mr...",male,34.0,0,0,248698,13.0,D56,S,440.0,1
23,24,1,1,"Sloper, Mr....",male,28.0,0,0,113788,35.5,A6,S,380.0,1
27,28,0,1,"Fortune, Mr...",male,19.0,3,2,19950,263.0,C23 C25 C27,S,290.0,6
52,53,1,1,"Harper, Mrs...",female,49.0,1,0,PC 17572,76.7292,D33,C,590.0,2
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C,750.0,2


In [44]:
titanic_drop_df.isnull().head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [45]:
titanic_drop_df.fillna('데이터 없음') # 결측 값을 다른 값으로 채워넣기

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10,Family_No
0,1,0,3,"Braund, Mr....",male,22,1,0,A/5 21171,7.2500,데이터 없음,S,320,2
1,2,1,1,"Cumings, Mr...",female,38,1,0,PC 17599,71.2833,C85,C,480,2
2,3,1,3,"Heikkinen, ...",female,26,0,0,STON/O2. 31...,7.9250,데이터 없음,S,360,1
3,4,1,1,"Futrelle, M...",female,35,1,0,113803,53.1000,C123,S,450,2
4,5,0,3,"Allen, Mr. ...",male,35,0,0,373450,8.0500,데이터 없음,S,450,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, R...",male,27,0,0,211536,13.0000,데이터 없음,S,370,1
887,888,1,1,"Graham, Mis...",female,19,0,0,112053,30.0000,B42,S,290,1
888,889,0,3,"Johnston, M...",female,데이터 없음,1,2,W./C. 6607,23.4500,데이터 없음,S,데이터 없음,4
889,890,1,1,"Behr, Mr. K...",male,26,0,0,111369,30.0000,C148,C,360,1


In [46]:
def square(x): # 함수 생성
    return (x**2+1)
# apply()를 통해 기존의 혹은 만들어진 함수를 사용한다.
titanic_df['Age_by_square'] = titanic_df['Age'].apply(square)

In [47]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_square
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S,1226.0
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S,1226.0
5,6,0,3,"Moran, Mr. ...",male,,0,0,330877,8.4583,,Q,
6,7,0,1,"McCarthy, M...",male,54.0,0,0,17463,51.8625,E46,S,2917.0
7,8,0,3,"Palsson, Ma...",male,2.0,3,1,349909,21.075,,S,5.0


In [None]:
# 숙제
# titianic 데이터셋에서 PassengerId, Cabin, Ticket, embarked의 열은 삭제하고 
# Age 열의 결측값을 평균값으로 대체하라

In [123]:
df = pd.read_csv('./train.csv')

In [124]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [125]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


In [126]:
df_drop = df.drop(labels=['PassengerId','Ticket','Cabin','Embarked'],axis=1)

In [127]:
df_drop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 8 columns):
Survived    891 non-null int64
Pclass      891 non-null int64
Name        891 non-null object
Sex         891 non-null object
Age         714 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Fare        891 non-null float64
dtypes: float64(2), int64(4), object(2)
memory usage: 55.8+ KB


In [130]:
df_drop['Age'] = df_drop['Age'].fillna(df_drop['Age'].mean())

In [131]:
df_drop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 8 columns):
Survived    891 non-null int64
Pclass      891 non-null int64
Name        891 non-null object
Sex         891 non-null object
Age         891 non-null float64
SibSp       891 non-null int64
Parch       891 non-null int64
Fare        891 non-null float64
dtypes: float64(2), int64(4), object(2)
memory usage: 55.8+ KB


### **drop 정리**

> - **axis: DataFrame의 로우를 삭제할 때는 axis=0, 칼럼을 삭제할 때는 axis=1로 설정**

> - **원본 DataFrame은 유지하고 드롭된 DataFrame을 새롭게 객체 변수로 받고 싶다면 inplace=False로 설정 (디폴트 값이 False임)**

> - **원본 DataFrame에 드롭된 결과를 적용할 경우에는 inplace=True를 적용**

> - **원본 DataFrame에서 드롭된 DataFrame을 다시 원본 DataFrame 객체 변수로 할당하면 원본 DataFrame에서 드롭된 결과를 적용할 경우와 같음**

> - **결측값이 있는 행을 제거하기 위해 dropna()를 사용**

> - **결측값을 다른 값으로 치환하기 위해서는 fillna()를 사용**

## **Index 객체**

- **판다스의 Index 객체는 RDBMS의 PK(Primary Key)와 유사하게 DataFrame,Series의 레코드를 고유하게 식별하는 객체이다.**

- **DataFrame,Series에서 Index 객체만 추출하려면 DataFrame, index 또는 Series.index 속성을 통해 가능하다.**

In [48]:
titanic_df = pd.read_csv('./train.csv')

In [51]:
indexes = titanic_df.index # index 속성 추출
print(indexes)
print('Index 객체 array값:\n',indexes.values) # Index 실제 값 array로 변환
# Index 객체는 식별성 데이터를 1차원 array로 가지고 있다.
# 또한, ndarray와 유사하게 단일 값 반환 및 슬라이싱도 가능하다.
# 한 번 만들어진 DataFrame 및 Series의 Index 객체는 함부로 변경할 수 없다.

RangeIndex(start=0, stop=891, step=1)
Index 객체 array값:
 [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215
 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232

In [52]:
print(type(indexes.values)) # index의 자료형
print(indexes.values.shape) # index의 shape
print(indexes[:5].values) # index의 처음부터 4번째 인덱스 까지 출력
print(indexes.values[:5]) 
print(indexes[6]) # 6번째 index 출력

<class 'numpy.ndarray'>
(891,)
[0 1 2 3 4]
[0 1 2 3 4]
6


In [53]:
# Series 객체는 Index 객체를 포함하지만 Series객체에 연산 함수를 적용할 때 Index는 연산에서 제외
# Index는 오직 식별용으로만 사용된다.
series_fair = titanic_df['Fare'] # Titanic의 Fare Series 객체를 추출
print('Fair Series max 값:',series_fair.max()) # Fare의 최대값 추출
print('Fair Series sum 값:',series_fair.sum()) # Fare의 총합 추출
print('sum() Fair Series:',sum(series_fair)) # 위 코드와 의미는 같음
print('Fair Series + 3:\n',(series_fair+3).head(3)) # Fare에 3을 더한 값에 첫 3행을 추출

Fair Series max 값: 512.3292
Fair Series sum 값: 28693.9493
sum() Fair Series: 28693.949299999967
Fair Series + 3:
 0    10.2500
1    74.2833
2    10.9250
Name: Fare, dtype: float64


In [54]:
# DataFrame 및 Series에 reset_index() 메서드를 수행하면 새롭게 인덱스를 
# 연속 숫자형으로 할당하며 기존 인덱스는 'index'라는 새로운 칼럼 명으로 추가한다.
# index(Series): 기존 index는 index 칼럼에 추가
# 새로운 index는 index(Series 왼쪽에 생성)
titanic_reset_df = titanic_df.reset_index(inplace=True)
titanic_df.head(3)

Unnamed: 0,index,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S


In [55]:
# reset_index()는 인덱스가 연속된 int 숫자형 데이터가 아닐 경우에
# 다시 이를 연속형 int 숫자형 데이터로 만들 때 주로 사용한다.
# 즉, 'Pclass'의 고유 값이 식별자 인덱스 역할 -> 연속 숫자형 인덱스를 고유 식별자로 변경
print('### before reset_index ###')
value_counts = titanic_df['Pclass'].value_counts() # Pclass의 해당 칼럼의 유형과 빈도 확인
print(value_counts)
print('value_count 객체 변수 타입:',type(value_counts)) # Series 반환
new_value_counts = value_counts.reset_index(inplace=False)
print('### After reset_index ###')
print(new_value_counts)
print('new_value_counts 객체 변수 타입:',type(new_value_counts)) # reset_index -> DataFrame
# reset_index() drop = True로 설정하면 기존 인덱스는 새로운 칼럼에 추가되지 않고 삭제(drop)된다.
# 새로운 칼럼이 추가되지 않음으로 Series로 유지

### before reset_index ###
3    491
1    216
2    184
Name: Pclass, dtype: int64
value_count 객체 변수 타입: <class 'pandas.core.series.Series'>
### After reset_index ###
   index  Pclass
0      3     491
1      1     216
2      2     184
new_value_counts 객체 변수 타입: <class 'pandas.core.frame.DataFrame'>


In [132]:
# 숙제 1번
# titanic 데이터셋에서 Fare칼럼에 이상치 값이 있는 행을 찾아서 삭제하라 (3개)

In [139]:
df = pd.read_csv('./train.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


In [147]:
df['Fare'].max()

512.3292

In [149]:
indexes = df['Fare'] >= 512.3292

In [151]:
df['Fare'][indexes]

258    512.3292
679    512.3292
737    512.3292
Name: Fare, dtype: float64

In [152]:
df_drop = df.drop(labels=[258,679,737], axis=0)

In [154]:
df_drop['Fare'].max()

263.0

In [155]:
df_drop.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 888 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    888 non-null int64
Survived       888 non-null int64
Pclass         888 non-null int64
Name           888 non-null object
Sex            888 non-null object
Age            711 non-null float64
SibSp          888 non-null int64
Parch          888 non-null int64
Ticket         888 non-null object
Fare           888 non-null float64
Cabin          202 non-null object
Embarked       886 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 90.2+ KB


## **데이터 셀렉션 및 필터링**

- **판다스의 데이터 셀력션과 필터링은 넘파이와 상당히 유사한 부분도 있고 다른 부분도 있기에 사용할 때마다 혼동하기 쉽다.**

- **사실 넘파이의 데이터 핸들링은 데이터 분석용으로 사용하기에는 편의성이 떨어진다.**

- **판다스는 이를 개선하려고 노력하는 과정에서 넘파이 기능을 계승하기도, 때로는 완전히 다른 기능을 제공하기도 한다.**

- **판다스의 DataFrame과 Series끼리도 이러한 데이터 셀력션 기능이 달라지는 부분이 있어 주의가 필요**

- **넘파이의 경우 '[]' 연산자 내 단일 값 추출, 슬라이싱, 팬시 인덱싱, 불린 인덱싱을 통해 데이터를 추출 했다. 판다스의 경우 ix[],iloc[],loc[] 연산자를 통해 동일한 작업을 수행한다.**

### **DataFrame의 [] 연산자**

- **먼저 넘파이와 DataFrame 간 데이터 셀렉션에서 가장 유의해야 할 부분은 '[]' 연산자 이다.**

> - **넘파이에서 [] 연산자는 행의 위치, 열의 위치, 슬라이싱 범위 등을 지정해 데이터를 가져올 수 있다.**

> - **DataFrame 바로 뒤에 있는 [] 안에 들어갈 수 있는 것은 칼럼 명 문자(또는 칼럼 명의 리스트 객체), 또는 인덱스로 변환 가능한 표현식이다.**

- **현재 수준에서는 DataFrame 뒤에 있는 []는 칼럼만 지정할 수 있는 '칼럼 지정 연산자'로 이해하는 게 혼돈을 막는 가장 좋은 방법이다.**

In [56]:
titanic_df = pd.read_csv('./train.csv')

In [57]:
print('단일 칼럼 데이터 추출:\n',titanic_df['Pclass'].head(3))
print('\n 여러 칼럼의 데이터 추출: \n',titanic_df[['Survived', 'Pclass']].head(3))
# print('[]안에 숫자 index는 KeyError 오류 발생:\n',titanic_df[0]) 

단일 칼럼 데이터 추출:
 0    3
1    1
2    3
Name: Pclass, dtype: int64

 여러 칼럼의 데이터 추출: 
    Survived  Pclass
0         0       3
1         1       1
2         1       3


In [58]:
# 앞에서 DataFrame의 []내에 숫자 값을 입력할 경우 오류가 발생한다고 했는데,
# 판다스의 인덱스 형태로 변환 가능한 표현식은 []내에 입력할 수 있다.
# 이런식으로 잘 사용하지 않는다.
titanic_df[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [59]:
# 또한 불린 인덱싱 표현도 가능하다. [] 내의 불린 인덱싱 기능은 원하는 데이터를 편리하게 추출
# 이 책 대부분의 데이터 셀렉션은 불린 인덱싱을 기반으로 한다.
titanic_df[titanic_df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


- **DataFrame 뒤의 [] 연산자의 입력 인자가 여러 가지 형태이므로 사용할 때 꽤 혼동을 준다. 혼동을 방지하기 위한 좋은 가이드는 다음과 같다.**

> - **DataFrame 바로 뒤 [] 연산자는 넘파이의 []나 Series의 []와 다르다.**

> - **DataFrame 바로 뒤의 [] 내 입력 값은 칼럼명(또는 칼럼 리스트)을 지정해 칼럼 지정 연산에 사용하거나 불린 인덱스용도로만 사용해야 한다.**

> - **DataFrame[0:2]와 같은 슬라이싱 연산으로 데이터를 추출하는 방법은 사용하지 않는게 좋다.**

### **DataFrame ix[ ] 연산자**

**넘파이 ndarry의 [] 연산자와 유사한 기능을 DataFrame에 제공하기 위해서 판다스는 ix[] 연산자를 판다스 개발 초기에 제공**

**ix[]는 ix[0,'Pclass']와 같이 행 위치 지정으로 인덱스값, 열 위치 지정으로 칼럼 명을 사용한다.**

**열 위치 지정은 약간 독특하게도 칼럼 명뿐만 아니라 ix[0,2]와 같이 칼럼 명이 아닌 칼럼의 위치 값 지정도 가능하다.**

**아이러니하게도 두 가지 방식을 모두 제공하게 되면서 코드가 혼돈을 주거나 가독성이 떨어지면서 ix[]는 판단스에서 사라지게 되었다.**

**그리고 이를 대신할 칼럼 명칭 기반 인덱싱 연산자인 loc[ ]와 칼럼 위치 기반 인덱싱 연산자인 iloc[ ]가 새롭게 만들어졌다.**

In [60]:
# 현재 .ix는 사라짐
print('칼럼 위치 기반 인덱싱 데이터 추출:',titanic_df.ix[0,2])
print('칼럼 명 기반 인덱싱 데이터 추출:',titanic_df.ix[0,'Pclass'])

칼럼 위치 기반 인덱싱 데이터 추출: 3
칼럼 명 기반 인덱싱 데이터 추출: 3


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  return getattr(section, self.name)[new_key]
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  This is separate from the ipykernel package so we can avoid doing imports until


### **명칭 기반 인덱싱과 위치 기반 인덱싱의 구분**

**명칭(Label) 기반 인덱싱은 칼럼의 명칭을 기반으로 위치를 지정하는 방식이다. '칼럼 명'같이 명칭으로 열 위치를 지정하는 방식이다.**

**위치(Position) 기반 인덱싱은 0을 출발점으로 하는 가로축, 세로축 좌표 기반의 행과열 위치를 기반으로 데이터를 지정한다. 따라서 행, 열 값으로 정수가 입력된다.**

**DataFrame의 인덱스값은 명칭 기반 인덱싱이라고 간주해야 한다.**

### **DataFrame iloc[ ] 연산자**

**iloc[ ]는 위치 기반 인덱싱만 허용하기 때문에 행과 열 값으로 integer 또는 integer형의 슬라이싱, 팬시 리스트 값을 입력해줘야 한다.(불린 인덱싱은 조건을 기술하므로 이에 제약받지 않는다.)**

In [61]:
data = {'Name':['chulmin','Eunkyoung','Jinwoong','Soobeom'],
       'Year': [2011,2016,2015,2015],
       'Gender':['Male','Female','Male','Male']}

data_df = pd.DataFrame(data, index = ['one','two','three','four'])
data_df

Unnamed: 0,Name,Year,Gender
one,chulmin,2011,Male
two,Eunkyoung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [62]:
# data_df.iloc[0,Name]
# data_df.iloc[one,0] 
# 위 같은 명칭이 들어가게 되면 에러코드 출력
data_df.iloc[0,0] # (0,0)에 위치한 값을 인덱싱

'chulmin'

In [63]:
data_df_reset = data_df.reset_index()
data_df_reset = data_df_reset.rename(columns={'index':'old_index'})
# 인덱스값에 1을 더해서 1부터 시작하는 새로운 인덱스값 생성 
data_df_reset.index = data_df_reset.index + 1 
data_df_reset

Unnamed: 0,old_index,Name,Year,Gender
1,one,chulmin,2011,Male
2,two,Eunkyoung,2016,Female
3,three,Jinwoong,2015,Male
4,four,Soobeom,2015,Male


In [64]:
data_df_reset.iloc[0,1] # 0번째 로우에 1번째 칼럼의 값을 출력

'chulmin'

In [65]:
data_df.iloc[0:2,[0,1]]

Unnamed: 0,Name,Year
one,chulmin,2011
two,Eunkyoung,2016


In [66]:
data_df.iloc[0:2,0:3]

Unnamed: 0,Name,Year,Gender
one,chulmin,2011,Male
two,Eunkyoung,2016,Female


In [67]:
data_df.iloc[:]

Unnamed: 0,Name,Year,Gender
one,chulmin,2011,Male
two,Eunkyoung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


### **DataFrame loc[ ] 연산자**

**loc[ ]는 명칭 기반으로 데이터를 추출한다. 따라서 행 위치에는 DataFrame.index 값을, 그리고 열 위치에는 칼럼 명을 입력해 준다.**

**index가 숫자 형일수 있기 때문에 명칭 기반이라고 무조건 문자열을 입력한다는 선입견을 가져서는 안된다.**

In [68]:
data_df.loc['one','Name']

'chulmin'

In [69]:
data_df_reset # 인덱스가 숫자형

Unnamed: 0,old_index,Name,Year,Gender
1,one,chulmin,2011,Male
2,two,Eunkyoung,2016,Female
3,three,Jinwoong,2015,Male
4,four,Soobeom,2015,Male


In [70]:
data_df_reset.loc[1,'Name'] # 0번째 인덱스 값인 1과 칼럼 인덱스 값인 'Name' 

'chulmin'

**loc[ ]에 슬라이싱 기호 ':'를 적용할 때 한 가지 유의할 점이 있다. 일반적으로 슬라이싱을 '시작 값:종료 값'과 같이 지정하면 시작 값 ~ 종료 값 -1 까지의 범위를 의미한다. 그런데 loc[ ]에 슬라이싱 기호를 적용하면 종료 값 -1이 아니라 종료 값까지 포함하는 것을 의미한다. 이는 명칭 기반 인덱싱의 특성 때문이다.**

**즉, 명칭은 숫자형이 아닐 수 있기 때문에 -1을 할 수가 없다.**

In [71]:
print('위치 기반 iloc slicing\n',data_df.iloc[0:1,0],'\n') # 종료 값을 포함하지 않는다.
print('명칭 기반 loc slicing\n',data_df.loc['one':'two','Name']) # 종료 값까지 포함

위치 기반 iloc slicing
 one    chulmin
Name: Name, dtype: object 

명칭 기반 loc slicing
 one      chulmin
two    Eunkyoung
Name: Name, dtype: object


**특히 DataFrame의 인덱스가 정수형이면 loc[ ]를 이용할 때 조심해야 한다.**

In [72]:
# 아래 결과와 같이 명칭기반 loc에서 인덱스가 숫자형인 경우 
# 1 ~ 2번째 인덱스 까지 출력한다.
print(data_df_reset.loc[1:2,'Name'])

1      chulmin
2    Eunkyoung
Name: Name, dtype: object


**iloc, loc의 문제점과 주의할 점을 정리**

> **1. 가장 중요한 것은 명칭 기반 인덱싱과 위치 기반 인덱싱의 차이를 이해하는 것이다. DataFrame의 인덱스나 칼럼명으로 데이터에 접근하는 것은 명칭 기반 인덱싱이다. 0부터 시작하는 행,열의 위치 좌표에만 의존하는 것이 위치 기반 인덱싱이다.**

> **2. iloc[ ]는 위치 기반 인덱싱만 가능하다. 따라서 행과 열 위치 값으로 정수형 값을 지정해 원하는 데이터를 반환한다.**

> **3. loc[ ]는 명칭 기반 인덱싱만 가능하다. 따라서 행 위치에 DataFrame 인덱스가 오며, 열 취치에는 칼럼 명을 지정해 원하는 데이터를 반환한다.**

> **4. 명칭 기반 인덱싱에서 슬라이싱을 '시작점:종료점'으로 지정할 때 시작점에서 종료점을 포함한 위치에 있는 데이터를 반환한다.**

**사용할 때 혼동을 줄이기 위해서 일반적으로 loc[ ]나 iloc[ ] 중 하나만 선택해서 사용하는 것이 좋다.**

In [156]:
data = {'Name':['chulmin','Eunkyoung','Jinwoong','Soobeom'],
       'Year': [2011,2016,2015,2015],
       'Gender':['Male','Female','Male','Male']}

data_df = pd.DataFrame(data, index = ['one','two','three','four'])
data_df

Unnamed: 0,Name,Year,Gender
one,chulmin,2011,Male
two,Eunkyoung,2016,Female
three,Jinwoong,2015,Male
four,Soobeom,2015,Male


In [157]:
# 명칭기반
data_df.loc['one':'three','Name':'Gender']

Unnamed: 0,Name,Year,Gender
one,chulmin,2011,Male
two,Eunkyoung,2016,Female
three,Jinwoong,2015,Male


In [159]:
# 위치기반
data_df.iloc[0:3,:]

Unnamed: 0,Name,Year,Gender
one,chulmin,2011,Male
two,Eunkyoung,2016,Female
three,Jinwoong,2015,Male


### **불린 인덱싱**

**불린 인덱싱은 매우 편리한 데이터 필터링 방식이다.**

**ix, iloc, loc와 같이 명확히 인덱싱을 지정하는 방식보다는 불린 인덱싱에 의존해 데이터를 가져오는 경우가 더 많다. 그 이유는 처음부터 가져올 값을 조건으로 ix,iloc,loc[ ] 내에 입력하면 자동으로 원하는 값을 필터링 하기 때문이다. 그리고 불인 인덱싱은 [ ], ix[ ], iloc[ ], loc[ ]에서 공통으로 지원한다.**



**단지 iloc[ ]는 정수형 값이 아닌 불린 값에 대해서는 지원하지 않기 때문에 불린 인덱싱이 지원되지 않는다.**

In [73]:
titanic_df = pd.read_csv('./train.csv')

In [74]:
titanic_boolean = titanic_df[titanic_df['Age'] > 60]
print(type(titanic_boolean)) # DataFrame 자료형
titanic_boolean # Age가 60세 이상인 레코드들만 출력 반환되는 객체가 DataFrame

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr...",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,Van der hoe...,male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. ...",male,62.0,0,0,113514,26.55,C87,S
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
280,281,0,3,"Duane, Mr. ...",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr...",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr...",male,64.0,1,4,19950,263.0,C23 C25 C27,S


In [75]:
# [ ]을 사용해 60세 이상인 승객의 나이와 이름만 추출
# 칼럼이 두 개 이상이므로 [[]]을 사용한다(Name,Age).
titanic_df[titanic_df['Age'] > 60][['Name','Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [76]:
# loc[ ]을 이용해 적용. 단, ['Name','Age']는 칼럼 위치에 놓여야 한다.
# 즉, loc의 row위치에 Age > 60인 레코드들, Column위치에 'Name','Age'를 선택
titanic_df.loc[titanic_df['Age']>60,['Name','Age']].head(3)

Unnamed: 0,Name,Age
33,"Wheadon, Mr...",66.0
54,"Ostby, Mr. ...",65.0
96,Goldschmidt...,71.0


In [77]:
# and 조건일 때는 &
# or 조건일 때는 |
# Not 조건일 때는 ~
# 나이가 60세 이상이고, 선실 등급이 1등급이며, 성별이 여성인 승객을 추출
# loc 같은 경우 titanic.loc하면 아래와 같은 출력 결과
titanic_df[(titanic_df['Age'] > 60) & (titanic_df['Pclass'] == 1) &
          (titanic_df['Sex'] == 'female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


In [78]:
# 다음과 같이 개별 조건을 변수에 할당하고 이들 변수를 결합해서 불린 인덱싱을 수행할 수도 있다.
cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass'] == 1
cond3 = titanic_df['Sex'] == 'female'
titanic_df[cond1 & cond2 & cond3] 

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Mi...",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs....",female,62.0,0,0,113572,80.0,B28,


In [167]:
# 숙제
# 나이가 50세 이상이고, 남성인 승객들의 행을 삭제하여 출력하라 (22개의 행이 삭제되어야함)

In [178]:
df = pd.read_csv('./train.csv')

In [179]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,,S
3,4,1,1,"Futrelle, M...",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. ...",male,35.0,0,0,373450,8.05,,S


In [180]:
df_drop = df.loc[(df['Age'] >= 60) & (df['Sex'] == 'male')]

In [184]:
df_drop

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
33,34,0,2,"Wheadon, Mr...",male,66.0,0,0,C.A. 24579,10.5,,S
54,55,0,1,"Ostby, Mr. ...",male,65.0,0,1,113509,61.9792,B30,C
96,97,0,1,Goldschmidt...,male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr...",male,70.5,0,0,370369,7.75,,Q
170,171,0,1,Van der hoe...,male,61.0,0,0,111240,33.5,B19,S
252,253,0,1,"Stead, Mr. ...",male,62.0,0,0,113514,26.55,C87,S
280,281,0,3,"Duane, Mr. ...",male,65.0,0,0,336439,7.75,,Q
326,327,0,3,"Nysveen, Mr...",male,61.0,0,0,345364,6.2375,,S
438,439,0,1,"Fortune, Mr...",male,64.0,1,4,19950,263.0,C23 C25 C27,S
456,457,0,1,"Millet, Mr....",male,65.0,0,0,13509,26.55,E38,S


In [185]:
len(df_drop.index.values)

22

In [182]:
df_drop_result = df.drop(labels = df_drop.index, axis = 0 )

In [183]:
df_drop_result.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 869 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    869 non-null int64
Survived       869 non-null int64
Pclass         869 non-null int64
Name           869 non-null object
Sex            869 non-null object
Age            692 non-null float64
SibSp          869 non-null int64
Parch          869 non-null int64
Ticket         869 non-null object
Fare           869 non-null float64
Cabin          194 non-null object
Embarked       867 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 88.3+ KB


In [177]:
df_drop_result.loc[(df['Age'] >= 60) & (df['Sex'] == 'male')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked


**이처럼 불린 인덱싱은 다재 다능하고 유연하다. 그리고 [ ],ix[ ],loc[ ]에서 지원이 되기 때문에 이들 연산자 간의 미묘한 차이에 대해서도 고민할 필요가 없다.**

## **정렬, Aggregation 함수, GroupBy 적용**

### **DataFrame, Serise의 정렬 - sort_values()**

**DataFrame과 Series의 정렬을 위해서는 sort_values()메서드를 이용한다.**

**sort_values()의 주요 입력 파라미터는 by, ascending, inplace이다.**

> **by로 특정 칼럼을 입력하면 해당 칼럼으로 정렬을 수행한다.**

> **ascending=True로 설정하면 오름차순으로 정렬하며, False로 설정하면 내림차순으로 정렬한다.**

> **inplace = False로 설정하면 sort_values()를 호출한 DataFrame은 그대로 유지하며 정렬된 DataFrame을 결과로 반환한다. True로 설정하면 호출한 DataFrame의 정렬 결과를 그대로 적용한다.**

In [79]:
# titanic_df.sort_values(by=['Name'])은 Name을 기준으로 오름차순으로 정렬한다.
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr....",male,42.0,0,0,C.A. 5547,7.55,,S
746,747,0,3,"Abbott, Mr....",male,16.0,1,1,C.A. 2673,20.25,,S
279,280,1,3,"Abbott, Mrs...",female,35.0,1,1,C.A. 2673,20.25,,S


In [80]:
# 여러 개의 칼럼으로 정렬하려면 by에 리스트 형식으로 정렬하려는 칼럼을 입력하면 된다.
titanic_sorted = titanic_df.sort_values(by=['Pclass','Name'],ascending=False)
titanic_sorted.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,van Melkebe...,male,,0,0,345777,9.5,,S
153,154,0,3,van Billiar...,male,40.5,0,2,A/5. 851,14.5,,S
282,283,0,3,de Pelsmaek...,male,16.0,0,0,345778,9.5,,S


### **Aggregation 함수 적용**

**DataFrame에서 min(),max(),sum(),count()와 같은 aggregation 함수의 적용은 RDBMS SQL의 aggregation 함수 적용과 유사하다. 다만 DataFrame의 경우 DataFrame에서 바로 aggregation을 호출할 경우 모든 칼럼에 해당 aggregation을 적용한다는 차이가 있다.**

In [81]:
titanic_df.count() # 모든 칼럼에 해당 aggregation이 적용됨을 알 수 있다.

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [82]:
# 특정 칼럼에 aggregation 함수를 적용하기 위해서는 DataFrame에 대상 칼럼들만 추출해
# aggregation을 적용하면 된다.
titanic_df[['Age','Fare']].mean() # DataFrame안에 리스트형식으로 들어가 있음으로 [[ ]] 형태이다.

Age     29.699118
Fare    32.204208
dtype: float64

### **groupby()적용**

**DataFrame의 groupby() 사용 시 입력 파라미터 by에 칼럼을 입력하면 대상 칼럼으로 gruopby 된다.**

**DataFrame에 groupby()를 호출하면 DataFrameGroupBy라는 또 다른 형태의 DataFrame을 반환한다.**

In [83]:
# groupby(by='Pclass')를 호출하면 Pclass 칼럼 기준으로 GroupBy된 DataFrameGroupBy 객체를 반환
titanic_groupby = titanic_df.groupby(by = 'Pclass')
print(type(titanic_groupby)) # type=DataFrameGroupBy 형태로 반환

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


**DataFrame에 groupby()를 호출해 반환된 결과에 aggregation함수를 호출하면 groupby() 대상 칼럼을 제외한 모든 칼럼에 해당 aggregation 함수를 적용한다.**

In [84]:
titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


In [85]:
titanic_groupby = titanic_df.groupby('Pclass').max()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,890,1,"Young, Miss...",male,80.0,3,4,WE/P 5735,512.3292
2,887,1,"del Carlo, ...",male,70.0,3,3,W/C 14208,73.5
3,891,1,van Melkebe...,male,74.0,8,6,W./C. 6609,69.55


**DataFrame의 groupby()에 특정 칼럼만 aggregation 함수를 적용하려면 groupby()로 반환된 DataFrameGroupBy객체에 해당 칼럼을 필터링한 뒤 aggragation함수를 적용한다.**

In [86]:
# titanic_df.groupby('Pclass')로 반환된 DataFrameGroupBy 객체에 [['PclassId','Survived']]로
# 필터링해 PassengerId와 Survived 칼럼에만 count()를 수행한다.
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId','Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


In [87]:
# 문제
# 성별을 기준으로 Age, Fare의 최대값을 출력하라
# groupby와 agg함수를 사용
titanic_groupby = titanic_df.groupby('Sex')[['Age','Fare']].max()
titanic_groupby

Unnamed: 0_level_0,Age,Fare
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,63.0,512.3292
male,80.0,512.3292


In [88]:
# 서로 다른 aggregation 함수를 적용할 경우에는 여러 개의 aggregation 함수명을 DataFrameGroupBy
# 객체의 agg() 내에 인자로 입력해서 사용한다는 점이다.
titanic_df.groupby('Pclass')['Age'].agg([max,min,'mean'])

Unnamed: 0_level_0,max,min,mean
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,0.92,38.233441
2,70.0,0.67,29.87763
3,74.0,0.42,25.14062


**여러 개의 칼럼이 서로 다른 aggregation 함수를 groupby에서 호출하려면 DataFrame groupby()는 agg()를 이용해 이 같은 처리가 가능한데, agg() 내에 입력 값으로 딕셔너리 형태로 aggregation에 적용될 캄럼들과 aggregation 함수를 입력한다.**

In [89]:
# 딕셔너리 자료형을 이용해 여러 개의 컬럼에 원하는 aggregation 함수를 적용할 수 있다.
agg_format = {'Age':'max','SibSp':'sum','Fare':'mean'}
# 위에서 만든 format을 agg()를 통해 인자로 넣어 실행시킨다.
titanic_df.groupby('Pclass').agg(agg_format)

Unnamed: 0_level_0,Age,SibSp,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,80.0,90,84.154687
2,70.0,74,20.662183
3,74.0,302,13.67555


## **결손 데이터 처리하기**

**결손 데이터는 칼럼에 값이 없는, 즉 NULL인 경우를 의미하며, 이를 넘파이의 NaN으로 표시한다.**

**기본적으로 머신러닝 알고리즘은 이 NaN값을 처리하지 않으므로 이 값을 다른 값으로 대체해야 한다.**

> **또한, NaN 값일 경우, 함수의 연산 시 제외가 된다.**

**NaN 여부를 확인하는 API는 isna()이며, NaN 값을 다른 값으로 대체하는 API는 fillna()이다.**

### **isna()로 결손 데이터 여부 확인**

**isna()는 데이터가 NaN인지 아닌지를 알려준다. DataFrame에 isna()를 수행하면 모든 칼럼의 값이 NaN인지 아닌지를 True나 False로 알려준다.**

In [90]:
# True인 경우 결측치
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [91]:
# 결측치 데이터의 개수는 isna() 결과에 sum() 함수를 추가해 구할 수 있다. 
# sum()을 호출 시 True는 내부적으로 숫자 1로, False는 숫자 0으로 변환되므로
# 결손 데이터의 개수를 구할 수 있다.
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### **fillna()로 결손 데이터 대체하기**

**fillna()를 이용하면 결손 데이터를 편리하게 다른 값으로 대체할 수 있다.**

**주의해야 할 점은 fillna()를 이용해 반환 값을 다시 받거나 inplace=True 파라미터를 fillna()에 추가해야 실제 데이터세트 값이 변경된다는 점이다.**

In [92]:
# 타이타닉 데이터 세트의 'Cabin'칼럼의 NaN값을 'C000'로 대체
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
# 또는 titanic_df['Cabin'].fillna('C000',inplace=True)
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S


In [93]:
# 'Age'칼럼의 NaN 값을 평균 나이로, 'Embarked' 칼럼의 NaN 값을 'S'로 대체해 모든 결손 데이터 처리
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

## **apply lambda 식으로 데이터 가공**

**판다스는 apply 함수에 lambda 식을 결합해 DataFrame이나 Series의 레코드별로 데이터를 가공하는 기능을 제공.**

**판다스의 경우 칼럼에 일괄적으로 데이터 가공을 하는 것이 속도 면에서 더 빠르나 복잡한 데이터 가공이 필요할 경우 어쩔 수 없이 apply lambda를 이용한다.**

In [94]:
def get_square(a):
    return a**2

print('3의 제곱근은:',get_square(3))

3의 제곱근은: 9


In [95]:
lambda_square = lambda x: x**2
print('3의 제곱근은:',lambda_square(3))

3의 제곱근은: 9


**lambda x:x^2에서 ':'로 입력 인자와 반환될 입력 인자의 계산식을 분리한다. : 왼쪽에 있는 x는 입력 인자를 가리키며, 오른쪽은 입력 인자의 계산식이다. 오른쪽의 계산식은 결국 반환 값을 의미한다.**

**lambda 식을 이용할 때 여러 개의 값을 입력 인자로 사용해야 할 경우에는 보통 map()함수를 결합해서 사용한다.**

In [96]:
a = [1,2,3]

squares = map(lambda x:x**2,a)
list(squares)

[1, 4, 9]

In [97]:
# 먼저 'Name' 칼럼의 문자열 개수를 별도의 칼럼인 'Name_len'에 생성
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x:len(x))
titanic_df[['Name','Name_len']].head(3)

Unnamed: 0,Name,Name_len
0,"Braund, Mr....",23
1,"Cumings, Mr...",51
2,"Heikkinen, ...",22


In [98]:
# 나이가 15세 미만이면 'child', 그렇지 않으면 'Adult'로 구분하는 새로운 칼럼 'Child_Adult' 생성
# lambda 식은 if else를 지원하는데, 주의할 점은
# if절의 경우 if식보다 반환 값을 먼저 기술해야한다.
# 이는 lambda식 ':' 기호의 오른편에 반환 값이 있어야 하기 때문이다.
# 또 한가지는 if,else만 지원하고 if,else if, else와 같이 else if는 지원하지 않는다.
# else if를 이용하기 위해서는 else 절을 ()로 내포해 () 내에서 다시 if else를 적용해 사용한다.
titanic_df['Cild_Adult']=titanic_df['Age'].apply(lambda x:'child' if x<=15 else 'Adult')

In [99]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Name_len,Cild_Adult
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S,23,Adult
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C,51,Adult
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S,22,Adult


In [100]:
# 나이가 15세 이하이면 child, 15세 ~ 60세 사이는 Adult, 61세 이상은 Elderly로 분류하는 'Age_Cat'
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x: 'child' if x <= 15 else
                                               ('Adult' if x <= 60 else 'Elderly'))
titanic_df['Age_cat'].value_counts()                

Adult      786
child       83
Elderly     22
Name: Age_cat, dtype: int64

In [101]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Name_len,Cild_Adult,Age_cat
0,1,0,3,"Braund, Mr....",male,22.0,1,0,A/5 21171,7.25,C000,S,23,Adult,Adult
1,2,1,1,"Cumings, Mr...",female,38.0,1,0,PC 17599,71.2833,C85,C,51,Adult,Adult
2,3,1,3,"Heikkinen, ...",female,26.0,0,0,STON/O2. 31...,7.925,C000,S,22,Adult,Adult


In [102]:
# 나이에 따라 세분화된 분류를 수행하는 함수 생성
def get_category(age):
    cat = ''
    if age <= 5: 
        cat = 'baby'
    elif age <= 12:
        cat = 'child'
    elif age <= 18:
        cat = 'Teenager'
    elif age <= 25:
        cat = 'Student'
    elif age <= 35:
        cat = 'Young Adult'
    else:
        cat = 'Elderly'
    return cat

In [103]:
# lambda 식에 위에서 생성한 get_category() 함수를 반환값으로 지정.
# get_category(X)는 입력값으로 'Age' 칼럼 값을 받아서 해당하는 cat 반환
titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age','Age_cat']].head()  

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Elderly
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult


In [None]:
# 숙제
# 지금까지 배운 내용으로 titanic 데이터셋을 핸들링
# 1. 결측값이 존재해서는 안 된다. 결측값이 존재할 경우 다른 값으로 대체
# 2. 혹시라도 이상치가 존재할 경우 이상치는 삭제한다.
# 3. 구글링을 통해 문자열 -> 수치형(int,float)으로 바꿔준다.
# 4. 분석에 불필요하다고 생각되는 변수는 지워준다.(PassengerId는 제외)
# 5. 가능하다면 칼럼끼리 조합을 통해 새로운 칼럼변수를 만들어본다.