Source : 파이썬 머신러닝 완벽 가이드(권철민, 위키북스)

# Data Handling - Pandas  
> **Pandas**  
파이썬에서 데이터 핸들링을 가능하게 해주는 가장 인기 있는 라이브러리

> **DataFrame**  
DataFrame은 Pandas의 핵심 객체, DataFrame은 여러 개의 행과 열로 이루어진 2차원 데이터를 담는 데이터 구조체

> **Index**  
RDBMS의 PK처럼 개별 데이터를 고유하게 식별하는 Key 값

> **Series**  
칼럼이 하나뿐인 데이터 구조체  
(cf) DataFrame은 칼럼이 여러 개인 데이터 구조체

## 8. apply lambda 식으로 데이터 가공  

> **lambda 식**  
함수의 선언과 함수 내의 처리를 한 줄의 식으로 쉽게 변환하는 식  

- `lambda 입력 인자 : 반환 값`  
- **map()** : lambda 식을 이용할 때 여러 개의 값을 입력 인자로 사용할 경우에 사용  

- **판다의 DataFrame의 apply lambda 식**  
`DataFrame.apply(lambda 입력 인자 : 반환 값)`  
`DataFrame.apply(lambda 입력 인자 : 조건식이 참일 경우 반환 값 if 조건식 else 조건식이 참이 아닐 경우 반환 값`


In [1]:
# 입력값의 제곱 값을 구해서 반환하는 get_square(a) 함수
def get_square(a):
  return a**2

print("3의 제곱은 : ", get_square(3))

# get_square(a)를 lambda 식으로 변환
lambda_square = lambda x : x**2

print("3의 제곱은 : ", lambda_square(3))

# map() 함수를 결합하여 lambda 식에 여러 개의 값을 입력 인자로 사용
a = [1, 2, 3]
lambda_squares = map(lambda_square, a)
print("1, 2, 3의 제곱은 : ", list(lambda_squares))

3의 제곱은 :  9
3의 제곱은 :  9
1, 2, 3의 제곱은 :  [1, 4, 9]


In [2]:
# titanic DataFrame 만들기
import pandas as pd

titanic_df = pd.read_csv("titanic_train.csv")

# 'Name' 칼럼의 문자열 개수를 별도 칼럼 'Name_len'으로 만들기
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x : len(x))
titanic_df[['Name', 'Name_len']].head()

Unnamed: 0,Name,Name_len
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",44
4,"Allen, Mr. William Henry",24


In [3]:
# 나이가 15세 이하라면 'Child', 그렇지 않으면 'Adult'로 구분하는 새로운 칼럼 'Child_Adult' 만들기
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else 'Adult')
titanic_df[['Age', 'Child_Adult']].head(10)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,,Adult
6,54.0,Adult
7,2.0,Child
8,27.0,Adult
9,14.0,Child


In [4]:
# 나이가 15세 이하면 'Child', 15세 초과 ~ 60세 이하면 'Adult', 60세 초과면 'Elderly'로 분류하는 'Age_Cat' 칼럼 만들기
titanic_df['Age_Cat'] = titanic_df['Age'].apply(lambda x : 'Child' if x <= 15 else ('Adult' if x <= 60 else 'Elderly'))
titanic_df['Age_Cat'].value_counts()

Adult      609
Elderly    199
Child       83
Name: Age_Cat, dtype: int64

In [5]:
# 나이가 5살 이하면 'Baby', 12살 이하면 'Child', 18살 이하면 'Teenager', 25살 이하면 'Student', 35살 이하면 'Young Adult', 60세 이하면 'Adult', 그보다 초과면 'Elderlyl'로 분류하는 함수 만들기
def get_category(age):
  cat = ''
  if age <= 5:
    cat = 'Baby'
  elif age <= 12:
    cat = 'Child'
  elif age <= 18:
    cat = 'Teenager'
  elif age <= 25:
    cat = 'Student'
  elif age <= 35:
    cat = 'Yound Adult'
  elif age <= 60:
    cat = 'Adult'
  else:
    cat = 'Elderly'

  return cat

# lambda 식에 위에서 생성한 get_category() 함수를 반환 값으로 지정
# get_category(x)는 입력값으로 'Age' 칼럼 값을 받아서 해당하는 cat을 반환
titanic_df['Age_Cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df['Age_Cat'].value_counts()

Elderly        199
Yound Adult    196
Adult          195
Student        162
Teenager        70
Baby            44
Child           25
Name: Age_Cat, dtype: int64