In [None]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

# pandas 3강
## 1. pandas 연산
### (1) Series 연산
- 색인 기준으로 연산을 수행
- 겹치는 색인이 없을 경우 NaN값 반환

In [None]:
s1 = Series( range(1, 6), index = ['a', 'b', 'c', 'd','e'])
s1

In [None]:
s2 = Series( range(1,6), index = ['c', 'd', 'e', 'f', 'g'])
s2

In [None]:
s1 + s2

In [None]:
s1 * s2

- fill_value : 연산하는 데이터 중 없는 값이 있다면 없는 경우에 지정한 값으로 채워 연산한다

In [None]:
s1.add(s2, fill_value = 0)

### (2) DataFrame 연산
- DataFrame은 컬럼과 로우의 색인을 모두 고려한다.

In [None]:
df1 = DataFrame(np.arange(4).reshape(2, 2), columns = list("ab"))
df1

In [None]:
df2 = DataFrame(np.arange(6).reshape(2, 3), columns = list("abc"))
df2

In [None]:
df1 + df2

In [None]:
df1.add(df2, fill_value = 1)

### (3) DataFrame과 Series 연산
- 기본 column 기준으로 broadcasting 발생

In [None]:
df = DataFrame(np.arange(9).reshape(3, 3), columns = list("abc"))
df

In [None]:
s = df.loc[0]  # loc 이용 Series 객체 생성
s

In [None]:
df + s

In [None]:
s2 = Series(np.arange(3))
s2

- 컬럼 index가 같지 않으므로 NaN 리턴

In [None]:
df + s2

- row 기준으로 broadcasting 하려면 axis 이용

In [None]:
df.add(s2, axis = 0)

## 2. pandas 매핑
### (1) lambda
- 한 줄로 함수를 표현하는 기법
- lisp 언어에서 시작, 오늘날 현대 언어에 많이 사용

In [None]:
def f(x):
    return x + 5
f(3)

####  lambda 인자 : 표현식

In [None]:
f = lambda x : x + 5
f(3)

In [None]:
f = lambda x : x * 3  # 하나의 인수만 처리
f(6)

In [None]:
f = lambda x : x // 3  # 하나의 인수만 처리
f(7)

In [None]:
(lambda x: x - 11)(2)    # 람다 표현식 자체 호출

### (2) map
- 함수와 순차적인 데이터를 인자로 받아 입력받은 함수를 사용하여 결과를 list 형태로 반환해주는 함수

In [None]:
seq = [1, 2, 3, 4, 5]
f = lambda x: x * 3
list(map(f, seq))

In [None]:
f = lambda x, y: x + y 
list(map(f, seq, seq))  # 두개이상의 인수가 있을 때는 두개의 sequence형을 써야함

In [None]:
list(map(lambda x: x * x, seq))  # 익명함수 그대로 사용
# python3에서 list함수를 쓰지않으면 memory주소가 나옴

### (3) map for Series
- Series type의 데이터에도 사용 가능

In [None]:
s = Series(np.arange(5))
s

In [None]:
s.map(lambda x: x -2)

- 함수 대신 dict, 순차적 data로도 대체 가능


In [None]:
dic = {1: 'apple', 2: 'banana', 3: 'carrot'}
s.map(dic)  # dict type으로 데이터 교체, 값이 없으면 NaN

In [None]:
s2 = Series(np.arange(100, 500, 100))
s.map(s2).head(5)  # 같은 위치의 데이터를 s2로 전환

In [None]:
df = pd.read_csv("./data/map_1.csv")
df.head()

In [None]:
df.gender.unique()

In [None]:
df["gender_code"] = df.gender.map({"male": 0, "female": 1})
# 성별 string type -> int type
df.head()

### (4) replace
- map 함수의 기능 중 데이터 변환 기능을 수행
- 데이터 변환 시 많이 사용 

In [None]:
df.head(3)

In [None]:
df.marriage.replace({"y": 1, "n": 0}, inplace = True)
df.head(3)

### (5) apply for DataFrame
- 각 row(axis=1)나 column(axis=0) 전체에 해당 함수를 적용

In [None]:
df_2 = df[["age", "height"]]
df_2.head()

In [None]:
f = lambda x: x.max() - x.min()
df_2.apply(f)  # 각 column 별로 결과값 반환

- 스칼라 값 이외에 Series또는 여러 값 반환 가능

In [None]:
def f(x):
    return Series([x.min(), x.max(), x.mean()], index = ["min", "max", "mean"])
df_2.apply(f)

### (6) applymap for dataframe
- 각 요소(element)별로 작동하는 함수
- single value로 부터 single value를 반환

In [None]:
f = lambda x: -x
df_2.applymap(f).head(5)

In [None]:
f = lambda x: -x
df_2["height"].apply(f).head(5)

## 3. pandas 종합 예제
- sample data : Titinic data
- https://www.kaggle.com/c/titanic

In [None]:
import pandas as pd 

# INDEX 승객번호로 설정
df_Titanic = pd.read_csv('data/pd_TitanicData.csv' , index_col = 'PassengerId')
df_Titanic.head()

### (1) 타이타닉 DATA 정보 확인

In [None]:
df_Titanic.info()

In [None]:
df_Titanic.describe()

### (2) null data 처리

- Age, Cabin, Embarked 결측치 확인

In [None]:
df_Titanic.isnull().sum(axis = 0)

#### 1) Cabin
- 891row중 687row가 null 이므로 필요없다고 판단 삭제

In [None]:
df_Titanic.drop(['Cabin'], axis=1, inplace = True)
df_Titanic.head()

#### 2) age
- 평균을 계산하여 null값에 평균 age값 대입

In [None]:
df_Titanic['Age'].mean()

In [None]:
# 최소차이의정수값 30 대입
df_Titanic['Age'] = df_Titanic['Age'].fillna(30)

#### 3) embarked

In [None]:
df_Titanic['Embarked'].value_counts()

- 결측치 2개 가장많은 S로 변경

In [None]:
df_Titanic['Embarked'] = df_Titanic['Embarked'].fillna('S')

In [None]:
df_Titanic.isnull().sum(axis = 0)

### (3) map사용 str ->int
- male -> 0 , female ->1

In [None]:
df_Titanic.head()

In [None]:
genders = {'male': 0, 'female': 1}
df_Titanic['Sex'] = df_Titanic['Sex'].map(genders)

In [None]:
df_Titanic.head()

### (4) get_dummies로 one_hot 인코딩
- 범주형 변수를 머신러닝에 활용 할 때 one-hot 인코딩 사용
- 해당하는 칸의 정보를 1로 나머진 0으로 표시

In [None]:
df_Titanic['Embarked'].value_counts()

In [None]:
# 각 value로 묶어 column 추가
df_Titanic = pd.get_dummies(df_Titanic, columns=['Embarked'])

In [None]:
df_Titanic.head()

### (5) 두개이상의 컬럼 drop
- name, ticket은 분석에 불필요 보인다 삭제하자

In [None]:
df_Titanic.drop(['Name', 'Ticket'], axis=1, inplace=True)

In [None]:
df_Titanic.head()

### (6) 정규화
- 숫자가 너무 크면 학습하기 쉽지않다 age, fale 좀더 바꿔보자

#### 1) Age 
- 성인과 아이로 분류

In [None]:
age_2 = []
for i in range (0, len(df_Titanic)):
    age = df_Titanic.iloc[i].Age
    age = 'child' if age < 20 else 'adult'
    age_2.append(age)
age_2[5:12]

In [None]:
df_Titanic['Age_modified'] = age_2

In [None]:
df_Titanic.head()

In [None]:
df_Titanic = pd.get_dummies(df_Titanic, columns = ['Age_modified'])

In [None]:
df_Titanic.head()

#### 2) Fare
- 0~1사이로 정규화

In [None]:
df_Titanic['Fare'].describe()

In [None]:
df_Titanic['Fare_R'] = (df_Titanic['Fare'] - df_Titanic['Fare'].min() ) / (df_Titanic['Fare'].max() - df_Titanic['Fare'].min() )

In [None]:
df_Titanic.head()

- Age, Fare column 삭제

In [None]:
df_Titanic = df_Titanic.drop(["Age", "Fare"], axis = 1)

In [None]:
df_Titanic.head()

### (7) 학습을 위한 split

In [None]:
# 변수명 가져오기
col_names = df_Titanic.columns.values

In [None]:
X = df_Titanic[col_names[1:]]
Y = df_Titanic[col_names[0]]

In [None]:
X.head(5)

In [None]:
Y.head(5)