# 2023 - 01 - 20

# DataFrame apply() 메서드

DataFrame에 대해 Function을 적용하고 싶다면 apply()를 활용하면 좋다  
이 메서드는 첫 인자로 함수를 필수 값으로 받는다  
경우에 따라 두번째 인자로 axis를 사용 가능  
axis 인자는 0이 default  

- axis= 0 or index 인 경우 column에 대해 함수 적용  
- axis= 1 or columns 인 경우 row에 대해 함수 적용

```python
Pandas.DataFrame.apply  
DataFrame.apply(func, axis = 0, raw = false, result_type = None, args = (), **kwargs)
```

>Numpy의 np.sqrt를 사용하여 적용해보기  
>np.sqrt는 각 요소마다 적용되는 함수(universal function, ufunc로 이 경우에는 np.sqrt(df)와 동일한 결과

In [1]:
import pandas as pd
import numpy as np
df = pd.DataFrame([[4, 9]] * 3, columns = ['A', 'B'])

In [50]:
df.apply(np.sqrt)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


In [51]:
np.sqrt(df)

Unnamed: 0,A,B
0,2.0,3.0
1,2.0,3.0
2,2.0,3.0


>차원 축소 함수인 sum 을 활용하기  
>이때는 axis의 값에 따라 값의 축소되는 방향이 서로 달라 서로 결과가 다름

In [52]:
# axis가 0일 때 각 column별 집계
df.apply(np.sum, axis =0)

A    12
B    27
dtype: int64

In [53]:
df.apply(np.sum, axis=1)

0    13
1    13
2    13
dtype: int64

>함수의 return이 column마다 리스트를 반환하면 DataFrame의 결과를 얻을 수 있다  
>함수의 returrn이 row마다 리스트를 반환하면 각 row마다 리스트를 하나의 값으로 취급하는 Series 타입의 결과가 나옴

In [54]:
df.apply(lambda x : [1, 2], axis = 0)

Unnamed: 0,A,B
0,1,1
1,2,2


In [55]:
df.apply(lambda x : [1, 2], axis = 1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

>앞의 asix = 1에 동시에 result_type = 'expand'를 인수로 전달  
>그러면 이번에는 리스트를 하나의 값으로 보지 X 리스트 요소마다 column으로 인식하도록 확장  
>그래서 DataFrame 값을 얻을 수 있음  

In [56]:
df.apply(lambda x: [1, 2], axis = 1)

0    [1, 2]
1    [1, 2]
2    [1, 2]
dtype: object

In [57]:
df.apply(lambda x: [1, 2], axis = 1, result_type='expand')

Unnamed: 0,0,1
0,1,2
1,1,2
2,1,2


>result_type = 'broadcast'를 인수로 전달하면 동일한 shape의 결과를 보장    
>함수로부터 반환되는 게 리스트인지 스칼라인지에 상관없이 axis 방향으로 브로드캐스트  
>결과의 column label은 본래의 column label 유지

In [58]:
df.apply(lambda x : [1, 2], axis=1, result_type = 'broadcast')
# 기존의 shape와 함수 return된 값의 shape의 크기가 동일 -> 브로드캐스팅 가능
# 기존의 shape :     3 X 2
# 함수 return shape :    2  # 함수 return shaped의 크가기 다르고 둘 중 하나가 1이 아니다 --> 브로드캐스팅 가능

Unnamed: 0,A,B
0,1,2
1,1,2
2,1,2


> column마다의 최대값과 최소값의 차이를 구하고 싶으면 다음과 같은 lambda함수를 넣으면 됨

In [59]:
df3 = pd.DataFrame({
    'A' : [1, 3, 4, 3, 4],
    'B' : [2, 3, 1, 2, 3],
    'C' : [1, 5, 2, 4, 4]
})
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [60]:
df3.apply(lambda x : x.max() - x.min())

A    3
B    2
C    4
dtype: int64

> row에 대해 적용하고 싶으면 axis = 1인수를 사용 

In [61]:
df3.apply(lambda x : x.max() - x.min(), axis = 1)

0    1
1    2
2    3
3    2
4    1
dtype: int64

> 각 column에 대해 어떤 값이 얼마나 사용되었는지 알고 싶다면 value_counts 함수 넣기

In [62]:
df3

Unnamed: 0,A,B,C
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [63]:
df3.apply(pd.value_counts)

Unnamed: 0,A,B,C
1,1.0,1.0,1.0
2,,2.0,1.0
3,2.0,2.0,
4,2.0,,2.0
5,,,1.0


In [64]:
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic.head(10) # 데이터 중 앞의 5개를 봄

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


> 타이타닉호의 승객 중 나이 20살을 기준으로 성인과 미성년자 구별하는 label column 만들기

In [65]:
titanic["adult/child"] = titanic.apply(lambda x : "adult" if x.age >= 20 else "child", axis = 1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult


# 연습문제

### 타이타닉호의 승객에 대해 나이와 성별에 의한 카테고리 column인 category1 열을 만들어보기
1) 20살이 넘으면 성별 그대로 사용
2) 20살 미만이면 성별에 관계없이 "child" 라고 함

In [66]:
titanic["category1"] = titanic.apply(lambda x : x["sex"] if x.age >= 20 else "child", axis = 1)
titanic.tail()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
886,0,2,male,27.0,0,0,13.0,S,Second,man,True,,Southampton,no,True,adult,male
887,1,1,female,19.0,0,0,30.0,S,First,woman,False,B,Southampton,yes,True,child,child
888,0,3,female,,1,2,23.45,S,Third,woman,False,,Southampton,no,False,child,child
889,1,1,male,26.0,0,0,30.0,C,First,man,True,C,Cherbourg,yes,True,adult,male
890,0,3,male,32.0,0,0,7.75,Q,Third,man,True,,Queenstown,no,True,adult,male


# DataFrame fillna() 메서드


>fillna()메서드를 사용하여 NaN 값을 원하는 값으로 바꿀 수 있다  
>첫 인자로 NaN을 변경하고자 하는 값을 전달하면 됨

```python
DataFrame.fillna(value=None, *, method=None, axis=None,
                 inplace = False, limit = Norr, downcast = None)
```

> fillna()메서드를 활용하여 NaN값을 0으로 변경하기

In [67]:
import numpy as np
import pandas as pd
df = pd.DataFrame([[np.nan, 2, np.nan, 0],
                 [3, 4, np.nan, 1],
                 [np.nan, np.nan, np.nan, np.nan],
                 [np.nan, 3, np.nan, 4]],
                  columns = list("ABCD"))
df

Unnamed: 0,A,B,C,D
0,,2.0,,0.0
1,3.0,4.0,,1.0
2,,,,
3,,3.0,,4.0


In [68]:
df.fillna(0)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,0.0,3.0,0.0,4.0


>fillna()메서드 value값으로 column label을 key로 갖는 딕셔너리를 전달 가능  
>column마다 NaN을 대치하는 값을 각각 다르게 지정 가능

In [69]:
values = {"A":0,"B":1, "C":2, "D":3}
df.fillna(value=values)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,2.0,1.0
2,0.0,1.0,2.0,3.0
3,0.0,3.0,2.0,4.0


>fillna() 메서드에서 limit 키워드 인자에 숫자를 전달하여 그 숫자만큼 column마다 변경 횟수를 제한 가능

In [70]:
values = {"A":0,"B":1, "C":2, "D":3}
df.fillna(value=values,limit =1)

Unnamed: 0,A,B,C,D
0,0.0,2.0,2.0,0.0
1,3.0,4.0,,1.0
2,,1.0,,3.0
3,,3.0,,4.0


>fillna() 메서드에 DataFrame을 value로 전달해서 NaN 값을 대체가능   
다만 column label과 row index가 일치하지 않으면 적용X

In [71]:
df2 = pd.DataFrame(np.zeros((3, 4)), columns = list('ABCD'))
df.fillna(df2)

Unnamed: 0,A,B,C,D
0,0.0,2.0,0.0,0.0
1,3.0,4.0,0.0,1.0
2,0.0,0.0,0.0,0.0
3,,3.0,,4.0


----------------------------

# 연습문제 

In [72]:
titanic[titanic['age'].isna()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
17,1,2,male,,0,0,13.0000,S,Second,man,True,,Southampton,yes,True,child,child
19,1,3,female,,0,0,7.2250,C,Third,woman,False,,Cherbourg,yes,True,child,child
26,0,3,male,,0,0,7.2250,C,Third,man,True,,Cherbourg,no,True,child,child
28,1,3,female,,0,0,7.8792,Q,Third,woman,False,,Queenstown,yes,True,child,child
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,0,3,male,,0,0,7.2292,C,Third,man,True,,Cherbourg,no,True,child,child
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False,child,child
868,0,3,male,,0,0,9.5000,S,Third,man,True,,Southampton,no,True,child,child
878,0,3,male,,0,0,7.8958,S,Third,man,True,,Southampton,no,True,child,child


In [73]:
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,adult,male
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,adult,male
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,child,child
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,adult,female
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,child,child


In [74]:
titanic.fillna({'age' : round(titanic['age'].mean(), 1)}, inplace=True)
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,adult,male
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,adult,female
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,adult,female
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,adult,male
5,0,3,male,29.7,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True,child,child
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,adult,male
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,child,child
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,adult,female
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,child,child


-----------------------

# DataFrame astype() 메서드


astype() 메서드로 column의 자료형을 바꾸는 것도 가능


```python
DataFrame.astype(dtype, copy=True, errors = 'raise')
```

dtype이 모두 int64인 DataFrame에 대해 astype('int32')를 호출해서 모든 col의 dtype 형 변환

In [75]:
d = {'coll':[1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data = d)
df.dtypes

coll    int64
col2    int64
dtype: object

In [76]:
df.astype('int32').dtypes

coll    int32
col2    int32
dtype: object

> dtype을 dictionary로 전달해서 해당 column에만 형변환을 하는 예제  
> col1을 key로 변환할 dtype을 value로 하는 dict 객체를 인수로 전달해 col1만 dtype을 변경

In [77]:
df.astype({'coll': 'int32'}).dtypes

coll    int32
col2    int64
dtype: object

-------------------------

# 연습문제

In [78]:
titanic['category2'] = titanic['sex'].astype('str') + titanic['age'].astype('str') 
titanic[['age', 'category2']]

Unnamed: 0,age,category2
0,22.0,male22.0
1,38.0,female38.0
2,26.0,female26.0
3,35.0,female35.0
4,35.0,male35.0
...,...,...
886,27.0,male27.0
887,19.0,female19.0
888,29.7,female29.7
889,26.0,male26.0


In [79]:
titanic['category2'] = titanic.astype({'sex':'str'})['sex'] + titanic.astype({'age':'str'})['age']
titanic[['age', 'category2']]

Unnamed: 0,age,category2
0,22.0,male22.0
1,38.0,female38.0
2,26.0,female26.0
3,35.0,female35.0
4,35.0,male35.0
...,...,...
886,27.0,male27.0
887,19.0,female19.0
888,29.7,female29.7
889,26.0,male26.0


-----------------------------------

-------------------------------

### DataFrame 실수 값을 카테고리 값으로 변환

>실수 값을 크기 기준으로 하여 카테고리 값으로 변환하고 싶을 때는 다음과 같은 명령을 사용함

- cut : 실수 값의 경계선을 지정하는 경우  
    - x = 1차원 형태의 배열 형태가 옴  
    - bins = int, 스칼라를 요소로 갖는 시퀀스가 옴  

- qcut : 개수가 똑같은 구간으로 나누는 경우 (분위수)
    - x = 1d ndarray 혹은 Series
    - q = int 혹은 분위수를 나타내는 1.이하의 실수를 요소를 실수로 갖는 list( e.g. [0, .25, .5, .75, 1.])

In [80]:
ages = [0, 2, 10, 21, 23, 37, 31, 61, 20, 41, 32, 101]

>cut 명령을 사용하면 실수값을 다음처럼 카테고리 값으로 바꾸기 가능
>bins 인수는 카테고리를 나누는 기준값  
>영역을 넘는 값은 NaN 처리됨

In [81]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]
cats = pd .cut(ages, bins, labels=labels)
cats

[NaN, '미성년자', '미성년자', '청년', '청년', ..., '중년', '미성년자', '장년', '장년', NaN]
Length: 12
Categories (5, object): ['미성년자' < '청년' < '장년' < '중년' < '노년']

>cut() 명령이 반환하는 값은 Categorical 클래스 객체  
>이 객체는 categories 속성으로 label 문자열을, codes 속성으로 정수로 인코딩한 카테고리 값을 가짐

In [82]:
type(cats)

pandas.core.arrays.categorical.Categorical

In [83]:
cats.categories

Index(['미성년자', '청년', '장년', '중년', '노년'], dtype='object')

In [84]:
cats.codes

array([-1,  0,  0,  1,  1,  2,  2,  3,  0,  2,  2, -1], dtype=int8)

In [85]:
df4  = pd.DataFrame(ages, columns = ["ages"])
df4["age_cat"] = pd.cut(df4.ages, bins, labels = labels)
df4

Unnamed: 0,ages,age_cat
0,0,
1,2,미성년자
2,10,미성년자
3,21,청년
4,23,청년
5,37,장년
6,31,장년
7,61,중년
8,20,미성년자
9,41,장년


>위 DataFrame의 age_cat column 값은 문자열이 X  
>이를 문자열로 만들려면 astype() 메서드를 사용

In [86]:
df4.dtypes

ages          int64
age_cat    category
dtype: object

In [87]:
df4["age_cat"].astype(str) + df4["ages"].astype(str)

0       nan0
1      미성년자2
2     미성년자10
3       청년21
4       청년23
5       장년37
6       장년31
7       중년61
8     미성년자20
9       장년41
10      장년32
11    nan101
dtype: object

>qcut() 명령은 구간 경계선을 지정하지 않고 분위수와 같이 데이터 개수가 같도록 구간을 나눔  
>예를 들어 다음 코드는 1,000개의 데이터를 4개의 구간으로 나누는데 각 구간은 250개씩의 데이터를 가짐

In [88]:
data = np.random.randn(1000)
cats = pd.qcut(data, 4, labels = ["Q1", "Q2", "Q3", "Q4"])
cats

['Q1', 'Q4', 'Q3', 'Q4', 'Q1', ..., 'Q4', 'Q3', 'Q3', 'Q1', 'Q4']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']

In [89]:
pd.value_counts(cats)

Q1    250
Q2    250
Q3    250
Q4    250
dtype: int64

# 연습문제

타이타닉호 승객을 '미성년자', '청년', '장년', '중년', '노년' 나이 그룹으로 나눕니다.  
그리고 각 나이 그룹의 승객 비율을 구합니다. 비율의 전체 합은 1이 되어야 합니다.

In [90]:
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자", "청년", "장년", "중년", "노년"]

In [91]:
cats = pd.cut(titanic.age, bins, labels = labels)
cats.value_counts() / cats.value_counts().sum()

청년      0.464082
장년      0.274800
미성년자    0.188141
중년      0.067275
노년      0.005701
Name: age, dtype: float64

In [92]:
import pandas as pd
titanic_age = pd.cut(titanic.age, bins=bins, labels = labels).value_counts()
titanic_age_rate = titanic_age / titanic_age.sum()

df_titanic_age = pd.DataFrame({"연령층": titanic_age, "연령 비율":titanic_age_rate}, index=labels)
df_titanic_age.loc["합계"] = df_titanic_age.sum(axis=0)
df_titanic_age.astype({"연령층":"int32"})

Unnamed: 0,연령층,연령 비율
미성년자,165,0.188141
청년,407,0.464082
장년,241,0.2748
중년,59,0.067275
노년,5,0.005701
합계,877,1.0


# 연습 문제 2

In [93]:
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult/child,category1,category2
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,adult,male,male22.0
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,adult,female,female38.0
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,adult,female,female26.0
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,adult,female,female35.0
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,adult,male,male35.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,adult,male,male27.0
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,child,child,female19.0
888,0,3,female,29.7,1,2,23.4500,S,Third,woman,False,,Southampton,no,False,child,child,female29.7
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,adult,male,male26.0


In [94]:
import pandas as pd
import seaborn as sns
titanic = sns.load_dataset("titanic")
titanic["age"].fillna(titanic["age"].mean(), inplace=True)
bins = [1, 20, 30, 50, 70, 100]
labels = ["미성년자","청년", "장년", "중년", "노년"]

titanic["연령층"] = pd.cut(titanic["age"], bins = bins, labels=labels)
titanic["category3"] = titanic.apply(lambda i : "미성년자" if i["age"] < 20 else i["연령층"]
                                     + ("남성" if i["sex"] == "male" else "여성"), axis=1)
titanic[["연령층", "age", "sex", "category3"]]

Unnamed: 0,연령층,age,sex,category3
0,청년,22.000000,male,청년남성
1,장년,38.000000,female,장년여성
2,청년,26.000000,female,청년여성
3,장년,35.000000,female,장년여성
4,장년,35.000000,male,장년남성
...,...,...,...,...
886,청년,27.000000,male,청년남성
887,미성년자,19.000000,female,미성년자
888,청년,29.699118,female,청년여성
889,청년,26.000000,male,청년남성


## DataFrame 인덱스 설정 및 제거

>때로는 DataFrame에 인덱스로 들어가 있어야 할 데이터가 일반 데이터 column에 들어가 있거나 
> 반대로 일반 데이터 column이어야 할 것이 인덱스로 되어 있을 수 있다  
>이 때는 set_index 명령이나 reset_index 명령으로 인덱스와 일반 데이터 column을 교환가능  
- set_index : 기존의 row 인덱스를 제거하고 데이터 column 중 하나를 인덱스로 설정  
- reset_index : 기존의 row 인덱스를 제거하고 인덱스를 데이터 열로 추가  

>set_index 메서드로 특정한 column을 인덱스로 설정할 수 있음  
>이 때 기존의 인덱스는 없어집니다.

In [95]:
import pandas as pd
import numpy as np
np.random.seed(0)
df1 = pd.DataFrame(np.vstack([list('ABCDE'),
                             np.round(np.random.rand(3, 5), 2)]).T,
                  columns = ["C1", "C2", "C3", "c4"])
df1

Unnamed: 0,C1,C2,C3,c4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


In [96]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,c4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


>C2 column을 인덱스로 지정하면 기존의 인덱스는 사라짐

In [97]:
df2.set_index("C2")

Unnamed: 0_level_0,C3,c4
C2,Unnamed: 1_level_1,Unnamed: 2_level_1
0.55,0.65,0.79
0.72,0.44,0.53
0.6,0.89,0.57
0.54,0.96,0.93
0.42,0.38,0.07


>반대로 reset_index 메서드를 쓰면 인덱스를 보통의 자료열로 바꿀 수 O  
>이때 인덱스 column은 자료열의 가장 선두로 삽입  
>DataFrame의 인덱스는 정수로 된 디폴트 인덱스로 바뀐다  

In [98]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,c4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [99]:
df2.reset_index()

Unnamed: 0,C1,C2,C3,c4
0,A,0.55,0.65,0.79
1,B,0.72,0.44,0.53
2,C,0.6,0.89,0.57
3,D,0.54,0.96,0.93
4,E,0.42,0.38,0.07


>reset_index() 메서드를 호출할 때 인수 drop=True로 인수로 전달하면 인덱스 column을 보통의 자료열로 올리는 것이 아니라 그냥 버리게 됨

In [100]:
df2 = df1.set_index("C1")
df2

Unnamed: 0_level_0,C2,C3,c4
C1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,0.55,0.65,0.79
B,0.72,0.44,0.53
C,0.6,0.89,0.57
D,0.54,0.96,0.93
E,0.42,0.38,0.07


In [101]:
df2.reset_index(drop=True)

Unnamed: 0,C2,C3,c4
0,0.55,0.65,0.79
1,0.72,0.44,0.53
2,0.6,0.89,0.57
3,0.54,0.96,0.93
4,0.42,0.38,0.07


# 연습 문제

#### 5명의 학생의 국어, 영어, 수학 점수를 나타내는 DataFrame을 다음과 같이 만든다.

1) "이름"column을 인덱스로 만들어보세요
2) (1)에거 인덱스로 만든 '이름'을 다시 column으로 복원하세요

In [102]:
score = {
    "이름":["일식", "이식", "삼식", "사식", "오식"],
    "국어":[60, 70, 90, 80, 100],
    "영어":[70, 86, 82, 88, 100],
    "수학":[65, 82, 85, 90, 100]
}
df_score = pd.DataFrame(score)
df_score

Unnamed: 0,이름,국어,영어,수학
0,일식,60,70,65
1,이식,70,86,82
2,삼식,90,82,85
3,사식,80,88,90
4,오식,100,100,100


In [103]:
# 1
df_score2 = df_score.set_index("이름")
df_score2

Unnamed: 0_level_0,국어,영어,수학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
일식,60,70,65
이식,70,86,82
삼식,90,82,85
사식,80,88,90
오식,100,100,100


In [104]:
# 2
df_score2.reset_index()

Unnamed: 0,이름,국어,영어,수학
0,일식,60,70,65
1,이식,70,86,82
2,삼식,90,82,85
3,사식,80,88,90
4,오식,100,100,100


## DataFrame 다중 인덱스

>row이나 column에 여러 계층을 가지는 인덱스 즉, 다중 인덱스(multi-index)를 설정가능  
>DataFrame을 생성할 때 columns 인수에 다음 예제처럼 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중 열 인덱스를 가짐

In [105]:
np.random.seed(0)
df3 = pd.DataFrame(np.round(np.random.randn(5, 4), 2),
                   columns = [["A", "A", "B", "B"],
                             ["C1", "C2", "C1", "C2"]])
df3

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


>다중 인덱스는 이름을 지정하면 더 편리하게 사용가능  
>column 인덱스들의 이름 지정은 columns 객체의 names 속성에 리스트를 넣어서 지정

In [106]:
df3.columns.names = ["Cidx1", "Cidx2"]
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


- index 인수에 리스트의 리스트(행렬) 형태로 인덱스를 넣으면 다중(row) 인덱스를 가짐  
- row 인덱스들의 이름 지정은 index 객체의 names 속성에 리스트를 넣어서 지정

In [107]:
np.random.seed(0)
df4 = pd.DataFrame(np.round(np.random.randn(6, 4), 2),
                   columns = [["A", "A", "B", "B"],
                             ["C", "D", "C", "D"]],
                   index = [["M", "M", "M", "F", "F", "F"],
                           ["id_" + str(i + 1) for i in range(3)] * 2])
df4.columns.names = ["Cidx1", "Cidx2"]
df4.index.names = ["Ridx1", "Ridx2"]
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


## DataFrame row 인덱스와 column 인덱스 교환

stack() 메서드나 unstack() 메서드를 쓰면 column 인덱스를 row 인덱스로 바꾸거나   
반대로 row 인덱스를 column 인덱스로 바꿀 수 있다  
  
- stack()메서드 : column 인덱스 --> row 인덱스로 변환
- unstack()메서드 : row 인덱스 --> column 인덱스로 변환

> stack 메서드를 실행하면 column 인덱스가 반시계 방향으로 90도 회전한 것과 비슷한 모양이 됨

In [108]:
df4.stack("Cidx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


>unstack 메서드를 실행하면 row 인덱스가 시계 방향으로 90도 회전한 것과 비슷

In [109]:
df4.unstack("Ridx2")

Cidx1,A,A,A,A,A,A,B,B,B,B,B,B
Cidx2,C,C,C,D,D,D,C,C,C,D,D,D
Ridx2,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3,id_1,id_2,id_3
Ridx1,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3
F,0.76,1.49,-2.55,0.12,-0.21,0.65,0.44,0.31,0.86,0.33,-0.85,-0.74
M,1.76,1.87,-0.1,0.4,-0.98,0.41,0.98,0.95,0.14,2.24,-0.15,1.45


인덱스를 지정할 때는 문자열 이름과 순서를 표시하는 숫자 인덱스를 모두 사용 가능

In [110]:
df4.stack("Cidx1")

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


In [111]:
df4.stack(0)

Unnamed: 0_level_0,Unnamed: 1_level_0,Cidx2,C,D
Ridx1,Ridx2,Cidx1,Unnamed: 3_level_1,Unnamed: 4_level_1
M,id_1,A,1.76,0.4
M,id_1,B,0.98,2.24
M,id_2,A,1.87,-0.98
M,id_2,B,0.95,-0.15
M,id_3,A,-0.1,0.41
M,id_3,B,0.14,1.45
F,id_1,A,0.76,0.12
F,id_1,B,0.44,0.33
F,id_2,A,1.49,-0.21
F,id_2,B,0.31,-0.85


## DataFrame 다중 인덱스가 있는 경우의 인덱싱

> DataFrame이 다중 인덱스를 가지는 경우에는 인덱스 값이 하나의 label이나 숫자가 아니라 ()로 둘러싸인 튜플이 되야함  
> 앞에서 만든 df3 DataFrame의 경우 다음 코드와 같이 인덱싱 가능

In [112]:
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [113]:
df3[("B", "C1")]

0    0.98
1    0.95
2    0.14
3    0.44
4    0.31
Name: (B, C1), dtype: float64

> loc 인덱서를 사용하는 경우에도 마찬가지로 튜플을 사용해서 인덱싱 해야함

In [114]:
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,0.98,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


In [115]:
df3.loc[0, ("B", "C1")] = 100
df3

Cidx1,A,A,B,B
Cidx2,C1,C2,C1,C2
0,1.76,0.4,100.0,2.24
1,1.87,-0.98,0.95,-0.15
2,-0.1,0.41,0.14,1.45
3,0.76,0.12,0.44,0.33
4,1.49,-0.21,0.31,-0.85


> iloc 인덱서를 사용하는 경우에는 튜플 형태의 다중인덱스 사용 불가능

In [116]:
df3.iloc[0, 2]

100.0

> 하나의 레벨 값만 넣으면 다중 인덱스 중에서 가장 상위의 값을 지정한 것으로 반환

In [117]:
df3['A']

Cidx2,C1,C2
0,1.76,0.4
1,1.87,-0.98
2,-0.1,0.41
3,0.76,0.12
4,1.49,-0.21


> df4 DataFrame은 다음과 같이 인덱싱 가능

In [118]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74


In [119]:
df4.loc[("M", "id_1"), ("A", "C")]

1.76

In [120]:
df4.loc [("All", "All"), :] =df4.sum()
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


>loc를 사용하는 경우에도 튜플이 아닌 하나의 값만 쓰면 가장 상위의 인덱스를 지정한 것과 동일

In [121]:
df4

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [122]:
df4.loc["M"]

Cidx1,A,A,B,B
Cidx2,C,D,C,D
Ridx2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
id_1,1.76,0.4,0.98,2.24
id_2,1.87,-0.98,0.95,-0.15
id_3,-0.1,0.41,0.14,1.45


>특정 레벨의 모든 인덱스 값을 인덱싱할 때는 슬라이스를 사용  
>다만 다중 인덱스의 튜플 내에서는 콜론(:), 즉 슬라이스 기호를 사용할 수 없고 대신 slice(None) 값을 사용

In [123]:
df4.loc[("M", slice(None)), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45


In [124]:
df4.loc[(slice(None), "id_1"), :]

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
F,id_1,0.76,0.12,0.44,0.33


## DataFrame 다중 인덱스의 인덱스 순서 교환

>다중 인덱스의 인덱스 순서를 바꾸고 싶으면 swaplevel 명령을 사용
```python
- swaplevel(i, j, axis)  
```
>i와 j는 교환하고자 하는 인덱스 label(혹은 인덱스 번호)이고 axis는 0일 때 row 인덱스, 1일 때 column 인덱스를 뜻함    
>디폴트는 행 인덱스

In [125]:
df6 = df4.swaplevel("Cidx1", "Cidx2", 1)
df6

Unnamed: 0_level_0,Cidx2,C,D,C,D
Unnamed: 0_level_1,Cidx1,A,A,B,B
Ridx1,Ridx2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
M,id_1,1.76,0.4,0.98,2.24
M,id_2,1.87,-0.98,0.95,-0.15
M,id_3,-0.1,0.41,0.14,1.45
F,id_1,0.76,0.12,0.44,0.33
F,id_2,1.49,-0.21,0.31,-0.85
F,id_3,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


In [126]:
df5 = df4.swaplevel("Ridx1", "Ridx2")
df5

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


## DataFrame 다중 인덱스가 있는 경우의 정렬

>다중 인덱스가 있는 DataFrame을 sort_index로 정렬할 때는 level 인수를 사용하여  
>어떤 인덱스를 기준으로 정렬하는지 알려주어야 한다

In [127]:
df5.sort_index(level=0)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All,All,3.23,0.39,3.68,2.28
id_1,F,0.76,0.12,0.44,0.33
id_1,M,1.76,0.4,0.98,2.24
id_2,F,1.49,-0.21,0.31,-0.85
id_2,M,1.87,-0.98,0.95,-0.15
id_3,F,-2.55,0.65,0.86,-0.74
id_3,M,-0.1,0.41,0.14,1.45


In [128]:
df5.sort_index(axis=1,level=0)

Unnamed: 0_level_0,Cidx1,A,A,B,B
Unnamed: 0_level_1,Cidx2,C,D,C,D
Ridx2,Ridx1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
id_1,M,1.76,0.4,0.98,2.24
id_2,M,1.87,-0.98,0.95,-0.15
id_3,M,-0.1,0.41,0.14,1.45
id_1,F,0.76,0.12,0.44,0.33
id_2,F,1.49,-0.21,0.31,-0.85
id_3,F,-2.55,0.65,0.86,-0.74
All,All,3.23,0.39,3.68,2.28


## DataFrame 합성

>pandas는 두 개 이상의 DataFrame을 하나로 합치는 데이터 병합(merge)이나   
연결(concatenate)을 지원

## DataFrame merge()

### 키(key)?   

merge 함수는 두 데이터 프레임의 공통 column 혹은 인덱스를 기준으로 두 개의 테이블을 합칠 때 기준이 되는 column, row의 데이터


In [139]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007], 
    '이름' : ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns = ['고객번호', '이름'])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [130]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001], 
    '금액' : [10000, 20000, 15000, 5000, 100000, 30000]
}, columns = ['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


>merge 함수로 위의 두 DataFrame df1, df2 를 합치면 공통 column인 고객번호 column을 기준으로 데이터를 찾아서 합친다.    
>이 때 기본적으로는 양쪽 DataFrame에 모두 키가 존재하는 데이터만 보여주는 inner join 방식을   사용  

In [140]:
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


>outer join 방식은 키 값이 한쪽에만 있어도 데이터를 보여준다

In [141]:
pd.merge(df1, df2, how ='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


>left는 첫 번째 인수 기준으로, right는 두번째 인수 기준으로 DataFrame의 키 값을 모두
보여준다

In [142]:
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [143]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


>만약 테이블에 키 값이 같은 데이터가 여러개 있는 경우에는 있을 수 있는 모든 경우의  
>수를 따져서 조합을 생성

In [144]:
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'], 
    '꽃잎길이' : [1.4, 1.3, 1.5, 1.3]},
columns = ['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [145]:
df1 = pd.DataFrame({
    '품종': ['setosa','virginica', 'virginica', 'versicolor'], 
    '꽃잎너비' : [0.4, 0.3, 0.5, 0.3]},
columns = ['품종', '꽃잎너비'])
df1

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


- 이 데이터에서 키 값 setosa에 대해 왼쪽 DataFrame는 1.4와 1.3라는 2개의 데이터, 오른쪽 DataFrame에 0.4라는 1개의 데이터가 있으므로 병합된 데이터에는 setosa가
(1.4, 0.4), (1.3, 0.4) 두 개의 데이터가 생성  
- 키 값 virginica의 경우에는 왼쪽 DataFrame에 1.5와 1.3라는 2개의 데이터, 오른쪽 DataFrame에 0.3와 0.5라는 2개의
데이터가 있으므로 2개와 2개의 조합에 의해 4가지 값이 생성

## DataFrame 시계열 자료 다루기 DatetimeIndex

- 시계열 자료 : 인덱스가 날짜 혹은 시간인 데이터
- pandas에서 시계열 자료를 생성하려면 인덱스를 DatetimeIndex 자료형으로 만들어야 함  
- DatetimeIndex는 특정한 순간에 기록된 타임스탬프(timestamp) 형식의 시계열 자료를 다루기 위한 인덱스 타임스탬프 인덱스의 label값이 반드시 일정한 간격일 필요X  
    - DatetimeIndex 인덱스는 다음과 같은 보조 함수를 사용하여 생성  
    - pd.to_datetime 함수  
    - pd.date_range 함수  
      
        
        

- ### pd.to_datetime

> 날짜/시간을 나타내는 문자열을 자동으로 datetime 자료형으로 바꾼 후 DatetimeIndex 자료형 인덱스를 생성

In [146]:
date_str = ["2018, 1, 1", "2018, 1, 4", "2018, 1, 5", "2018, 1, 6"]
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2018-01-01', '2018-01-04', '2018-01-05', '2018-01-06'], dtype='datetime64[ns]', freq=None)

--> 이렇게 만들어진 인덱스를 사용하여 Series나 DataFrame을 생성

In [147]:
np.random.seed(0)
s = pd.Series(np.random.randn(4), index=idx)
s

2018-01-01    1.764052
2018-01-04    0.400157
2018-01-05    0.978738
2018-01-06    2.240893
dtype: float64

- ## pd.date_range

>모든 날짜/시간을 일일이 입력할 필요없이 시작일과 종료일 또는 시작일과 기간을 입력하면 범위 내의 인덱스를 생성

In [148]:
pd.date_range("2018-4-1", "2018-4-30")

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

- ### pd.date_range

>모든 날짜/시간을 일일이 입력할 필요없이 시작일과 종료일
또는 시작일과 기간을 입력하면 범위 내의 인덱스를 생성

In [149]:
pd.date_range(start = "2018-4-1", periods = 30)

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20',
               '2018-04-21', '2018-04-22', '2018-04-23', '2018-04-24',
               '2018-04-25', '2018-04-26', '2018-04-27', '2018-04-28',
               '2018-04-29', '2018-04-30'],
              dtype='datetime64[ns]', freq='D')

> freq 인수로 특정한 날짜만 생성되도록 가능  
>많이 사용되는 freq 인수값은 다음과 같다

-  s: 초  
-  T: 분  
-  H: 시간  
-  D: 일(day)  
-  B: 주말이 아닌 평일  
-  W: 주(일요일)  
-  W-MON: 주(월요일)  
-  M: 각 달(month)의 마지막 날  
-  MS: 각 달의 첫날  
-  BM: 주말이 아닌 평일 중에서 각 달의 마지막 날  
-  BMS: 주말이 아닌 평일 중에서 각 달의 첫날  
-  WOM-2THU: 각 달의 두번째 목요일  
-  Q-JAN: 각 분기의 첫달의 마지막 날  
-  Q-DEC: 각 분기의 마지막 달의 마지막 날  

In [151]:
# B (주말이 아닌 평일)

pd.date_range ("2018-4-1", "2018-4-30", freq = "B")

DatetimeIndex(['2018-04-02', '2018-04-03', '2018-04-04', '2018-04-05',
               '2018-04-06', '2018-04-09', '2018-04-10', '2018-04-11',
               '2018-04-12', '2018-04-13', '2018-04-16', '2018-04-17',
               '2018-04-18', '2018-04-19', '2018-04-20', '2018-04-23',
               '2018-04-24', '2018-04-25', '2018-04-26', '2018-04-27',
               '2018-04-30'],
              dtype='datetime64[ns]', freq='B')

In [153]:
# W (일요일)

pd.date_range ("2018-4-1", "2018-4-30", freq = "W")

DatetimeIndex(['2018-04-01', '2018-04-08', '2018-04-15', '2018-04-22',
               '2018-04-29'],
              dtype='datetime64[ns]', freq='W-SUN')

In [156]:
# W-MON (월요일)

pd.date_range ("2018-4-1", "2018-4-30", freq = "W-MON")

DatetimeIndex(['2018-04-02', '2018-04-09', '2018-04-16', '2018-04-23',
               '2018-04-30'],
              dtype='datetime64[ns]', freq='W-MON')

In [159]:
# M: 각 달(month)의 마지막 날  

pd.date_range ("2018-4-1", "2018-12-31", freq = "M")

DatetimeIndex(['2018-04-30', '2018-05-31', '2018-06-30', '2018-07-31',
               '2018-08-31', '2018-09-30', '2018-10-31', '2018-11-30',
               '2018-12-31'],
              dtype='datetime64[ns]', freq='M')

In [160]:
# MS: 각 달의 첫날  

pd.date_range ("2018-4-1", "2018-12-31", freq = "MS")

DatetimeIndex(['2018-04-01', '2018-05-01', '2018-06-01', '2018-07-01',
               '2018-08-01', '2018-09-01', '2018-10-01', '2018-11-01',
               '2018-12-01'],
              dtype='datetime64[ns]', freq='MS')

In [161]:
# BM: 주말이 아닌 평일 중에서 각 달의 마지막 날 

pd.date_range ("2018-4-1", "2018-12-31", freq = "BM")

DatetimeIndex(['2018-04-30', '2018-05-31', '2018-06-29', '2018-07-31',
               '2018-08-31', '2018-09-28', '2018-10-31', '2018-11-30',
               '2018-12-31'],
              dtype='datetime64[ns]', freq='BM')

In [162]:
# BMS: 주말이 아닌 평일 중에서 각 달의 첫날  

pd.date_range ("2018-4-1", "2018-12-31", freq = "BMS")

DatetimeIndex(['2018-04-02', '2018-05-01', '2018-06-01', '2018-07-02',
               '2018-08-01', '2018-09-03', '2018-10-01', '2018-11-01',
               '2018-12-03'],
              dtype='datetime64[ns]', freq='BMS')

In [163]:
#  WOM-2THU: 각 달의 두번째 목요일 

pd.date_range ("2018-4-1", "2018-12-31", freq = "WOM-2THU")

DatetimeIndex(['2018-04-12', '2018-05-10', '2018-06-14', '2018-07-12',
               '2018-08-09', '2018-09-13', '2018-10-11', '2018-11-08',
               '2018-12-13'],
              dtype='datetime64[ns]', freq='WOM-2THU')

>시계열 데이터의 인덱스는 시간이나 날짜를 나타내기 때문에 날짜 이동 등의 다양한 연산이 가능  
>예를 들어 shift 연산을 사용하면 인덱스는 그대로 두고 데이터만 이동

In [5]:
import numpy as np
import pandas as pd
np.random.seed(0)
ts = pd.Series(np.random.randn(4), index = pd.date_range(
        "2018-1-1", periods = 4, freq="M"))
ts

2018-01-31    1.764052
2018-02-28    0.400157
2018-03-31    0.978738
2018-04-30    2.240893
Freq: M, dtype: float64

In [8]:
ts.shift(1), ts.shift(-1)

(2018-01-31         NaN
 2018-02-28    1.764052
 2018-03-31    0.400157
 2018-04-30    0.978738
 Freq: M, dtype: float64,
 2018-01-31    0.400157
 2018-02-28    0.978738
 2018-03-31    2.240893
 2018-04-30         NaN
 Freq: M, dtype: float64)

In [9]:
ts.shift(1, freq="M"), ts.shift(1, freq="W")

(2018-02-28    1.764052
 2018-03-31    0.400157
 2018-04-30    0.978738
 2018-05-31    2.240893
 Freq: M, dtype: float64,
 2018-02-04    1.764052
 2018-03-04    0.400157
 2018-04-01    0.978738
 2018-05-06    2.240893
 dtype: float64)

>datetime 자료형 Series에는 dt 접근자가 있어 datetime 자료형이 가진 몇가지 유용한  
>속성과 메서드를 사용가능

In [11]:
s = pd.Series(pd.date_range("2020-12-25", periods=100, freq="D"))
s

0    2020-12-25
1    2020-12-26
2    2020-12-27
3    2020-12-28
4    2020-12-29
        ...    
95   2021-03-30
96   2021-03-31
97   2021-04-01
98   2021-04-02
99   2021-04-03
Length: 100, dtype: datetime64[ns]

>year, month, day, weekday 등의 속성을 이용하면 년, 월, 일, 요일 정보를 빼낼
수 있음

In [12]:
s.dt.year, s.dt.weekday #요일에 대한 값을 숫자로 인코딩

(0     2020
 1     2020
 2     2020
 3     2020
 4     2020
       ... 
 95    2021
 96    2021
 97    2021
 98    2021
 99    2021
 Length: 100, dtype: int64,
 0     4
 1     5
 2     6
 3     0
 4     1
      ..
 95    1
 96    2
 97    3
 98    4
 99    5
 Length: 100, dtype: int64)

> strftime 메서드를 이용하여 문자열을 만드는 것도 가능

In [13]:
s.dt.strftime("%Y년 %m월 %d일")

0     2020년 12월 25일
1     2020년 12월 26일
2     2020년 12월 27일
3     2020년 12월 28일
4     2020년 12월 29일
          ...      
95    2021년 03월 30일
96    2021년 03월 31일
97    2021년 04월 01일
98    2021년 04월 02일
99    2021년 04월 03일
Length: 100, dtype: object

## DataFrame 그룹 연산 메서드

In [17]:
np.random.seed(0)
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


> groupby 명령을 사용하여 그룹A와 그룹B로 구분한 그룹 데이터를 생성

In [22]:
groups = df2.groupby(df2.key1)
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001CBF27BED30>

In [23]:
groups.groups

{'A': [0, 1, 4], 'B': [2, 3]}

> A그룹과 B그룹의 데이터 합계 구하기 --> sum 그룹연산 사용

In [25]:
groups.sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


>GroupBy 클래스 객체를 명시적으로 얻을 필요가 없다면 groupby 메서드와 그룹연산 메서드를 연속으로 호출  
>column data1에 대해서만 그룹연산을 하는 코드

In [28]:
df2.data1.groupby(df2.key1).sum()

key1
A    8
B    7
Name: data1, dtype: int64

>데이터를 그룹으로 나눈 GroupBy클래스 객체 또는 그룹분석한 결과에서 data1만 뽑아도 됨

In [29]:
df2.groupby(df2.key1)["data1"].sum()

key1
A    8
B    7
Name: data1, dtype: int64

In [30]:
df2.groupby(df2.key1).sum()["data1"]

key1
A    8
B    7
Name: data1, dtype: int64

>복합키( key1, key2) 값에 따른 data1의 합계를 구하자  
>분석하고자 하는 키가 복수이면 리스트 사용

In [None]:
df2.data1.groupby([df2.key1, df2.key2]).sum()

key1  key2
A     one     6
      two     2
B     one     3
      two     4
Name: data1, dtype: int64

> 그룹분석 기능을 사용하면 위의 인구 데이터로부터 지역별 합계를 구할 수 있음

In [38]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}
columns = ["도시", "연도", "인구", "지역"]
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [39]:
df1["인구"].groupby([df1["지역"], df1["연도"]]).sum().unstack("연도")

연도,2005,2010,2015
지역,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
경상권,3512547,3393191,3448737
수도권,9762546,9894685,12794763


# 연습문제  
  
타이타닉호 데이터셋을 불러온 후 alive라는 column의 값이 'no'이면 False로 'yes'면 True로 변경

In [84]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [87]:
def change_bioolean(value):
    if value == "yes":
        return True
    else:
        return False
titanic['alive'] = titanic['alive'].apply(change_bioolean)
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,False,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,True,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,True,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,True,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,False,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,False,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,True,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,False,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,True,True


In [91]:
titanic['alive'].unique() # True False값만 갖음

array([False,  True])

# 연습 문제

In [6]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
titanic.head(20)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [7]:
titanic = titanic.dropna(subset = ['age'])
titanic['adult_female'] = titanic.apply(lambda i : True if i["age"] > 20 and i["sex"] == "female" else False, axis = 1)
titanic.head(20)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult_female
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,True
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False,True
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True,False
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True,False
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False,True
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False,False
10,1,3,female,4.0,1,1,16.7,S,Third,child,False,G,Southampton,yes,False,False


# 연습문제 2

In [12]:
titanic.to_csv("titanic_age.csv")
pd.read_csv("titanic_age.csv")

Unnamed: 0.1,Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone,adult_female
0,0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False,False
1,1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False,True
2,2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True,True
3,3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False,True
4,4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
709,885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False,True
710,886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True,False
711,887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True,False
712,889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True,False


# 연습문제 3  
  
생존율 비교하기

In [36]:
import pandas as pd
import seaborn as sns

titanic = sns.load_dataset("titanic")
titanic.head(10)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
6,0,1,male,54.0,0,0,51.8625,S,First,man,True,E,Southampton,no,True
7,0,3,male,2.0,3,1,21.075,S,Third,child,False,,Southampton,no,False
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
9,1,2,female,14.0,1,0,30.0708,C,Second,child,False,,Cherbourg,yes,False


In [37]:
titanic[['pclass', 'survived']].groupby(['pclass']).mean()

Unnamed: 0_level_0,survived
pclass,Unnamed: 1_level_1
1,0.62963
2,0.472826
3,0.242363


# 연습문제 4

성별에 따른 생존율 구하기

In [38]:
titanic[['sex', 'survived']].groupby(['sex']).mean()

Unnamed: 0_level_0,survived
sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


# 연습문제 

- 펭귄 데이터셋의 각 컬럼마다의 결측치 구하기

In [2]:
import seaborn as sns
penguins = sns.load_dataset("penguins")
penguins.isnull().sum()

species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
dtype: int64

In [3]:
len(penguins) - penguins.count()

species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
dtype: int64

In [4]:
penguins[penguins.isnull().any(axis=1)]


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
3,Adelie,Torgersen,,,,,
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,
10,Adelie,Torgersen,37.8,17.1,186.0,3300.0,
11,Adelie,Torgersen,37.8,17.3,180.0,3700.0,
47,Adelie,Dream,37.5,18.9,179.0,2975.0,
246,Gentoo,Biscoe,44.5,14.3,216.0,4100.0,
286,Gentoo,Biscoe,46.2,14.4,214.0,4650.0,
324,Gentoo,Biscoe,47.3,13.8,216.0,4725.0,
336,Gentoo,Biscoe,44.5,15.7,217.0,4875.0,


In [101]:
penguins[penguins.isnull().sum(axis=1)>0]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
3,Adelie,Torgersen,,,,,
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,
10,Adelie,Torgersen,37.8,17.1,186.0,3300.0,
11,Adelie,Torgersen,37.8,17.3,180.0,3700.0,
47,Adelie,Dream,37.5,18.9,179.0,2975.0,
246,Gentoo,Biscoe,44.5,14.3,216.0,4100.0,
286,Gentoo,Biscoe,46.2,14.4,214.0,4650.0,
324,Gentoo,Biscoe,47.3,13.8,216.0,4725.0,
336,Gentoo,Biscoe,44.5,15.7,217.0,4875.0,


In [102]:
penguins['sex'] = penguins['sex'].fillna(" ")

In [103]:
penguins.head(10)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,Female
7,Adelie,Torgersen,39.2,19.6,195.0,4675.0,Male
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,


### 펭귄 데이터의 NaN 값을 어떻게 처리 할까?

펭귄의 성별은 카테고리 자료형의 컬럼이기 때문에 삭제하는게 바람직하다

In [115]:
penguins.dropna(subset=['sex'], inplace = True)

In [116]:
penguins [penguins.isna().any(axis=1)]

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,Adelie,Chinstrap,Gentoo
3,Adelie,Torgersen,,,,,,1,0,0
339,Gentoo,Biscoe,,,,,,0,0,1


In [114]:
penguins['Adelie'] = penguins.apply(lambda i : 1 if i["species"] == 'Adelie' else 0 , axis = 1)
penguins['Chinstrap'] = penguins.apply(lambda i : 1 if i["species"] == 'Chinstrap' else 0 , axis = 1)
penguins['Gentoo'] = penguins.apply(lambda i : 1 if i["species"] == 'Gentoo' else 0 , axis = 1)


In [135]:
pgs = sns.load_dataset("penguins")
species_values = pgs["species"].unique()
for s in species_values:
    pgs[s] = (pgs["species"] == s).astype("int")
penguins.head(10)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
5,Adelie,Torgersen,39.3,20.6,190.0,3650.0,Male
6,Adelie,Torgersen,38.9,17.8,181.0,3625.0,Female
7,Adelie,Torgersen,39.2,19.6,195.0,4675.0,Male
8,Adelie,Torgersen,34.1,18.1,193.0,3475.0,
9,Adelie,Torgersen,42.0,20.2,190.0,4250.0,
