# 3장 데이터 랭글링

<table align="left"><tr><td>
<a href="https://colab.research.google.com/github/rickiepark/ml-with-python-cookbook-2nd/blob/main/ch03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="코랩에서 실행하기"/></a>
</td></tr></table>

In [None]:
import numpy as np
import pandas as pd

print('numpy', np.__version__)
print('pandas', pd.__version__)

## 3.0 소개

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터프레임으로 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 처음 다섯 개의 행을 출력합니다.
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


## 3.1 데이터프레임 만들기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame()

# 열을 추가합니다.
dataframe['Name'] = ['Jacky Jackson', 'Steven Stevenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]

# 데이터프레임을 확인합니다.
dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


In [None]:
# 열을 만듭니다.
new_person = pd.Series(['Molly Mooney', 40, True], index=['Name','Age','Driver'])

# 열을 추가합니다.
dataframe.append(new_person, ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False
2,Molly Mooney,40,True


### 붙임

In [None]:
import numpy as np

data = [ ['Jacky Jackson', 38, True], ['Steven Stevenson', 25, False] ]

matrix = np.array(data)
pd.DataFrame(matrix, columns=['Name', 'Age', 'Driver'])

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


In [None]:
pd.DataFrame(data, columns=['Name', 'Age', 'Driver'])

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


In [None]:
data = {'Name': ['Jacky Jackson', 'Steven Stevenson'],
        'Age': [38, 25],
        'Driver': [True, False]}
pd.DataFrame(data)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


In [None]:
data = [ {'Name': 'Jacky Jackson', 'Age': 38, 'Driver': True},
         {'Name': 'Steven Stevenson', 'Age': 25, 'Driver': False} ]
pd.DataFrame(data, index=['row1', 'row2'])

Unnamed: 0,Name,Age,Driver
row1,Jacky Jackson,38,True
row2,Steven Stevenson,25,False


## 3.2 데이터 설명하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 두 개의 행을 확인합니다.
dataframe.head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
# 차원을 확인합니다.
dataframe.shape

(1313, 6)

In [None]:
# 통곗값을 확인합니다.
dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


## 3.3 데이터프레임 탐색하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 첫 번째 행을 선택합니다.
dataframe.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                 29.0
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

In [None]:
# 세 개의 행을 선택합니다.
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [None]:
# 네 개의 행을 선택합니다.
dataframe.iloc[:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [None]:
# 인덱스를 설정합니다.
dataframe = dataframe.set_index(dataframe['Name'])

# 행을 확인합니다.
dataframe.loc['Allen, Miss Elisabeth Walton']

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                 29.0
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object

### 붙임

In [None]:
# 'Allison, Miss Helen Loraine' 이전까지 Age 열과 Sex 열만 선택합니다.
dataframe.loc[:'Allison, Miss Helen Loraine', 'Age':'Sex']

Unnamed: 0_level_0,Age,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,female
"Allison, Miss Helen Loraine",2.0,female


In [None]:
# dataframe[:2]와 동일합니다.
dataframe[:'Allison, Miss Helen Loraine']

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
dataframe[['Age', 'Sex']].head(2)

Unnamed: 0_level_0,Age,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,female
"Allison, Miss Helen Loraine",2.0,female


## 3.4 조건에 따라 행을 선택하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# ‘sex’ 열이 ‘female’인 행 중 처음 두 개를 출력합니다.
dataframe[dataframe['Sex'] == 'female'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
# 행을 필터링합니다.
dataframe[(dataframe['Sex'] == 'female') & (dataframe['Age'] >= 65)]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


## 3.5 값 치환

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 값을 치환하고 두 개의 행을 출력합니다.
dataframe['Sex'].replace("female", "Woman").head(2)

0    Woman
1    Woman
Name: Sex, dtype: object

In [None]:
# "female"과 "male을 "Woman"과 "Man"으로 치환합니다.
dataframe['Sex'].replace(["female", "male"], ["Woman", "Man"]).head(5)

0    Woman
1    Woman
2      Man
3    Woman
4      Man
Name: Sex, dtype: object

In [None]:
# 값을 치환하고 두 개의 행을 출력합니다.
dataframe.replace(1, "One").head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,One,One
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,One


In [None]:
# 값을 치환하고 두 개의 행을 출력합니다.
dataframe.replace(r"1st", "First", regex=True).head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",First,29.0,female,1,1
1,"Allison, Miss Helen Loraine",First,2.0,female,0,1


### 붙임

In [None]:
# female과 male을 person으로 바꿉니다.
dataframe.replace(["female", "male"], "person").head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,person,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,person,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,person,0,0


In [None]:
# female을 1로 바꾸고 male을 0으로 바꿉니다.
dataframe.replace({"female": 1, "male": 0}).head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,1,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,1,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,0,0,0


## 3.6 열 이름 바꾸기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 열 이름을 바꾸고 두 개의 행을 출력합니다.
dataframe.rename(columns={'PClass': 'Passenger Class'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
# 열 이름을 바꾸고 두 개의 행을 출력합니다.
dataframe.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Gender,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
# 라이브러리를 임포트합니다.
import collections

# 딕셔너리를 만듭니다.
column_names = collections.defaultdict(str)

# 키를 만듭니다.
for name in dataframe.columns:
    column_names[name]

# 딕셔너리를 출력합니다.
column_names

defaultdict(str,
            {'Name': '',
             'PClass': '',
             'Age': '',
             'Sex': '',
             'Survived': '',
             'SexCode': ''})

### 붙임

In [None]:
# 인덱스 0을 -1로 바꿉니다.
dataframe.rename(index={0:-1}).head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
-1,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
# 열 이름을 소문자로 바꿉니다.
dataframe.rename(str.lower, axis='columns').head(2)

Unnamed: 0,name,pclass,age,sex,survived,sexcode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


## 3.7 최솟값, 최댓값, 합, 평균 계산 및 개수 세기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 통곗값을 계산합니다.
print('최댓값:', dataframe['Age'].max())
print('최솟값:', dataframe['Age'].min())
print('평균:', dataframe['Age'].mean())
print('합:', dataframe['Age'].sum())
print('카운트:', dataframe['Age'].count())

최댓값: 71.0
최솟값: 0.17
평균: 30.397989417989418
합: 22980.88
카운트: 756


In [None]:
# 카운트를 출력합니다.
dataframe.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

### 붙임

In [None]:
# 수치형 열의 공분산을 계산합니다.
dataframe.cov()

Unnamed: 0,Age,Survived,SexCode
Age,203.32047,-0.430491,-0.382054
Survived,-0.430491,0.225437,0.11407
SexCode,-0.382054,0.11407,0.22823


In [None]:
# 수치형 열의 상관계수를 계산합니다.
dataframe.corr()

Unnamed: 0,Age,Survived,SexCode
Age,1.0,-0.061254,-0.055138
Survived,-0.061254,1.0,0.502891
SexCode,-0.055138,0.502891,1.0


## 3.8 고유한 값 찾기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 고유한 값을 찾습니다.
dataframe['Sex'].unique()

array(['female', 'male'], dtype=object)

In [None]:
# 카운트를 출력합니다.
dataframe['Sex'].value_counts()

male      851
female    462
Name: Sex, dtype: int64

In [None]:
# 카운트를 출력합니다.
dataframe['PClass'].value_counts()

3rd    711
1st    322
2nd    279
*        1
Name: PClass, dtype: int64

In [None]:
# 고유한 값의 개수를 출력합니다.
dataframe['PClass'].nunique()

4

### 붙임

In [None]:
dataframe.nunique()

Name        1310
PClass         4
Age           75
Sex            2
Survived       2
SexCode        2
dtype: int64

## 3.9 누락된 값 다루기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

## 누락된 값을 선택하고 두 개의 행을 출력합니다.
dataframe[dataframe['Age'].isnull()].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


In [None]:
# NaN으로 값을 바꾸려고 합니다.
dataframe['Sex'] = dataframe['Sex'].replace('male', NaN)

NameError: name 'NaN' is not defined

In [None]:
# 라이브러리를 임포트합니다.
import numpy as np

# NaN으로 값을 바꿉니다.
dataframe['Sex'] = dataframe['Sex'].replace('male', np.nan)

In [None]:
# 데이터를 적재하고 누란된 값을 설정합니다.
dataframe = pd.read_csv(url, na_values=[np.nan, 'NONE', -999])

### 붙임

In [None]:
dataframe = pd.read_csv(url, na_values=['female'],
                        keep_default_na=False)
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


In [None]:
dataframe = pd.read_csv(url, na_filter=False)
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


## 3.10 열 삭제

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 열을 삭제합니다.
dataframe.drop('Age', axis=1).head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


In [None]:
# 열을 삭제합니다.
dataframe.drop(['Age', 'Sex'], axis=1).head(2)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1


In [None]:
# PClass 열을 삭제합니다.
dataframe.drop(dataframe.columns[1], axis=1).head(2)

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1


In [None]:
dataframe.head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


## 3.11 행 삭제

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 행을 삭제하고 처음 두 개의 행을 출력합니다.
dataframe[dataframe['Sex'] != 'male'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
# 행을 삭제하고 처음 두 개의 행을 출력합니다.
dataframe[dataframe['Name'] != 'Allison, Miss Helen Loraine'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [None]:
# 행을 삭제하고 처음 두 개의 행을 출력합니다.
dataframe[dataframe.index != 0].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


## 3.12 중복된 행 삭제

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 중복 행을 삭제하고 처음 두 개의 행을 출력합니다.
dataframe.drop_duplicates().head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [None]:
# 행의 개수를 출력합니다.
print("원본 데이터프레임 행의 수:", len(dataframe))
print("중복 삭제 후 행의 수:", len(dataframe.drop_duplicates()))

원본 데이터프레임 행의 수: 1313
중복 삭제 후 행의 수: 1313


In [None]:
# 중복된 행을 삭제합니다.
dataframe.drop_duplicates(subset=['Sex'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [None]:
# 중복된 행을 삭제합니다.
dataframe.drop_duplicates(subset=['Sex'], keep='last')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


## 3.13 값에 따라 행을 그룹핑하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# ‘Sex’ 열의 값으로 행을 그룹핑하고 평균을 계산합니다.
dataframe.groupby('Sex').mean()

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


In [None]:
# 행을 그룹핑합니다.
dataframe.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f9eb4e6ccc0>

In [None]:
# 행을 그룹핑하고 카운팅합니다.
dataframe.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

In [None]:
# 행을 그룹핑한 다음 평균을 계산합니다.
dataframe.groupby(['Sex','Survived'])['Age'].mean()

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

## 3.14 시간에 따라 행을 그룹핑하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd
import numpy as np

# 날짜 범위를 만듭니다.
time_index = pd.date_range('06/06/2017', periods=100000, freq='30S')

# 데이터프레임을 만듭니다.
dataframe = pd.DataFrame(index=time_index)

# 난수 값으로 열을 만듭니다.
dataframe['Sale_Amount'] = np.random.randint(1, 10, 100000)

# 주 단위로 행을 그룹핑한 다음 합을 계산합니다.
dataframe.resample('W').sum()

Unnamed: 0,Sale_Amount
2017-06-11,87017
2017-06-18,100675
2017-06-25,100564
2017-07-02,101688
2017-07-09,101044
2017-07-16,10270


In [None]:
# 세개의 행을 출력합니다.
dataframe.head(3)

Unnamed: 0,Sale_Amount
2017-06-06 00:00:00,1
2017-06-06 00:00:30,7
2017-06-06 00:01:00,3


In [None]:
# 2주 단위로 그룹핑하고 평균을 계산합니다.
dataframe.resample('2W').mean()

Unnamed: 0,Sale_Amount
2017-06-11,5.035706
2017-06-25,4.991047
2017-07-09,5.028075
2017-07-23,4.9375


In [None]:
# 한 달 간격으로 그룹핑하고 행을 카운트합니다.
dataframe.resample('M').count()

Unnamed: 0,Sale_Amount
2017-06-30,72000
2017-07-31,28000


In [None]:
# 월 간격으로 그룹핑하고 행을 카운트합니다.
dataframe.resample('M', label='left').count()

Unnamed: 0,Sale_Amount
2017-05-31,72000
2017-06-30,28000


### 붙임

In [None]:
dataframe.resample('MS').count()

Unnamed: 0,Sale_Amount
2017-06-01,72000
2017-07-01,28000


## 3.15 열 원소를 순회하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 처음 두 이름을 대문자로 바꾸어 출력합니다.
for name in dataframe['Name'][0:2]:
    print(name.upper())

ALLEN, MISS ELISABETH WALTON
ALLISON, MISS HELEN LORAINE


In [None]:
# 처음 두 이름을 대문자로 바꾸어 출력합니다.
[name.upper() for name in dataframe['Name'][0:2]]

['ALLEN, MISS ELISABETH WALTON', 'ALLISON, MISS HELEN LORAINE']

## 3.16 모든 열 원소에 함수 적용하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 함수를 만듭니다.
def uppercase(x):
    return x.upper()

# 함수를 적용하고 두 개의 행을 출력합니다.
dataframe['Name'].apply(uppercase)[0:2]

0    ALLEN, MISS ELISABETH WALTON
1     ALLISON, MISS HELEN LORAINE
Name: Name, dtype: object

### 붙임

In [None]:
# Survived 열의 1을 Live로, 0을 Dead로 바꿉니다.
dataframe['Survived'].map({1:'Live', 0:'Dead'})[:5]

0    Live
1    Dead
2    Dead
3    Dead
4    Live
Name: Survived, dtype: object

In [None]:
# 함수의 매개변수(age)를 apply 메서드를 호출할 때 전달할 수 있습니다.
dataframe['Age'].apply(lambda x, age: x < age, age=30)[:5]

0     True
1     True
2    False
3     True
4     True
Name: Age, dtype: bool

In [None]:
# 각 열에서 가장 큰 값을 뽑습니다.
dataframe.apply(lambda x: max(x))

Name        del Carlo, Mrs Sebastiano (Argenia Genovese)
PClass                                               3rd
Age                                                 71.0
Sex                                                 male
Survived                                               1
SexCode                                                1
dtype: object

In [None]:
def truncate_string(x):
    if type(x) == str:
        return x[:20]
    return x

# 문자열의 길이를 최대 20자로 줄입니다.
dataframe.applymap(truncate_string)[:5]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabet",1st,29.0,female,1,1
1,"Allison, Miss Helen",1st,2.0,female,0,1
2,"Allison, Mr Hudson J",1st,30.0,male,0,0
3,"Allison, Mrs Hudson",1st,25.0,female,0,1
4,"Allison, Master Huds",1st,0.92,male,1,0


## 3.17 그룹에 함수 적용하기

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터 URL
url = 'https://bit.ly/3Tb15qr'

# 데이터를 적재합니다.
dataframe = pd.read_csv(url)

# 행을 그룹핑한 다음 함수를 적용합니다.
dataframe.groupby('Sex').apply(lambda x: x.count())

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,462,462,288,462,462,462
male,851,851,468,851,851,851


## 3.18 데이터프레임 연결

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터프레임을 만듭니다.
data_a = {'id': ['1', '2', '3'],
          'first': ['Alex', 'Amy', 'Allen'],
          'last': ['Anderson', 'Ackerman', 'Ali']}
dataframe_a = pd.DataFrame(data_a, columns = ['id', 'first', 'last'])

# 데이터프레임을 만듭니다.
data_b = {'id': ['4', '5', '6'],
          'first': ['Billy', 'Brian', 'Bran'],
          'last': ['Bonder', 'Black', 'Balwner']}
dataframe_b = pd.DataFrame(data_b, columns = ['id', 'first', 'last'])

# 행 방향으로 데이터프레임을 연결합니다.
pd.concat([dataframe_a, dataframe_b], axis=0)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner


In [None]:
# 열 방향으로 데이터프레임을 연결합니다.
pd.concat([dataframe_a, dataframe_b], axis=1)

Unnamed: 0,id,first,last,id.1,first.1,last.1
0,1,Alex,Anderson,4,Billy,Bonder
1,2,Amy,Ackerman,5,Brian,Black
2,3,Allen,Ali,6,Bran,Balwner


In [None]:
# 행을 만듭니다.
row = pd.Series([10, 'Chris', 'Chillon'], index=['id', 'first', 'last'])

# 행을 추가합니다.
dataframe_a.append(row, ignore_index=True)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,10,Chris,Chillon


## 3.19 데이터프레임 병합

In [None]:
# 라이브러리를 임포트합니다.
import pandas as pd

# 데이터프레임을 만듭니다.
employee_data = {'employee_id': ['1', '2', '3', '4'],
                 'name': ['Amy Jones', 'Allen Keys', 'Alice Bees',
                 'Tim Horton']}
dataframe_employees = pd.DataFrame(employee_data, columns = ['employee_id',
                                                              'name'])

# 데이터프레임을 만듭니다.
sales_data = {'employee_id': ['3', '4', '5', '6'],
              'total_sales': [23456, 2512, 2345, 1455]}
dataframe_sales = pd.DataFrame(sales_data, columns = ['employee_id',
                                                      'total_sales'])

# 데이터프레임을 병합합니다.
pd.merge(dataframe_employees, dataframe_sales, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


In [None]:
# 데이터프레임을 병합합니다.
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0
4,5,,2345.0
5,6,,1455.0


In [None]:
# 데이터프레임을 병합합니다.
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0


In [None]:
# 데이터프레임을 병합합니다.
pd.merge(dataframe_employees,
         dataframe_sales,
         left_on='employee_id',
         right_on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512
