# Chapter 3. 데이터 랭글링

## 3.0 소개

* 데이터 랭글링(data wrangling) : 원본 데이터를 정제하고 사용 가능한 형태로 구성하기 위한 변환 과정(비공식 용어)
    * 데이터 전처리의 한 단계이나 중요하다.
    * 가장 일반적인 데이터 구조는 데이터 프레임이다.
    * 표 형식 데이터로, 행과 열을 기반으로 한다.

In [44]:
# 타이타닉 승객 데이터로 데이터 프레임 만들기

import pandas as pd

# url = 'https://tinyurl.com/titanic-csv' : 현재 여러개 사이트가 떠서 에러 발생
url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url, error_bad_lines=False)

dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


**Dataframe 유의사항**
1. 데이터 프레임의 각 행은 하나의 샘플에 해당한다.
    * 각 열은 하나의 특성에 해당한다.
2. 각 열은 이름을 가지고 있고 각 행은 인덱스 숫자(0부터 시작)을 가진다.
    * 샘플의 특성을 선택하고 조작한다.
3. Sex, SexCode 두 열은 같은 정보를 다른 형태로 갖는다.
    * **모든 특성이 고유**해야 하므로 이 열들 중 하나를 삭제해야 한다.
    * 전처리 작업을 위해서는 깨끗하고 구조적인 샘플 세트를 만들어야 한다.

## 3.1 데이터프레임 만들기
* 판다스의 데이터프레임 객체 만들기
    * DataFrame 클래스로 빈 데이터프레임을 만든 후 개별적으로 각 열을 정의한다.

**빈 데이터프레임 만들고 열 추가하기**

In [45]:
import pandas as pd

dataframe = pd.DataFrame()

# 열을 추가한다.
dataframe['Name'] = ['Jacky', 'Steven']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]

In [46]:
dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky,38,True
1,Steven,25,False


**Series로 데이터 프레임 객체를 만들고 새 행을 아래에 추가한다.**

In [47]:
# 다른 방법 : 데이터프레임 객체 만들고 새 행을 아래에 추가한다.
# 열 제작
new_person = pd.Series(['Molly', 40, True], index = ['Name', 'Age', 'Driver'])

In [48]:
dataframe.append(new_person, ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky,38,True
1,Steven,25,False
2,Molly,40,True


**데이터프레임 객체에 넘파이 배열(matrix, columns)을 주입한다.**

In [49]:
# 데이터프레임 객체 만들 때 데이터 전달하는 방법
# 넘파이 배열 주입
import numpy as np

data = [['Jacky', 38, True],['Steven', 25, False]]

matrix = np.array(data)
pd.DataFrame(matrix, columns=['Name', 'Age', 'Driver'])

Unnamed: 0,Name,Age,Driver
0,Jacky,38,True
1,Steven,25,False


* 넘파이 배열인 행렬에, columns만 리스트로 지정해주니 데이터 프레임이 되었다.

**원본 리스트를 직접 전달하고 columns 지정한다.**

In [50]:
# 원본 리스트를 전달하여 만들었다.
pd.DataFrame(data, columns=['Name', 'Age', 'Driver'])

Unnamed: 0,Name,Age,Driver
0,Jacky,38,True
1,Steven,25,False


**열 이름과 데이터를 매핑한 딕셔너리를 전달한다.**

In [51]:
# 열 이름과 데이터를 매핑한 딕셔너리로 데이터프레임을 만들 수 있다.
# 딕셔너리
data = {'Name': ['Jacky', 'Steven'],
       'Age' : [38, 25],
       'Driver': [True, False]}
pd.DataFrame(data)

Unnamed: 0,Name,Age,Driver
0,Jacky,38,True
1,Steven,25,False


**행 기준으로 샘플마다 열과 값을 매핑한 딕셔너리를 리스트로 전달한다.**

In [52]:
# 이번엔 행을 기준으로 샘플마다 열과 값을 매핑한 딕셔너리를 리스트로 전달한다.
# index 매개변수에는 그 행의 이름이 되는 '인덱스'를 따로 지정할 수 있다.

data = [{'Name': 'Jacky', 'Age': 38, 'Driver': True},
       {'Name': 'Steven', 'Age':25, 'Driver': False}]
pd.DataFrame(data, index=['row1','row2'])

Unnamed: 0,Name,Age,Driver
row1,Jacky,38,True
row2,Steven,25,False


In [53]:
pd.DataFrame(data)

Unnamed: 0,Name,Age,Driver
0,Jacky,38,True
1,Steven,25,False


## 3.2 데이터 설명하기
* 데이터 적재 후 head 메서드로 몇 개의 행을 확인한다.

In [54]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

# 데이터 적재
dataframe = pd.read_csv(url)

# 첫번째 행 선택
dataframe.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

* 판다스 데이터프레임의 모든 행 : 고유한 인덱스 값을 가진다.
* 인덱스 : 데이터프레임의 행 위치를 의미하는 정수이나 필수는 아니다.
    * 영문자와 숫자로 이루어진 문자열이거나 임의의 숫자
    * 개별 행이나 행의 슬라이스를 선택하기 위해 두 개의 메서드 제공
    

* loc : 인덱스가 레이블(문자열)일 때 사용
* iloc : 위치를 참조한다. iloc[0] (정수 혹은 문자열 인덱스 상관없이 첫 번째 행을 반환한다.)
    * 넘파이와 달리 마지막 인덱스를 포함한다.
    * 슬라이싱으로 열 선택 가능하다.

In [55]:
# 콜론으로 슬라이스 선택 세개의 행만 선택.
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [56]:
# 네개의 행만 선택하기
dataframe.iloc[:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


* 데이터프레임은 정수 인덱스를 가질 필요가 없다.
* 고유한 어떤 값이라도 인덱스로 설정 가능하다.
* 승객 이름

In [57]:
# 데이터 프레임 설정
dataframe = dataframe.set_index(dataframe['Name'])
# 인덱스는 set_index 함수안에, 해당 지정할 열을 전달한다.

In [58]:
# 'Allison, Miss' 이전까지 행에서 Age, Sex 열만 선택한다.
# 인덱스를 미리 만들어둬야 합니다.
dataframe.loc[:'Allison, Miss Helen Loraine', 'Age':'Sex']

Unnamed: 0_level_0,Age,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,female
"Allison, Miss Helen Loraine",2.0,female


In [59]:
# dataframe[:2]와 동일
dataframe[:'Allison, Miss Helen Loraine']

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [60]:
# 궁금하다. 열을 내가 지정해본다!
dataframe.loc[:'Allison, Miss Helen Loraine', ['Age','SexCode']]

Unnamed: 0_level_0,Age,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,1
"Allison, Miss Helen Loraine",2.0,1


In [61]:
## 의외로 iloc, loc 없이도 구할 수 있다.
dataframe[['Age', 'Sex']].head(2)

Unnamed: 0_level_0,Age,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,female
"Allison, Miss Helen Loraine",2.0,female


## 3.4 조건에 따라 행 선택하기
* 판다스 : 타이타닉 데이터셋에서 여성만 추출

In [62]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe[dataframe['Sex'] == 'female'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [63]:
# 조건문은 dataframe[]으로 감싸서 그 조건에 해당하는 열을 택하게 한다.
# 조건을 여러개 사용한다.

dataframe[(dataframe['Sex'] == 'female') & (dataframe['Age'] >= 65)]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


## 3.5 값 치환하기
* 판다스 replace 메서드로 간단히 값을 찾고 바꾼다.
    * 찾아 바꾸기 : replace

In [64]:
# Sex == female을 Woman 으로 바꾼다.
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

# 값을 치환하고 두 개의 행을 출력해본다
dataframe['Sex'].replace('female', 'Woman').head(2)

0    Woman
1    Woman
Name: Sex, dtype: object

In [65]:
# female과 male 동시에 Woman, Man 치환
dataframe['Sex'].replace(["female","male"],['Woman','Man']).head(3)

0    Woman
1    Woman
2      Man
Name: Sex, dtype: object

In [66]:
# 하나의 열이 아니라 replace 메서드로 전체 데이터프레임 객체에서 값을 찾아 바꿀 수 있다.
dataframe.replace(1, "One").head(2) # 모든 곳의 1이 One으로 바뀐다. 편합니다.

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29,female,One,One
1,"Allison, Miss Helen Loraine",1st,2,female,0,One


In [67]:
# replace : 정규 표현식도 인식한다.
dataframe.replace(r"1st", "First", regex=True).head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",First,29.0,female,1,1
1,"Allison, Miss Helen Loraine",First,2.0,female,0,1


**replace 강력하고 정규식도 지원한다.**
* 한번에 여러 개 값 동일하게 바꿔보자!

In [68]:
dataframe.replace(["female",'male'],'Person').head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,Person,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,Person,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,Person,0,0


In [69]:
# 딕셔너리로 매핑해서 전달 가능
dataframe.replace({
    'female':0,
    'male':1
}).head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,0,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,0,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,1,0,0


## 3.6 열 이름 바꾸기
* rename 메서드로 열 이름 바꾸기

In [70]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

# 열 이름을 바꾸고 두 개의 행을 출력한다.
dataframe.rename(columns = {'PClass': 'Passenger Class'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


**rename : 딕셔너리 매개변수를 활용해서, 여러 개 열을 동시에 바꾼다.**

In [71]:
dataframe.rename(columns= {'PClass':'Passenger Class', 'Sex': 'Gender'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Gender,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


* 여러 열 이름을 바꾸므로, rename 메서드의 columns에 딕셔너리를 전달하는 게 편하다.
* 이전 열 이름을 쓰고 값은 비어있는 딕셔너리를 활용한다.

In [72]:
import collections

# 딕셔너리 제작
column_names = collections.defaultdict(str)

In [73]:
# 키 만들기
for name in dataframe.columns:
    column_names[name]
    
# 딕셔너리 출력
column_names

defaultdict(str,
            {'Name': '',
             'PClass': '',
             'Age': '',
             'Sex': '',
             'Survived': '',
             'SexCode': ''})

In [74]:
# index 매개변수로 인덱스 변경
dataframe.rename(index={0:-1}).head(2) # 0 index는 -1이 되었다.

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
-1,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [75]:
# 변환 함수를 전달해서 axis 매개변수에 'columns' or 'index' 지정
# 열 이름을 소문자로 변경 : str.lower
dataframe.rename(str.lower, axis='columns').head(2)

Unnamed: 0,name,pclass,age,sex,survived,sexcode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [76]:
tmp = dataframe.iloc[0:2]
tmp1 = tmp.set_index(pd.Series({0 : 'First', 1:'Second'}))

In [77]:
tmp1.rename(str.lower, axis='index')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
first,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
second,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


## 3.7 최솟값, 최댓값, 합, 평균 계산 및 개수 세기

In [78]:
# 판다스는 기술 통계를 위한 메서드를 제공한다.
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

print('최댓값:', dataframe['Age'].max())
print('최솟값:', dataframe['Age'].min())
print('평균:', dataframe['Age'].mean())
print('총합:', dataframe['Age'].sum())
print('중앙값:', dataframe['Age'].median())
print('카운트:', dataframe['Age'].count())

최댓값: 71.0
최솟값: 0.17
평균: 30.397989417989415
총합: 22980.88
중앙값: 28.0
카운트: 756


* 판다스 분산, 표준편차, 첨도, 비대칭도, 평균의 표준오차, 최빈값, 중간값 등 메서드를 제공

In [79]:
#. 데이터 프레임 전체에도 적용 가능하다.
dataframe.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

* 첨도(kur) : 확률분포의 뾰족한 정도
    * 3에 가까우면 정규분포와 비슷하다.
    * 3보다 작으면 정규분포보다 **납작**하다.
    * 3보다 크면 정규분포보다 **뾰족**하다.
    
* 비대칭도(skew) : 확률분포의 비대칭성
    * 음수는 정규분포보다 **오른쪽**에 치우친다.
    * 양수는 정규분포보다 **왼쪽**으로 치우친다.
    
* 평균의 표준오차(sem) : 샘플링된 표본의 평균에 대한 표준편차
* 상관계수(corr)
* 공분산(cov)

## 3.8 고유한 값 찾기
* unique 메서드 : 열에서 고유한 값을 모두 찾는다.

In [80]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe['Sex'].unique() # 고유한 값을 찾는다.

array(['female', 'male'], dtype=object)

In [81]:
dataframe['Sex'].value_counts()

male      851
female    462
Name: Sex, dtype: int64

* unique, value_counts 메서드 : 범주형 열을 찾거나 조작시 유용하다.

In [82]:
# 타이타닉 PClass
# 카운트 출력
dataframe['PClass'].value_counts()

3rd    711
1st    322
2nd    279
*        1
Name: PClass, dtype: int64

* 범주형 데이터 : 여분의 클래스 있는 경우가 많고 무시해서는 안된다.

In [83]:
# 고유한 값 개수 : nunique 메서드
dataframe['PClass'].nunique()

4

In [84]:
# nunique는 데이터프레임 전체 가능
dataframe.nunique()

Name        1310
PClass         4
Age           75
Sex            2
Survived       2
SexCode        2
dtype: int64

* value_counts, nunique 메서드 : NaN 카운트할지 여부를 결정하는 dropna 매개변수가 있다.
    * dropna = True(기본값) : NaN 세지 않는다.
    * dropna = False : NaN 카운트 한다.

## 3.9 누락된 값 다루기
* isnull, notnull 메서드 : 누락 여부를 나타내는 불리언(boolean)값 반환

In [16]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

# 조건식을 적극 활용해서 이를 index로 만든당
dataframe[dataframe['Age'].isnull()].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


* 판다스는 넘파이의 NaN("Not a Number") 사용하여 결측값 표시
* 판다스 자체적인 NaN은 없다. 넘파이 라이브러리를 호출해야 한다.

In [17]:
# NaN 값으로 바꿔보기
#dataframe['Sex'].replace('male',NaN)

In [18]:
import numpy as np
dataframe['Sex'] = dataframe['Sex'].replace('male',np.nan)

In [19]:
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,,1,0


* 결측값 표시 : NONE, -999, .(마침표) 등
* na_values : 판다스 read_csv 누락 표시용 값을 지정할 수 있다.

In [20]:
dataframe = pd.read_csv(url, na_values=[np.nan,'NONE',-999])

* 판다스 기본적으로 '','#N/A', '#NA', '-NaN', 'NA', 'NULL', 'NaN', 'nan', 'null' 문자열을 모두 NaN으로 인식한다.
* keep_default_na 매개변수 == False : 문자열들을 NaN으로 인식하지 않는다.

In [21]:
# 'female'만 NAN 인식시키기
dataframe = pd.read_csv(url, na_values=['female'], keep_default_na=False) # 이러면 female만 NaN이 되고 나머지는 사라진다.
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


In [22]:
pd.read_csv(url, na_values=['male'], keep_default_na=False)[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,,1,0


In [23]:
pd.read_csv(url, keep_default_na=False).isnull().sum()

Name        0
PClass      0
Age         0
Sex         0
Survived    0
SexCode     0
dtype: int64

In [27]:
pd.read_csv(url, keep_default_na=True).isnull().sum()

Name          0
PClass        0
Age         557
Sex           0
Survived      0
SexCode       0
dtype: int64

In [28]:
pd.read_csv(url).isnull().sum()

Name          0
PClass        0
Age         557
Sex           0
Survived      0
SexCode       0
dtype: int64

* na_filter == False : NaN 변환하지 않는다.

In [24]:
dataframe = pd.read_csv(url, na_filter=False)

In [25]:
dataframe.isnull().sum()

Name        0
PClass      0
Age         0
Sex         0
Survived    0
SexCode     0
dtype: int64

In [26]:
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


## 3.10 열 삭제하기
* drop 메서드 + **axis=1** 가 가장 좋습니다.

In [94]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

# 열 삭제
dataframe.drop('Age', axis=1).head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


In [95]:
# 열 이름 리스트를 넣으면 여러개 삭제 가능
dataframe.drop(['Age','Sex'], axis=1).head(2)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1


* 열이름이 없는 경우
    * dataframe.columns에 열 인덱스를 지정하여 삭제 가능

In [96]:
dataframe.columns[1]

'PClass'

In [97]:
# PClass 열 삭제
dataframe.drop(dataframe.columns[1], axis=1).head(2)

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1


* del dataframe['Age'] 방법도 있다.
    * 판다스 내부 호출 방식 때문에 권장하지 않는다.
    
* 판다스 inplace=True 매개변수 사용하지 않는다.

* inplace=True이면 원본 데이터프레임을 바로 수정한다. 좋지 않다.

In [98]:
# 새로운 데이터 프레임을 만들어서 수정된 버전으로 제작해볼 수 있다.
# inplace = True 대신 사용할 수 있는 방법이다.
dataframe_name_dropped = dataframe.drop(dataframe.columns[0], axis=1)

## 3.11 행 삭제하기
* 불리언 조건으로 삭제할 행을 제한 새로운 데이터프레임을 만든다.

In [99]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe[dataframe['Sex'] != 'male'].head(2) #행에서 조건에 맞지 않은 행은 제외하고 출력시키는 방법이다.

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


* 기술적으로는 drop 메서드도 가능하다.
        df.drop([0,1], axis=0)
* 그러나 조건을 통해 여러 개 열을 동시에 제거해줄 수 있다.    

In [100]:
# 행 삭제 후 처음 두 개의 행을 출력한다.
dataframe[dataframe['Name'] != 'Allison, Miss Helen Loraine'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


**행 인덱스로 하나의 행을 삭제 가능**

In [101]:
# 행을 삭제하고 처음 두 개의 행을 출력할 수 있다.
dataframe[dataframe.index != 0].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


## 3.12 중복된 행 삭제하기
* drop_duplicates : 매개변수로, read_csv내에서 바로 중복 행을 제거해버린다.

In [102]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.drop_duplicates().head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


* 이 메서드는 **모든 열이 완벽히 동일** 행만 삭제한다.
* 여기서는 일부 열만 대상으로 중복되므로, **subset** 매개변수를 활용한다.

In [103]:
print("원본 데이터프레임 행의 수:", len(dataframe))
print("중복 삭제 후 행의 수:", len(dataframe.drop_duplicates()))

원본 데이터프레임 행의 수: 1313
중복 삭제 후 행의 수: 1313


In [104]:
# 'Sex' 열만 확인해볼 수도 있다. subset
dataframe.drop_duplicates(subset=['Sex'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


* 참고로, 중복된 행에서 **처음** 나타난 것만 유지하고 나머지를 버린다.
* keep 매개변수로 이 방식을 변경할 수 있다.

In [105]:
# 마지막에 나온 행만 유지하고 그 위는 버린다. keep='last'
dataframe.drop_duplicates(subset=['Sex'], keep='last')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


## 3.13 값에 따라 행을 그루핑하기

* 판다스 강력한 기능 **groupby**

In [106]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

# 'Sex'열의 값으로 행을 그루핑 후 평균 계산
dataframe.groupby('Sex').mean()

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


* groupby를 통해 데이터 랭글링이 실제 시작한다.
    * 그루핑하고 통계를 내기도 한다.
    * 각 레스토랑의 전체 매출, 레스토랑을 기준으로 행을 그루핑하고 그룹의 합을 낼 수 있다.

In [107]:
# 행을 그루핑한다.
dataframe.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001415B88C608>

* groupby : 통계 계산과 같이 각 그룹에 적용할 연산을 함께 필요로 한다.

In [109]:
dataframe.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

In [29]:
dataframe['Survived'].value_counts()

0    863
1    450
Name: Survived, dtype: int64

In [111]:
dataframe.groupby('Survived').count()

Unnamed: 0_level_0,Name,PClass,Age,Sex,SexCode
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,863,863,443,863,863
1,450,450,313,450,450


* groupby + Name?
    * 특정 통곗값은 어떤 종류의 데이터에만 의미가 있다.
    * 생존 여부로 데이터를 그루핑 -> 그룹별로 이름(승객)의 수를 카운트한다.

In [115]:
# 행을 그룹핑한 다음 평균을 계산
dataframe.groupby(['Sex','Survived'])['Age'].mean() # Sex가 최상위 인덱스가 된다.

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

## 3.14 시간에 따라 행을 그룹핑하기
* resample 메서드 : 시간 간격에 따라 행을 그루핑한다.

In [117]:
import pandas as pd
import numpy as np

# 날짜 범위 만든다.
time_index = pd.date_range('06/06/2017', periods=100000, freq='30S')

dataframe = pd.DataFrame(index=time_index)

# 난수값으로 채운다.
dataframe['Sales_Amount'] = np.random.randint(1, 10, 100000)

In [118]:
# 주 단위로 행을 그룹핑 후 합산
dataframe.resample('W').sum()

Unnamed: 0,Sales_Amount
2017-06-11,86549
2017-06-18,100413
2017-06-25,101053
2017-07-02,101008
2017-07-09,100545
2017-07-16,10453


In [119]:
dataframe.head(3)

Unnamed: 0,Sales_Amount
2017-06-06 00:00:00,5
2017-06-06 00:00:30,3
2017-06-06 00:01:00,8


* 매출의 날짜와 시간이 이 데이터프레임의 인덱스
    * resample 메서드는 datetime 형식의 인덱스를 사용
    * 시간 간격(offset)을 넓혀서 행을 다시 그룹핑하고 통계내본다.

In [121]:
# 2주 간격
dataframe.resample('2W').mean()

Unnamed: 0,Sales_Amount
2017-06-11,5.008623
2017-06-25,4.996677
2017-07-09,4.998834
2017-07-23,5.025481


In [122]:
# 한달 간격
dataframe.resample('M').count()

Unnamed: 0,Sales_Amount
2017-06-30,72000
2017-07-31,28000


* resample 메서드 : 시간 그룹핑의 오른쪽 에지의 레이블(마지막 레이블) 반환
    * label 매개변수를 사용해 이 기준을 바꾼다.

In [123]:
# 월 간격으로 그룹핑하고 행을 카운트 한다.
dataframe.resample('M', label='left').count()

Unnamed: 0,Sales_Amount
2017-05-31,72000
2017-06-30,28000


In [124]:
# 그룹핑된 인덱스를 월의 시작 날짜(Month + Start) : MS
dataframe.resample('MS').count()

Unnamed: 0,Sales_Amount
2017-06-01,72000
2017-07-01,28000


## 3.15 열 원소 순회하기
* 열의 모든 원소에 특정 동작 적용


In [125]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

# 처음 두 이름을 대문자로 바꾸어 출력
for name in dataframe['Name'][0:2]:
    print(name.upper())

ALLEN, MISS ELISABETH WALTON
ALLISON, MISS HELEN LORAINE


* 반복문(for 반복문) 외에 **리스트 컴프리헨션(list comprehension)** 사용 가능

In [126]:
[name.upper() for name in dataframe['Name'][0:2]]

['ALLEN, MISS ELISABETH WALTON', 'ALLISON, MISS HELEN LORAINE']

* for 문도 좋지만, 판다스의 **apply** 메서드 사용하는 게 더 파이썬 답다.

## 3.16 모든 열 원소에 함수 적용하기
* apply : 열의 모든 내장 함수나 사용자 정의 함수 사용

In [127]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

# 함수 제작
def uppercase(x):
    return x.upper()

# 함수 적용 후 두 개 행 출력
dataframe['Name'].apply(uppercase)[0:2]

0    ALLEN, MISS ELISABETH WALTON
1     ALLISON, MISS HELEN LORAINE
Name: Name, dtype: object

* 더 오래걸리는 것 같은데, 내장 함수가 있다면 그냥 for 반복문이 나아보인다.

* apply 메서드 : 데이터 정제, 랭글링에 유용하다.
    * 함수를 열의 모든 원소에 적용한다.
* map 메서드 : apply와 매우 유사하나 map은 딕셔너리를 입력으로, apply 메서드는 매개변수 지정도 가능하다.

In [128]:
# Survived 열의 1은 Live, 0은 Dead
dataframe['Survived'].map({1:'Live', 0:'Dead'})[:5]

0    Live
1    Dead
2    Dead
3    Dead
4    Live
Name: Survived, dtype: object

In [129]:
# 함수의 매개변수(age)를 apply 메서드 호출 시 전달해보기
dataframe['Age'].apply(lambda x, age: x < age, age=30)[:5]

0     True
1     True
2    False
3     True
4     True
Name: Age, dtype: bool

* apply, applymap 메서드
    * apply : 데이터프레임 열 전체 적용
    * applymap : map 처럼 열의 각 원소별 적용

In [130]:
# 각 열에서 가장 큰 값 뽑기
dataframe.apply(lambda x: max(x))

Name        del Carlo, Mrs Sebastiano (Argenia Genovese)
PClass                                               3rd
Age                                                   71
Sex                                                 male
Survived                                               1
SexCode                                                1
dtype: object

In [131]:
def truncate_string(x):
    if type(x) == str:
        return x[:20]
    return x

# 문자열을 20자로 줄여버린다.

In [133]:
dataframe.applymap(truncate_string)[:5]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabet",1st,29.0,female,1,1
1,"Allison, Miss Helen",1st,2.0,female,0,1
2,"Allison, Mr Hudson J",1st,30.0,male,0,0
3,"Allison, Mrs Hudson",1st,25.0,female,0,1
4,"Allison, Master Huds",1st,0.92,male,1,0


In [141]:
# apply는 열을 지정해줘야 잘 나오는 듯 하다. lambda식에서 x는 하나의 행이 아닌 열로 본다.
dataframe['Name'].apply(truncate_string)[:5]

0    Allen, Miss Elisabet
1    Allison, Miss Helen 
2    Allison, Mr Hudson J
3    Allison, Mrs Hudson 
4    Allison, Master Huds
Name: Name, dtype: object

## 3.17 그룹에 함수 적용하기
* groupby, apply

In [145]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.groupby('Sex').apply(lambda x: x.count())

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,462,462,288,462,462,462
male,851,851,468,851,851,851


## 3.18 데이터프레임 연결하기
* concat + axis=0 : 행의 축을 따라 연결한다.

In [32]:
import pandas as pd

data_a = {'id': ['1', '2', '3'],
         'first': ['A','B','C'],
         'last':['D','E','F']}
dataframe_a = pd.DataFrame(data_a, columns=['id', 'first', 'last'])

data_b = {'id': ['4','5','6'],
         'first':['X','Y','Z'],
         'last': ['x','y','z']}
dataframe_b = pd.DataFrame(data_b, columns=['id','first','last'])

# 행방향으로 데이터프레임 연결

pd.concat([dataframe_a, dataframe_b], axis=0)

Unnamed: 0,id,first,last
0,1,A,D
1,2,B,E
2,3,C,F
0,4,X,x
1,5,Y,y
2,6,Z,z


In [33]:
# 열방향으로도 될까? axis = 1
pd.concat([dataframe_a, dataframe_b], axis=1)

Unnamed: 0,id,first,last,id.1,first.1,last.1
0,1,A,D,4,X,x
1,2,B,E,5,Y,y
2,3,C,F,6,Z,z


* 배열 연결(concatenating) : 컴퓨터과학이나 프로그래밍 분야 외에는 잘 쓰이지 않는다.
* 두 객체를 붙인다. 연결.
* axis 변수로 위아래로 쌓을지(axis=0), 양옆으로 쌓을지(axis=1)을 결정해 주는게 좋다.

* **append** 메서드 : 새로운 행 추가
    * ignore_index = True 에 주의한다.

In [34]:
row = pd.Series([10, 'Chris', 'Chilon'], index = ['id','first','last'])

# 행 추가
dataframe_a.append(row, ignore_index=True)

Unnamed: 0,id,first,last
0,1,A,D
1,2,B,E
2,3,C,F
3,10,Chris,Chilon


In [35]:
row = pd.Series([10, 'Chris', 'Chilon'], index = ['id','first','last'])

# 행 추가
dataframe_a.append(row, ignore_index=False)

TypeError: Can only append a Series if ignore_index=True or if the Series has a name

## 3.19 데이터프레임 병합하기
* merge : on 매개변수에 병향 열을 지정해서 사용한다.(inner join)

In [151]:
import pandas as pd

employee_data = {'employee_id':['1','2','3','4'],
                'name': ['Amy','Allen','Alice','Tim']}

dataframe_employees = pd.DataFrame(employee_data, columns=['employee_id','name'])

sales_data = {'employee_id':['3','4','5','6'],
             'total_sales': [23456,2512,2345,1455]}
dataframe_sales = pd.DataFrame(sales_data, columns=['employee_id', 'total_sales'])

In [153]:
# 데이터프레임 병합
pd.merge(dataframe_employees, dataframe_sales, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice,23456
1,4,Tim,2512


* merge는 기본적으로 내부 조인을 수행한다.
    * 외부 조인(outer join) : **how** 매개변수를 활용한다.

In [154]:
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy,
1,2,Allen,
2,3,Alice,23456.0
3,4,Tim,2512.0
4,5,,2345.0
5,6,,1455.0


In [155]:
# 이번에는 왼쪽 조인과 오른쪽 조인을 지정한다.
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy,
1,2,Allen,
2,3,Alice,23456.0
3,4,Tim,2512.0


In [156]:
# 이번에는 왼쪽 조인과 오른쪽 조인을 지정한다.
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='right')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice,23456
1,4,Tim,2512
2,5,,2345
3,6,,1455


In [159]:
# 데이터프레임에서 각각 결합하기 위한 열을 지정해버릴 수 있다.
# 이 경우에는 왼쪽 오른쪽 조인이 매개변수가 된다.
# 같은 칼럼만 양쪽으로 지정해버리면 결국은 내부 조인과 동일한 결과를 볼 수 있다.
pd.merge(dataframe_employees, dataframe_sales, left_on='employee_id', right_on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice,23456
1,4,Tim,2512


* 만약 각 프레임의 인덱스를 기준으로 병합한다면, left_on, right_on > **right_index = True, left_index = True**를 활용한다.

In [160]:
pd.merge(dataframe_employees, dataframe_sales, left_index=True, right_index=True)

Unnamed: 0,employee_id_x,name,employee_id_y,total_sales
0,1,Amy,3,23456
1,2,Allen,4,2512
2,3,Alice,5,2345
3,4,Tim,6,1455


* 기존의 공통 칼럼 'employee_id'가 x, y로 분할되어 합쳐진 것을 확인할 수 있다.

* merge 연산을 위한 세 가지 사항

    1. 병합할 두 개의 데이터프레임 지정
    2. 병합하기 위한 열의 이름 지정(공유되는 열)
        * 두 공통 열의 이름이 같으면 on 매개변수 사용
        * 두 공통 열의 이름이 다르면 left_on, right_on 사용
    3. 왼쪽 데이터 프레임은 첫 번째 지정, 오른쪽 데이터프레임은 두 번째 지정


* merge 네 개의 조인 타입 지원(how 매개변수로 지정)
    * 내부(inner)
        * 두 데이터프레임에 **모두 존재** 행만 반환
    * 외부(outer)
        * 두 데이터프레임의 모든 행만 반환. 누락된 값은 NaN으로 채운다.
    * 왼쪽(left)
        * 왼쪽 데이터프레임의 모든 행 반환. 오른쪽은 왼쪽과 매칭된 행만 반환. 누락은 NaN 채움.
    * 오른쪽(right)
        * 오른쪽 데이터프레임의 모든 행 반환. 왼쪽은 오른쪽과 매칭된 행만 반환, 누락은 NaN 채움.