# CHAPTER 3 Data Wrangling

## 3.0

### Data Wrangling   
* 원본 데이터를 정제하고 사용 가능하 형태로 구성하기 위한 변환 과정
* 가장 일반적인 구조는 dataframe이다.
    - dataframe은 표 형식 데이터이다.
    - 행과 열을 기반으로 한다

In [7]:
# 타이타닉 승객 데이터로 데이터프래임 생성
import pandas as pd

url = 'http://tinyurl.com/titanic-csv'
df = pd.read_csv(url)
df.head(5)

ModuleNotFoundError: No module named 'pandas'

In [32]:
df.shape

(1313, 6)

* 각 행은 하나의 샘플에 해당
* 각 열응ㄴ 하나의 특성에 해당

* 각 열은 이름을 가지며, 각 행은 인텍스 숫자를 갖는다.

* sex와 sexcode 두열은 같은 정보를 다른 형태로 가짐
    - sex는 문자열 'feamale', sexcode는 숫자'1'로 표시
    - 모든 특성이 고유해야 하므로 이 열들 중 하나를 삭제해야 함
    

In [30]:
df.tail(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1308,"Zakarian, Mr Artun",3rd,27.0,male,0,0
1309,"Zakarian, Mr Maprieder",3rd,26.0,male,0,0
1310,"Zenni, Mr Philip",3rd,22.0,male,0,0
1311,"Lievens, Mr Rene",3rd,24.0,male,0,0
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


***

## 3.1 Dataframe 만들기

1. Dataframe 클래스를 사용해 비어있는 데이터프레임을 만든 후 개별적으로 각 열을 정의

In [34]:
import pandas as pd
df = pd.DataFrame()

df['Name'] = ['Jacky Jackson','Steven Stevenson']
df['Age'] = [38, 25]
df['Driver'] = [True, False]

df

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


]2. Dataframe 객체를 만든 후 새로운 행을 아래 추가

In [35]:
new_person=pd.Series(['Molly Mooney', 40, True], 
                     index=['Name','Age','Driver'] )

df.append(new_person, ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False
2,Molly Mooney,40,True


In [36]:
pd.Series(['Molly Mooney', 40, True], 
                     index=['Name','Age','Driver'] )

Name      Molly Mooney
Age                 40
Driver            True
dtype: object

3. 다른 소스(csv파일, 데이터베이스 등)에서 적재한 실제 데이터로부터 dataframe을 생성 **가장 많이 사용**

* dataframe 객체를 만들 때 데이터 전달하는 방법

     + 넘파이 배열을 주입해 만듬(열 이름은 columns 매개변수에 지정)

In [9]:
import numpy as np

data=[['Jacky Jackson', 38, True], ['Steven Stevenson', 25, False]]

matrix = np.array(data)
pd.DataFrame(matrix, columns=['Name','Age','Driver'])

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


    - 원본 리스트 전달해 생성

In [11]:
pd.DataFrame(data, columns=['Name','Age','Driver'])

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


    - 열 이름과 데이터를 maping한 딕셔너리를 사용해 생성

In [13]:
data = {'Name':['Jacky Jackson', 'Steven Stevenson'],
       'Age':[38, 25],
       'Driver':[True, False]}

pd.DataFrame(data)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


***

## 3.2 Data information

### **head** method
### **tail** method
* 끝부터 거슬러 올라가 행 확인

In [1]:
import pandas as pd

url = "http://tinyurl.com/titanic-csv"
df = pd.read_csv(url)

df.head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


### **shape** method

* 열과 행의 수

In [2]:
df.shape

(1313, 6)

## **describe** method

* 숫자로 된 열의 통계값

In [6]:
df.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


In [8]:
df.describe

<bound method NDFrame.describe of                                                Name PClass    Age     Sex  \
0                      Allen, Miss Elisabeth Walton    1st  29.00  female   
1                       Allison, Miss Helen Loraine    1st   2.00  female   
2               Allison, Mr Hudson Joshua Creighton    1st  30.00    male   
3     Allison, Mrs Hudson JC (Bessie Waldo Daniels)    1st  25.00  female   
4                     Allison, Master Hudson Trevor    1st   0.92    male   
...                                             ...    ...    ...     ...   
1308                             Zakarian, Mr Artun    3rd  27.00    male   
1309                         Zakarian, Mr Maprieder    3rd  26.00    male   
1310                               Zenni, Mr Philip    3rd  22.00    male   
1311                               Lievens, Mr Rene    3rd  24.00    male   
1312                                 Zimmerman, Leo    3rd  29.00    male   

      Survived  SexCode  
0            1 

* Plus   
판다스는 0과 1로 이뤄진 Survived와 SexCode를 수치형 열로 다룸   
BUT 이 숫자값은 범주를 나타냄   
따라서 Sexcode와 같은 열의 표준편차 등의 통계값은 의미가 없음.

***

## 3.3 dataframe 탐색

### **iloc** method

* 하나 이상의 행이나 값을 선택
* 콜론: 을 사용해 원하는 행의 슬라이스를 선택할 수 있음

In [38]:
import pandas as pd

url = "http://tinyurl.com/titanic-csv"
df = pd.read_csv(url)

print(df.iloc[0])

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object


In [12]:
print(df.iloc[1:4])
#두번쨰 부터 네번째까지

                                            Name PClass   Age     Sex  \
1                    Allison, Miss Helen Loraine    1st   2.0  female   
2            Allison, Mr Hudson Joshua Creighton    1st  30.0    male   
3  Allison, Mrs Hudson JC (Bessie Waldo Daniels)    1st  25.0  female   

   Survived  SexCode  
1         0        1  
2         0        0  
3         0        1  


In [11]:
print(df.iloc[:4])

                                            Name PClass   Age     Sex  \
0                   Allen, Miss Elisabeth Walton    1st  29.0  female   
1                    Allison, Miss Helen Loraine    1st   2.0  female   
2            Allison, Mr Hudson Joshua Creighton    1st  30.0    male   
3  Allison, Mrs Hudson JC (Bessie Waldo Daniels)    1st  25.0  female   

   Survived  SexCode  
0         1        1  
1         0        1  
2         0        0  
3         0        1  


각 행이 고유해진다면, 어떤 값이라도 데이터프레임의 인덱스로 설정할 수 있다.   

In [39]:
df= df.set_index(df['Name'])
df.loc['Allen, Miss Elisabeth Walton']
# loc, 열로 봤을 때 그 해당 샘플을 선택

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object

***

## 3.4 조건에 따라 행 선택하기

In [40]:
import pandas as pd

url = "http://tinyurl.com/titanic-csv"
df = pd.read_csv(url)

df[df['Sex'] == 'female']
# df['Sex'] == 'female'아 조건을 df로 감싸 선택 요청

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1
...,...,...,...,...,...,...
1283,"Vestrom, Miss Hulda Amanda Adolfina",3rd,14.0,female,0,1
1293,"Wilkes, Mrs Ellen",3rd,45.0,female,1,1
1304,"Yasbeck, Mrs Antoni",3rd,15.0,female,1,1
1306,"Zabour, Miss Hileni",3rd,,female,0,1


In [41]:
df[(df['Sex'] == 'female') & (df['Age'] >= 65)]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


***

## 3.5 값 치환하기

### **replace** method
* 값을 간단하게 찾고 바꿈

In [19]:
import pandas as pd

url = "http://tinyurl.com/titanic-csv"
df = pd.read_csv(url)

df['Sex'].replace('female', 'Woman').head(2)
#female값을 woman으로 치환하고 두개의 행 출력

0    Woman
1    Woman
Name: Sex, dtype: object

In [20]:
#동시에 여러 값 치환가능
df['Sex'].replace(['female', 'male'], ['Woman', 'Man']).head(5)

0    Woman
1    Woman
2      Man
3    Woman
4      Man
Name: Sex, dtype: object

* 하나의 열이 아닌 전체 Dataframe 객체에서 값을 찾아 바꿀 수 있음

In [42]:
df.replace(1, "One").head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,One,One
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,One
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,One
4,"Allison, Master Hudson Trevor",1st,0.92,male,One,0


* 정규표현식도 인식

In [25]:
df.replace(r"1st", "First", regex=True).head(2)
#regex 매개변수를 사용하면 조건에 대해 정규 표현식 일치를 수행할 수 있음

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",First,29.0,female,1,1
1,"Allison, Miss Helen Loraine",First,2.0,female,0,1


* 한번에 여러값을 동일하게 바꿀 수 있음

In [23]:
df.replace(["female","male"], "person").head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,person,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,person,0,1


* 딕셔너리로 바꿀 값을 각각 매핑해 전달할 수 있음

In [26]:
df.replace({"female":1, "male":0}).head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,1,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,1,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,0,0,0


***

## 3.6 열 이름 바꾸기

### **rename** method

* 열 이름을 바꿈

In [8]:
import pandas as pd

url = "http://tinyurl.com/titanic-csv"
df = pd.read_csv(url)

df.rename(columns={'PClass': 'Passenger Class'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


* 동시에 열을 여러 개 지정할 수 있음.

In [9]:
df.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Gender,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


* 전체 열의 이름을 바꾸려면 다음 코드처럼 key는 이전 열 이름을 사용하고 value는 비어있는 딕셔너리를 만드는 것이 편리함
   
   
   
#### **collections 모듈**   
* defaultdict: dict subclass that calls a factory function to supply missing values   

In [15]:
import collections

column_names=collections.defaultdict(str)

for name in df.columns:
    column_names[name]
    
column_names

defaultdict(str,
            {'Name': '',
             'PClass': '',
             'Age': '',
             'Sex': '',
             'Survived': '',
             'SexCode': ''})

* index 매개변수 사용해 인덱스를 바꿀 수 있음

In [16]:
df.rename(index={0:-1}).head(2)
# 인덱스 0을 -1로 바꾼다

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
-1,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


* axis 매개변수에 'column','index'를 지정할 수 있다 

In [17]:
df.rename(str.lower, axis='columns').head(2)
# 열이름을 소문자로 바꾼다

Unnamed: 0,name,pclass,age,sex,survived,sexcode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


***

## 3.7 최댓값, 최솟값, 합, 평균 계산 및 개수 세기

In [23]:
import pandas as pd

url = "http://tinyurl.com/titanic-csv"
df = pd.read_csv(url)

print('Maximum: {}'.format(df['Age'].max()))
print('Minimum: {}'.format(df['Age'].min()))
print('Mean: {}'.format(df['Age'].mean()))
print('Sum: {}'.format(df['Age'].sum()))
print('Count: {}'.format(df['Age'].count()))

Maximum: 71.0
Minimum: 0.17
Mean: 30.397989417989415
Sum: 22980.88
Count: 756


이외에도 pandas는 분산, 표준편차, 첨도, 비대칭도, 평균의 표준오차, 최빈값, 중간값을 포함해 많은 메서드를 제공한다. 

* 첨도: 3에 가까우면 정규분포와 일치, 3보다 작으면 납작, 3보다 크면 더 뾰족

In [20]:
df.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

* corr메서드 : 상관계수 계산

* cov메서드 : 공분산 계산

In [21]:
df.corr()

Unnamed: 0,Age,Survived,SexCode
Age,1.0,-0.061254,-0.055138
Survived,-0.061254,1.0,0.502891
SexCode,-0.055138,0.502891,1.0


In [22]:
df.cov()

Unnamed: 0,Age,Survived,SexCode
Age,203.32047,-0.430491,-0.382054
Survived,-0.430491,0.225437,0.11407
SexCode,-0.382054,0.11407,0.22823


***

## 3.8 고유값 찾기

### **unique** method

In [24]:
import pandas as pd

url = "http://tinyurl.com/titanic-csv"
df = pd.read_csv(url)

df['Sex'].unique()

array(['female', 'male'], dtype=object)

### **value_counts** method

* 고유한 값과 등장 횟수를 출력
* NaN을 카우트할지 여부를 묻는 dropna 매개변수 존재, 기본값은 True로 NaN을 카운트하지 않음

In [25]:
df['Sex'].value_counts()

male      851
female    462
Name: Sex, dtype: int64

* 범주형 데이터에는 여분의 클래스가 있는 경우가 많고, 이를 무시해서는 안된다

In [26]:
df['PClass'].value_counts()

3rd    711
1st    322
2nd    279
*        1
Name: PClass, dtype: int64

### nunique 메서드

* 고유값의 개수만 출력
* dropna 매개변수 존재 

In [30]:
df['PClass'].nunique()

4

In [29]:
df.nunique()

Name        1310
PClass         4
Age           75
Sex            2
Survived       2
SexCode        2
dtype: int64

***

## 3.9 누락된 값 다루기

### **isnull**과 **notnull** method
* 누락여부를 나타내는 불리언 값을 반환

In [43]:
import pandas as pd

url = "http://tinyurl.com/titanic-csv"
df = pd.read_csv(url)

df[df['Age'].isnull()].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0
14,"Baumann, Mr John D",1st,,male,0,0
29,"Borebank, Mr John James",1st,,male,0,0
32,"Bradley, Mr George",1st,,male,1,0


* pandas는 numpy의 NaN을 사용해 누락된 값 표시
    - 그러나 pandas 자체적으로 NaN을 구현하지 않음

In [44]:
df['Sex']=df['Sex'].replace('male', NaN)

NameError: name 'NaN' is not defined

In [46]:
import numpy as np
df['Sex']=df['Sex'].replace('male',np.nan)

* pandas의 read_csv함수에는 누락 표시에 사용한 값을 정할 수 있는 매개변수 na_values 존재

In [47]:
df=pd.read_csv(url, na_values=[np.nan, 'NONE', -999])

df[df['Age'].isnull()].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0
14,"Baumann, Mr John D",1st,,male,0,0
29,"Borebank, Mr John James",1st,,male,0,0
32,"Bradley, Mr George",1st,,male,1,0


* keep_default_na 매개변수를 False로 지정하면 기본적으로 NaN으로 인식하는 문자열을 NaN으로 인식하지 않게 됩니다. 

* na_filter를 False로 설정하면 NaN 변환을 하지 않아요

In [48]:
df=pd.read_csv(url, na_values['female'], 
              keep_default_na=False)

df[12:14]

NameError: name 'na_values' is not defined

***

## 3.10 열 삭제하기


### **drop** method에 axis=1(열) 매개변수 사용

In [49]:
import pandas as pd

url = "http://tinyurl.com/titanic-csv"
df = pd.read_csv(url)

df.drop('Age', axis=1).head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


In [50]:
df.drop(['Age', 'Sex'], axis=1).head(2)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1


In [51]:
#열 이름이 없다면 df.columns에 열 인덱스 지정
df.drop(df.columns[1], axis=1).head(2)

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1


**주의!**: dataframe을 수정 가능하지 않은 객체처럼 다루는 것이 좋음