# 데이터 랭글링 : 데이터 전처리의 한 단계

In [11]:
import pandas as pd

In [18]:
url='https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

In [19]:
dataframe=pd.read_csv(url)

In [20]:
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


## 데이터프레임 만들기

In [21]:
import pandas as pd

In [39]:
dataframe=pd.DataFrame()

In [40]:
# 열 추가하기

dataframe['Name']=['Jacky Jackson', 'Steven Stevenson']
dataframe['Age']=[38,25]
dataframe['Driver']=[True,False]

In [45]:
dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


In [46]:
# 기존 데이터프레임에 새로운 행을 추가하는 방법

new_person=pd.Series(['Yoo Naul',40,True], index=['Name','Age','Driver'])

dataframe.append(new_person, ignore_index=True)  # 인덱스가 같다면, ignore_index=True

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False
2,Yoo Naul,40,True


In [47]:
import numpy as np

In [48]:
# 넘파이 배열을 통하여 데이터를 전달하는 방법

data=[['Kim minsoo', 24,True],['Lee Chul soo',18,False]]

data

[['Kim minsoo', 24, True], ['Lee Chul soo', 18, False]]

In [49]:
matrix=np.array(data)
matrix

array([['Kim minsoo', '24', 'True'],
       ['Lee Chul soo', '18', 'False']], dtype='<U12')

In [53]:
# numpy로 array를 만들어서 데이터프레임을 만드는 방법

pd.DataFrame(matrix, columns=['Name','Age','Driver'])

Unnamed: 0,Name,Age,Driver
0,Kim minsoo,24,True
1,Lee Chul soo,18,False


In [54]:
# 원본 데이터를 사용하여 데이터프레임을 만드는 방법

pd.DataFrame(data,columns=['Name','Age','Driver'])

Unnamed: 0,Name,Age,Driver
0,Kim minsoo,24,True
1,Lee Chul soo,18,False


In [55]:
# 딕셔너리를 통해 데이터프레임을 만드는 방법

data={'Name':['Kim minsoo','Lee Chul soo'],
     'Age':[38,25],
     'Driver':[True, False]}

pd.DataFrame(data)

Unnamed: 0,Name,Age,Driver
0,Kim minsoo,38,True
1,Lee Chul soo,25,False


In [56]:
# 딕셔너리를 샘플마다 구성한 경우에도 데이터프레임을 만들 수 있음

data=[{'Name':'Kim minsoo','Age':38,'Driver':True},
     {'Name':'Lee chul soo','Age':13,'Driver':False}]

pd.DataFrame(data)

Unnamed: 0,Name,Age,Driver
0,Kim minsoo,38,True
1,Lee chul soo,13,False


In [57]:
# index 를 매개변수로 지정할 수 있음

pd.DataFrame(data, index=['Row 1', 'Row 2'])

Unnamed: 0,Name,Age,Driver
Row 1,Kim minsoo,38,True
Row 2,Lee chul soo,13,False


## 데이터 설명하기

In [58]:
url='https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

In [59]:
dataframe=pd.read_csv(url)

In [60]:
dataframe.head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [62]:
# 차원확인 (행,렬)

dataframe.shape

(1313, 6)

In [64]:
# 숫자로 된 열의 통계값 확인하기   - 개수, 평균, 표준편차, 최소값, 1,2,3 사분면값, 최대값

dataframe.describe()

Unnamed: 0,Age,Survived,SexCode
count,756.0,1313.0,1313.0
mean,30.397989,0.342727,0.351866
std,14.259049,0.474802,0.477734
min,0.17,0.0,0.0
25%,21.0,0.0,0.0
50%,28.0,0.0,0.0
75%,39.0,1.0,1.0
max,71.0,1.0,1.0


## 데이터프레임 탐색하기

In [65]:
# 첫번째 행 선택

dataframe.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

In [67]:
# 원하는 행 선택

dataframe.iloc[1:4]  # 2~4 번째 행 선택 (인덱스 넘버로는 1~3 반환)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [68]:
# 인덱스 설정하는 방법

dataframe=dataframe.set_index(dataframe['Name'])

In [70]:
# 인덱스가 레이블일때 확인

dataframe.loc['Allen, Miss Elisabeth Walton']

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object

#### loc  : 데이터프레임의 인덱스가 레이블(ex: 문자열) 일 때 사용
#### iloc : 데이터프레임의 위치참조 ( ex: iloc[0]은 정수 혹은 문자열 인덱스에 상관없이 첫번째 행 반환)

In [71]:
# 슬라이싱을 통해 열을 선택할 수 있음

'''
Allison, Miss Helen Loraine 이전까지 행에서 Age 열과 Sex 열만 선택
'''

dataframe.loc[:'Allison, Miss Helen Loraine', 'Age':'Sex']

Unnamed: 0_level_0,Age,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,female
"Allison, Miss Helen Loraine",2.0,female


In [72]:
dataframe[:'Allison, Miss Helen Loraine']

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [73]:
dataframe[['Age','Sex']].head(2)

Unnamed: 0_level_0,Age,Sex
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
"Allen, Miss Elisabeth Walton",29.0,female
"Allison, Miss Helen Loraine",2.0,female


## 조건에 따라 행 선택하기

In [74]:
# 'sex' 열이 'female' 인 행 중 처음 두 개 출력

dataframe[dataframe['Sex']=='female'].head(2)

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [77]:
# 조건 여러개 사용 가능

'''
65세 이상의 여성 선택
'''

dataframe[(dataframe['Age']>=65)& (dataframe['Sex']=='female')]

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Crosby, Mrs Edward Gifford (Catherine Elizabeth Halstead)","Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


## 값 치환하기

In [80]:
url='https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

In [86]:
dataframe=pd.read_csv(url)

In [82]:
# female 을 woman 으로 치환

dataframe['Sex'].replace('female','Woman').head(2)

0    Woman
1    Woman
Name: Sex, dtype: object

In [88]:
# 동시에 여러 개의 값도 바꿀 수 있음

dataframe=pd.read_csv(url)
dataframe['Sex'].replace(['female','male'],['Woman','Man']).head(6)

0    Woman
1    Woman
2      Man
3    Woman
4      Man
5      Man
Name: Sex, dtype: object

In [89]:
# 전체 데이터프레임 객체에서 값을 찾아 바꿀 수도 있음

dataframe=pd.read_csv(url)
dataframe.replace(1,'One').head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29,female,One,One
1,"Allison, Miss Helen Loraine",1st,2,female,0,One
2,"Allison, Mr Hudson Joshua Creighton",1st,30,male,0,0


In [90]:
# replace 함수는 정규표현식도 인식함

dataframe=pd.read_csv(url)
dataframe.replace(r'1st','First', regex=True).head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",First,29.0,female,1,1
1,"Allison, Miss Helen Loraine",First,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",First,30.0,male,0,0


In [91]:
# 한번에 여러개의 값을 동일하게 바꿀 수도 있음

dataframe=pd.read_csv(url)
dataframe.replace(['female','male'],'person').head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,person,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,person,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,person,0,0


In [92]:
# 딕셔너리로 바꿀 값을 매핑하여 전달할 수 있음

dataframe=pd.read_csv(url)
dataframe.replace({'female':1,'male':0}).head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,1,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,1,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,0,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,1,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,0,1,0


## 열 이름 바꾸기

In [93]:
dataframe.rename(columns={'PClass':'Passenger Class'}).head(3)

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [98]:
# 딕셔너리를 통하여 바꾸려는 열을 여러개 지정 가능

dataframe=pd.read_csv(url)
dataframe.rename(columns={'PClass':'Passenger Class','Sex':'Gender'}).head(5)

Unnamed: 0,Name,Passenger Class,Age,Gender,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [99]:
# 전체 열의 이름을 동시에 바꿀때 딕셔너리를 활용하는것이 용이

import collections

column_names=collections.defaultdict(str)

In [106]:
# 키 생성 - 데이터프레임.columns  -> 리스트 형태

i=1
for name in dataframe.columns:
    column_names[name]=i
    i+=1

In [107]:
column_names

defaultdict(str,
            {'Name': 1,
             'PClass': 2,
             'Age': 3,
             'Sex': 4,
             'Survived': 5,
             'SexCode': 6})

In [108]:
# index 매개변수를 사용하여 인덱스를 바꿀 수 있음

dataframe.rename(index={0:-1}).head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
-1,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [110]:
'''
변환 함수를 전달하고 axis 매개변수에 'columns' 또는 'index' 를 지정할 수 있음
'''

dataframe.rename(str.lower, axis='columns').head(3)

Unnamed: 0,name,pclass,age,sex,survived,sexcode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


## 최소값, 최대값, 합, 평균 계산 및 개수 세기

In [111]:
# Pandas 는 기술통계를 위한 메소드를 제공한다

print('최대값: ', dataframe['Age'].max())
print('최소값: ',dataframe['Age'].min())
print('평균: ',dataframe['Age'].mean())
print('합: ',dataframe['Age'].sum())
print('카운트: ',dataframe['Age'].count())

최대값:  71.0
최소값:  0.17
평균:  30.397989417989415
합:  22980.88
카운트:  756


In [119]:
# 메소드는 전체 데이터프레임에 적용 가능

dataframe.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

#### 분산(var), 표준편차(std), 첨도(kurt), 왜도-비대칭도(skew), 평균의 표준오차(sem), 중간값(median), 공분산(cov), 상관계수(corr) 도 있음

첨도가 3에 가까우면 정규분포와 비슷, 3보다 작을 경우 정규분포보다 납작, 3보다 클 경우 더 뾰족

왜도가 음수일 경우 정규분포보다 오른쪽으로 치우쳐 있음 (평균, 중앙값, 최빈값)
       양수일 경우 정규분포보다 왼쪽으로 치우쳐 있음 (최빈값, 중앙값, 평균)
          
평균의 표준오차 : 샘플링된 표본의 평균에 대한 표준편차

In [122]:
dataframe.cov()

Unnamed: 0,Age,Survived,SexCode
Age,203.32047,-0.430491,-0.382054
Survived,-0.430491,0.225437,0.11407
SexCode,-0.382054,0.11407,0.22823


In [123]:
dataframe.corr()

Unnamed: 0,Age,Survived,SexCode
Age,1.0,-0.061254,-0.055138
Survived,-0.061254,1.0,0.502891
SexCode,-0.055138,0.502891,1.0


## 고유한 값 찾기

#### 범주형 열을 탐색하거나 조작할때 유용

In [1]:
import pandas as pd

In [2]:
url='https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

In [3]:
dataframe=pd.read_csv(url)

In [4]:
dataframe['Sex'].unique()

array(['female', 'male'], dtype=object)

In [6]:
'''
value_counts() 는 고유한 값과 등장 횟수를 출력
'''

dataframe['Sex'].value_counts()

male      851
female    462
Name: Sex, dtype: int64

In [8]:
dataframe['PClass'].value_counts()

3rd    711
1st    322
2nd    279
*        1
Name: PClass, dtype: int64

PClass 는 승객 티켓의 등급을 나타내지만, value_counts()를 통해 확인해본 결과 이상치가 존재함을 확인할 수 있음

In [10]:
dataframe['PClass'].nunique()

4

고유한 범주의 개수를 알고싶을때는 nunique() 함수를 사용

In [11]:
dataframe.nunique()

Name        1310
PClass         4
Age           75
Sex            2
Survived       2
SexCode        2
dtype: int64

nunique는 데이터프레임 전체에 적용할 수 있음

* value_counts() 와 nunique() 함수는 NaN을 카운트할지 결정하는 dropna 파라미터가 존재 (default는 True로 NaN을 카운트하지 않음)

## 누락된 값 다루기

In [12]:
#누락된 값을 선택하고 두개의 행 출력

dataframe[dataframe['Age'].isnull()].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


#### 임의로 NaN을 선언하기 위해서는 numpy 라이브러리를 사용해야함

In [13]:
import numpy as np

dataframe['Sex']=dataframe['Sex'].replace('male',np.nan)

In [14]:
dataframe['Sex']

0       female
1       female
2          NaN
3       female
4          NaN
         ...  
1308       NaN
1309       NaN
1310       NaN
1311       NaN
1312       NaN
Name: Sex, Length: 1313, dtype: object

#### 데이터셋마다 결측값을 표기하기는 경우가 다를 때가 있다. 이러한 경우에는 read_csv에서 na_values라는 파라미터를 통하여 결측값을 해결한다

In [15]:
dataframe=pd.read_csv(url,na_values=[np.nan,'NONE',-999])

NaN, None, -999 를 결측값으로 받는 형태

판다스는 기본적으로 다양한 문자열 (ex: N/A, NA, NULL, NaN 등)을 결측값으로 인식한다

keep_default_na 매개변수를 False로 설정하면 위의 값들을 결측값으로 인식하지 않는다

In [30]:
dataframe=pd.read_csv(url,na_values=['male'], keep_default_na=False)

In [31]:
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,,1,0


na_filter 매개변수를 False 로 설정하면 NaN을 반환하지 않음

In [32]:
dataframe=pd.read_csv(url, na_filter=False)

In [34]:
dataframe[12:14]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0


## 열 삭제하기

In [35]:
url='https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

In [36]:
dataframe=pd.read_csv(url)

In [38]:
dataframe.drop('Age',axis=1).head(2)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1


In [39]:
# 열 이름의 리스트를 전달하여 여러 개의 열을 한번에 삭제할 수 있음

dataframe.drop(['Age','Sex'], axis=1).head(3)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,0,0


In [41]:
'''
열 이름이 없는 경우에는 dataframe.columns로 인덱스를 지정하여 삭제 가능
'''
dataframe.drop(dataframe.columns[1], axis=1).head(3)   # 1번째 인덱스인 PClass 를 삭제하는 모습

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",30.0,male,0,0


#### del dataframe['열'] 을 통하여서 열을 삭제가능하지만, 이와 같은 경우는 원본 데이터프레임이 수정되기에 권장하지 않음

## 행 삭제하기

* dataframe[조건문] 의 방식으로 출력

In [42]:
dataframe[dataframe['Sex']!='male'].head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [43]:
'''
행 인덱스를 사용하여 삭제 가능
'''

dataframe[dataframe.index != 0].head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


## 중복된 행 삭제하기

In [44]:
dataframe.drop_duplicates().head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [45]:
'''
drop_duplicates()는 기본적으로 모든 열이 완벽히 동일한 행만 삭제한다
'''

print('원본 데이터프레임 행의 수 : ',len(dataframe))
print('중복 삭제 후 행의 수 : ',len(dataframe.drop_duplicates()))

원본 데이터프레임 행의 수 :  1313
중복 삭제 후 행의 수 :  1313


In [46]:
dataframe.drop_duplicates(subset=['Sex'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [47]:
dataframe.drop_duplicates(subset=['Sex'], keep='last')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


keep 매개변수를 통하여, 뒤에서부터 우선 선택이 가능

In [49]:
dataframe['Sex'].duplicated()

0       False
1        True
2       False
3        True
4        True
        ...  
1308     True
1309     True
1310     True
1311     True
1312     True
Name: Sex, Length: 1313, dtype: bool

단순 중복의 여부만 확인할때는 duplicated를 통해 시리지를 반환받으며 중복 여부를 확인할 수 있다

## 값에 따라 행을 그룹핑하기

In [51]:
dataframe.groupby('Sex').mean() #성별로 그룹화하고 평균구하기

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


In [52]:
dataframe.groupby('Survived').count()

Unnamed: 0_level_0,Name,PClass,Age,Sex,SexCode
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,863,863,443,863,863
1,450,450,313,450,450


In [53]:
dataframe.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

통계값은 특정 열에 대해서만 의미가 있을 수 있다.

예를 들어, 살아남은 사람 수의 여부를 세고싶을때 survived-name 으로 세는 것은 옳지만 survived-Age로 세는 것은 옳지않다

In [55]:
'''
첫번째 열로 그룹핑한 다음 두번째 열로 그룹을 세분화 할 수 있음
'''

dataframe.groupby(['Sex','Survived'])['Age'].mean() # 성별에 따른 생존 여부의 나이 평균

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

## 시간에 따라 행을 그룹핑하기

In [56]:
time_index=pd.date_range('06/01/2017',periods=100000, freq='30S')

In [57]:
dataframe=pd.DataFrame(index=time_index)

In [58]:
dataframe['Sale_Amount']=np.random.randint(1,10,100000)

In [60]:
# 주 단위로 행을 그룹핑한 다음 합 계산

dataframe.resample('W').sum()

Unnamed: 0,Sale_Amount
2017-06-04,57690
2017-06-11,100444
2017-06-18,100529
2017-06-25,100928
2017-07-02,100848
2017-07-09,39128


In [61]:
# 2주 단위로 그룹핑하고 평균 계산

dataframe.resample('2W').mean()

Unnamed: 0,Sale_Amount
2017-06-04,5.007812
2017-06-18,4.984449
2017-07-02,5.004365
2017-07-16,4.990816


In [62]:
# 한 달 간격으로 그룹핑하고 행 카운트

dataframe.resample('M').count()

Unnamed: 0,Sale_Amount
2017-06-30,86400
2017-07-31,13600


In [63]:
# 한 달 간격으로 그룹핑하고 행을 카운트 (그룹핑 기준 - 첫 레이블)

dataframe.resample('M', label='left').count()

Unnamed: 0,Sale_Amount
2017-05-31,86400
2017-06-30,13600


In [64]:
# 그룹핑된 인덱스를 월의 시작 날짜로 사용

dataframe.resample('MS').count()

Unnamed: 0,Sale_Amount
2017-06-01,86400
2017-07-01,13600


## 열 원소 순회하기

In [65]:
dataframe=pd.read_csv(url)

In [66]:
for name in dataframe['Name'][0:2]:
    print(name.upper())

ALLEN, MISS ELISABETH WALTON
ALLISON, MISS HELEN LORAINE


In [67]:
# 리스트 컴프리헨션 사용

[name.upper() for name in dataframe['Name'][0:2]]

['ALLEN, MISS ELISABETH WALTON', 'ALLISON, MISS HELEN LORAINE']

## 모든 열 원소에 함수 적용하기

* apply 메소드 사용
* map 메소드 사용

#### apply와 map의 차이점 : map은 딕셔너리를 입력으로 넣을 수 있고, apply는 매개변수를 지정할 수 있음

In [68]:
def uppercase(x):
    return x.upper()

In [69]:
dataframe['Name'].apply(uppercase)[0:2]

0    ALLEN, MISS ELISABETH WALTON
1     ALLISON, MISS HELEN LORAINE
Name: Name, dtype: object

In [71]:
dataframe['Sex'].map({'female':'woman','male':'man'})[:5]

0    woman
1    woman
2      man
3    woman
4      man
Name: Sex, dtype: object

In [72]:
# 함수의 매개변수를 apply 메소드를 호출할 시 전달가능

dataframe['Age'].apply(lambda x, age: x< age, age=30)[:5]

0     True
1     True
2    False
3     True
4     True
Name: Age, dtype: bool

In [73]:
dataframe.apply(lambda x : max(x))

Name        del Carlo, Mrs Sebastiano (Argenia Genovese)
PClass                                               3rd
Age                                                   71
Sex                                                 male
Survived                                               1
SexCode                                                1
dtype: object

applymap 메소드는 map 메소드와 비슷하게 열의 각 원소에 적용된다

In [75]:
def truncate_string(x):
    if type(x)==str:
        return x[:10]
    return x

In [76]:
# 문자열의 길이를 10글자로 줄임

dataframe.applymap(truncate_string)[0:5]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Mis",1st,29.0,female,1,1
1,"Allison, M",1st,2.0,female,0,1
2,"Allison, M",1st,30.0,male,0,0
3,"Allison, M",1st,25.0,female,0,1
4,"Allison, M",1st,0.92,male,1,0


## 그룹에 함수 적용하기

In [83]:
dataframe.groupby('Sex')['Survived'].apply(lambda x: x.count())

Sex
female    462
male      851
Name: Survived, dtype: int64

## 데이터프레임 연결하기

In [84]:
data_a={'id':['1','2','3'],
       'first':['Kim','Lee','Park'],
       'last':['Minsoo','Minho','Minook']}

dataframe_a=pd.DataFrame(data_a, columns=['id','first','last'])
dataframe_a

Unnamed: 0,id,first,last
0,1,Kim,Minsoo
1,2,Lee,Minho
2,3,Park,Minook


In [86]:
data_b={'id':['4','5','6'],
       'first':['Kim','Lee','Park'],
       'last':['Minjung','Minji','Mingi']}

dataframe_b=pd.DataFrame(data_b, columns=['id','first','last'])
dataframe_b

Unnamed: 0,id,first,last
0,4,Kim,Minjung
1,5,Lee,Minji
2,6,Park,Mingi


In [87]:
# 행 방향으로 데이터프레임 연결

pd.concat([dataframe_a,dataframe_b], axis=0)

Unnamed: 0,id,first,last
0,1,Kim,Minsoo
1,2,Lee,Minho
2,3,Park,Minook
0,4,Kim,Minjung
1,5,Lee,Minji
2,6,Park,Mingi


In [88]:
# 열 방향으로 데이터프레임 연결

pd.concat([dataframe_a, dataframe_b], axis=1)

Unnamed: 0,id,first,last,id.1,first.1,last.1
0,1,Kim,Minsoo,4,Kim,Minjung
1,2,Lee,Minho,5,Lee,Minji
2,3,Park,Minook,6,Park,Mingi


In [92]:
'''
append 메소드를 통해 데이터프레임에 새로운 행 추가 가능
'''

row=pd.Series([10,'Yoo','Naul'], index=['id','first','last'])

dataframe_a.append(row, ignore_index=True)

Unnamed: 0,id,first,last
0,1,Kim,Minsoo
1,2,Lee,Minho
2,3,Park,Minook
3,10,Yoo,Naul


## 데이터프레임 병합하기

In [100]:
employee_data={'employee_id':['1','2','3','4'],
              'name':['Minsoo','Chulsoo','Ghwangsoo','Hyuksoo']}

dataframe_employee=pd.DataFrame(employee_data, columns=['employee_id','name'])
dataframe_employee

Unnamed: 0,employee_id,name
0,1,Minsoo
1,2,Chulsoo
2,3,Ghwangsoo
3,4,Hyuksoo


In [103]:
sales_data={'employee_id':['3','4','5','6'],
          'total_sales':[23456,2312,1234,2433]}
dataframe_sales=pd.DataFrame(sales_data,columns=['employee_id','total_sales'])
dataframe_sales

Unnamed: 0,employee_id,total_sales
0,3,23456
1,4,2312
2,5,1234
3,6,2433


In [104]:
pd.merge(dataframe_employee, dataframe_sales, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Ghwangsoo,23456
1,4,Hyuksoo,2312


#### merge 는 기본적으로 inner join을 수행한다. Outer join이 필요한 경우 how 매개변수로 지정 가능

In [105]:
pd.merge(dataframe_employee, dataframe_sales, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,1,Minsoo,
1,2,Chulsoo,
2,3,Ghwangsoo,23456.0
3,4,Hyuksoo,2312.0
4,5,,1234.0
5,6,,2433.0


In [106]:
pd.merge(dataframe_employee, dataframe_sales, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Minsoo,
1,2,Chulsoo,
2,3,Ghwangsoo,23456.0
3,4,Hyuksoo,2312.0


In [107]:
pd.merge(dataframe_employee,dataframe_sales, on='employee_id',how='right')

Unnamed: 0,employee_id,name,total_sales
0,3,Ghwangsoo,23456
1,4,Hyuksoo,2312
2,5,,1234
3,6,,2433


In [108]:
# 각 데이터프레임에서 병합하기 위한 열 이름을 지정할 수 있음

pd.merge(dataframe_employee, dataframe_sales, left_on='employee_id', right_on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Ghwangsoo,23456
1,4,Hyuksoo,2312
