#### 3.11 행 삭제하기

In [24]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)

# male이 아닌 데이터 제외합니다.
dataframe[dataframe['Sex'] != 'male'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [25]:
# 행을 삭제할 떄는 drop메서드를 사용하거나 불린 조건을 사용한다.

## 'Allison' 씨를 제외합니다.
dataframe[dataframe['Name'] != 'Allison, Miss Helen Loraine'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [26]:
# 행 인덱스를 불린 조건으로 사용하여 삭제하는 것도 가능

## 0번 인덱스를 제외합니다.
dataframe[dataframe.index != 0].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


#### 3.12 중복된 행 삭제하기

In [27]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)

dataframe.drop_duplicates().head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


In [28]:
## drop_duplicates()는 모든 value가 동일할 떄만 행이 삭제됨
print('원본 데이터프레임 행의 수:', len(dataframe))
print('중복 삭제 후 행의 수:', len(dataframe.drop_duplicates()))

원본 데이터프레임 행의 수: 1313
중복 삭제 후 행의 수: 1313


In [31]:
# subset 매개변수를 활용하여 일부 칼럼만을 대상으로 중복된 행 제거가능

## 처음 나타난 male, female 데이터를 남겨놓고 나머지는 모두 제거
dataframe.drop_duplicates(subset = ['Sex'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [32]:
## 매개변수 keep = 'last'를 전달하면 마지막으로 나온 male, female 데이터를 남겨놓고 나머지 모두 제거
dataframe.drop_duplicates(subset = ['Sex'], keep = 'last')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


#### 3.13 값에 따라 행을 그룹핑하기

In [33]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)

# Sex 열의 값으로 행을 그룹핑하고 평균을 계산
dataframe.groupby('Sex').mean()

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


In [34]:
# 단순히 행을 groupby()하는 것으로는 원하는 결과를 얻을 수 없음 -> 그룹에 적용할 연산을 필요로 함

dataframe.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

In [35]:
# 행을 여러번 그룹핑 하는 것도 가능

dataframe.groupby(['Sex', 'Survived'])['Age'].mean()

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

#### 3.14 시간에 따라 행을 그룹핑하기
- resample() 메서드 활용

In [44]:
import pandas as pd
import numpy as np

# 날짜 범위를 만듭니다.
time_index = pd.date_range('06/06/2017', periods = 100000, freq = '30S')

dataframe = pd.DataFrame(index = time_index)

# value는 난수로 구성
dataframe['Sale_Amount'] = np.random.randint(1, 10, 100000)

dataframe.head(3)

Unnamed: 0,Sale_Amount
2017-06-06 00:00:00,5
2017-06-06 00:00:30,6
2017-06-06 00:01:00,2


In [45]:
# 주 단위로 행을 그룹핑한 다음 합을 계산합니다.
dataframe.resample('W').sum()

Unnamed: 0,Sale_Amount
2017-06-11,86504
2017-06-18,100660
2017-06-25,101010
2017-07-02,101066
2017-07-09,100936
2017-07-16,10345


In [47]:
# 2주 단위로 행을 그룹핑한 다음 합을 계산합니다.
dataframe.resample('2W').mean()

Unnamed: 0,Sale_Amount
2017-06-11,5.006019
2017-06-25,5.001736
2017-07-09,5.00997
2017-07-23,4.973558


In [49]:
# 한 달 간격으로 그룹핑하고 행을 카운트 합니다.
dataframe.resample('M').count()

Unnamed: 0,Sale_Amount
2017-06-30,72000
2017-07-31,28000


In [51]:
# resample()메서드는 날짜 범위의 마지막날을 반환
# label = 'left' 매개변수로 기준을 바꿀 수 있음
dataframe.resample('M', label='left').count()

Unnamed: 0,Sale_Amount
2017-05-31,72000
2017-06-30,28000


In [52]:
# MS를 사용하여 인덱스를 월의 시작으로 바꿀 수도 있음
dataframe.resample('MS').count()

Unnamed: 0,Sale_Amount
2017-06-01,72000
2017-07-01,28000


#### 3.15 열 원소 순회하기

In [53]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)

# 반복문 사용하기
for name in dataframe['Name'][0:2]:
    print(name.upper())

ALLEN, MISS ELISABETH WALTON
ALLISON, MISS HELEN LORAINE


In [54]:
# list comprehension 사용하기

[name.upper() for name in dataframe['Name'][0:2]]

['ALLEN, MISS ELISABETH WALTON', 'ALLISON, MISS HELEN LORAINE']

for문을 활용하는 것도 방법이지만, __apply메서드__ 를 활용하는 것이 파이썬 다운 방법

#### 3.16 모든 열 원소에 함수 적용하기

In [56]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)

# 적용할 함수 만들기
def uppercase(x):
    return x.upper()

# apply메서드로 함수를 적용합니다.
dataframe['Name'].apply(uppercase).head(3)

0           ALLEN, MISS ELISABETH WALTON
1            ALLISON, MISS HELEN LORAINE
2    ALLISON, MR HUDSON JOSHUA CREIGHTON
Name: Name, dtype: object

In [57]:
# map 메서드로 함수적용하기
# apply와 map을 동일한 역할을 수행하지만, apply는 매개변수를 지정할 수 있고 map은 딕셔너리를 입력으로 넣을 수 있음

dataframe['Survived'].map({1:'Live', 0:'Dead'}).head(5)

0    Live
1    Dead
2    Dead
3    Dead
4    Live
Name: Survived, dtype: object

In [58]:
# 함수의 매개변수를 apply 메서드를 호출할 때 전달할 수 있습니다.
dataframe['Age'].apply(lambda x, age : x<age, age=30).head()

0     True
1     True
2    False
3     True
4     True
Name: Age, dtype: bool

In [59]:
# map과는 달리 apply와 applymap은 데이터프레임 전체에 적용 가능
# apply는 데이터프레임 열 전체에 적용
dataframe.apply(lambda x : max(x))

Name        del Carlo, Mrs Sebastiano (Argenia Genovese)
PClass                                               3rd
Age                                                   71
Sex                                                 male
Survived                                               1
SexCode                                                1
dtype: object

In [63]:
# 문자열을 최대 20개 까지만 출력하는 함수
def truncate_string(x):
    if type(x) == str:
        return x[:20]
    return x

# applymap은 데이터 프레임 각 원소에 적용
dataframe.applymap(truncate_string)[:5]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabet",1st,29.0,female,1,1
1,"Allison, Miss Helen",1st,2.0,female,0,1
2,"Allison, Mr Hudson J",1st,30.0,male,0,0
3,"Allison, Mrs Hudson",1st,25.0,female,0,1
4,"Allison, Master Huds",1st,0.92,male,1,0


#### 3.17 그룹에 함수 적용하기

In [64]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'
dataframe = pd.read_csv(url)

# groupby() 메서드로 그룹핑 후 함수를 적용
dataframe.groupby('Sex').apply(lambda x: x.count())

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,462,462,288,462,462,462
male,851,851,468,851,851,851


#### 3.18 데이터프레임 연결하기

In [66]:
import pandas as pd

data_a = {'id' : ['1', '2', '3'],
          'first' : ['Alex', 'Amy', 'Allen'],
          'last' : ['Anderson', 'Ackerman', 'Ali']}
dataframe_a = pd.DataFrame(data_a)

data_b = {'id' : ['4', '5', '6'],
          'first' : ['Billy', 'Brian', 'Bran'],
          'last' : ['Bonder', 'Black', 'Balwner']}
dataframe_b = pd.DataFrame(data_b)

# 행 방향으로 데이터프레임을 연결합니다.
pd.concat([dataframe_a, dataframe_b], axis = 0)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner


In [67]:
# 열 방향으로 데이터 프레임을 연결합니다.
pd.concat([dataframe_a, dataframe_b], axis=1)

Unnamed: 0,id,first,last,id.1,first.1,last.1
0,1,Alex,Anderson,4,Billy,Bonder
1,2,Amy,Ackerman,5,Brian,Black
2,3,Allen,Ali,6,Bran,Balwner


In [69]:
# append 메서드로 데ㅣ터프레임에 새로운 행을 추가 가능
row = pd.Series([10, 'Chris', 'Chillon'], index = ['id', 'first', 'last'])

# 행을 추가합니다.
dataframe_a.append(row, ignore_index= True)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,10,Chris,Chillon


#### 3.19 데이터프레임 병합하기

In [73]:
import pandas as pd

employee_data = {'employee_id' : ['1', '2', '3', '4'],
                 'name' : ['Amy Jones', 'Allen Keys', 'Alice Bees', 'Tim Horton']}
dataframe_employees = pd.DataFrame(employee_data, columns = ['employee_id', 'name'])


sales_data = {'employee_id' : ['3', '4', '5', '6'],
              'total_sales' : [23456,2512,2345,1455]}
dataframe_sales = pd.DataFrame(sales_data, columns = ['employee_id', 'total_sales'])

# 데이터 프레임을 병합합니다.
pd.merge(dataframe_employees, dataframe_sales, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


In [74]:
# merge는 내부조인이 디폴트 값 (두 데이터프레임 모두 공유하는 행만 가져올 것 = 교집합)
# how 매개변수로 외부조인도 지정 가능 (두 데이터프레임이 가지고 있는 모든 행을 가져올 것 = 합집합)

pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0
4,5,,2345.0
5,6,,1455.0


In [75]:
# 매개변수 how를 통해 왼쪽 조인, 오른쪽 조인도 지정가능

pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0


In [76]:
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='right')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512
2,5,,2345
3,6,,1455


In [77]:
# 병합의 기준이 되는 칼럼명도 지정가능
pd.merge(dataframe_employees, dataframe_sales,
         left_on = 'employee_id', right_on = 'employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


만약 데이터프레임의 특정열이 아닌 인덱스를 기준으로 병합하려면 left_on / right_on 대신 left_index=True / right_index=True  

__merge()__ 메서드를 사용할 때 기억해야 할 것
1. 병합할 두개의 데이터 프레임 지정
2. 병합하기 위한 열의 이름을 지정(인덱스도 가능) : 기준 열의 이름이 같으면 on='칼럼명', 다르면 left_on = '칼럼명1', right_on = '칼럼명2'
3. 병합 연산의 종류(어느 데이터프레임을 기준으로 병합할 것인지 지정) : 내부 / 외부 / 좌측 / 우측 