## 데이터 랭글링
- 원본 데이터를 정제하고 사용 가능한 형태로 구성하기 위한 변환 과정을 광범위하게 의미하는 비공식적인 용어입니다.
- 데이터 랭글링에 사용되는 가장 일반적인 데이터 구조는 데이터 프레임이다.
- 데이터 프레임: 표 형식 데이터로 행과 열을 기반으로 한다.

### 데이터 프레임
- 각 행은 하나의 샘플에 해당한다. 각 열은 하나의 특성에 해당한다.
- 각 행은 인덱스 숫자를 가지고 각 열은 하나의 특성에 해당한다.
- 모든 특성(열)은 고유해야 한다. 겹치면 열을 삭제해야 한다.

In [2]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


책에 있는 주소는 이제 더 이상 사용이 안되므로 새로운 주소로 업데이트 했다.

In [3]:
import pandas as pd

dataframe = pd.DataFrame()   # 속이 빈 새로운 데이터 프레임을 생성했다.

dataframe['Name'] = ['Jacky Jackson', 'Steven Stevenson']
dataframe['Age'] = [38, 25]
dataframe['Driver'] = [True, False]

dataframe

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


In [4]:
new_person = pd.Series(['Molly Mooney', 40, True], index=['Name', 'Age', 'Driver'])   

dataframe.append(new_person, ignore_index=True)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False
2,Molly Mooney,40,True


Q. pd.DataFrame은 안되나?  
A. 바로 위의 명령어들을 보면 새로 원소를 추가할 때 열 이름을 입력해 주는데 Series는 index를 같이 입력해 줌으로써 그런 수고를 덜어준다.

### __데이터 프레임 객체 만드는 4가지 방법.__
1. 리스트로 만들어서 columns 인자와 함께 pd.DataFrame 사용하기

In [5]:
list1 = [['Jacky Jackson', 38, True], ['Steven Stevenson', 25, False]]
pd.DataFrame(list1, columns=['Name', 'Age', 'Driver'])

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


2. 열 이름과 데이터를 매핑한 딕셔너리로 만들기.

In [6]:
data = {'Name': ['Jacky Jackson', 'Steven Stevenson'],
        'Age':[38, 25],
        'Driver': [True, False]}
pd.DataFrame(data)

Unnamed: 0,Name,Age,Driver
0,Jacky Jackson,38,True
1,Steven Stevenson,25,False


3. 샘플마다 열과 값을 매핑한 딕셔너리를 리스트로 전달할 수 있으며 index(샘플을 나타내는 지수)를 따로 지정할 수 있다.

In [7]:
data = [{'Name': 'Jacky Jackson', 'Age': 38, 'Driver': True}, {'Name': 'Steven Stevenson', 'Age': 25, 'Driver': False}]
pd.DataFrame(data, index=['sample1', 'sample2'])

Unnamed: 0,Name,Age,Driver
sample1,Jacky Jackson,38,True
sample2,Steven Stevenson,25,False


### 데이터 프레임 행, 열 추출하기
데이터프레임의 행과 열을 추출하고 싶다. -> index와 columns method를 사용하면 된다.

In [8]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

print(dataframe.index)
print(dataframe.columns)

RangeIndex(start=0, stop=1313, step=1)
Index(['Name', 'PClass', 'Age', 'Sex', 'Survived', 'SexCode'], dtype='object')


### 데이터 프레임 탐색하기
데이터프레임의 개별 데이터나 일부를 선택하고 싶다. -> loc나 iloc method를 통해 데이터 일부를 선택한다.
- iloc method는 위치를 통해 검색
- loc method는 레이블을 통해 검색

In [9]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

In [10]:
dataframe.iloc[1:3]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


In [11]:
dataframe.iloc[:5]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


각 행을 고유한 값을 가질 수 있다면 어떤 값이든 인덱스가 될 수 있다.

In [14]:
dataframe_set = dataframe.set_index(dataframe['Name'])

print(dataframe_set.head(3))

dataframe_set.loc["Allen, Miss Elisabeth Walton"]

                                                                    Name  \
Name                                                                       
Allen, Miss Elisabeth Walton                Allen, Miss Elisabeth Walton   
Allison, Miss Helen Loraine                  Allison, Miss Helen Loraine   
Allison, Mr Hudson Joshua Creighton  Allison, Mr Hudson Joshua Creighton   

                                    PClass   Age     Sex  Survived  SexCode  
Name                                                                         
Allen, Miss Elisabeth Walton           1st  29.0  female         1        1  
Allison, Miss Helen Loraine            1st   2.0  female         0        1  
Allison, Mr Hudson Joshua Creighton    1st  30.0    male         0        0  


Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                   29
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object

데이터 프레임의 인덱스는 영문자와 숫자로 이루어지거나 임의의 숫자일수 있다.

### 주의할 점: loc와 iloc는 마지막 인덱스를 포함한다.

In [10]:
dataframe_set.loc[:"Allison, Master Hudson Trevor"]

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1
"Allison, Mr Hudson Joshua Creighton","Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
"Allison, Mrs Hudson JC (Bessie Waldo Daniels)","Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
"Allison, Master Hudson Trevor","Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [11]:
dataframe.iloc[:5]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


### 값 치환하기
데이터프레임에 있는 값을 바꾸고 싶다. -> 판다스에 있는 replace를 사용하자.

In [20]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe['Sex'].replace('female', 'Woman').head(5)

0    Woman
1    Woman
2     male
3    Woman
4     male
Name: Sex, dtype: object

- 동시에 여러 개의 값을 리스트를 통해 바꿀 수 있다.

In [9]:
dataframe['Sex'].replace(['female', 'male'], ['Woman', 'Man']).head(5)

0    Woman
1    Woman
2      Man
3    Woman
4      Man
Name: Sex, dtype: object

- 위의 내용들을 열을 선택해서 한 것이고 replace method는 데이터프레임 전체에서 값을 찾아서 바꿀 수 있다.

In [10]:
dataframe.replace(1, "one").head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,one,one
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,one
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,one
4,"Allison, Master Hudson Trevor",1st,0.92,male,one,0


- 여러 개의 열을 선택해서 값을 바꾸듯이 여러 개의 값을 선택해서 동일하게 바꿀 수 있다.

In [11]:
dataframe.replace(["female", 'male'], 'person').head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,person,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,person,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,person,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,person,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,person,1,0


- 혹은 딕셔너리로 여러 개의 값을 각자 다르게 바꿀 수 있다. 매핑을 통해서. map은 리스트의 요소를 지정된 함수로 처리해주는 함수. 리스트나 튜플 그리고 반복 가능한(iterable) 객체를 넣을 수 있다.

In [12]:
dataframe.replace({"female": 1, "male":0}).head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,1,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,1,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,0,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,1,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,0,1,0


### 조건에 해당하는 값 치환하기
열에서 조건에 해당하는 값을 치환하고 싶다. -> 판다스의 loc method를 사용하자.

In [28]:
import pandas as pd

dataframe1 = pd.read_csv(url)
dataframe1.loc[dataframe1["Age"] < 20, "Age"] = 'boys or girs'
dataframe1["Age"]

0                 29
1       boys or girs
2                 30
3                 25
4       boys or girs
            ...     
1308              27
1309              26
1310              22
1311              24
1312              29
Name: Age, Length: 1313, dtype: object

주의할 점이 있다. 명령어에서 조건만 쓰고 값을 입력하면 샘플의 전체 값이 변경되기 때문에 쉼표와 함께 조건문 옆에 값을 입력할 열의 이름 또한 입력해야 한다.

다른 방법으로 위와 동일한 변환을 해보겠다(.apply() method).

In [27]:
dataframe2 = pd.read_csv(url)
fix = lambda x: "Boys or Girs" if x < 20 else x
dataframe2["Age"] = dataframe2["Age"].apply(fix)
dataframe2["Age"]

0                 29
1       Boys or Girs
2                 30
3                 25
4       Boys or Girs
            ...     
1308              27
1309              26
1310              22
1311              24
1312              29
Name: Age, Length: 1313, dtype: object

### 열 이름 바꾸기.
판다스 데이터프레임의 열 이름을 바꾸고 싶다. -> rename method를 사용한다.

In [13]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

dataframe = pd.read_csv(url)

dataframe.rename(columns={'PClass': 'Passenger Class'}).head(5)   # dictionary 형태임을 유의하라.

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


물론 여러 개의 이름을 바꾸는 것도 가능하다.

In [14]:
dataframe.rename(columns={'Name':'ID', "Sex":"Male or Female"}).head(5)

Unnamed: 0,ID,PClass,Age,Male or Female,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


반드시 columns 매개변수에 딕셔너리를 전달해야 한다.

- 전체 열의 이름을 동시에 바꿀 때. 키는 이전 열 이름을 사용하고 값은 비어있는 딕셔너리를 만드는 것이 편리하다.

In [15]:
import collections

column_names = collections.defaultdict(str)   # 초기값을 str로 설정했다.
for name in dataframe.columns:
    column_names[name]
    
column_names

defaultdict(str,
            {'Name': '',
             'PClass': '',
             'Age': '',
             'Sex': '',
             'Survived': '',
             'SexCode': ''})

### 그 외에도 열 이름을 덮어쓰거나 기존문자를 바꾸는 방법이 있다.
- 새 열 이름 덮어쓰기
- 기존 문자를 대체 문자로 바꾸기
- prefix 사용
- suffix 사용

In [17]:
# 열 이름 덮어쓰기

dataframe.columns = ['이름', '위치', '나이', '성별', '생존여부', '성 번호']
dataframe

Unnamed: 0,이름,위치,나이,성별,생존여부,성 번호
0,"Allen, Miss Elisabeth Walton",1st,29.00,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.00,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.00,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.00,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
...,...,...,...,...,...,...
1308,"Zakarian, Mr Artun",3rd,27.00,male,0,0
1309,"Zakarian, Mr Maprieder",3rd,26.00,male,0,0
1310,"Zenni, Mr Philip",3rd,22.00,male,0,0
1311,"Lievens, Mr Rene",3rd,24.00,male,0,0


In [19]:
dataframe.columns = dataframe.columns.str.replace(' ', '_')
dataframe

Unnamed: 0,이름,위치,나이,성별,생존여부,성_번호
0,"Allen, Miss Elisabeth Walton",1st,29.00,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.00,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.00,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.00,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
...,...,...,...,...,...,...
1308,"Zakarian, Mr Artun",3rd,27.00,male,0,0
1309,"Zakarian, Mr Maprieder",3rd,26.00,male,0,0
1310,"Zenni, Mr Philip",3rd,22.00,male,0,0
1311,"Lievens, Mr Rene",3rd,24.00,male,0,0


In [26]:
df1 = dataframe.add_prefix('@_')
df1

Unnamed: 0,@_이름,@_위치,@_나이,@_성별,@_생존여부,@_성_번호
0,"Allen, Miss Elisabeth Walton",1st,29.00,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.00,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.00,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.00,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
...,...,...,...,...,...,...
1308,"Zakarian, Mr Artun",3rd,27.00,male,0,0
1309,"Zakarian, Mr Maprieder",3rd,26.00,male,0,0
1310,"Zenni, Mr Philip",3rd,22.00,male,0,0
1311,"Lievens, Mr Rene",3rd,24.00,male,0,0


'성 번호'가 '성_번호'로 바뀐 것을 알 수 있다.

In [23]:
df2 = dataframe.add_suffix('_@')
df2

Unnamed: 0,이름_@,위치_@,나이_@,성별_@,생존여부_@,성_번호_@
0,"Allen, Miss Elisabeth Walton",1st,29.00,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.00,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.00,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.00,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0
...,...,...,...,...,...,...
1308,"Zakarian, Mr Artun",3rd,27.00,male,0,0
1309,"Zakarian, Mr Maprieder",3rd,26.00,male,0,0
1310,"Zenni, Mr Philip",3rd,22.00,male,0,0
1311,"Lievens, Mr Rene",3rd,24.00,male,0,0


add_prefix와 add_suffix는 열이름 앞과 뒤에 특정 문자를 추가해주는 method로 statement이기 때문에 새로운 변수를 생성해야 한다.

### 고유한 값 찾기
열에서 고유한 값을 찾고 싶다. -> unique method 사용
- unique method는 고유한 값을 모두 출력.
- value_counts method는 고유한 값과 등장 횟수를 출력.
- unique와 value_counts method는 범주형 열을 탐색하거나 조작할 때 유용하다.
- nunique method는 고유한 값의 개수만 얻고 싶을 때 사용.

In [32]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

df = pd.read_csv(url)

df['PClass'].unique()

array(['1st', '2nd', '*', '3rd'], dtype=object)

In [33]:
df.nunique()

Name        1310
PClass         4
Age           75
Sex            2
Survived       2
SexCode        2
dtype: int64

### 행 삭제하기
데이터프레임에서 하나 이상의 행을 삭제하고 싶다. -> 불리언 조건을 사용하여 새로운 데이터프레임을 생성하라.
- drop method는 열을 삭제할 때 가장 유용한 방법이다.
- drop method는 axis=0으로 둬서 행을 삭제할 수 있지만 특정 숫자들을 입력해야 되서 번거롭다.
- 불리언 조건을 사용하면 고유한 값에 해당하는 하나의 행을 간단하게 삭제할 수 있다.

In [35]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

df = pd.read_csv(url)

df[df['Sex'] != 'male'].head(5) 

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1


### 중복된 행 삭제하기
데이터프레임에서 중복된 행을 삭제하고 싶다. -> drop_duplicates를 사용한다.
- drop_duplicates는 기본적으로 모든 열이 완벽히 동일한 행만 삭제한다.
- 일부 대상만으로 중복됐는지 확인하기 위해서는 subset 매개변수를 사용하면 된다.
- drop_duplicates method는 기본적으로 중복된 행에서 처음 값을 제외한 나머지 값을 버린다. 반대로 마지막 값을 남게 하려면 keep 매개변수를 사용하면 된다.

In [36]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

df = pd.read_csv(url)

df.drop_duplicates().head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0


실은 중복된 게 없어서 삭제된 것도 없다.

In [38]:
df.drop_duplicates(subset=['PClass']).head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
322,"Abelson, Mr Samuel",2nd,30.0,male,0,0
456,Jacobsohn Mr Samuel,*,,male,0,0
602,"Abbing, Mr Anthony",3rd,42.0,male,0,0


In [40]:
df.drop_duplicates(subset=['PClass'], keep='last').head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
321,"Wilson, Ms Helen",1st,,female,1,1
456,Jacobsohn Mr Samuel,*,,male,0,0
601,"Swane, Mr George",2nd,18.0,male,0,0
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


'PClass'가 \*인 이상치를 제외하고 모두 마지막에 있는 값들이 선택됐다.

### 값에 따라 행을 그룹핑하기.
어떤 값을 기준으로 개별 행을 그룹핑하고 싶다. → groupby method를 사용한다.
- groupby에서 데이터 랭글링이 시작된다. 
- groupby만 사용한다면 유용한 값을 반환하지 않는다.
- groupby는 통계 계산과 같이 각 그룹에 적용할 연산을 필요로 한다.
- 두 개 이상의 기준으로 정렬하고 싶을 경우 리스트를 이용해 입력하면 된다.

In [53]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

df = pd.read_csv(url)

df.groupby('Sex').mean()

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


In [45]:
df.groupby('Sex')['Name'].count()

Sex
female    462
male      851
Name: Name, dtype: int64

여성의 이름의 개수가 462개. 남성의 이름의 개수가 851개 나왔다.

In [57]:
df.groupby(['Sex', 'Survived'])['Age'].count()

Sex     Survived
female  0            71
        1           217
male    0           372
        1            96
Name: Age, dtype: int64

Sex와 Survived를 기준으로 정렬된 뒤 Age의 수를 세줬다.

### 모든 열 원소에 함수 적용하기.
모든 열에 있는 원소에 어떤 함수를 적용하고 싶다. → apply method를 사용해서 내장 함수나 사용자 정의 함수를 적용한다.
- apply method는 데이터 정제와 랭글링에 매우 유용하다. 필요한 연산을 수행하기 위해 작성된다. 
- apply method는 매개변수를 필요로 한다.
- apply와 유사한 map method는 dictionary를 인자로 필요로 한다.
- 데이터프레임 열 전체에 적용하는 method는 apply와 applymap이 있다.
- apply는 열 전체에 적용. map과 applymap은 열의 각 원소에 적용

In [59]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

df = pd.read_csv(url)

def upper(x):
    return x.upper()

df['Name'].apply(upper).head(5)1

0                     ALLEN, MISS ELISABETH WALTON
1                      ALLISON, MISS HELEN LORAINE
2              ALLISON, MR HUDSON JOSHUA CREIGHTON
3    ALLISON, MRS HUDSON JC (BESSIE WALDO DANIELS)
4                    ALLISON, MASTER HUDSON TREVOR
Name: Name, dtype: object

In [60]:
df['Survived'].map({1:'Live', 0:'Dead'})[:5]

0    Live
1    Dead
2    Dead
3    Dead
4    Live
Name: Survived, dtype: object

In [62]:
df['Age'].apply(lambda x: x * 2).head(5)

0    58.00
1     4.00
2    60.00
3    50.00
4     1.84
Name: Age, dtype: float64

In [64]:
df.apply(lambda x: min(x))

Name        Abbing, Mr Anthony
PClass                       *
Age                       0.17
Sex                     female
Survived                     0
SexCode                      0
dtype: object

In [66]:
def truncate_number(x):
    if type(x) == float:
        if x < 30:
            return 'young'
        else:
            return 'old'
    else:
        return x
        
df.applymap(truncate_number)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,young,female,1,1
1,"Allison, Miss Helen Loraine",1st,young,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,old,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,young,female,0,1
4,"Allison, Master Hudson Trevor",1st,young,male,1,0
...,...,...,...,...,...,...
1308,"Zakarian, Mr Artun",3rd,young,male,0,0
1309,"Zakarian, Mr Maprieder",3rd,young,male,0,0
1310,"Zenni, Mr Philip",3rd,young,male,0,0
1311,"Lievens, Mr Rene",3rd,young,male,0,0


### 그룹에 함수 적용.
groupby로 행을 그룹핑하고 각 그룹에 함수를 적용하고 싶다. → groupb와 apply method를 연결해서 사용한다.

In [67]:
import pandas as pd

url = 'https://raw.githubusercontent.com/chrisalbon/simulated_datasets/master/titanic.csv'

df = pd.read_csv(url)

df.groupby('Survived').apply(lambda x: x.count())

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Survived,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,863,863,443,863,863,863
1,450,450,313,450,450,450


# 데이터 프레임 연결 병합 추가 필요 