# COSADAMA Introduction to Data Science Study

- 작성자: 조용주
- 참고자료: 2020년 코사다마 데이터 분석 커리큘럼(박하람), 파이썬 머신러닝 완벽 가이드(권철민), 비주얼 프로그래밍 수업(김승태), 파이썬으로 데이터 주무르기(민형기)

이번 주차에는 데이터 분석 전문 모듈인 Pandas에 대해 공부합니다. 앞으로 가장 많이 사용하게 되실 모듈이니 꼼꼼히 공부하시고, 스스로 사용해보시며 친해지시길 바랍니다.

## 데이터 분석 끝판왕, Pandas

pandas는 파이썬에서 데이터 처리를 위해 존재하는 가장 인기 있는 라이브러리입니다. 일반적으로 대부분의 데이터 세트는 2차원 데이터입니다. 즉, **행(row)X열(column)**으로 구성돼 있습니다.(excel 시트를 떠올려볼 것) 행과 열의 2차원 데이터가 인기 있는 이유는 바로 인간이 가장 이해하기 쉬운 데이터 구조이면서도 효과적으로 데이터를 담을 수 있는 구조이기 때문입니다. **판다스는 이처럼 행과 열로 이뤄진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양하고 훌륭한 기능을 제공합니다.**

앞 절에서 넘파이를 소개했지만, 넘파이의 데이터 핸들링은 편하다고 말하기 어렵습니다. 판다스는 많은 부분이 넘파이 기반으로 작성됐는데, 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링을 가능하게 해줍니다. **판다스는 파이썬의 리스트, 컬렉션, 넘파이 등의 내부 데이터 뿐만 아니라 CSV 등의 파일을 쉽게 DataFrame으로 변경해 데이터의 가공/분석을 편리하게 수행할 수 있게 만들어줍니다.** 

판다스가 파이썬 세계의 대표적인 데이터 핸들링 프레임워크지만, 이 또한 모든 것을 다 정복하겠다라는 생각을 버립시다. 판다스만 해도 별도의 책 한권 분량이 필요하거든요. 지금부터 다룰 판다스 내용들은 정말로 기본 중의 기본만 다루구나 생각하시면 되겠습니다. 이 파트를 보시고 우리 주교재를 보시면 조금 더 이해하기 쉬울 것이라 생각됩니다. 

#### 준비물
오른쪽 링크를 클릭해 캐글 사이트에 가입한 후, 아래 Data Source 란에 위치한 [캐글의 타이타닉 train.csv](https://www.kaggle.com/c/titanic/data) 을 다운받아 자신이 실습하고 있는 파일과 같은 폴더에 넣어두기

#### 판다스 import 하기

In [1]:
import sys 
sys.path.append("/usr/local/lib/python3.8/site-packages")

In [2]:
import pandas as pd

#### 판다스의 자료구조 

- **Series**: 1차원 배열의 자료구조, 인덱스와 함께 구성되어 있음
- **DataFrame**: 2차원 배열의 자료구조 
- Series와 DataFrame의 가장 큰 차이는 Series는 칼럼이 하나뿐인 데이터 구조체이고, DataFrame은 칼럼이 여러 개인 데이터 구조체라는 것

In [3]:
# Series
obj = pd.Series([4,7,-5,3])   # 인덱스와 결합된 자료 
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
obj.values

array([ 4,  7, -5,  3])

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
# 인덱스 지정도 가능함 
obj2 = pd.Series([4,7,-5,3], index=['d','b','a','c'])
obj2   # 항상 어떤 데이터가 들어있는지 확인해보는 것 잊지말기!

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2['d'] = 6
obj2

d    6
b    7
a   -5
c    3
dtype: int64

In [8]:
# 딕셔너리에서 Series 만들기 
sdata = {'Ohio': 35000, 'Texas':71000,
        'Oregon':16000, 'Utah':5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [9]:
# 인덱스를 이런 식으로 설정하는 것도 가능
state = ['California','Ohio','Oregon','Texas']
obj4 = pd.Series(sdata, index=state)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

#### 판다스의 DataFrame

- DataFrame은 **컬럼, 인덱스, 데이터** 이 3가지로 구성
- 여러 개의 행과 열로 이뤄진 2차원 데이터를 담는 데이터 구조체 
- DataFrame은 여러 개의 Series로 이뤄졌다고 할 수 있음

In [10]:
# 딕셔너리를 이용해 DataFrame 생성하기 
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
       'year':[2000,2001,2002,2001,2002],
       'pop':[1.5,1.7,3.6,2.4,2.9]}
df = pd.DataFrame(data)
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [11]:
# 칼럼을 원하는 순서대로 보기 
df2 = pd.DataFrame(data, columns=['year','state','pop'])
df2

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


In [12]:
# 인덱스를 지정하고 싶다면
df3 = pd.DataFrame(data, columns=['year','state','pop','debt'],
                  index=['one','two','three','four','five'])
df3

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


- NaN: Not a Number, 값이 없다!

#### 파일을 DataFrame으로 로딩하기 

- 판다스는 다양한 포맷으로 된 파일을 DataFrame으로 로딩할 수 있는 편리한 API를 제공함. 
- **pd.read_csv('파일경로명')**: CSV 뿐만 아니라 어떤 필드 구분 문자 기반의 파일 포맷도 DataFrame으로 변환시킴
- read_csv()에 파일경로를 명확히 적어주거나, 같은 폴더에 넣어야만 파일이 로딩됨
- 파일이름을 정확히 적었는지 확인하세요!

In [13]:
titanic_df = pd.read_csv('titanic_train.csv')
titanic_df.head()  # 데이터가 너무 많을 때는 앞의 5개만

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [14]:
type(titanic_df)

pandas.core.frame.DataFrame

In [15]:
# 뒤의 5개만
titanic_df.tail()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [16]:
# 앞의 10개만 
titanic_df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


#### DataFrame의 데이터 한번에 알아보기

- DataFrame은 데이터뿐만 아니라 칼럼의 타입, Null 데이터 개수, 데이터 분포도 등의 메타 데이터 등도 조회가 가능함. 

In [17]:
# DataFrame의 행과 열 크기 알아보기 
titanic_df.shape

(891, 12)

아하! 총 891개의 row와 12개의 column으로 이루어져 있구나!

In [18]:
# DataFrame의 총 데이터 건수, 데이터 타입, Null 건수
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


- 0 to 890: 전체 row 수 
- 891, 891, ... 714, ...: 이 행은 각 칼럼에서 몇개의 데이터가 non-null인지 나타냄. 그럼 714개가 있다는 건 분명 뭔가 missing data가 있다는 말이겠죠?!
- non-null: null값이 아닌 것.(값이 있다는 것)
- object는 편하게 파이썬에서 배운 문자열이라고 생각하면 됩니다.

In [19]:
# DataFrame의 통계요약 정보 
titanic_df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


갠적으로 판다스는 이런 부분에 있어서 정말 대박이라고 생각해요..! **코드 하나만으로 모든 데이터의 수, 평균, 표준편차, 최솟값, 최댓값 등을 모두 알려주잖아요.** 

- desribe()는 오직 **숫자형 데이터값**만 계산해줍니다. 총 칼럼이 12개여야 하는데 빠진 칼럼들이 많이 보이죠? 그게 숫자형 칼럼이 아니라서 계산을 하지 않은 거에요. 그래서 데이터 타입을 아는 것도 중요합니다. 
- 25%, 50%, 75% 등: 칼럼별 숫자형 데이터값의 n-percentile 분포도

In [20]:
# DataFrame 중 'Pclass' 칼럼만 떼어보기 
titanic_Pclass = titanic_df['Pclass']
titanic_Pclass

0      3
1      1
2      3
3      1
4      3
      ..
886    2
887    1
888    3
889    1
890    3
Name: Pclass, Length: 891, dtype: int64

In [21]:
# 특정한 여러가지 칼럼만 떼어보기 
titanic_df[['Pclass','Age']]   # 여러 개 칼럼은 [ ]로 감싸주는 법 잊지마세요!

Unnamed: 0,Pclass,Age
0,3,22.0
1,1,38.0
2,3,26.0
3,1,35.0
4,3,35.0
...,...,...
886,2,27.0
887,1,19.0
888,3,
889,1,26.0


- **value_count()**: 데이터의 분포도를 확인하는데 유용한 함수. Series 형태로 반환되며 해당 칼럼값의 유형과 건수를 확인할 수 있음.

In [22]:
titanic_df['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

즉, Pclass가 3인 것이 491개, 1인 것이 216개, 2인 것이 184개!

#### 새로운 칼럼 데이터 세트 생성과 수정 

In [23]:
# 새로운 칼럼 'Age_0' 추가하기
titanic_df['Age_0'] = 0
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0


맨 끝에 Age_0 칼럼이 생겨서 모두 값이 0으로 바뀐게 보이죠? 저렇게 상수를 적어주면 모든 데이터 세트에 일괄적으로 적용이 되어요.

In [24]:
# 기존 칼럼을 이용해 새로운 칼럼 만들기 
titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,220.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,380.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,260.0


Age 컬럼의 값에다 곱하기 10을 해준 값을 Age_by_10 컬럼에다가 넣어준 것이죠!

In [25]:
# 기존 칼럼 값도 일괄적으로 업데이트하기 
titanic_df['Age_by_10'] = titanic_df['Age_by_10'] + 100
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,0,320.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,0,360.0


앞서 만들어주었던 Age_by_10 칼럼에다 100을 더해주면 일괄적으로 100이 더해진 것을 볼 수 있죠.

#### DataFrame 데이터 삭제

- **drop()**: 칼럼과 로우를 삭제할 수 있는 중요한 함수
- DataFrame.drop(**labels=None**, **axis=0**, index=None, columns=None, level=None, **inplace=False**, errors='raise') 이러한 파라미터들을 가지고 있습니다. 굵은 글씨체가 알아야 할 파라미터들이에요. 따로 파라미터를 변경해주지 않으면 이것이 기본값입니다.

In [26]:
# 내가 어떤 파라미터들이 있는지 모를 때는? 
df.drop?

Parameters

- labels : single label or list-like
    Index or column labels to drop.
- axis : {0 or 'index', 1 or 'columns'}, default 0
    Whether to drop labels from the index (0 or 'index') or
    columns (1 or 'columns').***
- inplace : bool, default False
    If True, do operation inplace and return None.

이렇게 파라미터들이 뭔지 알 수 있답니다. 이것도 감이 안 온다면? 
아래 예시들을 통해서 직접 실습해보면 더욱 더 빠르게 익힐 수 있어요! 진짜 이거 레알 꿀팁임💖

- label은 drop하고 싶은 칼럼이나 인덱스를 넣어주면 됩니다.
- DataFrame은 **axis=0**이 **row**를 말하며, **axis=1**이 **column**을 의미해요. drop()의 default는 axis=0이에요.

In [27]:
# 인덱스 1번째 줄을 없애야지
titanic_df.drop(1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0,320.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0,360.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,0,450.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0,450.0
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q,0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0,370.0
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0,290.0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0,
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,0,360.0


In [28]:
# Age_0 칼럼을 삭제하고 싶다! 칼럼 삭제시 반드시 axis=1을 추가해줘야 합니다.
titanic_drop_df = titanic_df.drop('Age_0', axis=1)
titanic_drop_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_by_10
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,320.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,480.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,360.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,450.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,450.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,370.0
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,290.0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,360.0


In [29]:
# 더 간단하게 이렇게도 표시 가능합니다. 
titanic_drop_df = titanic_df.drop('Age_by_10', 1)
titanic_drop_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,0


어..어..어? 그런데 아래를 보니까 뭔가가 이상하죠?

In [30]:
titanic_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Age_0,Age_by_10
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,0,320.0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,480.0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0,360.0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,0,450.0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0,450.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0,370.0
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0,290.0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0,
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,0,360.0


앞에서 분명 Age_by_10 칼럼을 지워졌는데 왜 titanic_df에는 이 칼럼이 살아있을까요? 
**titanic_df.drop('Age_by_10', 1)**을 따로 변수에 담아주지 않았기 때문이에요! 

- 이것은 **inplace 파라미터**와 관련이 있어요. drop은 default 값이 inplace=False인데, 이것의 의미는 원본 데이터는 변경되지 않고 새로 만들어준 변수에다가만 적용되기 때문이에요. 
- 그래서 원본 데이터에도 똑같은 것을 적용하기를 원한다면 아래와 같이 inplace=True를 하면 됩니다.

In [31]:
drop_result = titanic_df.drop(['Age_0','Age_by_10'], axis=1, inplace=True)
drop_result  # 아무것도 반환되지 않음

In [32]:
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


그러나 inplace=True는 정말 조심해서 사용하여야 합니다. 
- 원본 데이터가 유실될 수 있다는 점에서 위험해요. 잘못 되어 중요한 원본 데이터가 없어지면 다시 데이터를 로드해야 합니다. 
- 한번 inplace=True를 실행하면 그 후에는 이미 여러분이 지우기로 한 데이터가 지워졌기 때문에, 다시 해당 코드를 실행한다고 하면 오류가 뜨게 됩니다. (무슨 말인지 이해가 잘 안 간다면 그냥 just 아, 이건 딱 한번만 써야 겠구나 생각하세요.) 
 
그래서 저는 원본 데이터를 살리는 방향을 선택할 것 같습니다. (그러나 어떤 상황이냐에 따라서 달라질 수 있어요. 너무나 데이터가 많아서 로딩하는데 엄청난 시간이 걸린다면 정말로 필요없는 데이터는 확확 지워야 하는 경우가 생길 수도 있죠...!) 

In [33]:
# 다수의 인덱스 삭제하기 
titanic_df.drop([0,1,2])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [34]:
# 데이터를 가지고 장난을 쳤으니 다시 되돌려 놓읍시다.
titanic_df = pd.read_csv('titanic_train.csv')
titanic_df.head()  

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### 데이터 셀렉션 및 필터링

In [35]:
# row로 슬라이싱
titanic_df[0:2]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [36]:
# 불린 인덱싱(조건을 넣어 인덱싱하기): Pclass 컬럼 값이 3인 row만 가져와라!
titanic_df[titanic_df['Pclass'] == 3].head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


- **iloc[]**: 위치 기반 인덱싱. 0을 출발점으로 하는 가로축, 세로축 좌표 기반의 행과 열 위치를 기반으로 데이터를 지정함. 앞에 i가 붙어있으니 index할 때의 i라 생각하면 더 쉽겠죠?
- **loc[]**: 명칭 기반 인덱싱. 칼럼의 명칭을 기반으로 위치를 지정하는 방식.
- ix[]로 하는 인덱싱 방식도 있지만 이게 곧 사라집니다. 그래서 위의 2개를 사용하는 것이 더 좋겠죠!

In [37]:
titanic_df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [38]:
titanic_df.iloc[0,3]

'Braund, Mr. Owen Harris'

In [39]:
titanic_df.iloc[2,8]

'STON/O2. 3101282'

In [40]:
titanic_df.loc[0,'Name']

'Braund, Mr. Owen Harris'

In [41]:
titanic_df.loc[2, 'Ticket']

'STON/O2. 3101282'

여기서 문제! 

**Q. 타이타닉 승객들 중 나이가 60세 초과인 사람들의 이름과 나이를 알고 싶다면?**

In [42]:
# 불린 인덱싱 
titanic_df[titanic_df['Age'] > 60][['Name', 'Age']].head()

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0
116,"Connors, Mr. Patrick",70.5
170,"Van der hoef, Mr. Wyckoff",61.0


진짜 꿀이죠? 파이썬 프로그래밍만으로 이렇게 하려면 정말 많은 코드를 작성해야 할텐데, 이건 단지 1줄로 이렇게 간단하게 만들어낼 수 있습니다! **불린 인덱싱**은 매우 편리한 데이터 필터링 방식이에요. 앞서 말씀드린 iloc이나 loc을 사용해 명확히 인덱싱을 지정하는 방식보다 불린 인덱싱에 의존해 데이터를 가져오는 경우가 더 많아요.

In [43]:
# loc[]을 통해서도 할 수 있어요. 
titanic_df.loc[titanic_df['Age'] > 60, ['Name','Age']].head()

Unnamed: 0,Name,Age
33,"Wheadon, Mr. Edward H",66.0
54,"Ostby, Mr. Engelhart Cornelius",65.0
96,"Goldschmidt, Mr. George B",71.0
116,"Connors, Mr. Patrick",70.5
170,"Van der hoef, Mr. Wyckoff",61.0


복합 연산자 조건 : 
1. and 조건일 때는 &
2. or 조건일 때는 |
3. Not 조건일 때는 ~

여기서 다시 질문! 

**Q. 나이가 60세 초과이고, 선실 등급이 1등급이며, 성별이 여성인 승객 리스트를 구하시오.**

In [44]:
titanic_df[(titanic_df['Age'] > 60) 
           & (titanic_df['Pclass'] == 1) 
           & (titanic_df['Sex'] == 'female')]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


이렇게 복합 연산자 조건일 때는 ( )를 사용해서 개별 조건을 묶어주어야 합니다. 

개별 조건을 변수에 할당하고 이들 변수를 결합해서 불린 인덱싱을 수행할 수도 있어요. 

In [45]:
cond1 = titanic_df['Age'] > 60
cond2 = titanic_df['Pclass'] == 1
cond3 = titanic_df['Sex'] == 'female'
titanic_df[cond1 & cond2 & cond3]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
275,276,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S
829,830,1,1,"Stone, Mrs. George Nelson (Martha Evelyn)",female,62.0,0,0,113572,80.0,B28,


#### DataFrame 정렬하기 

- **sort_values()** 메서드를 이용해 정렬

In [46]:
# by 안에 특정 칼럼이름을 넣으면 그 칼럼 기준으로 정렬
titanic_sorted = titanic_df.sort_values(by=['Name'])
titanic_sorted

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
845,846,0,3,"Abbing, Mr. Anthony",male,42.0,0,0,C.A. 5547,7.5500,,S
746,747,0,3,"Abbott, Mr. Rossmore Edward",male,16.0,1,1,C.A. 2673,20.2500,,S
279,280,1,3,"Abbott, Mrs. Stanton (Rosa Hunt)",female,35.0,1,1,C.A. 2673,20.2500,,S
308,309,0,2,"Abelson, Mr. Samuel",male,30.0,1,0,P/PP 3381,24.0000,,C
874,875,1,2,"Abelson, Mrs. Samuel (Hannah Wizosky)",female,28.0,1,0,P/PP 3381,24.0000,,C
...,...,...,...,...,...,...,...,...,...,...,...,...
286,287,1,3,"de Mulder, Mr. Theodore",male,30.0,0,0,345774,9.5000,,S
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.0,0,0,345778,9.5000,,S
361,362,0,2,"del Carlo, Mr. Sebastiano",male,29.0,1,0,SC/PARIS 2167,27.7208,,C
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.5,0,2,A/5. 851,14.5000,,S


In [47]:
# Pclass와 Name 기준으로 내림차순 정렬하기 
titanic_sorted = titanic_df.sort_values(by=['Pclass','Name'], ascending=False)
titanic_sorted

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
868,869,0,3,"van Melkebeke, Mr. Philemon",male,,0,0,345777,9.5000,,S
153,154,0,3,"van Billiard, Mr. Austin Blyler",male,40.50,0,2,A/5. 851,14.5000,,S
282,283,0,3,"de Pelsmaeker, Mr. Alfons",male,16.00,0,0,345778,9.5000,,S
286,287,1,3,"de Mulder, Mr. Theodore",male,30.00,0,0,345774,9.5000,,S
559,560,1,3,"de Messemaeker, Mrs. Guillaume Joseph (Emma)",female,36.00,1,0,345572,17.4000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
460,461,1,1,"Anderson, Mr. Harry",male,48.00,0,0,19952,26.5500,E12,S
498,499,0,1,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.00,1,2,113781,151.5500,C22 C26,S
297,298,0,1,"Allison, Miss. Helen Loraine",female,2.00,1,2,113781,151.5500,C22 C26,S
305,306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.5500,C22 C26,S


#### Aggregation 함수 적용 
- min(), max(), sum(), count() 등과 같은 aggregation 함수
- 모든 칼럼에 aggregation을 적용

In [48]:
# 얼마나 데이터가 들어있나요?
titanic_df.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [49]:
# 나이와 요금의 평균은? 
titanic_df[['Age','Fare']].mean()

Age     29.699118
Fare    32.204208
dtype: float64

#### groupby() 적용하기 

- 데이터 프레임에 groupby() 사용 시 입력 파라미터 by에 칼럼을 입력하면 대상 칼럼으로 groupby 됨

In [50]:
titanic_groupby = titanic_df.groupby('Pclass').count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,216,216,216,216,186,216,216,216,216,176,214
2,184,184,184,184,173,184,184,184,184,16,184
3,491,491,491,491,355,491,491,491,491,12,491


Pclass가 맨 왼쪽으로 왔죠? 승객 등급 1,2,3을 기준으로 다른 칼럼들을 그룹핑해준 것입니다. 그러니까 1등급 석에 있었던 사람들은 216명 살았고, 3등급 석에 있었던 사람들은 491명 살아남았네요! 

In [51]:
titanic_groupby = titanic_df.groupby('Pclass')[['PassengerId','Survived']].count()
titanic_groupby

Unnamed: 0_level_0,PassengerId,Survived
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,216,216
2,184,184
3,491,491


#### 결손 데이터 처리하기 

- 결손 데이터는 칼럼에 값이 없는 NULL인 경우를 의미, 넘파이의 NaN으로 표시 
- NaN 값은 평균, 총합 등의 함수 연산 시 제외가 됨. 
- **isna()**은 NaN 여부를 확인하고, **fillna()**는 NaN 값을 다른 값으로 대체함

In [52]:
titanic_df.isna().head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False


In [53]:
# 결손 데이터의 총개수 구하기 
titanic_df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [54]:
# 결손 데이터를 다른 값으로 대체하기 
titanic_df['Cabin'] = titanic_df['Cabin'].fillna('C000')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,C000,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,C000,S


주의해야 할 점은 fillna()를 이용해 반환 값을 다시 받거나 inplace=True 파라미터를 fillna()에 추가해야 실제 데이터 세트 값이 변경된다는 겁니다. 앞에서 drop() 했을 때 배운 것처럼요!

In [55]:
# Age 칼럼의 NaN을 평균 나이로, Embarked 칼럼의 NaN은 'S'로 대체 
titanic_df['Age'] = titanic_df['Age'].fillna(titanic_df['Age'].mean())
titanic_df['Embarked'] = titanic_df['Embarked'].fillna('S')
titanic_df.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

#### apply lambda 식으로 데이터 가공 

In [56]:
def get_square(a):
    return a**2

print('3의 제곱은:', get_square(3))

3의 제곱은: 9


파이썬 프로그래밍에서는 이렇게 함수를 썼을 겁니다. **lambda**는 이러한 함수의 선언과 함수 내의 처리를 한 줄의 식으로 쉽게 변환하는 식입니다. 

In [57]:
lambda_square = lambda x : x ** 2
print('3의 제곱은:', lambda_square(3))

3의 제곱은: 9


- lambda x : x ** 2

:의 왼쪽에 있는 x는 입력 인자를 가리키며, 오른쪽은 입력 인자의 계산식입니다. 결국 오른쪽 값은 반환 값을 의미하는 것이죠. 

lambda 식을 이용할 때 **여러 개의 값을 입력 인자로 사용**해야 할 경우에는 보통 **map()** 함수를 결합해서 사용합니다.

In [58]:
a = [1,2,3]
squares = map(lambda x : x**2, a)
list(squares)

[1, 4, 9]

In [59]:
# Name 칼럼의 문자열 개수를 별도의 칼럼인 Name_len에 생성해보기 
titanic_df['Name_len'] = titanic_df['Name'].apply(lambda x: len(x))
titanic_df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Name_len
0,1,0,3,"Braund, Mr. Owen Harris",male,22.000000,1,0,A/5 21171,7.2500,C000,S,23
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,C85,C,51
2,3,1,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,C000,S,22
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,C123,S,44
4,5,0,3,"Allen, Mr. William Henry",male,35.000000,0,0,373450,8.0500,C000,S,24
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.000000,0,0,211536,13.0000,C000,S,21
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,B42,S,28
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.4500,C000,S,40
889,890,1,1,"Behr, Mr. Karl Howell",male,26.000000,0,0,111369,30.0000,C148,C,21


if-else절을 사용해서 복잡한 가공을 해보겠습니다. 

Q. 나이가 15세 미만이면 'Child', 그렇지 않으면 'Adult'로 구분하는 새로운 칼럼 'Child_Adult'를 apply lambda로 만들면? 

In [60]:
titanic_df['Child_Adult'] = titanic_df['Age'].apply(lambda x: 'Child' if x <= 15 else 'Adult')
titanic_df[['Age','Child_Adult']].head(8)

Unnamed: 0,Age,Child_Adult
0,22.0,Adult
1,38.0,Adult
2,26.0,Adult
3,35.0,Adult
4,35.0,Adult
5,29.699118,Adult
6,54.0,Adult
7,2.0,Child


In [61]:
# 나이에 따라 세분화된 분류를 수행하는 함수 생성 
def get_category(age):
    cat = ''
    if age <= 5: cat = 'Baby'
    elif age <= 12: cat = 'Child'
    elif age <= 18: cat = 'Teenager'
    elif age <= 25: cat = 'Student'
    elif age <= 35: cat = 'Young Adult'
    elif age <= 60: cat = 'Adult'
    else: cat = 'Elderly'
    
    return cat 

titanic_df['Age_cat'] = titanic_df['Age'].apply(lambda x : get_category(x))
titanic_df[['Age', 'Age_cat']].head()

Unnamed: 0,Age,Age_cat
0,22.0,Student
1,38.0,Adult
2,26.0,Young Adult
3,35.0,Young Adult
4,35.0,Young Adult


#### 두 DataFrame 병합하기 

- 주교재 46쪽에서 53쪽을 참고하시면 됩니다. 

In [62]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'], 
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                   index=[8, 9, 10, 11])

In [63]:
# 만든 데이터들을 확인해보는 것 잊지마세요!
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [64]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [65]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


- concat(): default가 axis=0이므로 열방향으로 데이터를 합침

In [66]:
result = pd.concat([df1,df2,df3])
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


In [67]:
# key를 지정해 여러개의 인덱스를 만들 수 있음
result = pd.concat([df1,df2,df3], keys=['x','y','z'])
result

Unnamed: 0,Unnamed: 1,A,B,C,D
x,0,A0,B0,C0,D0
x,1,A1,B1,C1,D1
x,2,A2,B2,C2,D2
x,3,A3,B3,C3,D3
y,4,A4,B4,C4,D4
y,5,A5,B5,C5,D5
y,6,A6,B6,C6,D6
y,7,A7,B7,C7,D7
z,8,A8,B8,C8,D8
z,9,A9,B9,C9,D9


In [68]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'], 
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                   index=[2, 3, 6, 7])
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [69]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [70]:
# df1과 df4를 column방향으로 합쳐봅시다
result = pd.concat([df1,df4], axis=1)
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3
6,,,,,B6,D6,F6
7,,,,,B7,D7,F7


왜 NaN가 생기게 될까요? **index를 기준으로 concat**하기 때문입니다. 그래서 값이 없는 곳에는 NaN이 뜨게 되는 것이죠.

In [71]:
# 공통된 index로 합치고 그 외에는 버리기
result = pd.concat([df1,df4], axis=1, join='inner')
result

Unnamed: 0,A,B,C,D,B.1,D.1,F
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [72]:
# df1 인덱스에 맞추기
result = pd.concat([df1,df4], axis=1, join_axes=[df1.index])
result

TypeError: concat() got an unexpected keyword argument 'join_axes'

어? 그런데 이 분홍색은 뭐죠? FutureWarning이라고 미래에 이 기능이 없어진다는 겁니다. 그럼 이 기능을 대체하는 다른게 있다는 건데 뭐가 있을까 궁금하면, 분홍색을 잘 읽어보세요. .reindex를 쓰거나 .reindex_like를 쓰라고 말하죵?

In [73]:
# df1 index를 기준으로 result의 인덱스를 맞추는 것
result.reindex(df1.index)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,,,,,,,
1,,,,,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [74]:
# index 싹다 새로 만들기 (기존 인덱스 무시하기)
result = pd.concat([df1,df4], ignore_index=True)
result

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


에휴, 이것도 없어진다네요... (이 책 참 업그레이드가 느린듯;;)

- **merge()**: column을 기준으로 합치기

In [75]:
left = pd.DataFrame({'key': ['K0', 'K4', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

In [76]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K4,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [77]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


- on 옵션으로 합치면 공통된 key에 대해서만 합치게 됩니다

In [78]:
pd.merge(left, right, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


In [79]:
# left를 기준으로 합치기 
pd.merge(left, right, how='left', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


In [80]:
# right를 기준으로 합치기
pd.merge(left, right, how='right', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
3,K1,,,C1,D1


In [81]:
# 합집합처럼 모든 데이터 결과 병합하기 
pd.merge(left, right, how='outer', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K4,A1,B1,,
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K1,,,C1,D1


In [82]:
# 교집합처럼 공통된 요소만 합치기 
pd.merge(left, right, how='inner', on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


으엑으엑! 드디어 판다스 기초 문법을 다 정리해봤습니다. 눈알이 빠지는줄 알았네요. 근데 이것도 정말로 적은 분량입니다... 기초 중의 기초 밖에 안 된다고요...ㅠㅠ 사실 오늘 배우는 것도 완벽하게 소화하지 못하실 것 같습니다. 왜냐면 이게 실제로 데이터를 만지면서 전처리 하려고 할 때 생각이 안 나거든요. 그래서 실제 프로젝트를 진행하면서 감각으로 익히는 것이 가장 빠른 방법입니다. 이 외의 것들은 필요할 때마다 구글링 하거나 따로 배워가면서 그 때 그 때 배우도록 합시다! 판다스는 8개의 프로젝트를 진행하면서 계속 계속 계속 계속 쓸거니 따로 과제는 없습니다!

다들 수고 많으셨습니다 :) 반복 또 반복만이 살 길!