# 판다스(pandas)란?


* 데이터 분석과 처리를 쉽게 할 수 있게 도와주는 라이브러리( Python의 R화라고 생각하면 편리)
* pandas 홈페이지: http://pandas.pydata.org
* 아나콘다 배포판에 포함.
* pandas 설치 후 import.

In [1]:
import pandas as pd
import numpy as np
#작업 시 np도 쓰므로 같이 불러올게용

## pandas의 자료 구조

pandas에서는 기본적으로 series와 data frame을 사용.


# 1. Series: data frame의 한 column(열).

In [2]:
#series 정의하기.

a=pd.Series([1,2,3])
print(a) #맨 왼쪽의 0,1,2는 index.

0    1
1    2
2    3
dtype: int64


In [3]:
# Series의 값만 확인하기
a.values

array([1, 2, 3], dtype=int64)

In [4]:
# Series의 인덱스만 확인하기
a.index

RangeIndex(start=0, stop=3, step=1)

In [5]:
# Series의 자료형 확인하기
a.dtypes

dtype('int64')

In [6]:
# 인덱스를 바꿀 수도 있다.
a2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
a2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
#dictionary 자료형은 series data로 만들 수 있다. 이 때 dictionaryd의 key가 series의 index.
sdata = {'Kim': 35000, 'Lee': 67000, 'Park': 12000, 'Choi': 4000}
a3 = pd.Series(sdata)
a3

Kim     35000
Lee     67000
Park    12000
Choi     4000
dtype: int64

# 2. Data Frame
* 표(Table)와 같은 2차원 데이터를 처리
* index(행), columns(열)
* numpy의 array로 지정하거나, dictionary로 정의할 수 있다.

In [8]:
# 1)  np.array로 지정하기
data_num = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
pd.DataFrame(data_num) # index와 column은 자동으로 생성

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [9]:
# 인덱스와 컬럼은 따로 수정, 지정할 수 있다.
index_date = pd.date_range('2021-01-24', periods=3)
columns_list = ['A', 'B', 'C']

pd.DataFrame(data_num, index=index_date, columns=columns_list)

Unnamed: 0,A,B,C
2021-01-24,1,2,3
2021-01-25,4,5,6
2021-01-26,7,8,9


In [10]:
# 2)  Dictionary로 지정하기
data_dic = {'name' : ['A23', 'C43', 'A23', 'A23', 'C43'],
            'year' : [2019, 2019, 2020, 2020, 2021],
            'points' : [80,90,85,73,92]}
df = pd.DataFrame(data_dic)
df

Unnamed: 0,name,year,points
0,A23,2019,80
1,C43,2019,90
2,A23,2020,85
3,A23,2020,73
4,C43,2021,92


In [11]:
# index 지정
df=pd.DataFrame(data_dic, index=['a','b','c','d','e'])
df

Unnamed: 0,name,year,points
a,A23,2019,80
b,C43,2019,90
c,A23,2020,85
d,A23,2020,73
e,C43,2021,92


In [12]:
# 컬럼 순서도 지정 가능.
pd.DataFrame(df, columns=['points','name','year'])

Unnamed: 0,points,name,year
a,80,A23,2019
b,90,C43,2019
c,85,A23,2020
d,73,A23,2020
e,92,C43,2021


In [13]:
# 열 추가
df['new']=[1,2,3,4,5]
df

#길이를 똑같이 맞춰야 한다.

Unnamed: 0,name,year,points,new
a,A23,2019,80,1
b,C43,2019,90,2
c,A23,2020,85,3
d,A23,2020,73,4
e,C43,2021,92,5


In [14]:
# 열 삭제
del df['new']  #index값을 기반으로 값을 삭제.
df

Unnamed: 0,name,year,points
a,A23,2019,80
b,C43,2019,90
c,A23,2020,85
d,A23,2020,73
e,C43,2021,92


# 연습문제!

## 주어진 자료를 활용해 데이터 프레임을 만들고, 각 행의 인덱스는 1위~10위로 표시해주세요.

In [2]:
singer = ['미란이','경서','방탄소년단','장범준','블랙핑크','산들','임창정','릴보이','스탠딩에그','규현']
likes = ['158k','104k','376k','108k','165k','169k','91k','87k','210k','90k']

In [24]:
#코드 입력창. 이곳에 코드를 작성할 것.
import pandas as pd

data_dic={'singer' : ['미란이','경서','방탄소년단','장범준','블랙핑크','산들','임창정','릴보이','스탠딩에그','규현'],
            'likes' : ['158k','104k','376k','108k','165k','169k','91k','87k','210k','90k']}

exc = pd.DataFrame(data_dic,index=['1위','2위','3위','4위','5위','6위','7위','8위','9위','10위'])
exc

Unnamed: 0,singer,likes
1위,미란이,158k
2위,경서,104k
3위,방탄소년단,376k
4위,장범준,108k
5위,블랙핑크,165k
6위,산들,169k
7위,임창정,91k
8위,릴보이,87k
9위,스탠딩에그,210k
10위,규현,90k


In [18]:
ind = []
for i in range(len(singer)):
    ind.append('{0}위'.format(i+1))
ind

['1위', '2위', '3위', '4위', '5위', '6위', '7위', '8위', '9위', '10위']

In [19]:
data_dic={'singer' : ['미란이','경서','방탄소년단','장범준','블랙핑크','산들','임창정','릴보이','스탠딩에그','규현'],
            'likes' : ['158k','104k','376k','108k','165k','169k','91k','87k','210k','90k']}

ind =list(filter(lambda x: x +1, range(len(singer))))

pd.DataFrame(data_dic,index=ind)

Unnamed: 0,singer,likes
0,미란이,158k
1,경서,104k
2,방탄소년단,376k
3,장범준,108k
4,블랙핑크,165k
5,산들,169k
6,임창정,91k
7,릴보이,87k
8,스탠딩에그,210k
9,규현,90k


In [20]:
ind = []
for i in range(len(singer)):
    ind.append('{0}위'.format(lambda x : len(singer)))
map(lambda x: x ** 2, range(5))  


<map at 0x25b9c1f9dd8>

In [21]:
ind =list(filter(lambda x: x +1, range(len(singer))))
ind

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

## Data Frame 정보 얻기

In [25]:
#생성된 데이터 프레임의 속성, 인덱스, 데이터 타입, 열, 행 정보 등 데이터 프레임에 대한 전반적인 정보를 알려준다.
exc.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 1위 to 10위
Data columns (total 2 columns):
singer    10 non-null object
likes     10 non-null object
dtypes: object(2)
memory usage: 240.0+ bytes


In [26]:
# 행 ndex
exc.index

Index(['1위', '2위', '3위', '4위', '5위', '6위', '7위', '8위', '9위', '10위'], dtype='object')

In [27]:
# 열 index
exc.columns

Index(['singer', 'likes'], dtype='object')

In [28]:
# 값 얻기
exc.values

array([['미란이', '158k'],
       ['경서', '104k'],
       ['방탄소년단', '376k'],
       ['장범준', '108k'],
       ['블랙핑크', '165k'],
       ['산들', '169k'],
       ['임창정', '91k'],
       ['릴보이', '87k'],
       ['스탠딩에그', '210k'],
       ['규현', '90k']], dtype=object)

In [30]:
#다음 내용을 위해 숫자 데이터가 있는 샘플 데이터프레임 형성.

table_data = {'연도': [2015, 2016, 2016, 2017, 2017,2018,2018],
                '지사': ['한국', '한국', '미국', '한국','미국','한국','미국'],
                '판매량': [200, 250, 450, 300, np.nan,390,np.nan]}

df2 = pd.DataFrame(table_data)

#각각을 따로 지정할 수도 있다.
ind = df2.index
col = df2.columns
val =  df2. values

df2

Unnamed: 0,연도,지사,판매량
0,2015,한국,200.0
1,2016,한국,250.0
2,2016,미국,450.0
3,2017,한국,300.0
4,2017,미국,
5,2018,한국,390.0
6,2018,미국,


In [31]:
df2.shape #(행 개수, 열 개수)

(7, 3)

In [32]:
len(df2) #행 개수

7

In [33]:
df2.size #해당 데이터 프레임 내 총 원소 개수 = (행x열). (결측치 포함 개수)

21

In [34]:
df2.describe() # 데이터 프레임의 계산가능한 값들에 대한 요약 통계치 (결측치 제외)`

Unnamed: 0,연도,판매량
count,7.0,5.0
mean,2016.714286,318.0
std,1.112697,101.833197
min,2015.0,200.0
25%,2016.0,250.0
50%,2017.0,300.0
75%,2017.5,390.0
max,2018.0,450.0


In [35]:
exc.describe() #문자열에서는 의미있는 정보를 얻어내기 어렵다.

Unnamed: 0,singer,likes
count,10,10
unique,10,10
top,스탠딩에그,376k
freq,1,1


# 결측치
: 여러가지 이유로 우리는 데이터를 전부 다 측정하지 못하는 경우가 종종 발생한다. 
이처럼 측정되지 못하여 비어있는 데이터를 **‘결측치’** 라고 한다. 
pandas 에서는 결측치를 np.nan 으로 나타낸다. 

데이터 프레임에서 data에 포함되어있지 않은 값은 자동으로 NaN(Not a Number)으로 나타난다. null과 같은 개념.

* pandas 에서는 결측치를 기본적으로 연산에서 제외시키고 있다. 즉, NaN값은 어떤 방식으로도 처리가 되지 않으므로, 결측치를 미리 확인해야 한다.

In [36]:
# 결측치 유무 판단하는 법 
df2.isnull()

#pd.isna(df2)
#같은 형태로 출력됨.

Unnamed: 0,연도,지사,판매량
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,True
5,False,False,False
6,False,False,True


* null값인 곳이 true로 반환된다.

In [37]:
df2.isnull().sum() 


#null이 몇개인지 sum값으로 보여줌.
#isnull은 T,F로 나오는데, sum을 해주면 true=1로 계산해서 sum한 값을 보여준다.

연도     0
지사     0
판매량    2
dtype: int64

In [38]:
df2.isnull().sum().sort_values(ascending=False) # 내림차순 : null값개수를 내림차수, 결측치가 큰 순서대로.

판매량    2
지사     0
연도     0
dtype: int64

In [39]:
#결측치가 하나라도 존재하는 행들을 버리고 싶을 때는 dropna() 메소드를 이용
df2.dropna(how='any')

Unnamed: 0,연도,지사,판매량
0,2015,한국,200.0
1,2016,한국,250.0
2,2016,미국,450.0
3,2017,한국,300.0
5,2018,한국,390.0


In [41]:
#만약 결측치가 있는 부분을 다른 값으로 채우고 싶다면 fillna() 메소드를 이용
df2.fillna(value=318)

Unnamed: 0,연도,지사,판매량
0,2015,한국,200.0
1,2016,한국,250.0
2,2016,미국,450.0
3,2017,한국,300.0
4,2017,미국,318.0
5,2018,한국,390.0
6,2018,미국,318.0


# Data indexing & slicing 

**df.loc[]:** 실제 인덱스 이름으로 인덱싱 <br/>

**df.iloc[]:** 인덱스 숫자로 인덱싱 <br/>

* display() : (깔끔하게) 출력해주는 함수.

In [42]:
#샘플 데이터 프레임 만들기
df = pd.DataFrame({'state': ['Iowa', 'Iowa', 'Ohio', 'Nevada', 'Minnesota'],
                    'year': [2010, 2011, 2012, 2011, 2012],
                    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]})
df.index=['a','b','c','d','e']
df

Unnamed: 0,state,year,pop
a,Iowa,2010,1.5
b,Iowa,2011,1.7
c,Ohio,2012,3.6
d,Nevada,2011,2.4
e,Minnesota,2012,2.9


In [43]:
display(df.loc['c','pop'])#데이터프레임의 인덱스 이름으로 인덱싱
display(df.iloc[2,2]) #데이터프레임의 인덱스 넘버로 인덱싱

3.6

3.6

In [44]:
# 열을 함께 불러올 수 있다.
df.iloc[:,[1,2]] 
#"모든 인덱스+1번 열,2번 열"
#== df.loc[:,['year','pop']]

Unnamed: 0,year,pop
a,2010,1.5
b,2011,1.7
c,2012,3.6
d,2011,2.4
e,2012,2.9


In [45]:
#열 출력
#display를 쓸 때, 출력되는 양식을 시리즈로 지정하거나, 데이터프레임 형태로 나오게 지정할 수 있다.

display(df['year']) # 시리즈로 나옴. 열을 시리즈로 표현.
display(df[['year']]) #df형태로 출력.

a    2010
b    2011
c    2012
d    2011
e    2012
Name: year, dtype: int64

Unnamed: 0,year
a,2010
b,2011
c,2012
d,2011
e,2012


In [46]:
#Series는 여러 열 불러오기가 불가능하다

df['state','pop']

#따라서 위 코드는 시리즈로 두개 열을 불러왔기 때문에 오류.

KeyError: ('state', 'pop')

## 조건에 맞는 행/열만 추출하기
- **df.loc[]**
- **df.query(" ")** : 쿼리는 and 나 or도 쓸 수 있다. 그렇지만 .loc보다 속도가 느리다는 단점이 있다.

In [47]:
df.loc[df.year > 2011]

Unnamed: 0,state,year,pop
c,Ohio,2012,3.6
e,Minnesota,2012,2.9


In [48]:
df.query('year > 2011')

Unnamed: 0,state,year,pop
c,Ohio,2012,3.6
e,Minnesota,2012,2.9


In [49]:
#논리연산자를 쓰려면 query 사용.
df.query('year in [2010, 2011] & state == "Iowa"')

Unnamed: 0,state,year,pop
a,Iowa,2010,1.5
b,Iowa,2011,1.7


#### 외부 변수(또는 함수) 참조 연산
* 판다스는 컬럼 이외에 외부 변수나 함수를 참조해 연산할 수 있는데, 이때 변수명이나 함수 앞에 @를 반드시 붙여야 한다.

In [50]:
a = 'Nevada' #외부 변수 선언
df.query('state == @a') #state가 Nevada인 것을 출력. 앞에 @안쓰면 오류.

Unnamed: 0,state,year,pop
d,Nevada,2011,2.4


# 데이터 파일 저장 및 불러오기

완성한 데이터 파일을 저장(csv형식)하려면
**`df.to_csv('파일명.csv')`**
으로 저장한다. 이러면 현재 노트 파일이 있는 곳에 csv파일이 저장된다.



데이터를 불러오려면 
**`df=pd.read_csv('파일명.csv', encoding='인코딩방식')`**
로 불러오면 된다.


`(보통 데이터를 불러올 때 utf-8로 인코딩하면 큰 문제없이 나오는 것 같아요..!)`



만약 현재 열려 있는 노트 파일과 같은 경로에 데이터 파일이 있다면 바로 파일 이름만 입력해줘도 정상적으로 불러올 수 있다.

다른 경로에 있는 데이터 파일을 불러오고 싶다면 파일명 앞에 해당 파일이 있는 경로도 써줘야 한다.

예: **`'C:/Users/YJLEE/Desktop/BOAZ 폴더/Base session/미니플젝1/국가 별 유튜브 시청 데이터/`**KR_youtube_trending_data.csv'
        
        
### ***(슬래시 방향 주의!!)***


In [51]:
%pwd #내 directory

'C:\\Users\\yeongeunkim\\Desktop\\멘토멘티 시각화C팀 파이썬 기초 스터디'

# 연습문제 2

In [4]:
import pandas as pd

In [5]:
table_data2 = {'연도': [2019, 2019, 2019, 2020, 2020,2020,2020,2021,2021],
                '국가': ['한국', '미국', '중국', '한국','미국','중국','일본','한국','미국'],
                '지수': [200, 250, 450, 300, 370,420,381,370,410],
              '지수2':[2.1, 3.2, 3.8, 2.6, 3.4, 4.0, 2.4, 3.3, 3.8]}

exc2 = pd.DataFrame(table_data2)
exc2

Unnamed: 0,연도,국가,지수,지수2
0,2019,한국,200,2.1
1,2019,미국,250,3.2
2,2019,중국,450,3.8
3,2020,한국,300,2.6
4,2020,미국,370,3.4
5,2020,중국,420,4.0
6,2020,일본,381,2.4
7,2021,한국,370,3.3
8,2021,미국,410,3.8



### 1.   지수, 지수2의 평균과 표준편차를 확인하려면?

In [6]:
# 코드 입력창
exc2.describe()

Unnamed: 0,연도,지수,지수2
count,9.0,9.0,9.0
mean,2019.888889,350.111111,3.177778
std,0.781736,83.11204,0.672268
min,2019.0,200.0,2.1
25%,2019.0,300.0,2.6
50%,2020.0,370.0,3.3
75%,2020.0,410.0,3.8
max,2021.0,450.0,4.0


### 2. "국가"열을 시리즈 형태로 출력하려면?

In [7]:
# 코드 입력창
exc2.국가

0    한국
1    미국
2    중국
3    한국
4    미국
5    중국
6    일본
7    한국
8    미국
Name: 국가, dtype: object

### 3. "국가","지수2" 열을 한번에 출력하려면?

In [8]:
#코드 입력창
exc2[['국가','지수2']]

Unnamed: 0,국가,지수2
0,한국,2.1
1,미국,3.2
2,중국,3.8
3,한국,2.6
4,미국,3.4
5,중국,4.0
6,일본,2.4
7,한국,3.3
8,미국,3.8


### 4. 연도가 2020, 2021년이고 국가가 미국인 데이터를 추출하려면?

In [10]:
exc2.query('연도 in [2020,2021] & 국가 == "미국"')

Unnamed: 0,연도,국가,지수,지수2
4,2020,미국,370,3.4
8,2021,미국,410,3.8


### 5. 사용한 데이터(exc2)를 csv파일 형태로 저장하려면?

In [11]:
exc2.to_csv('exc2.csv')

### 6. 사용한 데이터(exc2)를 불러오려면?

In [12]:
pd.read_csv('exc2.csv',encoding='utf-8')

Unnamed: 0.1,Unnamed: 0,연도,국가,지수,지수2
0,0,2019,한국,200,2.1
1,1,2019,미국,250,3.2
2,2,2019,중국,450,3.8
3,3,2020,한국,300,2.6
4,4,2020,미국,370,3.4
5,5,2020,중국,420,4.0
6,6,2020,일본,381,2.4
7,7,2021,한국,370,3.3
8,8,2021,미국,410,3.8


# 연산

In [54]:
#샘플 데이터 프레임 생성.
dates = pd.date_range('20210101', periods=6)

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2021-01-01,-0.607241,-0.014425,1.224138,0.482572
2021-01-02,1.158459,1.031185,-1.199086,0.033549
2021-01-03,1.445469,0.722324,-1.509615,-0.166333
2021-01-04,0.732276,-0.250102,1.963707,-2.131931
2021-01-05,-0.721216,-0.554353,1.02329,-0.316403
2021-01-06,0.586999,-1.683753,-2.398758,-1.564444


In [45]:
#평균 구하기 (결측치는 제외됨)

df.mean()

#mean()함수의 인자로 1을 주게되면 컬럼이 아닌 인덱스를 기준으로 연산.

A    0.418343
B    0.319171
C    0.278350
D   -0.164236
dtype: float64

**`cf.차원이 다른 오브젝트(시리즈와 데이터프레임) 간 연산의 경우,맞출 축만 지정해주면 자동으로 해당 축을 기준으로 연산을 수행한다. `**
아래 예제를 통해 확인해보자.

In [46]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2)
s

2021-01-01    NaN
2021-01-02    NaN
2021-01-03    1.0
2021-01-04    3.0
2021-01-05    5.0
2021-01-06    NaN
Freq: D, dtype: float64

**`아래는 축을 index로 설정했기 때문에 인덱스를 기준으로 연산을 수행한다. 그 결과 위의 데이터 프레임에서, 계산이 불가능한 01-01,01-02,01-06은 전부 nan으로 표시되고, 계산이 가능한 01-03~01-05까지는 각 칼럼에 해당하는 값에 각각 1.0, 3.0, 5.0을 빼준 값이 결과로 나온다.`**

In [47]:
df.sub(s, axis='index')

Unnamed: 0,A,B,C,D
2021-01-01,,,,
2021-01-02,,,,
2021-01-03,-0.094357,-0.904836,1.127619,-1.547009
2021-01-04,-3.878394,-3.782709,-3.88728,-2.952684
2021-01-05,-3.961718,-4.933436,-5.815104,-4.326508
2021-01-06,,,,


### 함수 적용하기
데이터프레임에 함수를 적용할 수 있다. 기존에 존재하는 함수를 사용하거나 사용자가 정의한 람다 함수를 사용할 수도 있다.

In [52]:
df.apply(np.cumsum) #누적합

Unnamed: 0,state,year,pop
a,Iowa,2010,1.5
b,IowaIowa,4021,3.2
c,IowaIowaOhio,6033,6.8
d,IowaIowaOhioNevada,8044,9.2
e,IowaIowaOhioNevadaMinnesota,10056,12.1


In [57]:
df.apply(lambda x: x.max() - x.min())

A    2.166685
B    2.714937
C    4.362465
D    2.614503
dtype: float64

### 문자열 관련 메소드 str

In [58]:
a = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])

a.str.lower()  #전부 소문자로 통일
#a.str.upper() #전부 대문자로 통일

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

# Concat, Merging, Pivot Table

다양한 정보를 담은 자료들이 있을 때 이들을 합쳐 새로운 자료를 만들어야 할 때가 있는데, 이 때 Concat, Merging, Pivot Table 등 다양한 방법을 활용할 수 있다.

## concat

행을 연결하는 메소드.
기본은 행을 연결하는데, axis=1을 설정하면 열을 연결한다.

cf. axis=0을 입력하면 디폴트로 행 연결.

<br><img align="left" src="http://drive.google.com/uc?export=view&id=1lSpzDfbRlY_mTlJH0t1xZADJUvbHyPMw" width=800 height=600>

In [60]:
#df1 정의
table_data = {'key': ['A','C','D','D','A','D'], 
               'values1': np.random.randint(1,100, size = 6)}

df1 = pd.DataFrame(table_data)
df1

Unnamed: 0,key,values1
0,A,34
1,C,11
2,D,26
3,D,86
4,A,81
5,D,61


In [61]:
#df2 정의
table_data = {'key': ['A','B'], 
               'values2': np.random.randint(1,100, size = 2)}

df2 = pd.DataFrame(table_data)
df2

Unnamed: 0,key,values2
0,A,7
1,B,70


In [63]:
# 행 결합
pd.concat([df1, df2],sort = False)
#각 데이터프레임에 없던 값은 nan처리.

Unnamed: 0,key,values1,values2
0,A,34.0,
1,C,11.0,
2,D,26.0,
3,D,86.0,
4,A,81.0,
5,D,61.0,
0,A,,7.0
1,B,,70.0


In [64]:
# 열 결합
pd.concat([df1, df2], axis=1)

#0, 1 인덱스가 공통이므로 0,1 인덱스에 df2가 옆으로 와서 붙는다.

Unnamed: 0,key,values1,key.1,values2
0,A,34,A,7.0
1,C,11,B,70.0
2,D,26,,
3,D,86,,
4,A,81,,
5,D,61,,


## merge
**공통된 열 혹은 인덱스**를 기준으로 통합 <br/>
dataframe의 **공통된 key**(기준이 되는 열 혹은 인덱스)를 중심으로 통합 <br/>
기본은 이너조인(교집합): how='inner' <br/>

#### 두 개의 dataframe이 특정 열을 기준으로 일부만 공통된 `값`을 갖는 경우 
- how = 'left' : 왼쪽 데이터는 모두 선택, 지정된 열(key)에 값이 있는 오른쪽 데이터 선택, 나머지는 결측치로 처리됨.
- how = 'right' : 오른쪽 데이터는 모두 선택, 지정된 열(key)에 값이 있는 왼쪽 데이터 선택
- how = 'outer' : 합집합
- how = 'inner' : 교집합

<br><img align="left" src="http://drive.google.com/uc?export=view&id=1yEU_xZ9qZrZi8IIWTMhhMIKI95XxisX0" width=900 height=800>

### 예시1

In [65]:
df_AB = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품A': [100, 150, 200, 130],
                       '제품B': [90, 110, 140, 170]})
df_CD = pd.DataFrame({'판매월': ['1월', '2월', '3월', '4월'],
                       '제품C': [112, 141, 203, 134],
                       '제품D': [90, 110, 140, 170]})
display(df_AB)
display(df_CD)

Unnamed: 0,판매월,제품A,제품B
0,1월,100,90
1,2월,150,110
2,3월,200,140
3,4월,130,170


Unnamed: 0,판매월,제품C,제품D
0,1월,112,90
1,2월,141,110
2,3월,203,140
3,4월,134,170


In [66]:
pd.merge(df_AB, df_CD) # 판매 월 기준으로 통합

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


### 예시2: 인덱스가 맞지 않는 경우

In [67]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['신짱구', '신짱아', '신형만', '봉미선', '흰둥이', '철수', '훈이']
}, columns=['고객번호', '이름'])
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['고객번호', '금액'])
display(df1)
display(df2)

Unnamed: 0,고객번호,이름
0,1001,신짱구
1,1002,신짱아
2,1003,신형만
3,1004,봉미선
4,1005,흰둥이
5,1006,철수
6,1007,훈이


Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [68]:
pd.merge(df1, df2) #inner join #고객번호가 둘다 있는 경우만. default는 inner join. 따라서 데이터 프레임 중 겹치는 index와 value만 표기. 
#pd.merge(df1, df2, how='outer') #모두 넣고 없는 것은 null값
#pd.merge(df1, df2, how='left') #df1의 '이름'에 맞춤. df1이 그대로 들어오고, 거기에 df2가 들어오고 없는 값이 null 값 처리.
#pd.merge(df1, df2, how='right') #df2의 '금액'에 맞춤

Unnamed: 0,고객번호,이름,금액
0,1001,신짱구,10000
1,1001,신짱구,20000
2,1001,신짱구,30000
3,1005,흰둥이,15000
4,1006,철수,5000


### key값이 여러개가 있는 경우? `on=''`으로 키를 지정!

기준 열이 아니면서 이름이 같은 열에는 _x 또는 _y 와 같은 접미사가 붙는다.

In [69]:
df1 = pd.DataFrame({
    '고객명': ['진구', '도라에몽', '이슬이'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df2 = pd.DataFrame({
    '고객명': ['이슬이', '진구'],
    '데이터': ['여자', '남자']})
display(df1)
display(df2)

Unnamed: 0,고객명,날짜,데이터
0,진구,2018-01-01,20000
1,도라에몽,2018-01-02,30000
2,이슬이,2018-01-01,100000


Unnamed: 0,고객명,데이터
0,이슬이,여자
1,진구,남자


In [70]:
pd.merge(df1, df2, on='고객명') #inner join

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,진구,2018-01-01,20000,남자
1,이슬이,2018-01-01,100000,여자


In [71]:
pd.merge(df1, df2, on='데이터') 

#데이터 안의 값 중 겹치는 것이 없기 떄문에 값이 나오지 않는다.

Unnamed: 0,고객명_x,날짜,데이터,고객명_y


## Pivot Table

데이터에서 필요한 자료만 뽑아서 새로운 표를 작성

<br><img align="left" src="http://drive.google.com/uc?export=view&id=1HEBp4qq4GaksdQBb2fx2tRsq-gVR-j6d" width=800 height=600>

In [72]:
np.random.seed(0)
stu = pd.DataFrame({
        '학년': np.random.randint(1,4,size = 30), #정수 난수를 30개 임의로 고르기.
        '과목': np.random.choice(["국어","수학","영어","한국사"], size = 30), #이 4개 중 랜덤으로 30개를 고르시오.
        '성별': np.random.choice(["남", "여"], size = 30),
        '출석': np.random.randint(0,2,size = 30),#0에서 2사의 값을 정수로 뽑음.
        '점수': np.random.rand(30).round(2), #실수를 랜덤으로 뽑되 소수점 2째자리까지 반올림.
    })
stu

Unnamed: 0,학년,과목,성별,출석,점수
0,1,한국사,남,0,0.1
1,2,수학,여,0,0.84
2,1,한국사,여,0,0.1
3,2,한국사,남,1,0.98
4,2,영어,여,1,0.47
5,3,한국사,남,0,0.98
6,1,국어,남,1,0.6
7,3,수학,여,0,0.74
8,1,수학,남,0,0.04
9,1,수학,여,0,0.28


In [73]:
pd.pivot_table(stu[['과목','학년','출석']],index='학년',columns='과목',values='출석',aggfunc=['sum'],fill_value=0 ) 
# 행에는 학년, 열에는 과목, 데이터는 출석으로.
# aggfunc: 합을 할 것이라는 뜻. value를 합 데이터로 쓴다는 뜻.  여기서는 해당 학년의 해당 과목의 출석 총합이 나온것.
# mean이나 std는 np.~의 형식으로 써줘야 한다고 하네요.
# fill_value=0   : null값을 0으로 채워주는 코드.

Unnamed: 0_level_0,sum,sum,sum,sum
과목,국어,수학,영어,한국사
학년,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,2,0,2,1
2,1,0,3,4
3,2,1,0,0


In [74]:
# 위에 코드에서 aggfunc=sum 을 안쓰면 평균으로 출력이 돼요.
# 파이썬은  DataFrame명, index만을 넣으면 데이터 타입이 숫자인 칼럼에 대해서 디폴트로 평균(averge) 값을 보여준다고 합니다.

pd.pivot_table(stu[['과목','학년','출석']],index='학년',columns='과목',values='출석', fill_value=0 ) 

과목,국어,수학,영어,한국사
학년,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.0,0.0,1,0.2
2,0.333333,0.0,1,1.0
3,0.666667,0.5,0,0.0


aggfunc을 넣는 방법은 다음 3가지 중에서 하나를 선택할 수 있다.
* aggfunc = 'sum'
* aggfunc = sum
* aggfunc = [sum]
* aggfunc = ['sum']

이 중 aggfunc을 리스트로 설정하면(3,4번째) 칼럼명이 상단에 나오고(sum이 위에 나온다.), 그렇지 않은 경우(1,2번째) 칼럼명이 상단에 나오지 않는다.(sum이 안나온다.)

In [75]:
#인덱스를 학년과 성별 동시에 넣어주는 법.

pd.pivot_table(stu, index=['학년', '성별'],columns='과목',values='점수',aggfunc=sum, fill_value = 0)

Unnamed: 0_level_0,과목,국어,수학,영어,한국사
학년,성별,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,남,0.6,0.04,1.11,0.16
1,여,0.32,1.0,0.0,0.31
2,남,0.58,0.0,0.52,1.25
2,여,1.26,0.84,1.04,0.81
3,남,0.13,0.29,0.0,0.98
3,여,0.71,0.74,0.32,0.0


In [66]:
table = pd.pivot_table(stu, index=['학년', '성별'],columns='과목',values='점수',aggfunc = sum, fill_value = 0).reset_index() 
#.reset_index: index 초기화
table.columns.name = None # 일반적인 dataframe의 형태. 칼럼 이름도 삭제해 가장 기본적인 데이터 프레임 형태로 만들어준다.
table 

Unnamed: 0,학년,성별,국어,수학,영어,한국사
0,1,남,0.6,0.04,1.11,0.16
1,1,여,0.32,1.0,0.0,0.31
2,2,남,0.58,0.0,0.52,1.25
3,2,여,1.26,0.84,1.04,0.81
4,3,남,0.13,0.29,0.0,0.98
5,3,여,0.71,0.74,0.32,0.0
