In [None]:
import pandas as pd    # 데이터 조작 및 분석을 위한 라이브러리
import numpy as np     # 데이터 과학과 ,수학계산에 핵심 라이브러리
import seaborn         # 데이터 시각화 라이브러리

### `merge` 함수를 통한 데이터프레임 병합  

`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합 할 수 있음  
병합의 기준이 되는 열 혹은 행을 `키(key)`라고 함

기본적으로 `merge` 메서드는 **inner join** 형태를 가짐
**outer(full), left, right join** 형태로 변경하고자 한다면 `how` 인수에 조인 방식을 지정함 

`merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열 또는 행이 존재해야함

In [None]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['고객번호', '이름'])
df1

In [None]:
df2 = pd.DataFrame(
    {
        '고객번호' :[1001,1001,1005,1006,1008,1001],
        '금액' : [10000,20000,15000,5000,10000,30000]
    },  columns = ['고객번호','금액'])

df2


In [None]:
pd.merge(df1,df2)

In [None]:
# full 의미로 좌측과 우측테이블을 모두 보여주고 없는 부분은 NaN 표시
pd.merge(df1,df2,how='outer')

In [None]:
#좌측에대해서 존재하는것(컬럼)만 보여주고 나머지는 NaN으로 표시
pd.merge(df1,df2,how='left')

In [None]:
#우측에대해서는 존재하는것(컬럼)만 보여주고 나머지는 NaN으로 표시
pd.merge(df1,df2,how='right')

만약 키 값에 동일한 데이터가 여러개 존재한다면 모든 경우의 수를 표현함

In [None]:
df3 = pd.DataFrame({
    '품종' :['튤립','튤립','장미','장미'],
    '꽃잎길이' :['1.4','1.3','1.5','1.3']
})

df3

In [None]:
df4 = pd.DataFrame({
    '품종' :['튤립','장미','장미','무궁화'],
    '꽃잎넓이' :['0.4','0.3','0.5','0.3']
})

df4


In [None]:
# 모든 경우의 수  튤립 2 x1 , 장미 2x2
pd.merge(df3,df4)

In [None]:
# 똑같은 형태에서 없는것만 추가됨
pd.merge(df3,df4,how='outer')

병합되는 두 데이터프레임의 동일한 컬럼명이 여러개 존재한다면 모두 키가 되기 때문에  
특정한 컬럼만 키로 사용하고자 한다면 `on` 인수로 지정해줘야함

In [None]:
df1 = pd.DataFrame({

    '이름' :['춘향','몽룡','춘향'],
    '날짜' :['20180101','20180102','20180102'],
    '데이터':['20000','30000','100000']
})

df1

In [None]:
df2 = pd.DataFrame({
    '이름':['춘향','몽룡'],
    '데이터':['여','남']
})

df2

In [None]:
pd.merge(df1,df2,how='outer')

In [None]:
pd.merge(df1,df2,on='이름')

키가 되는 기준열의 이름이 서로 다르면 `left_on`,`right_on` 인수에  
사용할 키 컬럼 이름을 지정한다.

In [None]:
df1 = pd.DataFrame({

    '이름' :['춘향','몽룡','춘향'],
    '날짜' :['20180101','20180102','20180102']
 
})

df1

In [None]:
df2 = pd.DataFrame({
    '성명':['춘향','몽룡','길동'],
    '데이터':['여','남','남']
})

df2

In [None]:
pd.merge(df1,df2,left_on='이름',right_on='성명')

In [None]:
df1 = pd.DataFrame({
    '도시':['서울','서울','서울','부산','부산'],
    '연도':[2000,2005,2010,2000,2005],
    '인구':[980,970,960,360,350]

})

df1

In [None]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6,2)) ,          #12개의 데이터를 만들고 reshape 에 튜플로 6행 2열을 만든다
    index=[
        ['부산','부산','서울','서울','서울','서울'],
        [2000,2005,2000,2005,2010,2015]
    ],
    columns=['데이터1','데이터2'])

df2

In [None]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

#### 'join' 메서드
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `joun`메서드를 사용

In [None]:
df1.join(df2, on=['도시', '연도']) #조인으로도 바로 가능하다

### `concat` 메서드로 데이터 연결

기준 열 지정없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용함  
기본적으로 위아래로 행을 연결하기 때문에 인덱스가 중복될 수 있음  

만약 좌우로 열을 연결하고 싶을 땐 `axis=1` 인수를 사용함

In [None]:
s1 = pd.Series([0,1],index = ['A','B'])
s1

In [None]:
s2 = pd.Series([2,3,4], index = ['A','B','C'])
s2

In [None]:
pd.concat([s1,s2])

In [None]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3,2),
    index=['a','b','c'],
    columns=['데이터1','데이터2']

)

df1

In [None]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2,2),
    index=['a','b'],
    columns=['데이터1','데이터2']

)

df2

In [None]:
pd.concat([df1,df2], axis=1)

### 파이썬으로 다음 연산을 수행한다.

어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 실적 정보는 “매출”, “비용”, “이익” 으로 이루어진다. (이익 = 매출 - 비용).

또한 1년간의 총 실적을 마지막 행으로 덧붙인다.

In [None]:
# 방법 1

company = pd.DataFrame({
    '매출': [10000,11000,9000,12000,13000,8000],
    '비용': [9000,9500,9000,10000,11000,10000],
    '이익': [1000,1500,0,2000,2000,-2000]
},
index= ['1','2','3','4','5','6'])

company



In [None]:


company2 = pd.DataFrame({
    '매출': [9000,10000,12000,9000,10000,11000],
    '비용': [10000,12000,10000,9000,9000,9500],
    '이익': [-1000,-2000,2000,0,1000,1500]
},index= ['7','8','9','10','11','12'])

company2

In [None]:
pd.concat([company,company2])

In [None]:
# 방법 2
company = pd.DataFrame(
    data = ([[10000, 9000, 1000],
              [11000, 9500, 1500],
              [9000, 9000, 0],
              [12000, 10000, 2000],
              [13000, 11000, 2000],
              [8000, 10000, -2000]]),
    index=['1', '2', '3', '4', '5', '6'],
    columns=['매출', '비용', '이익'])
company

In [None]:
company2 = pd.DataFrame(
    data = ([[10000, 10000, -1000],
              [10000, 12000, -2000],
              [12000, 10000, 2000],
              [9000, 9000, 0],
              [10000, 9000, 1000],
              [11000, 9500, 1500]]),
    index=['7', '8', '9', '10', '11', '12'],
    columns=['매출', '비용', '이익'])
company2

In [None]:
annuual = pd.concat([company, company2])
annuual

In [None]:
annuual_sum = annuual.sum()
annuual_sum.name = '총실적'
annuual_sum

In [None]:
annuual.loc['총실적', :] = annuual_sum
annuual

### 피봇 테이블
피봇 테이블:데이터에 이미 존재하는 기본 열을 행 인덱스와 열 인덱스로 사용하는 테이블  

pandas에서 피봇테이블을 만들기 위해서는 `pivot` 메서드를 사용할 수 있다.
`pivot` 메서드에는 `index` 인수로 행 인덱스로 사용할 열을 지정,  
`columns` 인수로 열 인덱스로 사용할 열을 지정, `values` 인수로 표현할 데이터를 지정

In [None]:
df1 = pd.DataFrame({
    '도시':['서울','서울','서울','부산','부산','부산','인천','인천'],
    '연도':[2000,2005,2010,2000,2005,2010,2005,2010],
    '인구':[980,970,960,360,350,350,250,260],
    '지역':['수도권','수도권','수도권','경상권','경상권','경상권','수도권','수도권']
})

df1

In [None]:
# 내가 원하는 것들을 행과 열로 지정하여 값을 보는 것
df1.pivot(index='도시',columns='연도',values='인구')

행 인덱스나 열 인덱스를 리스트로 전달하면 다중 인덱스 피봇 테이블로 생성할 수 있음

In [None]:
df1.pivot(index=['지역','도시'],columns='연도',values='인구')

행 인덱스와 열 인덱스 조건에 만족하는 데이터가 2개 이상 존재한다면  
피봇 테이블을 생성할 수 없음

In [None]:
df1.pivot(index="지역", columns="연도", values="인구") 

### 그룹 분석 

데이터가 그룹을 이룰 때 그룹의 특성을 보여주는 분석 방법  
그룹 분석은 피봇테이블과 다르게 키에 의해서 결정되는 데이터가 여러개 있을 경우  
미리 지정한 연산을 통해서 해당 그룹의 대표값을 계산한다.

#### `groupby` 메서드

`groupby` 메서드는 그룹 별로 분류하여 그룹 객체를 생성하는 메서드
그룹 객체는 그룹 연산 메서드를 포함하고 있음

#### 그룹 연산 메서드

- `size()`,`count()` : 그룹 데이터의 개 수  
- `mean()`,`median()`,`min()`,`max()` : 그룹 데이터의 평균 , 중앙값, 최소값 ,최대값  
- `sum()`,`prod()`,`std()`,`var()`,`quantile()` : 그룹 데이터의 합계 , 곱, 표준편차 ,분산 ,시분위수
- `first()`,`last()` : 그룹 데이터의 처음값, 마지막 값

- `agg()`,`aggregate()`: 그룹 연산 메서드를 직접 생성하여 사용하도록 하는 메서드,  
여러가지 그룹 연산을 동시에 하려할 때 해당 그룹 연산을 리스트로 전달하여 사용하도록 하는 메서드
- `discribe()`: 하나의 대표값이 아니라 여러 개의 값을 데이터프레임으로 구하는 메서드
- `apply()`: 하나의 대표값이 아니라 여러 개의 값을 데이터프레임으로 구하는데  
 원하는 그룹 연산이 없을 때 메서드를 직접 생성하여 사용하도록 하는 메서드
- `transform()`: 대표값을 생성하는 것이 아니라 데이터 자체를 변경하는 메서드

In [149]:
df2 = pd.DataFrame({
     'key1' :['A','A','B','B','A'],
     'key2' :['one','two','one','two','one'],
     'data1':[1,2,3,4,5],
     'data2':[10,20,30,40,50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [145]:
data_groups = df2.groupby(df2.key1)
data_groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001A01B9C9790>

In [146]:
data_groups.groups

{'A': [0, 1, 4], 'B': [2, 3]}

In [148]:
data_groups.sum()

Unnamed: 0_level_0,key2,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,onetwoone,8,80
B,onetwo,7,70


In [151]:
df2.data2

0    10
1    20
2    30
3    40
4    50
Name: data2, dtype: int64

In [None]:
# df2.groupby(df2.key1).sum()
df2.data2.groupby(df2.key1).sum()


In [155]:
df2.groupby(df2.key1)['data1'].sum() 

key1
A    8
B    7
Name: data1, dtype: int64

In [165]:
df2.groupby(df2.key1).sum().data1

key1
A    8
B    7
Name: data1, dtype: int64

#### 파이썬으로 다음 연산을 수행한다.

key1의 값을 기준으로 data1의 값을 분류하여 합계를 구한 결과를 시리즈가 아닌 데이터프레임으로 구한다.

In [166]:

df2.groupby(df2.key1).sum(['data1'])




Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70
