# CHAPTER9 Pandas 응용

9.1 DataFrame 연결과 결합의 개요
- 데이터프레임을 일정 방향으로 붙이는 것은 연결
- 특정 Key를 참조하여 연결하는 조작은 결합

=> 단순히 붙이는 것인지, 어떤 라벨을 기준으로 연결하고 있는지를 보기

## 9.2 DataFrame 연결

### 9.2.1 인덱스나 컬럼이 일치하는 DataFrame 간의 연결

- pd.concat(데이터프레임 리스트, axis=0) : 리스트의 선두부터 순서대로 세로로 연결. axis=1은 가로
- 세로 방향으로 연결할 때는 동일한 컬럼으로 연결되며, 가로 방향은 동일한 인덱스로 연결된다


In [2]:
import numpy as np
import pandas as pd

def make_random_df(index, col, seed):
    np.random.seed(seed)
    df = pd.DataFrame()
    for c in col:
        df[c] = np.random.choice(range(1,101), len(index))
    df.index = index
    return df

col = ['apple', 'orange', 'banana']
df_data1 = make_random_df(range(1,5), col, 0)
df_data2 = make_random_df(range(1,5), col, 1)

df1 = pd.concat([df_data1, df_data2], axis=0)
df2 = pd.concat([df_data1, df_data2], axis=1)

print(df1)
print(df2)

   apple  orange  banana
1     45      68      37
2     48      10      88
3     65      84      71
4     68      22      89
1     38      76      17
2     13       6       2
3     73      80      77
4     10      65      72
   apple  orange  banana  apple  orange  banana
1     45      68      37     38      76      17
2     48      10      88     13       6       2
3     65      84      71     73      80      77
4     68      22      89     10      65      72


### 9.2.2 인덱스나 컬럼이 일치하지 않는 DataFrame 간의 연결

- 인덱스나 컬럼이 일치하지 않는 데이터프레임 끼리 연결할 경우 공통의 인덱스나 컬럼이 아닌 행, 열에는 NaN셀이 생성된다 

In [3]:
col1= ['apple', 'orange', 'banana']
col2 = ['orange', 'kiwifruit', 'banana']

df_data1 = make_random_df(range(1,5), col1, 0)
df_data2 = make_random_df(range(1,8,2), col2, 1)

df1 = pd.concat([df_data1, df_data2], axis=0)
df2 = pd.concat([df_data1, df_data2], axis=1)

print(df1)
print(df2)

   apple  orange  banana  kiwifruit
1   45.0      68      37        NaN
2   48.0      10      88        NaN
3   65.0      84      71        NaN
4   68.0      22      89        NaN
1    NaN      38      17       76.0
3    NaN      13       2        6.0
5    NaN      73      77       80.0
7    NaN      10      72       65.0
   apple  orange  banana  orange  kiwifruit  banana
1   45.0    68.0    37.0    38.0       76.0    17.0
2   48.0    10.0    88.0     NaN        NaN     NaN
3   65.0    84.0    71.0    13.0        6.0     2.0
4   68.0    22.0    89.0     NaN        NaN     NaN
5    NaN     NaN     NaN    73.0       80.0    77.0
7    NaN     NaN     NaN    10.0       65.0    72.0


### 9.2.3 연결 시 라벨 지정하기

- 데이터프레임끼리 연결 시 라벨이 중복되는 경우가 있다
- pd.concat()에 keys를 추가하여 라벨 중복을 피할 수 있다

In [5]:
col = ['apple', 'orange', 'banana']
df_data1 = make_random_df(range(1,5), col, 0)
df_data2 = make_random_df(range(1,5), col, 1)

df = pd.concat([df_data1, df_data2], axis=1, keys=['X','Y'])
df

Unnamed: 0_level_0,X,X,X,Y,Y,Y
Unnamed: 0_level_1,apple,orange,banana,apple,orange,banana
1,45,68,37,38,76,17
2,48,10,88,13,6,2
3,65,84,71,73,80,77
4,68,22,89,10,65,72


In [6]:
Y_banana = df['Y', 'banana']
Y_banana

1    17
2     2
3    77
4    72
Name: (Y, banana), dtype: int64

## 9.3 DataFrame 결합

### 9.3.1 결합 유형
- joint, merge. 결합은 Key로 불리는 열을 지정하고 두 데이터의 Key값이 일치하는 행을 옆으로 연결한다
- 결합에는 내부 결합과 외부 결합 두가지 방법이 있다
  - 내부 결합 : Key 열이 공통되지 않는 행은 삭제된다.동일한 컬럼이지만 값이 일치하지 않는 행의 경우 이를 남기거나 없앨 수 있다
  - 외부 결합 : Key 열이 공통되지 않아도 행이 삭제되지 않고 남는다. 공통되지 않는 열에는 NaN 셀이 생성된다

  => 결합 결과로 가능한 한 많은 요소를 갖는 편이 좋은 경우에는 외부 결합이 바람직

### 9.3.2 내부 결합의 기본

- pd.merge(df1,df2,on=Key(가 될 컬럼), how='inner')
- 이때 df1이 왼쪽에 위치한다
- Key 열의 값이 일치하지 않는 행은 삭제된다

In [9]:
data1 = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'time':[1,4,5,6,3]}
df1 = pd.DataFrame(data1)

data2 = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'mango'],
        'year':[2001,2002,2001,2008,2007],
        'time':[150,120,100,250,3000]}
df2 = pd.DataFrame(data2)

print(df1)
print()
print(df2)
print()

       fruits  year  time
0       apple  2001     1
1      orange  2002     4
2      banana  2001     5
3  strawberry  2008     6
4   kiwifruit  2006     3

       fruits  year  time
0       apple  2001   150
1      orange  2002   120
2      banana  2001   100
3  strawberry  2008   250
4       mango  2007  3000



In [10]:
df3 = pd.merge(df1,df2, on='fruits', how='inner')
df3

Unnamed: 0,fruits,year_x,time_x,year_y,time_y
0,apple,2001,1,2001,150
1,orange,2002,4,2002,120
2,banana,2001,5,2001,100
3,strawberry,2008,6,2008,250


### 9.3.3 외부 결합의 기본
- pd.merge(df1,df2,on=Key(가 될 컬럼), how='outer')
- Key 열의 값이 일치하지 않는 행은 삭제되지 않고 NaN으로 이루어진 열이 생성된다

In [12]:
data1 = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'kiwifruit'],
        'year':[2001,2002,2001,2008,2006],
        'amout':[1,4,5,6,3]}
df1 = pd.DataFrame(data1)

data2 = {'fruits':['apple', 'orange', 'banana', 'strawberry', 'mango'],
        'year':[2001,2002,2001,2008,2007],
        'price':[150,120,100,250,3000]}
df2 = pd.DataFrame(data2)

df3 = pd.merge(df1, df2, on='fruits', how='outer')
df3

Unnamed: 0,fruits,year_x,amout,year_y,price
0,apple,2001.0,1.0,2001.0,150.0
1,orange,2002.0,4.0,2002.0,120.0
2,banana,2001.0,5.0,2001.0,100.0
3,strawberry,2008.0,6.0,2008.0,250.0
4,kiwifruit,2006.0,3.0,,
5,mango,,,2007.0,3000.0


### 9.3.4 이름이 다른 열을 Key로 결합하기

- 두 개의 데이터프레임, 왼쪽은 주문 정보를 저장한 order_df, 오른쪽은 고객 정보를 저장한 customer_df
- order_df에서는 고객 ID 컬럼을 customer_id로, customer_df에서는 id로 함
- 주문 정보에 고객 정보 데이터를 넣고싶으므로 customer_id를 Key로 하고 싶지만 customer_df에 대응하는 컬럼이 id이므로 대응하는 컬럼명이 일치하지 않는다
- 이런 경우 각 컬럼을 별도로 지정해야 한다

In [17]:
order_df = pd.DataFrame([[1000,2546,103],
                         [1001,4532,101],
                         [1002,342,101]],
                        columns=['id', 'item_id', 'customer_id'])

customer_df = pd.DataFrame([[101,'광수'],
                            [102,'민호'],
                            [103,'소희']],
                           columns=['id', 'name'])

order_df = pd.merge(order_df, customer_df, left_on='customer_id', right_on='id', how='inner')
order_df

Unnamed: 0,id_x,item_id,customer_id,id_y,name
0,1000,2546,103,103,소희
1,1001,4532,101,101,광수
2,1002,342,101,101,광수


### 9.3.5 인덱스를 Key로 결합하기

- 데이터프레임 간의 결합에 사용하는 Key가 인덱스인 경우 left_on, right_on 대신 left_index=True, right_index=True로 사용한다

In [19]:
order_df = pd.DataFrame([[1000,2546,103],
                         [1001,4532,101],
                         [1002,342,101]],
                        columns=['id', 'item_id', 'customer_id'])

customer_df = pd.DataFrame([[101,'광수'],
                            [102,'민호'],
                            [103,'소희']],
                           columns=['id', 'name'])
customer_df.index = [101, 102, 103]

order_df = pd.merge(order_df, customer_df, left_on='customer_id', right_index=True, how='inner')
order_df

Unnamed: 0,id_x,item_id,customer_id,id_y,name
0,1000,2546,103,103,소희
1,1001,4532,101,101,광수
2,1002,342,101,101,광수


## 9.4 DataFrame을 이용한 데이터분석

### 9.4.1 특정 행 얻기

- head, tail

In [20]:
np.random.seed(0)

cols = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for c in cols:
    df[c] = np.random.choice(range(1,11),10)
df.index = range(1,11)

df.head(3)

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
1,6,8,6,3,10
2,1,7,10,4,10
3,4,9,9,9,1


In [21]:
df.tail(3)

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
8,6,8,4,8,8
9,3,9,6,1,3
10,5,2,1,2,1


### 9.4.2 계산 처리하기

- 판다스와 넘파이는 상호호환이 좋아서 유연한 데이터 전달이 가능하다
- 넘파이에서 제공하는 함수에 시리즈나 데이터프레임을 전달해 전체 요소를 계산할 수 있고
- 넘파이 배열을 받아들이는 함수에 데이터프레임을 전달해 열 단위로 정리해 계산할 수 있다
- 판다스는 넘파이처럼 브로드캐스트를 지원한다

In [24]:
np.random.seed(0)

cols = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for c in cols:
    df[c] = np.random.choice(range(1,11),10)
df.index = range(1,11)

double_df = df*2
print(double_df)

square_df = df**2
print(square_df)

sqrt_df = np.sqrt(df)
print(sqrt_df)

    apple  orange  banana  strawberry  kiwifruit
1      12      16      12           6         20
2       2      14      20           8         20
3       8      18      18          18          2
4       8      18      20           4         10
5      16       4      10           8         16
6      20      14       8           8          8
7       8      16       2           8          6
8      12      16       8          16         16
9       6      18      12           2          6
10     10       4       2           4          2
    apple  orange  banana  strawberry  kiwifruit
1      36      64      36           9        100
2       1      49     100          16        100
3      16      81      81          81          1
4      16      81     100           4         25
5      64       4      25          16         64
6     100      49      16          16         16
7      16      64       1          16          9
8      36      64      16          64         64
9       9      81   

### 9.4.3 통계 정보 얻기

- 컬럼별로 평균값, 최댓값, 최솟값 등의 통계 정보를 집계할 수 있다
- df.describe()

In [25]:
np.random.seed(0)

cols = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for c in cols:
    df[c] = np.random.choice(range(1,11),10)
df.index = range(1,11)

df.describe()

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
count,10.0,10.0,10.0,10.0,10.0
mean,5.1,6.9,5.6,4.1,5.3
std,2.558211,2.685351,3.306559,2.558211,3.465705
min,1.0,2.0,1.0,1.0,1.0
25%,4.0,7.0,4.0,2.25,3.0
50%,4.5,8.0,5.5,4.0,4.5
75%,6.0,8.75,8.25,4.0,8.0
max,10.0,9.0,10.0,9.0,10.0


In [30]:
df.describe().loc[['mean', 'max', 'min']]

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
mean,5.1,6.9,5.6,4.1,5.3
max,10.0,9.0,10.0,9.0,10.0
min,1.0,2.0,1.0,1.0,1.0


### 9.4.4 DataFrame의 행간 차이와 열간 차이 구하기

- 행간 차이를 구하는 작업은 시계열 분석에서 자주 이용된다
- df에 대해 df.diff(행간격/열간격, axis=방향)
- 첫 번째 인수가 양수면 이전행과의 차이를, 음수면 다음 행과의 차이를 구한다
- axis가 0이면 행의 방향, 1이면 열의 방향

In [31]:
np.random.seed(0)

cols = ['apple', 'orange', 'banana', 'strawberry', 'kiwifruit']

df = pd.DataFrame()
for c in cols:
    df[c] = np.random.choice(range(1,11),10)
df.index = range(1,11)

df_diff = df.diff(-2, axis=0)
df_diff

Unnamed: 0,apple,orange,banana,strawberry,kiwifruit
1,2.0,-1.0,-3.0,-6.0,9.0
2,-3.0,-2.0,0.0,2.0,5.0
3,-4.0,7.0,4.0,5.0,-7.0
4,-6.0,2.0,6.0,-2.0,1.0
5,4.0,-6.0,4.0,0.0,5.0
6,4.0,-1.0,0.0,-4.0,-4.0
7,1.0,-1.0,-5.0,3.0,0.0
8,1.0,6.0,3.0,6.0,7.0
9,,,,,
10,,,,,


### 9.4.5 그룹화

- 특정 열에서 동일한 값의 행을 집계하는 것을 그룹화라고 한다
- df.groupby('컬럼')
- GroupBy 객체는 반환하지만 그룹화된 결과는 표시하지 않는다
- 그룹화의 결과를 표시하려면 객체에 대해 평균이나 합 등의 통계함수를 사용한다

In [47]:
df = pd.DataFrame([['강릉', 1040,213527,'강원도'],
                  ['광주',430,1458915,'전라도'],
                  ['평창',1463,42218,'강원도'],
                  ['대전',539,1476955,'충청도'],
                  ['단양',780,29816,'충청도']],
                  columns=['prefecture', 'area', 'population', 'region'])
grouped_region = df.groupby(df['region']) # df.groupby('region')
mean_df = grouped_region.mean()
mean_df 

Unnamed: 0_level_0,area,population
region,Unnamed: 1_level_1,Unnamed: 2_level_1
강원도,1251.5,127872.5
전라도,430.0,1458915.0
충청도,659.5,753385.5


In [50]:
df1 = pd.DataFrame([['apple', 'fruit', 120],
                    ['orange', 'fruit', 60],
                    ['banana', 'fruit', 100],
                    ['pumpkin', 'vegetable', 150],
                    ['potato', 'vegetable', 80]],
                   columns=['name', 'type', 'price'])

df2 = pd.DataFrame([['onion', 'vegetable', 60],
                    ['carrot', 'vegetable', 50],
                    ['beans', 'vegetable', 100],
                    ['grape', 'fruit', 160],
                    ['kiwifruit', 'fruit', 80]],
                   columns=['name', 'type', 'price'])

# df1, df2 세로로 결합
df = pd.concat([df1,df2], axis=0)
df

Unnamed: 0,name,type,price
0,apple,fruit,120
1,orange,fruit,60
2,banana,fruit,100
3,pumpkin,vegetable,150
4,potato,vegetable,80
0,onion,vegetable,60
1,carrot,vegetable,50
2,beans,vegetable,100
3,grape,fruit,160
4,kiwifruit,fruit,80


In [77]:
# 야채와 과일을 각각 추출해서 price로 정렬

fruit_df = df[df['type'] == 'fruit'].sort_values(by='price')
vegetable_df = df[df['type'] == 'vegetable'].sort_values(by='price')
fruit_df.head(3)

Unnamed: 0,name,type,price
1,orange,fruit,60
4,kiwifruit,fruit,80
2,banana,fruit,100


In [78]:
vegetable_df.head(3)

Unnamed: 0,name,type,price
1,carrot,vegetable,50
0,onion,vegetable,60
4,potato,vegetable,80


In [79]:
sum(fruit_df[:3]['price']) + sum(vegetable_df[:3]['price'])

430