# Pandas

5. Pandas 자료구조의 연산
6. 데이터 합치고 분리하기
7. group_by

In [16]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

# 5. Pandas 자료구조의 연산
## 시리즈와 데이터프레임의 연산

### 시리즈의 연산

In [20]:
s1 = pd.Series(range(1, 6), index = list("abcde"))
s1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [21]:
s2 = pd.Series(range(6, 11), index = list("bcdef"))
s2

b     6
c     7
d     8
e     9
f    10
dtype: int64

In [22]:
s1 + s2

a     NaN
b     8.0
c    10.0
d    12.0
e    14.0
f     NaN
dtype: float64

#### 시리즈의 연산은 인덱스가 같은 것끼리 계산하며, 인덱스가 없을 경우에는 NaN이 반환됨

### 데이터프레임의 연산

In [17]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), 
                   columns = list("abcd"))
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [18]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), 
                   columns = list("abcde"))
df2

Unnamed: 0,a,b,c,d,e
0,0.0,1.0,2.0,3.0,4.0
1,5.0,6.0,7.0,8.0,9.0
2,10.0,11.0,12.0,13.0,14.0
3,15.0,16.0,17.0,18.0,19.0


In [19]:
df1 + df2

Unnamed: 0,a,b,c,d,e
0,0.0,2.0,4.0,6.0,
1,9.0,11.0,13.0,15.0,
2,18.0,20.0,22.0,24.0,
3,,,,,


#### 데이터프레임의 연산도 시리즈와 마찬가지로 인덱스가 같은 것끼리 계산하며, 인덱스가 없을 경우에는 NaN이 반환됨

### 시리즈 + 데이터프레임

In [24]:
df1

Unnamed: 0,a,b,c,d
0,0.0,1.0,2.0,3.0
1,4.0,5.0,6.0,7.0
2,8.0,9.0,10.0,11.0


In [25]:
s1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [23]:
df1 + s1

Unnamed: 0,a,b,c,d,e
0,1.0,3.0,5.0,7.0,
1,5.0,7.0,9.0,11.0,
2,9.0,11.0,13.0,15.0,


#### 시리즈의 인덱스와 데이터프레임의 컬럼인덱스가 대응되어 더해지며, 없는 인덱스는 NaN으로 반환됨

## 집계함수
- lambda
- map
- apply

### lambda 함수
- 한 줄로 함수를 표현하는 방법
- 일시적으로 사용할 함수를 정의할 때 사용하며, map과 apply와 적용할 때 많이 쓰임
- 사용방법
```python
lambda 인자: 함수식
```

In [28]:
# 일반적인 함수
def f1(x, y):
    return x + y
f1(3, 5)

8

In [29]:
# lambda 함수
f2 = lambda x, y: x + y
f2(3, 5)

8

### map 함수
- 함수와 리스트(또는 array, 시리즈)를 받아서 리스트의 원소마다 입력받은 함수를 적용
- `함수`의 경우는 보통 lambda 함수를 많이 사용
1. 리스트에 적용 : 다음과 같이 `map()`의 결과를 `list()`로 묶어야 값을 확인할 수 있음
```python
list(map(함수, 리스트))
```
2. Series에 적용
```python
시리즈.map(함수)
```

In [34]:
a = [1, 2, 3, 4, 5]
f = lambda x: x ** 2
list(map(f, a))

[1, 4, 9, 16, 25]

In [33]:
a = [1, 2, 3]
b = [4, 5, 6]
f = lambda x, y: x + y
list(map(f, a, b))

[5, 7, 9]

In [37]:
# 시리즈에서는 다음곽 같이 사용 가능
s = pd.Series(range(1, 11))
s.map(lambda x: x ** 2)

0      1
1      4
2      9
3     16
4     25
5     36
6     49
7     64
8     81
9    100
dtype: int64

### apply 함수
- map은 한 원소마다 적용하는 반면, apply는 series 전체(column)에 적용
- 즉, 데이터프레임의 column마다의 연산을 할 때 유용
- 행마다의 연산을 하고 싶은 경우, `axis = 1` 옵션을 넣으면 가능
- series를 입력받을 수 있음
```python
데이터프레임.apply(함수)
```

In [44]:
df = pd.DataFrame(np.arange(9).reshape(3, 3),
                  columns = ["col1","col2","col3"])
df

Unnamed: 0,col1,col2,col3
0,0,1,2
1,3,4,5
2,6,7,8


In [46]:
# 각 컬럼이 series이기 때문에, 각 컬럼마다의 합을 계산
df.apply(sum)

col1     9
col2    12
col3    15
dtype: int64

In [48]:
# column마다의 평균
df.apply(np.mean)

col1    3.0
col2    4.0
col3    5.0
dtype: float64

In [52]:
# 행마다의 평균
df.apply(np.mean, axis = 1)

0    1.0
1    4.0
2    7.0
dtype: float64

### 기타 Pandas 내장함수

In [54]:
# 앞의 5개 행만 보여줌
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [55]:
# 각 컬럼마다의 기초통계량을 보여줌
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [56]:
# series의 중복을 제거한 값만 보여줌
iris.species.unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [59]:
# 컬럼마다의 합
iris.sum()

sepal_length                                                876.5
sepal_width                                                 458.6
petal_length                                                563.7
petal_width                                                 179.9
species         setosasetosasetosasetosasetosasetosasetosaseto...
dtype: object

In [60]:
# 컬럼마다의 평균
iris.mean()

sepal_length    5.843333
sepal_width     3.057333
petal_length    3.758000
petal_width     1.199333
dtype: float64

In [61]:
# 컬럼마다 결측치 확인
iris.isnull().sum()

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
species         0
dtype: int64

# 6. 데이터 합치기

## merge 함수
- 기준 열을 중심으로 데이터 연결
- 따로 지정이 없으면, 이름이 같은 열은 모두 기준 열이 됨

In [104]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
})
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [77]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns = ['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


### 어떤 방식으로 붙일까?

In [78]:
# inner join
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [79]:
# outer join
pd.merge(df1, df2, how = "outer")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [80]:
# left join
pd.merge(df1, df2, how = "left")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [81]:
# right join
pd.merge(df1, df2, how = "right")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


### 기준변수 지정

In [106]:
df1 = pd.DataFrame({'고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
                    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희'],
                    '금액': [100, 200, 300, 400, 500, 600, 700]})
df1

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,100
1,1002,도우너,200
2,1003,또치,300
3,1004,길동,400
4,1005,희동,500
5,1006,마이콜,600
6,1007,영희,700


In [107]:
df2 = pd.DataFrame({'고객번호': [1001, 1001, 1005, 1006, 1008, 1001],    
                    '금액': [10000, 20000, 15000, 5000, 100000, 30000]})
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [111]:
# 고객번호와 금액이 두 데이터에 모두 존재하기 때문에, 두개가 동시에 만족하는 데이터는 없음
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액


In [110]:
# 기준변수를 지정해주면 다음과 같이 나타남
pd.merge(df1, df2, on = "고객번호")

Unnamed: 0,고객번호,이름,금액_x,금액_y
0,1001,둘리,100,10000
1,1001,둘리,100,20000
2,1001,둘리,100,30000
3,1005,희동,500,15000
4,1006,마이콜,600,5000


## concat 함수
- 기준 열을 사용하지 않고 합칠 때 사용

### 행으로 붙이기
- 행으로 붙이기 때문에, 인덱스가 중복됨

In [97]:
l1 = [{'name': 'John', 'job': "teacher"},
      {'name': 'Nate', 'job': "student"},
      {'name': 'Jack', 'job': "developer"}]        
df1 = pd.DataFrame(l1, columns = ['name', 'job'])
df1

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Jack,developer


In [98]:
pd.concat([df1, df1])

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Jack,developer
0,John,teacher
1,Nate,student
2,Jack,developer


In [101]:
# append도 같은 결과를 줌
df1.append(df1)

Unnamed: 0,name,job
0,John,teacher
1,Nate,student
2,Jack,developer
0,John,teacher
1,Nate,student
2,Jack,developer


### 열로 붙이기
- 인덱스에 맞춰서 붙여줌

In [94]:
l2 = [{'age': 25, 'country': "U.S"},
      {'age': 30, 'country': "U.K"},
      {'age': 45, 'country': "Korea"}]
df2 = pd.DataFrame(l2, columns = ['age', 'country'])
df2

Unnamed: 0,age,country
0,25,U.S
1,30,U.K
2,45,Korea


In [99]:
# 열로 붙이기 위해서는 "axis = 1" 옵션이 필요
result = pd.concat([df1, df2], axis = 1)
result

Unnamed: 0,name,job,age,country
0,John,teacher,25,U.S
1,Nate,student,30,U.K
2,Jack,developer,45,Korea


# 7. 그룹별 연산
- 그룹을 지어 그룹마다의 계산을 하고 싶을 때 사용
```python
group_by
```

In [66]:
df2 = pd.DataFrame({
    'key1': ['A', 'A', 'B', 'B', 'A'],
    'key2': ['one', 'two', 'one', 'two', 'one'],
    'data1': [1, 2, 3, 4, 5],
    'data2': [10, 20, 30, 40, 50]
})
df2

Unnamed: 0,key1,key2,data1,data2
0,A,one,1,10
1,A,two,2,20
2,B,one,3,30
3,B,two,4,40
4,A,one,5,50


In [67]:
df2.key1

0    A
1    A
2    B
3    B
4    A
Name: key1, dtype: object

#### key1의 그룹별로 합을 구하고 싶을 때?

In [68]:
df2.groupby(df2.key1).sum()

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,8,80
B,7,70


#### key1과 key2별로 합을 구하고 싶을 때?

In [70]:
df2.groupby(["key1","key2"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,data1,data2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
A,one,6,60
A,two,2,20
B,one,3,30
B,two,4,40


#### key1별로 합, 평균, 표준편차를 알고 싶을 때? `agg()`

In [73]:
df2.groupby(df2.key1).agg([np.sum, np.mean, np.std])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,sum,mean,std,sum,mean,std
key1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,8,2.666667,2.081666,80,26.666667,20.81666
B,7,3.5,0.707107,70,35.0,7.071068


## Refernece
- [데이터 사이언스 스쿨](https://datascienceschool.net/01%20python/04.00%204%EC%9E%A5%20%ED%8C%90%EB%8B%A4%EC%8A%A4%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EB%B6%84%EC%84%9D.html)