<a href="https://colab.research.google.com/github/KSeungBin/python/blob/master/DataFrame2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 데이터프레임의 기본 연산
Series 데이터와 같이 DataFrame에도 `브로드캐스팅`이 적용됩니다.  
예를 들어, 수치 연산은 전체 데이터에 확장 적용됩니다. 
- ndarray는 수치형 자료에 최적화되어 있어, 숫자가 아닌 데이터를 넣으면 성능 매우 떨어짐.
- pandas는 column 내의 데이터 타입만 맞춰주면 성능이 좋다

In [1]:
from pandas import DataFrame

data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


df에 덧셈 연산을 적용해 봅시다.

In [2]:
# broadcasting
100 - df

Unnamed: 0,시가,고가,저가,종가
20200615,0,-10,10,-5
20200616,10,-12,20,5
20200617,20,-15,30,15
20200618,30,20,40,25


비교 연산 또한 전체 데이터에 적용됩니다. 

In [3]:
df > 10

Unnamed: 0,시가,고가,저가,종가
20200615,True,True,True,True
20200616,True,True,True,True
20200617,True,True,True,True
20200618,True,True,True,True


비교 연산의 수행 결과 boolean형 데이터가 저장된 DataFrame 객체가 반환됩니다. 

In [4]:
cond = df > 100
df.loc[cond] # error : 이렇게 사용될 일 거의 없다(pandas는 broadcasting 지원되므로 if문 등의 조건을 쓸 일 없다)

ValueError: ignored

In [5]:
# 시가가 90원 이상일 때 그날의 종가를 가져오기 (like vlookup, hlookup in excel)
cond = df['시가'] >= 90         # 참, 거짓을 저장한 시리즈 반환
df.loc[cond, '종가']            # 조건이 참인 행을 가져오기(행 = 조건), 열 = '종가' column을 출력하는 것으로 선택
# ndarray에서도 arr[조건, 열]

20200615    105
20200616     95
Name: 종가, dtype: int64

In [None]:
df.loc[cond, ['시가', '종가']]   # pandas에서는 여러 개를 선택할 때 list 또는 tuple 형태로 작성 

In [8]:
# 고가와 저가의 차이를 변동폭이라고 정의할 때, 변동폭이 30보다 큰 행을 출력하라
변동폭 = df['고가'] - df['저가']   # 동일한 인덱스에 위치한 데이터끼리 뺄셈연산 -> 동일한 인덱스에 저장하고 반복해서 이를 시리즈로 반환
cond = 변동폭 > 30
df.loc[cond]

Unnamed: 0,시가,고가,저가,종가
20200616,90,112,80,95
20200617,80,115,70,85


Q. 값이 100보다 작은 경우 데이터프레임의 값을 0으로 채워 봅시다. 
- 조건 
- replace
- fillna

판다스는 다양한 메서드를 제공합니다. 

In [None]:
df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


`mean` 메서드는 평균을 계산합니다. 

In [9]:
df.mean(axis = 1)  # x축 방향(행단위, ->)으로 연산  

20200615    101.25
20200616     94.25
20200617     87.50
20200618     71.25
dtype: float64

In [10]:
df.var(axis = 1)

20200615     72.916667
20200616    178.916667
20200617    375.000000
20200618     72.916667
dtype: float64

In [11]:
# 데이터프레임의 상관계수
df.corr()

Unnamed: 0,시가,고가,저가,종가
시가,1.0,0.689197,1.0,1.0
고가,0.689197,1.0,0.689197,0.689197
저가,1.0,0.689197,1.0,1.0
종가,1.0,0.689197,1.0,1.0


`min` / `max` 함수는 최대, 최소 값을 출력합니다.

In [13]:
df.min()

시가    70
고가    80
저가    60
종가    75
dtype: int64

In [14]:
df.max()

시가    100
고가    115
저가     90
종가    105
dtype: int64

Q. 시가에 매수하고 종가에 매도 했을 때(매일 사고 팔았을 때)의 누적 수익률을 출력하라.

In [15]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])
df

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


In [16]:
# 수익률 (5%, 6%, 7% 수익률)
df['종가'] / df['시가']

20200615    1.050000
20200616    1.055556
20200617    1.062500
20200618    1.071429
dtype: float64

In [17]:
# 데이터프레임 수정
df['수익률'] = 10 # broadcasting : 수익률 column에 모두 10이 채워짐
df

Unnamed: 0,시가,고가,저가,종가,수익률
20200615,100,110,90,105,10
20200616,90,112,80,95,10
20200617,80,115,70,85,10
20200618,70,80,60,75,10


In [18]:
df['수익률'] = [10,20,30,40]  # ndarray, series 넣어도 됨
df

Unnamed: 0,시가,고가,저가,종가,수익률
20200615,100,110,90,105,10
20200616,90,112,80,95,20
20200617,80,115,70,85,30
20200618,70,80,60,75,40


In [19]:
df.loc['20200619'] = [0,1,2,3,4]

In [33]:
# 얕은 복사 : 메모리 상에 동일한 공간을 가리킴
a = [0,1,2,3]
b = a
b[0] = 100
a

# [QUESTION] 얕은 복사를 실무에서 사용할 일이 있을까요? 거대한 데이터프레임을 처리해야할 때, 내가 관심있는 일부만 가리키도록 복사하고 수정이 필요하면 수정(view)
# https://wikidocs.net/160595

[100, 1, 2, 3]

In [21]:
a = df.copy()  # copy : df와 전혀 다른 메모리 상에 위치 = 깊은 복사
a.iloc[0,0] = 1000
a

Unnamed: 0,시가,고가,저가,종가,수익률
20200615,1000,110,90,105,10
20200616,90,112,80,95,20
20200617,80,115,70,85,30
20200618,70,80,60,75,40
20200619,0,1,2,3,4


Q. 데이터 프레임에서 고가가 가장 높은 날이 날짜를 출력하라.

In [None]:
data = [
    {'시가': 100, '고가': 110, '저가': 90, '종가': 105}, 
    {'시가':  90, '고가': 112, '저가': 80, '종가':  95}, 
    {'시가':  80, '고가': 115, '저가': 70, '종가':  85}, 
    {'시가':  70, '고가':  80, '저가': 60, '종가':  75}, 
]

df = DataFrame(data, index=['20200615', '20200616', '20200617', '20200618'])

df.index[df['고가'] == f['고가'].max()  # df는 2차원(세로축, 가로축)이므로 axis를 지정해줘야 하지만, df['고가']는 시리즈이므로 axis를 지정할 필용 없다

Unnamed: 0,시가,고가,저가,종가
20200615,100,110,90,105
20200616,90,112,80,95
20200617,80,115,70,85
20200618,70,80,60,75


In [31]:
print(df['고가'].idxmax())  # max를 갖는 데이터의 인덱스
print(df['고가'].idxmin())

20200617
20200619


In [26]:
a = df[['고가']].copy() # df type을 유지하기 위해 하나의 column을 갖고 오더라도 [[]]  # df['고가].to_frame() 으로 시리즈를 df로 변환할 수도 있음
a['상한가'] = df['고가'] * 1.3
a['하한가'] = df['고가'] * 0.7
a

# 데이터프레임은 broadcasting을 통해 두 개 이상의 column을 생성할 수 있지만, 시리즈는 1차원 데이터 구조이므로 위와 같은 연산을 할 수 없음

Unnamed: 0,고가,상한가,하한가
20200615,110,143.0,77.0
20200616,112,145.6,78.4
20200617,115,149.5,80.5
20200618,80,104.0,56.0
20200619,1,1.3,0.7


In [29]:
 # 인덱싱, 슬라이싱 할 수 있다 = 수정할 수 있다
 df.고가  # df['고가']와 동일
 df.iloc[:2, :2] = 100
 df

Unnamed: 0,시가,고가,저가,종가,수익률
20200615,100,100,90,105,10
20200616,100,100,80,95,20
20200617,80,115,70,85,30
20200618,70,80,60,75,40
20200619,0,1,2,3,4


In [None]:
# drop column
df = df[['시가','고가','저가']]  # method 1
df[df.columns[:-1]]              # method 2
df.drop("시가")  # default는 동일한 index를 찾아 삭제하기 떄문에(axis=0) error
df.drop("시가", axis = 1)
df.drop("20200615", axis = 0)   

# add row
df.loc['20200619'] = 20
df.loc['20200619'] = [20, 30, 40, 50]
df.loc['20200619'] = df['20200618'] * 1.3

## 데이터프레임 그룹화

복잡한 문제는 잘게 나누어 분석하고, 합쳐나가는 `Split-Apply-Combine` 전략을 사용해서 문제를 해결할 수 있습니다. 판다스가 제공하는 `groupby` 메서드를 사용하면 쉽게 `Split-Apply-Combine`을 사용할 수 있습니다. 
- split: `sex` 칼럼을 기준으로 같은 값을 같는 데이터로 분할합니다. 
- apply: 분할된 각각의 데이터에 mean/min/max/sum 등의 연산을 적용합니다.
- combine: 연산이 적용된 결과를 합쳐 하나의 테이블로 만듭니다. 

<img src="https://i.ibb.co/9Z90Hsy/pandas-1-0.png" width="800" style="float:left" />

다음은 데이터프레임을 사용하 보겠습니다. 

In [34]:
# pivot으로 정리하는 것은 온라인 강의로 확인하기
df = DataFrame({
    'sex'    : ['m', 'm', 'w', 'm', 'w'],
    'weight' : [76, 88, 54, 70, 45],
    'height' : [176, 190, 148, 177, 155]        
})
df

Unnamed: 0,sex,weight,height
0,m,76,176
1,m,88,190
2,w,54,148
3,m,70,177
4,w,45,155


In [46]:
cond = df['sex'] == "m"
m = df.loc[cond]

w = df.loc[df['sex']=="w"]
           
m.mean()
w.mean()

  
  import sys


weight     49.5
height    151.5
dtype: float64

In [None]:
import pandas as pd

pd.concat( (m.mean(), w.mean())  , axis = 1  )  # 데이터와 함께 표시된 라벨 정보를 표현할 수 없는 ndarray : 따라서, hstack 사용할 수 없음. pd에서는 concat 사용하기
a.columns = ["m", "w"]  # 데이터가 출력되는 순서를 직접 지정할 수 있다
a.transpose()   # a.T 와 동일

`groupby` 메서드를 사용하면 특정 항목을 기준으로 분류할 수 있습니다.  

In [40]:
# 위 방법은 사용하지 않는다. Groupby 사용하기(특정 column을 기준으로 헤쳐 모여! -> group이 되면 알아서 관리해준다)
print(df['sex'].unique())  # 'sex' column에는 남자, 여자 두 개의 값이 사용되었다.
df['sex'].nunique()

2

In [41]:
gb = df.groupby('sex')

In [42]:
print(gb.get_group('m'))
gb.get_group('w')

  sex  weight  height
0   m      76     176
1   m      88     190
3   m      70     177


Unnamed: 0,sex,weight,height
2,w,54,148
4,w,45,155


In [43]:
#  group_by 객체에다가 mean method 호출
df.groupby('sex').mean() # mean 연산을 하고 concat까지 알아서 해준다

Unnamed: 0_level_0,weight,height
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
m,78.0,181.0
w,49.5,151.5


In [44]:
df.groupby('sex').min()

Unnamed: 0_level_0,weight,height
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
m,70,176
w,45,148


In [45]:
print(df.groupby('sex').size()) # 남자 3명, 여자 2명있다.
print(df['sex'].value_counts())  # series의 value_counts 기능과 동일

sex
m    3
w    2
dtype: int64
m    3
w    2
Name: sex, dtype: int64


그룹화한 결과를 확인하기 위해서는 `get_group()` 메서드를 사용해야 합니다.
- 어떤 값을 get 할지 지정해야 함

In [None]:
df = DataFrame({
    'sex'    : ['m', 'm', 'w', 'm', 'w'],
    'weight' : [76, 88, 54, 70, 45],
    'height' : [176, 190, 148, 177, 155]
})
df

Unnamed: 0,sex,weight,height
0,m,76,176
1,m,88,190
2,w,54,148
3,m,70,177
4,w,45,155


groupby와 함께 사용할 수 있는 기본 연산은 `mean()` / `min()` / `max()` / `size()`가 있습니다.

`agg` (aggregation) 메서드를 사용해도 같은 기능을 구현할 수 있습니다.

In [49]:
# 데이터 column이 너무 많아 연산을 일괄 적용하는 건 비효율적
# aggregation method로 내가 관심있는 부분(height)을 지정하고, 어떤 연산을 적용(mean, min, std, var)할지도 선택하는 것
import numpy as np
how = {
    "height" : [np.mean, min]  # dict 안에는 함수 이름만 적고, 호출은 aggregation에서 함
}
df.groupby('sex').agg(how)

Unnamed: 0_level_0,height,height
Unnamed: 0_level_1,mean,min
sex,Unnamed: 1_level_2,Unnamed: 2_level_2
m,181.0,176
w,151.5,148


In [50]:
# 위에서 여자 데이터만 보려면? 
# method 1
df.loc[df['sex']=="w"].mean()
df.loc[df['sex']=="w"].sum()

# method 2 : 얻어진 전체 데이터에서 인덱싱, 슬라이싱으로 꺼내오기
r = df.groupby('sex').agg(how)
r.loc["w"]

  This is separate from the ipykernel package so we can avoid doing imports until


height  mean    151.5
        min     148.0
Name: w, dtype: float64

`agg`를 사용하면 각 컬럼 별로 다른 연산을 적용할 수 있습니다. 딕셔너리 형태로 적용할 연산 정보를 전달해야 합니다.

## Reshaping

### Pivot

In [None]:
data = [
    ["2019", "A", 300, 5],
    ["2019", "B", 200, 4],
    ["2019", "C", 100, 8],
    ["2020", "A", 400, 8],
    ["2020", "B", 230, 3],    
]

columns = ['date', 'item', 'price', 'volume']
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,date,item,price,volume
0,2019,A,300,5
1,2019,B,200,4
2,2019,C,100,8
3,2020,A,400,8
4,2020,B,230,3


In [None]:
df.pivot_table(index="date", columns="item", values="price")

item,A,B,C
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019,300.0,200.0,100.0
2020,400.0,230.0,


### Melt
컬럼을 variable과 value로 설정해서 데이터를 긴형태로 변환합니다.   
데이터 cleaning에 유리한 형태로 변환합니다. 

In [None]:
import numpy as np

data = [
    ["2019", "A", 300, 5],
    ["2019", "B", np.NaN, 4],
    ["2019", "C", 100, np.NaN],
    ["2020", "A", np.NaN, 8],
    ["2020", "B", 230, np.NaN],    
]

columns = ['date', 'item', 'price', 'volume']
df = DataFrame(data=data, columns=columns)
df

Unnamed: 0,date,item,price,volume
0,2019,A,300.0,5.0
1,2019,B,,4.0
2,2019,C,100.0,
3,2020,A,,8.0
4,2020,B,230.0,


`melt` 메서드를 호출하면 모든 데이터를 `variable`과 `value`로 구분합니다. 

`id_vars` 파라미터를 사용하면 남겨놓을 데이터를 지정할 수 있습니다. 

Unnamed: 0,date,item,variable,value
0,2019,A,price,300.0
1,2019,B,price,
2,2019,C,price,100.0
3,2020,A,price,
4,2020,B,price,230.0
5,2019,A,volume,5.0
6,2019,B,volume,4.0
7,2019,C,volume,
8,2020,A,volume,8.0
9,2020,B,volume,


In [None]:
t = df.melt()

In [None]:
t

Unnamed: 0,variable,value
0,date,2019
1,date,2019
2,date,2019
3,date,2020
4,date,2020
5,item,A
6,item,B
7,item,C
8,item,A
9,item,B


### Unstack / Stack

In [None]:
df = DataFrame({
    'city'   : ["서울", "서울", "대구", "대구"],
    'sex'    : ['m', 'w', 'm', 'w'],
    'weight' : [76, 88, 54, 70]
})
df

Unnamed: 0,city,sex,weight
0,서울,m,76
1,서울,w,88
2,대구,m,54
3,대구,w,70


In [None]:
temp = df.groupby(['city', 'sex']).max()
temp

Unnamed: 0_level_0,Unnamed: 1_level_0,weight
city,sex,Unnamed: 2_level_1
대구,m,54
대구,w,70
서울,m,76
서울,w,88


남자와 여자에 대한 데이터를 구분해서 분석하고 싶을 수 있습니다. 

`unstack` 메서드를 사용하면 하나의 높은 level index를 칼럼으로 변경합니다. 

Unnamed: 0_level_0,weight,weight
sex,m,w
city,Unnamed: 1_level_2,Unnamed: 2_level_2
대구,54,70
서울,76,88


인덱스의 레벨을 지정할 수 있습니다. 

Unnamed: 0_level_0,weight,weight
city,대구,서울
sex,Unnamed: 1_level_2,Unnamed: 2_level_2
m,54,76
w,70,88


`stack`은 `unstack`의 반대로 동작합니다. 데이터를 길게 쌓아 올립니다. 

## 파일 I/O
대부분의 데이터는 웹상에 존재하거나 파일 형태로 보관됩니다. 판다스는 파일로 데이터를 쓰거나 읽어 올 수 있는 메서드를 제공합니다. 

데이터프레임의 `to_excel` 메서드는 엑셀 파일로 데이터를 저장합니다. 

In [None]:
df = DataFrame({
    'sex'    : ['m', 'm', 'w', 'm', 'w'],
    'weight' : [76, 88, 54, 70, 45],
    'height' : [176, 190, 148, 177, 155]        
}, index=["영수", "철수", "영자", "말똥", "영희"])
df

Unnamed: 0,sex,weight,height
영수,m,76,176
철수,m,88,190
영자,w,54,148
말똥,m,70,177
영희,w,45,155


In [None]:
df.to_excel('test.xlsx')  # df를 엑셀로 변환
# colab 화면 왼쪽 메뉴바의 폴더 아이콘을 클릭하면 test.xlsx 파일이 생성되어 있음

In [None]:
# 생성된 엑셀 파일을 df로 읽어오기 -> 여기서 수정한 후 업데이트한 내용을 엑셀 파일에 overwrite
a = pd.read_excel('test.xlsx')
a

화면에 아무런 값도 출력되지 않지만, 파일로 데이터가 저장된 것을 확인할 수 있습니다.

<img src="https://i.ibb.co/GFDXBcW/pandas-1-1.png" width="350" style="float:left" />

`sheet_name` 속성을 사용하면 엑셀의 시트탭 이름을 변경할 수 있습니다.

In [None]:
# 엑셀 파일에 정의된 column name 확인하기
a.columns

In [None]:
# 엑셀 파일의 Unnamed column을 인덱스로 설정하기
b = a.set_index("Unnamed: 0")
b.index_name = "name"   # 옵션 변경 : Unnamed -> name 
b.index_name = None     # b.index_name = "" 과 동일      

In [None]:
pd.read_excel('test.xlsx', index_col = 0)  # Unnamed column을 index column으로 지정하는 가장 간단한 코드

In [None]:
df.to_excel('test.xlsx', sheet_name = '인적사항')

엑셀에 저장된 데이터도 `pd`의 `read_excel` 메서드를 사용하면 데이터 프레임으로 값을 읽어옵니다.

In [None]:
import pandas as pd

df = pd.read_excel('test.xlsx')
df

Unnamed: 0.1,Unnamed: 0,sex,weight,height
0,영수,m,76,176
1,철수,m,88,190
2,영자,w,54,148
3,말똥,m,70,177
4,영희,w,45,155


자동으로 부여된 인덱스와 함께 데이터를 읽어 온 것을 확인 할 수 있습니다. 의미있는 이름으로 인덱스를 지정해 보겠습니다.

In [51]:
# google drive mount(colab에서 google drive에 있는 자료들을 보여줌)
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [53]:
# 구글 드라이브에 저장된 test.csv 파일을 불러옴(단, colab 연결이 끊어지면 마운트된 파일들 모두 지워짐) -> 영구 보관하려면 구글 드라이브에 저장해놓기
import pandas as pd
pd.read_csv("/content/drive/MyDrive/Colab Notebooks/2022-04-20/3.EDA/test.csv")

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


추가적인 연산없이 `read_excel`에 `index_col` 옵션을 사용하면 한 번에 인덱스를 설정할 수 있습니다.

In [None]:
import pandas as pd

df = pd.read_excel('test.xlsx', index_col=0)
df

Unnamed: 0,sex,weight,height
영수,m,76,176
철수,m,88,190
영자,w,54,148
말똥,m,70,177
영희,w,45,155
