 # Pandas


Pandas 데이터 프레임의 장점
- **구조화된 데이터를 효과적으로 처리하고 저장**
- 대용량 데이터를 빠르고 쉽게 다를 수 있다 (한계용량: 엑셀 약 100MB, Pandas DataFrame 1GB~ 100GB)
- 복잡한 기능을 구현하기 쉽다
- 데이터 전처리를 쉽게 할 수 있다
- 다른 시스템(웹 개발, 데이터베이스, 머신러닝 등)과 연동이 쉽다
- Numpy 라이브러리에서 지원하는 수학 및 통계 연산을 그대로 이용할 수 있다. (Numpy를 기반으로 설계했기 때문에!)
- excel, csv 파일을 읽고, 저장할 수 있다.

학습목표
  * *pandas* 라이브러리의 `DataFrame` 및 `Series` 데이터 구조에 학습하기
  * `DataFrame` 및 `Series` 내의 데이터 액세스 및 조작
  *  *pandas* 연산과 함수, 정렬하기
  * *pandas* `DataFrame`으로 csv 등의 데이터 가져오기
  * `DataFrame` 조건으로 검색하기
  * `DataFrame` 함수로 데이터 처리하기
  * `DataFrame` 그룹으로 묶기
  * 멀티인덱스와 피봇테이블

## Pandas 조건으로 검색하기

Pandas는 Numpy와 마찬가지로 마스킹 연산이 가능합니다.   
즉, 조건에 맞는 DataFrame row를 추출하는 것이 가능합니다.

In [7]:
# Numpy Masking
import numpy as np

array1 = np.arange(16).reshape(4, 4)
print(array1)
print("\n--------------\n")
array2 = array1 < 10
print(array2)
print("\n--------------\n")

array1[array2] = 100
print(array1)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]

--------------

[[ True  True  True  True]
 [ True  True  True  True]
 [ True  True False False]
 [False False False False]]

--------------

[[100 100 100 100]
 [100 100 100 100]
 [100 100  10  11]
 [ 12  13  14  15]]


In [8]:
import pandas as pd
ArbNight = [['알라딘', 26, '무직', '아라비아'],
            ['자스민', 25, '공주', '아라비아'],
            ['지니', 3000, '요정', '아라비아'],
            ['자파', 50, '악당', '아라비아']]

cols = ['name', 'age', 'job', 'country']

df = pd.DataFrame(ArbNight, columns=cols)
df

Unnamed: 0,name,age,job,country
0,알라딘,26,무직,아라비아
1,자스민,25,공주,아라비아
2,지니,3000,요정,아라비아
3,자파,50,악당,아라비아


In [None]:
'알라딘' in df

False

In [None]:
'알라딘' in df['name']

False

In [None]:
'알라딘' in list(df['name'])

True

In [None]:
'알라딘' in df['name'].values

True

In [None]:
df['name']=='자파'

0    False
1    False
2    False
3     True
Name: name, dtype: bool

나이가 30세 이하인 행만 뽑고 싶다면

In [None]:
# 나이가 30세 이하 => df['age'] <= 30 => return이 True인 행만
# df[ << 조건식 >> ] => << 조건식 >> 리턴값이 True인 행만 뽑는다.
df[df['age'] <= 30]

Unnamed: 0,name,age,job,country
0,알라딘,26,무직,아라비아
1,자스민,25,공주,아라비아


In [None]:
df['age'] <= 30

0     True
1     True
2    False
3    False
Name: age, dtype: bool

In [None]:
df['name']=='지니'

0    False
1    False
2     True
3    False
Name: name, dtype: bool

In [None]:
df[df['name']=='지니']

Unnamed: 0,name,age,job,country
2,지니,3000,요정,아라비아


Quiz. df에서 알라딘과 자스민만 뽑아보세요.

In [None]:
# 직접 풀어보세요




In [None]:
# 딕셔너리 형태로 데이터프레임 만들기
table2 = {
    '일자':['2021-12-06','2021-12-07','2021-12-08','2021-12-09'],
    '가격':[1000,3000,2000,1000],
    '구매여부':[False, True, True, True],
    '제품': ['gum','snack','beverage','gum']
}

df2 = pd.DataFrame(table2)
df2

Unnamed: 0,일자,가격,구매여부,제품
0,2021-12-06,1000,False,gum
1,2021-12-07,3000,True,snack
2,2021-12-08,2000,True,beverage
3,2021-12-09,1000,True,gum


문제. 제품이 'gum'이나 'snack'이 아닌 것을 출력하세요

In [None]:
# 직접 풀어보세요





In [2]:
df2['환불여부'] = ['정상','환불','정상','환불']
df2

NameError: name 'df2' is not defined

In [3]:
# 특정 조건에 따른 데이터 생성
condition1 = (df2['제품'] == 'gum') & (df2['환불여부'] == '환불')

df2.loc[condition1, '관심대상'] = True
df2.loc[~condition1, '관심대상'] = False
df2

NameError: name 'df2' is not defined

#### 문제. 컬럼 "구매여부_2"를 생성하세요
    - 구매여부 False -> "No"
    - 구매여부 True -> "Yes"

In [4]:
#@title
df2.loc[df2['구매여부']==False, '구매여부_2'] = 'No'
df2.loc[df2['구매여부']==True, '구매여부_2'] = 'Yes'
df2

NameError: name 'df2' is not defined

In [5]:
#@title
df2.loc[df2['구매여부'], '구매여부_2'] = 'Yes'
df2.loc[~df2['구매여부'], '구매여부_2'] = 'No'
df2

NameError: name 'df2' is not defined

###query

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html

In [None]:
# query를 이용한 선택
df2.query('가격 > 2000')

Unnamed: 0,일자,가격,구매여부,제품,환불여부,관심대상,구매여부_2
1,2021-12-07,3000,True,snack,환불,False,Yes


In [None]:
df2.query('가격 >= 2000 & 환불여부 == "정상"')

Unnamed: 0,일자,가격,구매여부,제품,환불여부,관심대상,구매여부_2
2,2021-12-08,2000,True,beverage,정상,False,Yes


In [None]:
df2.query('가격 >= 2000 | 환불여부 == "정상"')

Unnamed: 0,일자,가격,구매여부,제품,환불여부,관심대상,구매여부_2
0,2021-12-06,1000,False,gum,정상,False,No
1,2021-12-07,3000,True,snack,환불,False,Yes
2,2021-12-08,2000,True,beverage,정상,False,Yes


In [None]:
df2[(df2['가격'] >= 2000) | (df2['환불여부'] == "정상")]

Unnamed: 0,일자,가격,구매여부,제품,환불여부,관심대상,구매여부_2
0,2021-12-06,1000,False,gum,정상,False,No
1,2021-12-07,3000,True,snack,환불,False,Yes
2,2021-12-08,2000,True,beverage,정상,False,Yes


In [None]:
# 샘플 데이터 다운로드
import seaborn as sns
df_tips = sns.load_dataset("tips")
df_tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


문제. 금요일 Non smoker의 tip 목록을 출력하세요

In [None]:
# 직접 풀어보세요






In [None]:
#@title
df_tips.query("smoker=='No' & day == 'Fri'")

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
91,22.49,3.5,Male,No,Fri,Dinner,2
94,22.75,3.25,Female,No,Fri,Dinner,2
99,12.46,1.5,Male,No,Fri,Dinner,2
223,15.98,3.0,Female,No,Fri,Lunch,3


In [None]:
df_tips.day.value_counts()

Sat     87
Sun     76
Thur    62
Fri     19
Name: day, dtype: int64

## 함수로 데이터 처리하기

In [None]:
import numpy as np
df = pd.DataFrame(np.arange(1,10).reshape(3,3))
df

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


In [None]:
# apply
df.apply(np.median, axis=1)

0    2.0
1    5.0
2    8.0
dtype: float64

In [None]:
df.apply(np.median, axis=0)

0    4.0
1    5.0
2    6.0
dtype: float64

In [None]:
df = pd.DataFrame(np.arange(5), columns=["Num"])
df

Unnamed: 0,Num
0,0
1,1
2,2
3,3
4,4


In [None]:
def square(x):
    return x**2

df["Square_1"] = df['Num'].apply(square)
df

Unnamed: 0,Num,Square_1
0,0,0
1,1,1
2,2,4
3,3,9
4,4,16


In [None]:
df["Square_2"] = df.Num.apply(lambda x: x ** 2)
df

Unnamed: 0,Num,Square_1,Square_2
0,0,0,0
1,1,1,1
2,2,4,4
3,3,9,9
4,4,16,16


In [None]:
df = pd.DataFrame(columns=["phone"])
df.loc[0] = "010-1234-1235"
df.loc[1] = "공일공-일이삼사-1235"
df.loc[2] = "010.1234.일이삼오"
df.loc[3] = "공1공-1234.1이3오"

df["preprocess_phone"] = ''
df

Unnamed: 0,phone,preprocess_phone
0,010-1234-1235,
1,공일공-일이삼사-1235,
2,010.1234.일이삼오,
3,공1공-1234.1이3오,


In [None]:
def get_preprocess_phone(phone):
    mapping_dict = {
    "공": "0",
    "일": "1",
    "이": "2",
    "삼": "3",
    "사": "4",
    "오": "5",
    "-": "",
    ".": "",
    }
    for key, value in mapping_dict.items():
        phone = phone.replace(key, value)
    return phone

df["preprocess_phone"] = df["phone"].apply(get_preprocess_phone)
df

Unnamed: 0,phone,preprocess_phone
0,010-1234-1235,1012341235
1,공일공-일이삼사-1235,1012341235
2,010.1234.일이삼오,1012341235
3,공1공-1234.1이3오,1012341235


문제. 아래 표처럼 중간 4자리를 *표로 바꿔보세요

In [None]:
# 직접 해보세요
# df["masked_data"] =

# phone	                 preprocess_phone	  masked_data
# 0	010-1234-1235	       01012341235	      010****1235
# 1	공일공-일이삼사-1235 	01012341235	       010****1235
# 2	010.1234.일이삼오	    01012341235	       010****1235
# 3	공1공-1234.1이3오	    01012341235	       010****1235

In [None]:
# 딕셔너리 형태로 데이터프레임 만들기
table2 = {
    '일자':['2021-12-06','2021-12-07','2021-12-08','2021-12-09'],
    '가격':[1000,3000,2000,1000],
    '구매여부':['False','True','True','True'],
    '제품': ['gum','snack','beverage','gum']
}

df2 = pd.DataFrame(table2)
df2

Unnamed: 0,일자,가격,구매여부,제품
0,2021-12-06,1000,False,gum
1,2021-12-07,3000,True,snack
2,2021-12-08,2000,True,beverage
3,2021-12-09,1000,True,gum


#### mapping

In [None]:
df2['구매여부(replace)'] = df2['구매여부'].replace('True', 0).replace('False', 1)
df2

Unnamed: 0,일자,가격,구매여부,제품,구매여부(replace)
0,2021-12-06,1000,False,gum,1
1,2021-12-07,3000,True,snack,0
2,2021-12-08,2000,True,beverage,0
3,2021-12-09,1000,True,gum,0


In [None]:
# 한글말로 수정
df2['제품(replace)'] = df2['제품'].replace('gum', '껌').replace('snack', '과자').replace('beverage','음료')
df2

Unnamed: 0,일자,가격,구매여부,제품,구매여부(replace),제품(replace)
0,2021-12-06,1000,False,gum,1,껌
1,2021-12-07,3000,True,snack,0,과자
2,2021-12-08,2000,True,beverage,0,음료
3,2021-12-09,1000,True,gum,0,껌


In [None]:
# 딕셔너리로 맵핑하기
mapping = {'gum': '껌', 'snack':'과자', 'beverage':'음료'}

df2['제품(replace)_ver2'] = df2['제품'].map(mapping)
df2

Unnamed: 0,일자,가격,구매여부,제품,구매여부(replace),제품(replace),제품(replace)_ver2
0,2021-12-06,1000,False,gum,1,껌,껌
1,2021-12-07,3000,True,snack,0,과자,과자
2,2021-12-08,2000,True,beverage,0,음료,음료
3,2021-12-09,1000,True,gum,0,껌,껌


### 연습

In [None]:
# 샘플 데이터 다운로드
import pandas as pd
import seaborn as sns
df_tips = sns.load_dataset("tips")
df_tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


문제1. `total_bill`을 `size`로 나눈 값을 `bill_per_size` 컬럼으로 만드세요.

In [None]:
# 직접 풀어보세요



문제2. `percentage` 컬럼을 만드세요.
- 소숫점 2째 자리에서 반올림하세요
- 00.00 % 문자열 형식으로 표현하세요
    
$$ \frac{tip}{totalbill} * 100 $$

In [None]:
# 직접 풀어보세요



문제3. Dinner를 저녁, Lunch를 점심으로 바꾸어 `시간대` column으로 저장하세요

In [None]:
# 직접 풀어보세요




In [None]:
df_tips.time.value_counts()

In [None]:
df_tips.시간대.value_counts()

## 그룹으로 묶기

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html

In [9]:
df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
'data1': [1, 2, 3, 1, 2, 3], 'data2':np.random.randint(0, 6, 6)})

In [10]:
df

Unnamed: 0,key,data1,data2
0,A,1,3
1,B,2,1
2,C,3,4
3,A,1,2
4,B,2,3
5,C,3,0


In [11]:
df.groupby('key')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f055b8c0b50>

In [13]:
df.groupby('key').sum()

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,2,5
B,4,4
C,6,4


In [14]:
df.groupby(['key','data1']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,data2
key,data1,Unnamed: 2_level_1
A,1,5
B,2,4
C,3,4


In [None]:
df.groupby('key').aggregate(['min', np.median, 'max'])

Unnamed: 0_level_0,data1,data1,data1,data2,data2,data2
Unnamed: 0_level_1,min,median,max,min,median,max
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,1,1.0,1,1,1.5,2
B,2,2.0,2,1,3.0,5
C,3,3.0,3,4,4.5,5


In [None]:
df.groupby('key').aggregate({'data1': 'min', 'data2': np.sum})

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,1,3
B,2,6
C,3,9


In [None]:
df.groupby('key').apply(lambda x: x.max() - x.min())

Unnamed: 0_level_0,data1,data2
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,1
B,0,4
C,0,1


In [None]:
# 리스트로 데이터프레임 만들기
table1 = [
    ['2021-12-06', 1000, 'False', 'gum'],
    ['2021-12-07', 3000, 'True', 'snack'],
    ['2021-12-08', 2000, 'True', 'beverage'],
    ['2021-12-09', 3000, 'True', 'gum']
]
df = pd.DataFrame(table1, columns = ['일자','가격','구매여부','제품'])
df

Unnamed: 0,일자,가격,구매여부,제품
0,2021-12-06,1000,False,gum
1,2021-12-07,3000,True,snack
2,2021-12-08,2000,True,beverage
3,2021-12-09,3000,True,gum


### 연습

문제. 제품별로 평균 가격과 최대가격을 출력하세요

In [None]:
# 직접해보세요




In [None]:
df_tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,bill_per_size,percentage
0,16.99,1.01,Female,No,Sun,Dinner,2,8.495000,0.059447
1,10.34,1.66,Male,No,Sun,Dinner,3,3.446667,0.160542
2,21.01,3.50,Male,No,Sun,Dinner,3,7.003333,0.166587
3,23.68,3.31,Male,No,Sun,Dinner,2,11.840000,0.139780
4,24.59,3.61,Female,No,Sun,Dinner,4,6.147500,0.146808
...,...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,9.676667,0.203927
240,27.18,2.00,Female,Yes,Sat,Dinner,2,13.590000,0.073584
241,22.67,2.00,Male,Yes,Sat,Dinner,2,11.335000,0.088222
242,17.82,1.75,Male,No,Sat,Dinner,2,8.910000,0.098204


문제. 성별로 tip의 평균을 구하세요

In [None]:
# 직접 풀어보세요



문제. day와 time 별로 total_bill의 최대, 최소, 중간값, 평균을 구하세요

In [None]:
# 직접 풀어보세요



describe도 가능합니다!

문제 성별과 흡연유무로 나누어 데이터의 갯수를 출력하세요

In [None]:
# 직접 풀어보세요



3

4

문제. 성별과 흡연유무 별로 평균 팁 비율을 `팁비율 : 00%` 형식으로 출력하세요

In [None]:
# 직접 풀어보세요


## MultiIndex & pivot_table

In [None]:
df = pd.DataFrame(
np.random.randn(4, 2),
index=[['A', 'A', 'B', 'B'], [1, 2, 1, 2]],
columns=['data1', 'data2']
)

In [None]:
df

Unnamed: 0,Unnamed: 1,data1,data2
A,1,1.273427,0.036757
A,2,-1.536093,-0.397211
B,1,-0.698726,1.472622
B,2,-1.031499,0.664665


In [None]:
df = pd.DataFrame(
np.random.randn(4, 4),
columns=[["A", "A", "B", "B"], ["1", "2", "1", "2"]])
df

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,1,2,1,2
0,0.824631,0.710043,0.13127,-1.397709
1,-0.122869,-0.139531,-0.041078,-2.005194
2,-0.325809,-0.107762,-0.358555,-0.658894
3,-0.869136,0.499444,-0.097073,1.285231


다중 인덱스 컬럼의 경우 인덱싱은 계층적으로 한다.  
인덱스 탐색의 경우에는 loc, iloc를 사용가능하다

In [None]:
df['A']

Unnamed: 0,1,2
0,0.824631,0.710043
1,-0.122869,-0.139531
2,-0.325809,-0.107762
3,-0.869136,0.499444


In [None]:
df["A"]["1"]

0    0.824631
1   -0.122869
2   -0.325809
3   -0.869136
Name: 1, dtype: float64

Pivot Table

데이터에서 필요한 자료만 뽑아서 새롭게 요약,분석 할 수 있는 기능.     
엑셀에서의 피봇 테이블과 같다
-  Index : 행 인덱스로 들어갈 key
- Column : 열 인덱스로 라벨링될 값
- Value : 분석할 데이터

In [None]:
# 딕셔너리 형태로 데이터프레임 만들기
table2 = {
    '일자':['2021-12-06','2021-12-07','2021-12-08','2021-12-09','2021-12-06','2021-12-07','2021-12-08','2021-12-09'],
    '가격':[1000,3000,2000,1000, 1000,3000,2000,1000],
    '구매여부':['False','True','True','True', 'False','True','True','True'],
    '제품': ['gum','snack','beverage','gum', 'gum','snack','beverage','gum']
}

df2 = pd.DataFrame(table2)
df2

Unnamed: 0,일자,가격,구매여부,제품
0,2021-12-06,1000,False,gum
1,2021-12-07,3000,True,snack
2,2021-12-08,2000,True,beverage
3,2021-12-09,1000,True,gum
4,2021-12-06,1000,False,gum
5,2021-12-07,3000,True,snack
6,2021-12-08,2000,True,beverage
7,2021-12-09,1000,True,gum


In [None]:
df2.pivot_table(
index='구매여부', columns='제품', values='가격', aggfunc=np.mean
)

제품,beverage,gum,snack
구매여부,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
False,,1000.0,
True,2000.0,1000.0,3000.0


문제. 성별과 흡연유무 별로 평균 팁 비율을 피봇테이블로 출력하세요

In [None]:
#@title
df_tips.pivot_table(index = 'sex', columns = 'smoker', values = 'percentage', aggfunc=np.mean)

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,0.152771,0.160669
Female,0.18215,0.156921


In [None]:
#@title
data = df_tips.pivot_table(index = 'sex', columns = 'smoker', values = 'percentage',
                           aggfunc=lambda x: f'{round(np.mean(x))}%')
data

smoker,Yes,No
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Male,15%,16%
Female,18%,16%
