In [1]:
# Data Frame Mapping
import pandas as pd
import numpy as np

# 맵핑

* 파이썬의 map() 특정함수를 일괄적으로 적용

In [2]:
# 대소문자가 섞이는 등 포맷이 맞지 않은 데이터의 포맷을 맞춰 준다. 
# 대소문자가 섞인 데이터 (포맷이 맞지않는)
data = pd.DataFrame({'food' : ['bacon', 'pulled pork', 'bacon', 'Pastrami', 'corned beef', 'Bacon', 'pastrami', 'honey ham', '베이컨'],      
                     'ounces' : [4, 3, 12, 6, 7.5, 8, 3, 5, 7]})

data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,Pastrami,6.0
4,corned beef,7.5
5,Bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,베이컨,7.0


In [3]:
# 데이터가 string인 경우  .str 이후 파이썬의 string 메소드를 모두 적용가능하다.
# 값 하나하나에 다 적용된다.
data['food'] = data['food'].str.lower()   # 소문자로 통일 

data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,pastrami,6.0
4,corned beef,7.5
5,bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,베이컨,7.0


In [81]:
# 데이터의 특정 값을 치환 replace
# 다른 언어 등 일괄적으로 포맷을 통일 할 수 없는 경우

data.replace('베이컨', 'bacon') # replace(원본 데이터, 결과 데이터) 원본 데이터를 찾아서 일괄적으로 결과 데이터로 바꿔준다.
data['food'] = data['food'].replace('베이컨', 'bacon') # 특정 열의 데이터를 찾아 바꾼다.  

data.replace('베이컨', 'bacon', inplace = True) 
# replace(원본 데이터, 결과 데이터, inplace = False) inplace인자 default는 false, true면 원본에 덮어씌우고 반환을 없앤다. 
#메모리를 먹지않아 효율적이다.

data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,pastrami,6.0
4,corned beef,7.5
5,bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,bacon,7.0


In [82]:
# mapping map() 시리즈 메소드
# 소고기 돼지고기 구분을 위한 딕셔너리 필요
meat_dict = {'bacon' : 'pig', 'pulled pork' : 'pig', 'pastrami' : 'cow', 'corned beef' : 'cow', 'honey ham' : 'pig'}

data['food'].map(meat_dict)

data['animal'] = data['food'].map(meat_dict)

data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,bacon,7.0,pig


In [83]:
# 람다 함수를 이용해 포맷 변환, 맵핑을 한번에 한다.

data['food'].map(lambda x : meat_dict[x.lower()])

data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,bacon,7.0,pig


In [41]:
# 메소드 체이닝 추천하지 않는 방법

data['food'].str.lower().map(meat_dict).str.upper().str[:2]

data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,bacon,7.0,pig


In [60]:
# 정상 값이 아니지만 결측치가 아니거나 판별해내기 어려운 데이터 값
# 약속해둔 이상범위 값이 있는 경우 replace 이용해 NaN으로 바꾸고 처리
# 데이터 분석하여 오류의 기준을 정하고 NaN으로 바꾸고 처리

s1 = pd.Series([17, 18.2, 21, 21, 23, -999, 21, -19])

s1.replace(-999, np.nan, inplace = True) 
s1[s1 == -999] = np.nan # replace와 결과, 메모리, 속도 모두 같다. 

s1.replace(-19, np.nan, inplace = True)
s1[s1 < 0] = np.nan # replace와 결과, 메모리, 속도 모두 같다. 

# replace는 딕셔너리를 이용해서 다량의 데이터를 한번에 대치 할 수 있다.
s1.replace({-999 : np.nan, -19 : 19}, inplace = True)

s1

0    17.0
1    18.2
2    21.0
3    21.0
4    23.0
5     NaN
6    21.0
7     NaN
dtype: float64

In [84]:
# Rename
# 온스를 그램으로 단위 변환
data['ounces'] = data['ounces'].map(lambda x : x * 28.35)
data.rename(columns = {'ounces' : 'grams'}, inplace = True)  # rename(index =, columns =) 바뀐 결과 리턴
data

Unnamed: 0,food,grams,animal
0,bacon,113.4,pig
1,pulled pork,85.05,pig
2,bacon,340.2,pig
3,pastrami,170.1,cow
4,corned beef,212.625,cow
5,bacon,226.8,pig
6,pastrami,85.05,cow
7,honey ham,141.75,pig
8,bacon,198.45,pig


In [85]:
# index 변경
# data.index = ['주문 1', '주문 2', '주문 3', ...] 
# data.index.map(lambda x : f'주문 {x+1}')  # map이 적용된 index 반환

data.index = data.index.map(lambda x : f'주문 {x+1}')

In [88]:
# index 이름 지정 (열 이름과 다르다)
data.rename_axis(index = '주문 번호')

Unnamed: 0_level_0,food,grams,animal
주문 번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
주문 1,bacon,113.4,pig
주문 2,pulled pork,85.05,pig
주문 3,bacon,340.2,pig
주문 4,pastrami,170.1,cow
주문 5,corned beef,212.625,cow
주문 6,bacon,226.8,pig
주문 7,pastrami,85.05,cow
주문 8,honey ham,141.75,pig
주문 9,bacon,198.45,pig


In [99]:
# index를 열에서 가져오기 중복이 있어도 된다.
# 열 이름이 자동적으로 index 이름이 된다.
data.set_index('food', drop = False) # drop의 default는 True. False로 바꾸면 열을 살린다.
data.set_index('food', append = True) # append의 default는 False. True로 바꾸면 인덱스를 살린다.
data.set_index('food').loc['bacon'] # 중복 인덱스는 필터링처럼 해당 행일 모두 가져온다.

Unnamed: 0_level_0,grams,animal
food,Unnamed: 1_level_1,Unnamed: 2_level_1
bacon,113.4,pig
bacon,340.2,pig
bacon,226.8,pig
bacon,198.45,pig


In [92]:
# pandas 대부분 원본은 안바뀐다.
data

Unnamed: 0,food,grams,animal
주문 1,bacon,113.4,pig
주문 2,pulled pork,85.05,pig
주문 3,bacon,340.2,pig
주문 4,pastrami,170.1,cow
주문 5,corned beef,212.625,cow
주문 6,bacon,226.8,pig
주문 7,pastrami,85.05,cow
주문 8,honey ham,141.75,pig
주문 9,bacon,198.45,pig


In [102]:
df = pd.DataFrame(np.random.randn(4, 3), columns = ['a', 'b', 'c'], index = list('ABCD')) # list로 만들면 알아서 할당된다.
df

Unnamed: 0,a,b,c
A,0.058885,-0.404147,-0.705655
B,-0.222794,0.010588,0.061381
C,-0.329436,0.52725,-2.011141
D,0.358715,-1.937393,0.139903


In [107]:
# 데이터 프레임 전체에 걸친 map 함수 : apply

df.apply(lambda x : x.mean()) # 열 전체가 x로 들어간다. (x가 시리즈가 된다.) Series에 사용되는 함수를 쓸 수 있다.
df.apply(lambda x : x.mean(), axis = 'columns') # 열 방향으로 apply. 각 행에 대한 평균
df.mean()

a   -0.033658
b   -0.450925
c   -0.628878
dtype: float64

In [109]:
# 
# 데이터 프레임의 각 요소가 하나씩 x로 들어간다.
df.applymap(lambda x : f'{x:.2f}') # 소숫점 2자리까지만 표시

# map 시리즈에서 각각 요소에 대해
# apply 데이터 프레임에서 행 또는 열 방향으로 시리즈 단위에 대해
# applymap 데이터 프레임에서 map처럼 각각 요소에 대해

Unnamed: 0,a,b,c
A,0.06,-0.4,-0.71
B,-0.22,0.01,0.06
C,-0.33,0.53,-2.01
D,0.36,-1.94,0.14


In [123]:
# 정렬 sort

df.sort_index(axis = 1, ascending = False) # index 기준 정렬, ascending, inplace, axis,
df.sort_values(by = 'a', ascending = False) # values 기준 정렬, by, ascending,
# df.sort_values(by = ['a', 'b']) # a 기준으로 먼저 정렬하고 같은게 있다면 b 기준으로 정렬

Unnamed: 0,a,b,c
D,0.358715,-1.937393,0.139903
A,0.058885,-0.404147,-0.705655
B,-0.222794,0.010588,0.061381
C,-0.329436,0.52725,-2.011141


In [None]:
# merge , join, concat