<a href="https://colab.research.google.com/github/weepingwillow2001/data_analysis_practice/blob/main/7%EC%9E%A5/7_2_8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

In [3]:
# 범주형 변수를 표시자로 변환
df = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "b"],
                  "data1": range(6)})
df

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,b,5


In [4]:
# get_dummies 함수로 "더미" 변수 "생성"
pd.get_dummies(df["key"], dtype=float)

# 1. "key"라는 열(column)을 선택합니다
# 2. pd.get_dummies(): 카테고리형 변수를 더미/이진 변수로 변환
# 3. dtype=float: 변환된 더미 변수의 데이터 타입을 float(부동소수점)으로 지정

# 각 카테고리('a', 'b', 'c')에 대해 별도의 열이 생성됩니다.
# 원래 데이터에서 해당 범주가 있으면 1.0, 없으면 0.0의 값을 가집니다.

# 0행: 'key' 값이 'b'이므로 'b' 열에 1.0, 나머지 열에 0.0
# 1행: 'key' 값이 'b'이므로 'b' 열에 1.0, 나머지 열에 0.0
# 2행: 'key' 값이 'a'이므로 'a' 열에 1.0, 나머지 열에 0.0
# 3행: 'key' 값이 'c'이므로 'c' 열에 1.0, 나머지 열에 0.0
# 4행: 'key' 값이 'a'이므로 'a' 열에 1.0, 나머지 열에 0.0
# 5행: 'key' 값이 'b'이므로 'b' 열에 1.0, 나머지 열에 0.0

Unnamed: 0,a,b,c
0,0.0,1.0,0.0
1,0.0,1.0,0.0
2,1.0,0.0,0.0
3,0.0,0.0,1.0
4,1.0,0.0,0.0
5,0.0,1.0,0.0


In [5]:
# "prefix" 옵션 사용하여 "접두사" 추가
dummies = pd.get_dummies(df["key"], prefix="key", dtype=float)

# 데이터프레임과 더미 변수 결합
df_with_dummy = df[["data1"]].join(dummies)

df_with_dummy

Unnamed: 0,data1,key_a,key_b,key_c
0,0,0.0,1.0,0.0
1,1,0.0,1.0,0.0
2,2,1.0,0.0,0.0
3,3,0.0,0.0,1.0
4,4,1.0,0.0,0.0
5,5,0.0,1.0,0.0


In [7]:
# 영화 데이터 불러오기

mnames = ["movie_id", "title", "genres"]
movies = pd.read_table("movies.dat", sep="::",
                     header=None, names=mnames, engine="python")

movies[:10]

Unnamed: 0,movie_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
5,6,Heat (1995),Action|Crime|Thriller
6,7,Sabrina (1995),Comedy|Romance
7,8,Tom and Huck (1995),Adventure|Children's
8,9,Sudden Death (1995),Action
9,10,GoldenEye (1995),Action|Adventure|Thriller


In [8]:
# 영화 장르를 더미 변수로 변환

dummies = movies["genres"].str.get_dummies("|")  # "genres" 열의 데이터가 문자열(string)이기 때문에 str

# genres 열의 문자열을 | 기호를 기준으로 분리(구분자)
# 분리된 각 장르에 대해 별도의 열을 생성
# 각 영화가 특정 장르에 속하면 해당 열에 1, 아니면 0을 할당

dummies.iloc[:10, :6]

# 더미 변수 테이블에서
# 처음 10개 행(인덱스 0부터 9까지)과
# 처음 6개 열(인덱스 0부터 5까지)을 선택합니다

Unnamed: 0,Action,Adventure,Animation,Children's,Comedy,Crime
0,0,0,1,1,1,0
1,0,1,0,1,0,0
2,0,0,0,0,1,0
3,0,0,0,0,1,0
4,0,0,0,0,1,0
5,1,0,0,0,0,1
6,0,0,0,0,1,0
7,0,1,0,1,0,0
8,1,0,0,0,0,0
9,1,1,0,0,0,0


In [18]:
# 더미 변수에 접두사 추가 후 원본 데이터와 결합
movies_windic = movies.join(dummies.add_prefix("Genre_"))

movies_windic.iloc[0]
# 0 행인 "Toy Story (1995)"의 모든 데이터를 가져옵니다.

Unnamed: 0,0
movie_id,1
title,Toy Story (1995)
genres,Animation|Children's|Comedy
Genre_Action,0
Genre_Adventure,0
Genre_Animation,1
Genre_Children's,1
Genre_Comedy,1
Genre_Crime,0
Genre_Documentary,0


In [15]:
np.random.seed(12345)  # 난수가 반복 가능하도록 시드 값 고정
# 고정된 시드값을 바탕으로 객체 정의
values = np.random.uniform(size=10) # 균일 분포 난수

values

array([0.92961609, 0.31637555, 0.18391881, 0.20456028, 0.56772503,
       0.5955447 , 0.96451452, 0.6531771 , 0.74890664, 0.65356987])

In [19]:
bins = [0, 0.2, 0.4, 0.6, 0.8, 1]

pd.get_dummies(pd.cut(values, bins))


Unnamed: 0,"(0.0, 0.2]","(0.2, 0.4]","(0.4, 0.6]","(0.6, 0.8]","(0.8, 1.0]"
0,False,False,False,False,True
1,False,True,False,False,False
2,True,False,False,False,False
3,False,True,False,False,False
4,False,False,True,False,False
5,False,False,True,False,False
6,False,False,False,False,True
7,False,False,False,True,False
8,False,False,False,True,False
9,False,False,False,True,False
