In [15]:
from scipy import sparse
import pandas as pd
import numpy as np

data1 = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
         'Age': [25, 30, 35, 40]}

data2 = {'Country': ['USA', 'Canada', 'UK', 'USA'],
         'Gender': ['Female', 'Male', 'Male', 'Male']}
         
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 데이터프레임을 2차원 배열로 변환
df_combined = pd.concat([df1, df2], axis=1)
print(df_combined)


      Name  Age Country  Gender
0    Alice   25     USA  Female
1      Bob   30  Canada    Male
2  Charlie   35      UK    Male
3    David   40     USA    Male


In [16]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
combined_encoded = encoder.fit_transform(df_combined)


combined_encoded.toarray()

array([[1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 1., 0.],
       [0., 1., 0., 0., 0., 1., 0., 0., 1., 0., 0., 0., 1.],
       [0., 0., 1., 0., 0., 0., 1., 0., 0., 1., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0., 0., 1., 0., 0., 1., 0., 1.]])

In [26]:
# CSR (Compressed Spare Row) 행단위로 압축된 행렬로 보기 

spare_matrix = sparse.csr_matrix(combined_encoded.toarray())

data = spare_matrix.data
row = spare_matrix.indices
col = spare_matrix.indptr[1:]

print(f"data : {data}")
print(f"row : {row}")
print(f"col : {col}")

# CSR (Compressed Spare Row) 는 
# 행단위로 압축된 행렬 나타냄

# 비어있지 않은 원소들을 열단위로 압축해서 저장
# data, indices, indptr 로 표현

# data : 배열의 원소들에 해당하는 열의 인덱스 저장
# indices : data 배열의  원소들이 해당하는 열의 인덱스 저장
# indptr : 행렬의 각 행이 시작하는 위치를 나타내는 포인터 ㅍ배열 

data : [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
row : [ 0  4 10 11  1  5  8 12  2  6  9 12  3  7 10 12]
col : [ 4  8 12 16]


In [25]:
spare_matrix = sparse.coo_matrix(combined_encoded.toarray())
spare_matrix
print("{}".format(spare_matrix))

# COO (Coordinate)
# (data, (row, col))의 튜플로 
# 이루어진 3개의 배열을 사용하여 행렬저장

# data 배열은 비어있지 않은 원소들을 저장
# row, col 은 'data' 배열의 원소들이 해당하는 행과 열의 
# 인덱스 저장

  (0, 0)	1.0
  (0, 4)	1.0
  (0, 10)	1.0
  (0, 11)	1.0
  (1, 1)	1.0
  (1, 5)	1.0
  (1, 8)	1.0
  (1, 12)	1.0
  (2, 2)	1.0
  (2, 6)	1.0
  (2, 9)	1.0
  (2, 12)	1.0
  (3, 3)	1.0
  (3, 7)	1.0
  (3, 10)	1.0
  (3, 12)	1.0
