# Quantifying Categorical Data

In [56]:
x = [ {'city': 'LA', 'temp':20.0}, {'city': 'Seoul', 'temp':10.0}, {'city': 'Dubai', 'temp':33.5} ]
x

[{'city': 'LA', 'temp': 20.0},
 {'city': 'Seoul', 'temp': 10.0},
 {'city': 'Dubai', 'temp': 33.5}]

In [57]:
from sklearn.feature_extraction import DictVectorizer
vec = DictVectorizer(sparse=False)
vec.fit_transform(x) # x를 범주형 수량화 자료로 변환

array([[ 0. ,  1. ,  0. , 20. ],
       [ 0. ,  0. ,  1. , 10. ],
       [ 1. ,  0. ,  0. , 33.5]])

## 결과 해석

- 첫 번째 열은 인덱스를 나타내며, 여기서는 행의 순서를 표시하기 위해 사용

> ### Dictvectorizer

- DictVectorizer는 사전 형태로 제공된 데이터를 행렬 형태로 변환하는 데 사용
    - 이 과정에서 키는 열의 이름으로, 값은 해당 열의 값으로 변환

- 여기서 x의 각 사전에는 'city'와 'temp'라는 두 개의 키가 있으므로, 변환된 행렬은 두 개의 특성을 나타내는 열(여기서는 'city'와 'temp')을 가지게 된다. 
- 그러나 'city' 값은 범주형 데이터이므로, DictVectorizer는 이를 원-핫 인코딩(one-hot encoding) 방식으로 변환. 
- 원-핫 인코딩은 범주형 변수의 각 가능한 값에 대해 별도의 열을 생성하고, 해당 값이 존재하면 1, 그렇지 않으면 0을 할당하는 방식
    - 예를 들어, 세 도시 'LA', 'Seoul', 'Dubai'는 각각 별도의 열로 변환되며, 각 사전(행)에 대해 해당 도시의 열에는 1이, 다른 도시의 열에는 0이 할당
    - 'temp' 열은 각 사전에 주어진 온도 값으로 채워짐.
- 원-핫 인코딩에서 각 도시의 위치는 DictVectorizer가 내부적으로 결정하는 것으로, 이는 데이터를 입력받을 때 DictVectorizer가 각 키(여기서는 도시 이름)를 알파벳 순서나 데이터에 처음 나타난 순서 등의 기준으로 정렬하고 인코딩하는 방식에 따라 달라짐.
    - 이 방식은 사용된 예제와 DictVectorizer의 구현에 따라 다를 수 있다.

> ### fit_transform(x) 메서드
- 이 메서드를 호출하면 DictVectorizer는 먼저 각 사전의 키를 모아 열 이름을 결정
- 그 후, 각 사전의 값에 따라 행렬의 값을 채움.

In [58]:
vec1 = DictVectorizer(sparse=True) # 메모리 사용 감소
x1 = (vec1.fit_transform(x))
x2 = x1.toarray()
print(x1)
print(x2)

  (0, 1)	1.0
  (0, 3)	20.0
  (1, 2)	1.0
  (1, 3)	10.0
  (2, 0)	1.0
  (2, 3)	33.5
[[ 0.   1.   0.  20. ]
 [ 0.   0.   1.  10. ]
 [ 1.   0.   0.  33.5]]


In [59]:
vec1.get_feature_names_out()

array(['city=Dubai', 'city=LA', 'city=Seoul', 'temp'], dtype=object)

# Quantification of text material

In [60]:
# text를 4개의 문서로 생각
text = ['떴다 떴다 비행기 날아라 날아라',
        '높이 높이 날아라 우리 비행기',
        '내가 만든 비행기 날아라 날아라',
        '멀리 멀리 날아라 우리 비행기']

In [61]:
from sklearn.feature_extraction.text import CountVectorizer
vec2 = CountVectorizer()
t = vec2.fit_transform(text).toarray()
print(t)

[[2 0 0 2 0 0 1 0]
 [1 0 2 0 0 0 1 1]
 [2 1 0 0 1 0 1 0]
 [1 0 0 0 0 2 1 1]]


In [62]:
import pandas as pd
t1 = pd.DataFrame(t, columns=vec2.get_feature_names_out())
t1

Unnamed: 0,날아라,내가,높이,떴다,만든,멀리,비행기,우리
0,2,0,0,2,0,0,1,0
1,1,0,2,0,0,0,1,1
2,2,1,0,0,1,0,1,0
3,1,0,0,0,0,2,1,1


# Term Frequency Inverse Document Frequency(TFIDF)

In [63]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfid = TfidfVectorizer()
x2 = tfid.fit_transform(text).toarray()
x3 = pd.DataFrame(x2, columns=tfid.get_feature_names_out())
x3

Unnamed: 0,날아라,내가,높이,떴다,만든,멀리,비행기,우리
0,0.450735,0.0,0.0,0.86374,0.0,0.0,0.225368,0.0
1,0.229589,0.0,0.87992,0.0,0.0,0.0,0.229589,0.346869
2,0.569241,0.545415,0.0,0.0,0.545415,0.0,0.28462,0.0
3,0.229589,0.0,0.0,0.0,0.0,0.87992,0.229589,0.346869


# Polynomial 특성변수 생성

In [64]:
import numpy as np
import plotly.express as px

X = np.array([1, 2, 3, 4, 5])
Y = np.array([5, 3, 1, 5, 8])
fig = px.line(x=X, y=Y)
fig.update_layout(width=500, height=380)
fig.show()

In [65]:
from sklearn.preprocessing import PolynomialFeatures
fg = PolynomialFeatures(degree=3, include_bias=True)
x1 = fg.fit_transform(X[:, np.newaxis])
print(x1)

[[  1.   1.   1.   1.]
 [  1.   2.   4.   8.]
 [  1.   3.   9.  27.]
 [  1.   4.  16.  64.]
 [  1.   5.  25. 125.]]


# 결과헤석

## PolynomialFeatures
- 다항 회귀 모델의 적합: 여기서 사용된 다항 회귀(Polynomial Regression) 모델은 입력 데이터X에 대해 3차 다항식을 적용하여 Y의 값을 예측
  - PolynomialFeatures를 사용해 입력 데이터 X를 변환함(degree=3)으로써, 모델은 X, X^2, X^3의 형태로 데이터를 해석

## np.newaxis

- np.newaxis는 사용된 차원에 새로운 축을 추가하는 데 사용
- X[:, np.newaxis]는 X의 각 요소를 새로운 열로 하는 2차원 배열을 생성

## x1
1. 첫 번째 열은 편향(상수) 항으로, 모든 값이 1. 이는 include_bias=True 때문에 추가된 것.
2. 두 번째 열은 원래의 값
3. 세 번째 열은 각 값의 제곱
4. 네 번째 열은 각 값의 세제곱

In [66]:
from sklearn.linear_model import LinearRegression
import plotly.graph_objects as go
reg = LinearRegression()
reg.fit(x1, Y)
yfit = reg.predict(x1)

fig = go.Figure()
fig.add_trace(go.Scatter(x=X, y=Y, mode='lines', name='origin'))
fig.add_trace(go.Scatter(x=X,y=yfit, mode='lines + markers', name='fitted'))
fig.show()