# 이산화

In [1]:
   from sklearn.preprocessing import KBinsDiscretizer

   X = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]
   discretizer = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
   X_discrete = discretizer.fit_transform(X)
   print(X_discrete)

[[0.]
 [0.]
 [0.]
 [1.]
 [1.]
 [1.]
 [2.]
 [2.]
 [2.]
 [2.]]


원본 데이터:
X = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]
KBinsDiscretizer 설정:
n_bins=3: 3개의 구간으로 나눕니다.
strategy='uniform': 균일한 너비의 구간으로 나눕니다.

이산화 과정:
데이터 범위(1-10)를 3개의 균일한 구간으로 나눕니다:
구간 1: 1 - 3.67
구간 2: 3.67 - 6.33
구간 3: 6.33 - 10

결과 해석:

[0.]: 구간 1에 속하는 값들 (1, 2, 3)

[1.]: 구간 2에 속하는 값들 (4, 5, 6)

[2.]: 구간 3에 속하는 값들 (7, 8, 9, 10)

이렇게 연속적인 값들이 3개의 이산적인 범주로 변환되었습니다. 
각 범주는 0, 1, 2로 표현되어 있습니다.

이산화의 장점:
1. 데이터를 더 단순하고 관리하기 쉬운 형태로 변환합니다.
2. 연속적인 값의 작은 변화에 덜 민감해집니다.
3. 일부 머신러닝 알고리즘의 성능을 향상시킬 수 있습니다.

이 예제에서는 10개의 연속적인 숫자가 3개의 범주로 그룹화되어, 데이터의 복잡성이 줄어들었습니다. 이는 패턴 인식이나 모델 학습에 도움이 될 수 있습니다.

# 벡터화

In [1]:
   from sklearn.feature_extraction.text import CountVectorizer

   texts = ["나는 사과를 좋아한다", "그는 바나나를 좋아한다"]
   vectorizer = CountVectorizer()
   X = vectorizer.fit_transform(texts)
   print(X.toarray())

[[0 1 0 1 1]
 [1 0 1 0 1]]


1. 벡터의 의미:

각 행은 입력 문장을 나타냅니다.

각 열은 고유한 단어를 나타냅니다.

값 1은 해당 단어가 문장에 존재함을, 0은 존재하지 않음을 의미합니다.

2. 단어 순서 추정:

[나는, 그는, 바나나를, 사과를, 좋아한다]

3. 결과 해석:

첫 번째 행 [0 1 0 1 1]: "나는 사과를 좋아한다"

"나는" (1), "사과를" (1), "좋아한다" (1)

두 번째 행 [1 0 1 0 1]: "그는 바나나를 좋아한다"

"그는" (1), "바나나를" (1), "좋아한다" (1)

이 벡터화 방식은 각 문장을 단어의 출현 여부로 표현하여, 텍스트 데이터를 수치화된 형태로 변환합니다. 

이를 통해 텍스트 데이터를 머신러닝 알고리즘에 입력할 수 있는 형태로 만들 수 있습니다.


# GPU 정보 확인

In [2]:
import subprocess
import sys

def get_gpu_info():
    try:
        gpu_info = subprocess.check_output(["nvidia-smi"]).decode("utf-8")
        return gpu_info
    except:
        return "No GPU available or CUDA not installed."

print(get_gpu_info())

Wed Sep 11 15:40:01 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.94                 Driver Version: 560.94         CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                  Driver-Model | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA GeForce GTX 1650      WDDM  |   00000000:01:00.0  On |                  N/A |
|  0%   47C    P8             N/A /   75W |    3844MiB /   4096MiB |      9%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                