<a href="https://colab.research.google.com/github/parksanghan/machine_learning_Deep_learning/blob/main/Simple_natural_language_processing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [5]:
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# 데이터셋 준비 (예시)
names = ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Henry']
labels = [0, 1, 1, 1, 0, 1, 0, 1]  # 0: 여자, 1: 남자

# 문자 인덱싱
all_characters = set(''.join(names))
char_to_index = {ch: i for i, ch in enumerate(all_characters)}  # 0부터 시작
num_classes = len(char_to_index)  # 클래스 수
max_length = max(len(name) for name in names)

# 데이터 전처리
X = np.zeros((len(names), max_length, num_classes))

for i, name in enumerate(names):
    for j, ch in enumerate(name):
        X[i, j, char_to_index[ch]] = 1

y = np.array(labels)
# 모델 정의
model = keras.Sequential()
model.add(layers.SimpleRNN(4, input_shape=(max_length, num_classes),return_sequences=False))
model.add(layers.Dense(1,activation="sigmoid"))\

# 모델 컴파일
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 모델 학습
model.fit(X, y, epochs=100)


# 예측

def predict_gender(name):
    x = np.zeros((1, max_length, num_classes))
    for j, ch in enumerate(name):
        if ch in char_to_index:
            x[0, j, char_to_index[ch]] = 1
    prediction = model.predict(x)
    return '남자' if prediction[0][0] > 0.5 else '여자'

# 예측 테스트
print(predict_gender('Alice'))  # 여자
print(predict_gender('Frank'))   # 남자

Epoch 1/100


  super().__init__(**kwargs)


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2s/step - accuracy: 0.6250 - loss: 0.5877
Epoch 2/100
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 226ms/step - accuracy: 0.6250 - loss: 0.5844
Epoch 3/100
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 89ms/step - accuracy: 0.6250 - loss: 0.5810
Epoch 4/100
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 130ms/step - accuracy: 0.6250 - loss: 0.5777
Epoch 5/100
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 138ms/step - accuracy: 0.6250 - loss: 0.5743
Epoch 6/100
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 117ms/step - accuracy: 0.6250 - loss: 0.5710
Epoch 7/100
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 113ms/step - accuracy: 0.6250 - loss: 0.5677
Epoch 8/100
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 329ms/step - accuracy: 0.6250 - loss: 0.5644
Epoch 9/100
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m 

In [6]:
model.summary()

### 시퀀스 반환 인자

return_sequence 인자는 True 일때 해당 레이어는 시쿼늣 데이터에서 마지막 출력만 반환합니다.

위에서의 max가 5고 num_classes 가 3 이라고 가정할때 5는 데이터가 5개의 시점을 가지고 있고 3은 각 시점에서 피쳐의 값입니다.

여기서 return_sequences 값이 False 이면 마지막 시점의 출력만 반환 ->(batch_size, units)

True 값이라면 모든 시점의 출력을 반환 (batch_size, timesteps, units)입니다.

In [None]:
all_characters

{'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'a',
 'b',
 'c',
 'd',
 'e',
 'h',
 'i',
 'k',
 'l',
 'n',
 'o',
 'r',
 'v',
 'y'}

In [None]:
char_to_index

{'E': 0,
 'k': 1,
 'r': 2,
 'F': 3,
 'c': 4,
 'y': 5,
 'D': 6,
 'A': 7,
 'l': 8,
 'e': 9,
 'b': 10,
 'H': 11,
 'v': 12,
 'C': 13,
 'h': 14,
 'd': 15,
 'G': 16,
 'o': 17,
 'B': 18,
 'a': 19,
 'i': 20,
 'n': 21}

In [None]:
len(all_characters)

22

In [None]:
len(char_to_index)

22

In [None]:
max_length

7

In [None]:
X

array([[[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 1., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 1., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 1., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       ...,

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 1., ..., 0., 0., 0.],
        [0., 0., 0., ..., 1., 0., 0.],
        ...,
        [0., 1., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0.