In [None]:
import pandas as pd
import numpy as np 
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from keras import layers
from keras import models
from keras.models import Sequential
from keras.layers import Dense, Flatten
from keras.layers.convolutional import Conv1D, MaxPooling1D
from tensorflow import keras

In [None]:
# Montando o drive para conseguir acessar o dataset
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# Carregando o dataset
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/nomes.csv')

In [None]:
# Chamando o LabelEncoder do Sklearn
le = preprocessing.LabelEncoder()

y = le.fit_transform(df.classification) # Faz um One Hot Encode do sexo(masculino/feminino)
names = df['first_name'].apply(lambda x: x.lower()) # Deixa todos os nomes em letras minúsculas 

In [None]:
# Cria um vocabulário com todos os caracteres do dataset
vocab = set(' '.join([str(i) for i in names]))            
vocab.add('END')
len_vocab = len(vocab)
char_index = dict((c, i) for i, c in enumerate(vocab))

In [None]:
maxlen = 14 # Esse é o tamanho do maior nome do dataset

# Essa função seta o valor 1 no vetor, de acordo com a posição da letra e o seu
# valor no vocabulário criado anteriormente
def set_flag(i):
    aux = np.zeros(len_vocab);
    aux[i] = 1
    return list(aux)

# Função que percorre o dataset e chama a funçõa 'set_flag' para setar o valor 1
# na posição correta. Essa funão retor um vetor com todos os nomes codificados.
def prepare_encod_names(X):
    vec_names = []
    trunc_name = [str(i)[0:maxlen] for i in X]  
    for i in trunc_name:
        tmp = [set_flag(char_index[j]) for j in str(i)]
        for k in range(0,maxlen - len(str(i))):
            tmp.append(set_flag(char_index["END"]))
        vec_names.append(tmp)
    return vec_names

In [None]:
# Codificando os nomes, não recomendo que tente imprimir
x = prepare_encod_names(names.values)

In [None]:
# Separando os dados em treino, teste e validação 
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3)
X_train, x_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.3)
X_train = np.asarray(X_train)
X_test = np.asarray(X_test)
y_train = np.asarray(y_train)
y_test = np.asarray(y_test)
x_val = np.asarray(x_val)
y_val = np.asarray(y_val)

In [None]:
# Ceiando o modelo de rede neural
# Esse modelo possui as seguintes camadas: Convolução de entrada, concolução oculta,
# achatamento, densa oculta, achatamento e uma densa de saída

cnn = models.Sequential([
                         layers.Conv1D(256, 3, activation='relu', kernel_initializer='he_uniform', input_shape=(14,28)),
                         layers.Conv1D(256, 3, activation='relu'),
                         layers.Flatten(),
                         layers.Dropout(0.2),
                         layers.Dense(100, activation='relu', kernel_initializer='he_uniform'),
                         layers.Dropout(0.2),
                         layers.Dense(1, activation='sigmoid', kernel_initializer='he_uniform')
                         
])

# É possível adicionar um camada de pooling, mas nos meus testes não apresentou melhoria na precisão
# O aumento do tamanho do kernel também não apresentou melhoria, em alguns casos até piorou.
# Por sua vez, a quantidade de filtros é um parâmetro que pode ser alterado visando obter melhorias.

# Não recomendo a alteração das funções de ativação, pois isso resultou em uma drástica queda da precição do modelo
# É possível remover as camadas de dropout sem que suceda um queda significatíva na acurácia do modelo

lr_schedule = keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate=1e-2,
    decay_steps=10000,
    decay_rate=0.9)
opt = keras.optimizers.Adagrad(learning_rate=lr_schedule)
cnn.compile(loss='binary_crossentropy', optimizer=opt, metrics=['accuracy'])

cnn = cnn.fit(X_train, y_train, validation_data=(x_val, y_val),  epochs=100, batch_size=64) # Se quiser salvar o modelo, recomendo que antes de executar essa célula diferncie os nomes do modelo e da história

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78