## 0. Imports

In [None]:
import matplotlib.pyplot as plt
plt.style.use('ggplot')
import numpy as np
import os

## 1. Lectura del conjunto de datos

In [None]:
import pandas as pd

X_train = pd.read_csv('../input/vsb-power-line-fault-detection/metadata_train.csv')
X_test = pd.read_csv('../input/vsb-power-line-fault-detection/metadata_test.csv')

X_train

In [None]:
X_test

## 2. Visualización del conjunto de datos

In [None]:
print("Tamaño del conjunto de datos de entrenamiento: ", len(X_train))
print("Tamaño del conjunto de datos de pruebas: ", len(X_test))

In [None]:

X_train['target'].value_counts()

In [None]:
X_train['target'].hist()
plt.ylabel("# tweets")
plt.show()

Siempre conveniente realizar un análisis exploratorio de la distribución de los datos para determinar la mejor manera de resolver el problema

### Número de palabras por Tweet

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10,5))

# Calculamos el número de palabras
tweet_len_0 = X_train[X_train['target'] == 0]['phase']
tweet_len_1 = X_train[X_train['target'] == 1]['phase']

ax1.hist(tweet_len_0, color='green')
ax1.set_title('datos que no son fallas')

ax2.hist(tweet_len_1, color='red')
ax2.set_title('datos que son fallas')

fig.suptitle('numero de mediciones')

plt.show()

## 4. Vectorización del conjunto de datos

In [None]:
Y_train = X_train['target']

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
X_train

## 5. División del conjunto de datos

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_val, Y_train, Y_val = train_test_split(X_train, Y_train, test_size=0.15)

In [None]:
print("Longitud subcojunto de entrenamiento: ", len(X_train))
print("Longitud subconjunto de validación: ", len(X_val))
print("Longitud subconjutno de pruebas: ", len(X_test))

## 6. Construcción del modelo

In [None]:
from tensorflow.keras import models
from tensorflow.keras import layers

model = models.Sequential()

model.add(layers.Dense(16, activation='relu', input_shape=(X_train.shape[1],)))
model.add(layers.Dropout(0.4))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dropout(0.4))
model.add(layers.Dense(1, activation='sigmoid'))

In [None]:
model.compile(
    optimizer='adam', 
    loss='binary_crossentropy',
    metrics=['accuracy', 'Precision']
)

In [None]:
history = model.fit(
    X_train,
    Y_train,
    epochs=8000,
    batch_size=1024,
    validation_data=(X_val, Y_val))

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

pd.DataFrame(history.history)[['loss', 'val_loss']].plot(figsize=(10, 7))
plt.grid(True)
plt.gca().set_ylim(0, 1.2)
plt.xlabel("epochs")
plt.show()