# Importación de módulos

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import tensorflow as tf

from sklearn.metrics import mean_squared_error
from IPython.display import display
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Importación de datos

In [2]:
# Copia los datos de un documento CSV en un DataFrame.
data_df = pd.read_csv('synchronous_machine.csv')
data_df

Unnamed: 0,Iy,PF,e,dIf,If
0,3.0,0.66,0.34,0.383,1.563
1,3.0,0.68,0.32,0.372,1.552
2,3.0,0.70,0.30,0.360,1.540
3,3.0,0.72,0.28,0.338,1.518
4,3.0,0.74,0.26,0.317,1.497
...,...,...,...,...,...
552,6.0,0.91,0.09,0.142,1.322
553,6.0,0.93,0.07,0.151,1.331
554,6.0,0.95,0.05,0.160,1.340
555,6.0,0.97,0.03,0.160,1.340


# Análisis de los datos

In [3]:
'''/* 
Recopila y muestra la información necesaria para conocer si hay outliers.
*/'''

# Retorna media, desviación estándar, min, cuantiles 25,50,75% y max.
display(data_df.describe())
# Retorna si hay valores en blanco o no numericos.
display(data_df.isna().sum())

# Establece los datos necesarios y títulos de eje para mostrar varias gráficas de caja.
figIy = px.box(data_df, y='Iy')
figIy.show()
figPF = px.box(data_df, y='PF')
figPF.show()
fige = px.box(data_df, y='e')
fige.show()
figdIf = px.box(data_df, y='dIf')
figdIf.show()
figIf = px.box(data_df, y='If')
figIf.show()

'''/* 
Function: IQR_outlier

Confirma de manera numérica la existencia de outliers.

Parameters:

    data_df - Datos recopilados del CSV.
    
Returns:

    Un DataFrame que contiene si un dato se sale de los límites calculados.
    Si un valor es igual a NaN significa que no es un outliers.
*/'''

def IQR_outlier(data_df):
    
    # Guarda el resultado del cuantil del 25%
    q1 = data_df.quantile(0.25)
    # Guarda el resultado del cuantil del 75%
    q3 = data_df.quantile(0.75)
    
    # Calcula el rango entre cuantiles
    IQR = q3-q1 
    
    ''' 
    Revisa si hay datos afuera de cada límite.
    Los limites se calculan de la siguiente manera: 
        Límite superior: q3 + (1.5*IQR)
        Límite inferior: q1 - (1.5*IQR)
    '''
    
    outliers = data_df[((data_df<(q1-1.5*IQR)) | (data_df>(q3+1.5*IQR)))]

    return outliers

# Iprime el resultado de la función anterior.
print(IQR_outlier(data_df))

Unnamed: 0,Iy,PF,e,dIf,If
count,557.0,557.0,557.0,557.0,557.0
mean,4.49982,0.825296,0.174704,0.350659,1.530659
std,0.896024,0.103925,0.103925,0.180566,0.180566
min,3.0,0.65,0.0,0.037,1.217
25%,3.7,0.74,0.08,0.189,1.369
50%,4.5,0.82,0.18,0.345,1.525
75%,5.3,0.92,0.26,0.486,1.666
max,6.0,1.0,0.35,0.769,1.949


Iy     0
PF     0
e      0
dIf    0
If     0
dtype: int64

     Iy  PF   e  dIf  If
0   NaN NaN NaN  NaN NaN
1   NaN NaN NaN  NaN NaN
2   NaN NaN NaN  NaN NaN
3   NaN NaN NaN  NaN NaN
4   NaN NaN NaN  NaN NaN
..   ..  ..  ..  ...  ..
552 NaN NaN NaN  NaN NaN
553 NaN NaN NaN  NaN NaN
554 NaN NaN NaN  NaN NaN
555 NaN NaN NaN  NaN NaN
556 NaN NaN NaN  NaN NaN

[557 rows x 5 columns]


# Separación de los set de datos y normalizacón
### Se va a usar una función de activación sigmoide

In [19]:
'''/* 
Esta sección prepara los datos recopilados anteriormente en subsecciones para entrenamieto y prueba.
Además de esto, normaliza los datos para poder ser ingresados a una función sigmoide.
*/'''

# Arreglo que contiene los datos de prueba dados por el profresor.
tarea_data = [[3, 0.64, 0.01, 0.031, 0], [4.38, 0.78, 0.14, 0.402, 0], [6, 1.01, 0.35,0.799, 0]]
# Convierte un arreglo en DataFrame con las columnas llamadas: 'Iy', 'PF', 'e', 'dIf'.
tarea_data = pd.DataFrame(tarea_data, columns=['Iy', 'PF', 'e', 'dIf', 'If'])

# Guarda las características del conjunto de datos antes de normalizar.
train_stats = data_df.describe()
tarea_stats = tarea_data.describe()

# Se transpone el DataFrame para que las columnas y filas se inviertan entre ellas.
train_stats = train_stats.transpose()
tarea_stats = tarea_stats.transpose()
display(train_stats)

'''/* 
Function: norm

Normaliza los datos a través de una función min-max entre 0 y 1 para ser alimentados a una función sigmoide.

Parameters:

    x - Datos a normalizar.
    
Returns:

    Los datos alimentados ya normalizados.
*/'''

def norm(x, stats):
    return((x-stats['min'])/(stats['max']-stats['min'])) #min-max norm

'''/* 
Function: reverse_norm

Desnormaliza los datos a través de la funcion inversa de la min-max.

Parameters:

    x - Datos normalizados a revertir.
    
Returns:

    Los datos alimentados ya desnormalizados.
*/'''

def reverse_norm(x):
    return(x*(train_stats['max']-train_stats['min'])+train_stats['min'])

# Normaliza todo el conjunto de datos
data_df = norm(data_df, train_stats)
# Mueve 80% de los datos en un subconjuto de entrenamiento y los aleatoriza.
train_df = data_df.sample(frac=0.8, random_state=0)
# Mueve el restante de los datos en un subconjuto de prueba y los aleatoriza.
test_df = data_df.drop(train_df.index)
# Guarda los datos de la comlumna If en una variable para las etiquetas de entrenamiento.
train_labels = train_df.pop('If')
# Guarda los datos de la comlumna If en una variable para las etiquetas de prueba.
test_labels = test_df.pop('If')

tarea_data = norm(tarea_data, tarea_stats)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Iy,557.0,0.49994,0.298675,0.0,0.233333,0.5,0.766667,1.0
PF,557.0,0.500846,0.29693,0.0,0.257143,0.485714,0.771429,1.0
e,557.0,0.499154,0.29693,0.0,0.228571,0.514286,0.742857,1.0
dIf,557.0,0.428496,0.246675,0.0,0.20765,0.420765,0.613388,1.0
If,557.0,0.428496,0.246675,0.0,0.20765,0.420765,0.613388,1.0


Unnamed: 0,Iy,PF,e,dIf,If
0,0.0,0.0,0.0,0.0,
1,0.46,0.378378,0.382353,0.483073,
2,1.0,1.0,1.0,1.0,


Unnamed: 0,Iy,PF,e,dIf,If
0,0.0,0.028571,0.971429,0.472678,0.472678
1,0.0,0.085714,0.914286,0.457650,0.457650
2,0.0,0.142857,0.857143,0.441257,0.441257
3,0.0,0.200000,0.800000,0.411202,0.411202
4,0.0,0.257143,0.742857,0.382514,0.382514
...,...,...,...,...,...
552,1.0,0.742857,0.257143,0.143443,0.143443
553,1.0,0.800000,0.200000,0.155738,0.155738
554,1.0,0.857143,0.142857,0.168033,0.168033
555,1.0,0.914286,0.085714,0.168033,0.168033


# Creación del modelo

In [5]:
'''/* 
Function: my_model

Genera el modelo de regresión MLP y lo compila. El modelo consiste de lo siguiente:
    - Una capa de entradas de forma train_df.keys() que es igual a la cantidad de características.
    - Una capa oculta con ocho neuronas y como función de activación una función sigmoide.
    - Una capa oculta con ocho neuronas y como función de activación una función sigmoide.
    - Una capa de salida con una neurona y como función de activación una función sigmoide.
    - Utiliza ADAM como optimizador.
    - La función de pérdida es la Suma Cuadrática del Error.
    
Parameters:

    my_learning_rate - Razón de aprendizaje.
    
Returns:

    El modelo neuronal ya creado.
*/'''

def my_model(my_learning_rate):
    model = tf.keras.Sequential([
        tf.keras.layers.Dense(2, input_shape=[len(train_df.keys())], activation='sigmoid'),
        tf.keras.layers.Dense(2, activation='sigmoid'),#se hace una hidden layer de 3 neuronas con activacion sigmoid
        tf.keras.layers.Dense(1, activation='sigmoid') #capa de output
    ])
    
    model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=my_learning_rate),
                loss="mean_squared_error", #funcion de perdida
                metrics=[tf.keras.metrics.MeanSquaredError()] #funcion de metricas para evaluar
                )
    
    return model

model = my_model(0.01)
model.summary()

example_batch = train_df[:10]
example_result = model.predict(example_batch)
example_result

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 2)                 10        
                                                                 
 dense_1 (Dense)             (None, 2)                 6         
                                                                 
 dense_2 (Dense)             (None, 1)                 3         
                                                                 
Total params: 19
Trainable params: 19
Non-trainable params: 0
_________________________________________________________________


array([[0.51705736],
       [0.51794416],
       [0.51392573],
       [0.5184926 ],
       [0.5192397 ],
       [0.5194583 ],
       [0.5152687 ],
       [0.5171448 ],
       [0.5164359 ],
       [0.51528835]], dtype=float32)

# Entrenamiento del modelo

In [6]:
'''/* 
Function: train_model

Alimenta los datos correspondientes a las características y etiquetas al modelo y conduce el proceso de entrenamiento y validación.
Además de esto, también le establece al modelo la cantidad de ciclos de entrenamiento y el tamaño del batch.
Por último crea un subconjunto de validación con un 25% de los datos de entrenamiento.
    
Parameters:

    model - El modelo creado anteriormente.
    features - Conjunto que contiene las características.
    labels - Conjunto que contiene las etiquetas.
    epochs - Cantidad de ciclos de entrenamiento
    batch_size - Tamaño del batch.
    
Returns:

    Los resultados del entrenamiento.
*/'''

def train_model(model, features, labels, epochs, batch_size):
    early_stop= tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=10) #patience es la cant de epochs antes de chequear el improvement
    history = model.fit(
        x=features,
        y=labels,
        epochs=epochs,
        batch_size = batch_size,
        validation_split=0.25,
        callbacks = early_stop
    )
    
    # Guarda los resultados obtenidos del proceso de entrenamiento y validación en un DataFrame.
    # Estos resultados son las pérdidas y el número del ciclo correspondiente.
    hist= pd.DataFrame(history.history) #se guardan los valores de errores y metricas en un diccionario
    # Añade al DataFrame la información sobre los ciclos.
    hist['epoch'] = history.epoch
    # Guarda los datos de error en una variable para uso futuro.
    mse = hist['mean_squared_error']
    
    return hist, mse

# Ploteo de gráficas

In [7]:
'''/* 
Function: plot_loss_curve

Grafica las curvas de pérdida correspondientes al entrenamiento y la validación.
    
Parameters:

    history - Resultados provenientes del proceso de entrenamiento.
    
Returns:

    Las gráficas ya creadas.
*/'''

def plot_loss_curve(history):
    hist = history
    # Cambia los títulos de cada columna que contiene los pérdida por una versión más legible.  
    labels = {"mean_squared_error":"Training Loss", "val_mean_squared_error":"Validation Loss"}
    hist.rename(columns = labels, inplace = True)
    
    # Crea la figura, establece los títulos de eje y la paleta de colors
    fig = px.line(hist, x='epoch', y=['Training Loss', 'Validation Loss'],
                title='Gráficas de Pérdida de Entrenamiento y Evaluación',
                labels={"epoch": "Epoch", "value":"Mean Square Error", "variable":"Curvas de Pérdida"},
                color_discrete_map={ # replaces default color mapping by value
                "Training Loss": "#46039f", "Validation Loss": "#fb9f3a"})
    # Actualiza el tema de la gráfica.
    fig.update_layout(template='plotly_white')
    fig.show()

'''/* 
Function: plot_predictions

Grafica las etiquetas de prueba contra las predicciones hechas por la red neuronal.
    
Parameters:

    predictions - Datos por graficar.
    
Returns:

    La gráfica ya creada.
*/'''

def plot_predictions(predictions):
    
    # Se crea una traza de puntos.
    trace1 = go.Scatter(
        x = predictions['If'],
        y = predictions['If Predictions'],
        name = 'Predicciones',
        mode='markers',
    )
    
    # Se crea una traza de línea.
    trace2 = go.Line(
        x= predictions['If'],
        y = predictions['If'],
        name = 'Datos Reales',
        yaxis='y2'
    )
    
    # Se crea la figura 
    fig = make_subplots(specs=[[{"secondary_y": True}]], x_title='If', y_title='Predicción de If')
    # Se le agrega un título.
    fig.update_layout(title_text="Gráfica De Predicciones Contra Datos Reales")
    # Se le agrega la primera traza.
    fig.add_trace(trace1)
    # Se le agrega la segunda traza.
    fig.add_trace(trace2,secondary_y=False)
    fig.update_layout(template='plotly_white')
    
    fig.show()
    

# Hyperparámetros

In [8]:
learning_rate = 0.01
epochs = 100
batch_size = 7

# Llamado de funciones

In [9]:
# Llama a la función para crear el modelo y lo guarda.
model = my_model(learning_rate)
# Invoca a la función de entrenamiento y guarda los resultados.
history, mse = train_model(model, train_df, train_labels, epochs, batch_size)



Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

In [10]:
# Llama a la función de las gráficas.
plot_loss_curve(history)
display(history)

Unnamed: 0,loss,Training Loss,val_loss,Validation Loss,epoch
0,0.059540,0.059540,0.064929,0.064929,0
1,0.058010,0.058010,0.064680,0.064680,1
2,0.057501,0.057501,0.063239,0.063239,2
3,0.054573,0.054573,0.057929,0.057929,3
4,0.044496,0.044496,0.041893,0.041893,4
...,...,...,...,...,...
95,0.000197,0.000197,0.000172,0.000172,95
96,0.000197,0.000197,0.000170,0.000170,96
97,0.000194,0.000194,0.000177,0.000177,97
98,0.000195,0.000195,0.000165,0.000165,98


# Predicciones

In [18]:
# Hace predicciones usando el conjunto de datos de prueba.
test_predictions = model.predict(test_df).flatten()
display(test_predictions)

pivot = np.zeros((111,4))
pivot = np.insert(pivot, 4, test_labels, axis =1)
pivot2 = np.zeros((111,5))
for i in range(111):
    for j in range(5):
        pivot2[i,4] = test_predictions[i]

# Guarda las predicciones en un DataFrame.
test_predictions_df1 = pd.DataFrame(pivot, columns=['Iy', 'PF', 'e', 'dIf', 'If'])
test_predictions_df2 = pd.DataFrame(pivot2, columns=['Iy', 'PF', 'e', 'dIf', 'If'])

# Desnormaliza las predicciones y los labels.
test_predictions_df1 = reverse_norm(test_predictions_df1)
test_predictions_df2 = reverse_norm(test_predictions_df2)

# Renombra la columna "If" por "If Predictions" en el dataframe de las predicciones
test_predictions_df2.rename(columns = {'If':'If Predictions'}, inplace = True)
test_predictions_df = pd.concat([test_predictions_df1['If'], test_predictions_df2['If Predictions']], axis= 1)

# Llama a la función que grafica las predicciones sobre los datos.
plot_predictions(test_predictions_df)

display(test_predictions_df)
rms= mean_squared_error(test_predictions_df1['If'],test_predictions_df2['If Predictions'])
print(rms)




array([0.47064173, 0.24477325, 0.37582538, 0.20151852, 0.386583  ,
       0.41194168, 0.19612963, 0.2168598 , 0.10615394, 0.43479052,
       0.29027298, 0.08683841, 0.08722464, 0.4742675 , 0.15900011,
       0.17454344, 0.07143729, 0.4862511 , 0.42736325, 0.34195983,
       0.23729888, 0.2520725 , 0.11005855, 0.13114002, 0.13742888,
       0.22999115, 0.24487062, 0.24943215, 0.26891124, 0.44201133,
       0.4818856 , 0.49473312, 0.52465993, 0.62468547, 0.45499635,
       0.0712045 , 0.08416116, 0.08654405, 0.08731546, 0.16136585,
       0.19246812, 0.2181572 , 0.3750608 , 0.44177654, 0.47122353,
       0.53411305, 0.16156484, 0.5882158 , 0.59673655, 0.48425558,
       0.24958993, 0.10359987, 0.5470669 , 0.51192796, 0.3942244 ,
       0.76988065, 0.71320903, 0.7410963 , 0.22982307, 0.7955168 ,
       0.48464096, 0.19533935, 0.7725279 , 0.32980785, 0.33571762,
       0.83029765, 0.4488232 , 0.1319623 , 0.84461015, 0.42918685,
       0.44204333, 0.24151453, 0.09762442, 0.85808736, 0.67960


plotly.graph_objs.Line is deprecated.
Please replace it with one of the following more specific types
  - plotly.graph_objs.scatter.Line
  - plotly.graph_objs.layout.shape.Line
  - etc.




Unnamed: 0,If,If Predictions
0,0.472678,0.470642
1,0.251366,0.244773
2,0.372951,0.375825
3,0.213115,0.201519
4,0.383880,0.386583
...,...,...
106,0.587432,0.575873
107,0.207650,0.203613
108,0.881148,0.871187
109,0.923497,0.888549


0.00016466617871420806


In [None]:
model.save('Modelos_regresion/modelo1')



INFO:tensorflow:Assets written to: Modelos_regresion/modelo1\assets


INFO:tensorflow:Assets written to: Modelos_regresion/modelo1\assets
