<a href="https://www.inove.com.ar"><img src="https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/images/PA%20Banner.png" width="1000" align="center"></a>


# Redes neuronales artificiales (ANN)

Programa creado para mostrar ejemplos prácticos de los visto durante la clase<br>
v1.1

### **Objetivos:**


*   Comprender la estructura de una red neuronal.
*   Configurar el modelo para el entrenamiento a través del método compile.
*   Diferenciar las redes neuronales categóricas de las multicategóricas.


# Redes neuronales de una sola capa oculta (ANN)

In [None]:
#Librerias a implementar
import os
import platform

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.utils import to_categorical

from  sklearn import  datasets

## 1 - Clasificación binaria

In [None]:
# Se construye un DataFrame llamado df_drugs, que contiene:
# un diccionario con tres claves y sus listas de valores
# Las claves representan los nombres de las columnas
df_drugs = pd.DataFrame({
      "Age": [0, 1, 2, 0],
      "cholesterol": [0, 1 , 1, 0],
      "drug": [0, 1, 1, 0]}
      )
df_drugs

In [None]:
# Se hace una copia del DataFrame df_drugs 
# para trabajar utilizar la copia df_norm para normalizar los datos
df_norm = df_drugs.copy()

In [None]:
# Se importa MinMaxScaler de la librería sklearn.preprocessing 
from sklearn.preprocessing import MinMaxScaler

# Se crea el objeto scaler a partir de la clase MinMaxScaler()
scaler = MinMaxScaler()

# Del DataFrama df_norm se implementa el operador .loc para editar las columnas 'Age', 'cholesterol' 
# Para acceder a las columnas se utiliza los corchetes
# Los dos puntos (:) indican que se editarán todas las filas de la columna indicada
# Para normalizar se utilizá el objeto creado scaler
# y el método .fit_transform, que se encargará de normalizar
# Entre paréntesis se indica el nombre de la columna del DataFrame. Ej:df_norm[['Age']]
df_norm.loc[:, 'Age'] = scaler.fit_transform(df_norm[['Age']])
df_norm.loc[:, 'cholesterol'] = scaler.fit_transform(df_norm[['cholesterol']])

# Ver las 5 primeras filas del DataFrame normalizado
df_norm.head()

In [None]:
# Se separan los valores para X e y con el método .values
# Para los valores de X se mantienen la mayoria de las columnas a excepción de la columna 'drug'
# axis=1, parámetro para indicar que se elimine fila a fila
# y representará la columna objetivo, que es la columna que contiene las categorías conocidas para cada fila, que el la columna 'drug'
X = df_norm.drop('drug', axis=1).values
y = df_norm['drug'].values

In [None]:
# Se importa Dense de la librería tensorflow.keras.layers
from tensorflow.keras.layers import Dense

# Se crea el objeto model a partir de la clase Sequential()
model = Sequential()

# A partir del objeto creado se implementa el método add()
# Dentro de los () se indica que se ustilizará una capa Densa (Dense)
# Dentro de la capa densa se definen los parámetros:
# units=1, cantidad de neuronas
# activation='sigmoid', función de activación que define el corportamiento del modelo
# input_shape=(2,) cantidad de entradas, esto lo define la cantidad de columnas.
model.add(Dense(units=1, activation='sigmoid', input_shape=(2,)))

# De model creado se puede acceder al sumario que muestra la estructura del modelo
model.summary()

In [None]:
# Configuración del modelo para el entrenamiento, implementando el método compile a partir del modelo creado.
# Se necesita indicar los parámetros:
# optimizer, nombre del optimizador (es el algoritmo que se encarga del descenso de gradiente estocástico)
# Fuente: https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/Adam
# loss, se llama función de pérdida, representa las categorías conocidas de las predicción. Al ser 'binary_crossentropy' la predicción tiene 
# una salida con dos opciones.
# metrics, se define la métrica que evaluará el modelo durante el entrenamiento y las pruebas.
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.5),
              loss='binary_crossentropy',
              metrics=['accuracy'])

# Se entrena el modelo con el método fit
# Necesita definir los valores para X, y sumado a la cantidad de épocas que seria la iteraciones de entrenamiento.
history = model.fit(X, y, epochs=10)

In [None]:
# Podemos observar los pesos asociados al modelo
model.get_weights()

In [None]:
# Evaluar el accuracy del modelo
accuracy = model.evaluate(X, y)[1]

## 2 - Red neuronal (ANN) & clasificación multicategórica

### `Penguins dataset`:
El dataset **`Penguins`** es un dataset alternativo al clásico dataset de **`iris`**, el cual se lo utiliza para clasificación multicagórica (3 especies de pinguinos). Cada especie se caracteriza por su tamaño, como podrá ver en el dataset.<br> [Dataset source](https://www.kaggle.com/parulpandey/penguin-dataset-the-new-iris/data)

In [None]:
if os.access('penguins_dataset.csv', os.F_OK) is False:
    if platform.system() == 'Windows':
        !curl https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/penguins_dataset.csv > penguins_dataset.csv
    else:
        !wget penguins_dataset.csv https://raw.githubusercontent.com/InoveAlumnos/dataset_analytics_python/master/penguins_dataset.csv

In [None]:
# Se lee el archivo ""penguins_dataset.csv"" con Pandas
# utilizando el método .read_csv de pd
df2 = pd.read_csv("penguins_dataset.csv")

# Permite observar las cinco primeras filas del dataset df2
df2.head()

In [None]:
# Realizar una inspeccion del dataset en búsqueda de elementos faltantes
# Una vez descargado el archivo en Colab.
# Leerlo con Pandas y el método read_csv
# Una vez extraida toda la información se almacena en df
# A partir de df2 y el método describe(), mostrará la descripción estadistica básica del archivo que se guardará en des
# Crear una fila nueva llamada Nan en el DataFrame  des,
# que indica la cantidad de datos tipo Nan que tiene cada columna.
# Para crear una nueva fila, se utilizará el operador .loc, donde se indica el nombre
# de la nueva fila y con que valores se completará.
# La información será de los datos faltantes df2.isna().sum()
# Crear una fila nueva llamada %Nan en el DataFrame des,
# Esta fila se completará con los porcentajes de Nan encontrados en cada columna.
des = df2.describe()
des.loc['Nan'] = df2.isna().sum()
des.loc['%Nan'] = (df2.isna().mean())*100
des

In [None]:
# El archivo contiene filas344  y columnas 17
df2.shape

In [None]:
# Filtrar el DataFrame df2 con 5 columnas: "Species", "Culmen Length (mm)", "Culmen Depth (mm)", "Flipper Length (mm)", "Body Mass (g)"
# Para acceder a los valores de varias columnas del DataFrame se hace a través de una lista con los nombres de las columnas df2[["Species", "Culmen Length (mm)", "Culmen Depth (mm)", "Flipper Length (mm)", "Body Mass (g)"]]
df2_clean = df2[["Species", "Culmen Length (mm)", "Culmen Depth (mm)", "Flipper Length (mm)", "Body Mass (g)"]]

# Una vez filtrado el  DataFrame df2,
# se elimina los datos faltantes con dropna()
df2_clean = df2_clean.dropna()
df2_clean.head()

In [None]:
# Como los indices quedaron desordenados se reindexa los índices.
# Con el método .reset_index()
# Se indica como parámetros:
# drop=True, esto restablece el índice al índice entero predeterminado.
# inplace=True, para modificar el DataFrame en lugar de crear uno nuevo.
# Fuente: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html

df2_clean.reset_index(drop=True, inplace=True)

In [None]:
# Se importa la herramienta LabelEncoder de la librería sklearn.preprocessing
from sklearn.preprocessing import LabelEncoder

# Se crea el objeto le a partir de la clase Label Encoding
le = LabelEncoder()

# Se hace una copia df2_norm del DataFrame df2_clean
df2_norm = df2_clean.copy()

# Se crea una nueva columna en el DataFrame llamada "target"
# cuyos datos serán producto de aplicar el método fit_transform (va a asignar un número a cada especie de la columna 'Species)
df2_norm["target"] = le.fit_transform(df2_norm['Species'])

# Del DataFrame normalizado df_norm eliminar la anterior columna 'Species' que contiene los nombres de las especies.
df2_norm = df2_norm.drop(["Species"], axis=1)

# Observar las 5 primeras filas del DataFrame resultante
df2_norm.head()

In [None]:
# Se importa de sklearn.preprocessing la herramienta a usar  StandardScaler
from sklearn.preprocessing import StandardScaler

# Se crea el objeto scaler2 a partir de la clase StandardScaler()
scaler2 = StandardScaler()

# Del DataFrama df2_norm se implementa el operador .loc para editar las columnas 'Culmen Length (mm)','Culmen Depth (mm)','Culmen Depth (mm)','Flipper Length (mm)','Body Mass (g)'
# Para acceder a las columnas se utiliza los corchetes
# Los dos puntos (:) indican que se editarán todas las filas de la columna indicada
# Para normalizar se utilizá el objeto creado scaler2
# y el método .fit_transform, que se encargará de normalizar
# Entre paréntesis se indica el nombre de la columna del DataFrame. Ej:df2_norm[['Culmen Length (mm)']]
df2_norm.loc[:, 'Culmen Length (mm)'] = scaler2.fit_transform(df2_norm[['Culmen Length (mm)']])
df2_norm.loc[:, 'Culmen Depth (mm)'] = scaler2.fit_transform(df2_norm[['Culmen Depth (mm)']])
df2_norm.loc[:, 'Culmen Depth (mm)'] = scaler2.fit_transform(df2_norm[['Culmen Depth (mm)']])
df2_norm.loc[:, 'Flipper Length (mm)'] = scaler2.fit_transform(df2_norm[['Flipper Length (mm)']])
df2_norm.loc[:, 'Body Mass (g)'] = scaler2.fit_transform(df2_norm[['Body Mass (g)']])

# Observar las 5 primeras filas
df2_norm.head()

In [None]:
# Obtener los valores de X2 e y2
# En X2 se almacenarán todos los valores de las columnas (con .values), excepto los valores de la columna "target", la cuál se elimina con el método .drop()
# Necesita el nombre de la columna y
# axis=1 para que se elimine por filas.
X2 = df2_norm.drop("target", axis=1).values

# En y2, sólo se almacena los valores de la columna "target", que será la columna objetivo.
# Importante, se implementa to_categorical para obterner la información en un array de matrices, donde cada matriz contiene 4 valores, 
# los cuatros valores de las categorias y que también representen las mismas cantidad de filas, es similar al onehotencoder.
# Necesita indicar la columna "target" del DataFrame df2_norm usando corchetes.
# se implementa el método values para obtener solo los valores y que no vengan incluidos los nombres de las columnas.

y2 = to_categorical(df2_norm["target"].values)

In [None]:
# Verificar las cantidad de filas y columnas en X2
X2.shape

In [None]:
# Verificar las cantidad de filas y columnas en y2
y2.shape

In [None]:
# Se importa la herramienta de sklearn.model_selectionl como train_test_split
from sklearn.model_selection import train_test_split

# Fijamos un "random_state" constante para que siempre el dataset se parta de la misma forma
# para poder repetir los ensayos
# Ojo! Los dataset de train y test son array numpy
# Se importa la herramienta de la libreria  train_test_split()
# Necesita los valores de X e y
# test_size=0.2, permite indicar el porcentaje de valores para validar, equivalente a un 20%
# random_state=42,  es un número fijo que utilizan comunmente en documentación, significa que para cada ejecución del algoritmo 
#se genere nuevos valores aleatorios
# y los conjuntos de datos de entrenamiento y pruebas serán diferentes.
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=42)

In [None]:
# Se importa Dense de la librería tensorflow.keras.layers
from tensorflow.keras.layers import Dense

# Se crea el objeto model2 a partir de la clase Sequential()
model2 = Sequential()


# A partir del objeto creado se implementa el método add()
# Dentro de los () se indica que se ustilizará una capa Densa (Dense)
# Dentro de la capa densa se definen los parámetros:
# units, cantidad de neuronas
# activation='sigmoid', función de activación que define el corportamiento del modelo
# input_shape=(4,) cantidad de entradas, esto lo define la cantidad de columnas.
# Se repite el proceso con solo indicar las cantidad de neuronas y la función de activación al final
# que varia a 'softmax', ya que la predicción está representada por más de 2 categorías conocidas, es 
# multicategórica.

model2.add(Dense(units=3, activation='sigmoid', input_shape=(4,)))
model2.add(Dense(units=3, activation='softmax'))

# De model2 creado se puede acceder al sumario que muestra la estructura del modelo
model2.summary()

In [None]:
# Configuración del modelo para el entrenamiento, implementando el método compile a partir del modelo creado.
# Se necesita indicar los parámetros:
# optimizer, nombre del optimizador (es el algoritmo que se encarga del descenso de gradiente estocástico)
# Fuente: https://www.tensorflow.org/api_docs/python/tf/keras/optimizers/Adam
# loss, se llama función de pérdida, representa las categorías conocidas de las predicción. Al ser 'binary_crossentropy' la predicción tiene 
# una salida con dos opciones.
# metrics, se define la métrica que evaluará el modelo durante el entrenamiento y las pruebas.
model2.compile(optimizer=tf.keras.optimizers.Adam(),
              loss='categorical_crossentropy',
              metrics=['accuracy'])


# Se entrena el modelo con el método fit
# Necesita definir los valores para X, y sumado a la cantidad de épocas que seria la iteraciones de entrenamiento y el porcentaje
# dirigido a validación (validation_split=0.2)
history2 = model2.fit(X2_train, y2_train, validation_split=0.2, epochs=100)

In [None]:
# Variable epocas_conteo, que almacena en una lista la cantidad de épocas de train
# history2, es la variable que almacena las predicciones del modelo
# y de ella se puede acceder a información como su historial (history) del accuracy
epocas_conteo = range(1, len(history2.history['accuracy']) + 1)

In [None]:
# De Seaborn (sns) se accede al gráfico de línea para representar;
# Por un lado, el 'accuracy',
# Por el otro, la validación (val_accuracy)
sns.lineplot(x=epocas_conteo,  y=history2.history['accuracy'], label='train')
sns.lineplot(x=epocas_conteo,  y=history2.history['val_accuracy'], label='valid')
plt.show()