# <span style="color: SlateBlue;">Descripción de problema</span> 

El dataset Sonar contiene información recopilada por un sonar de haz lateral (un dispositivo que emite ondas acústicas en el agua y registra las señales de eco reflejadas) en el océano. Las características de los datos incluyen medidas de frecuencia de las señales de eco a diferentes ángulos, lo que permite caracterizar los objetos sumergidos en el agua en función de cómo reflejan las ondas sonoras.

El conjunto de datos Sonar consta de 208 ejemplos, cada uno de los cuales está etiquetado como "M" (mina) o "R" (roca). La tarea es construir un modelo de aprendizaje automático que pueda aprender a diferenciar entre minas y rocas utilizando estas características de sonar. 

<div class="alert alert-block alert-info">
    
<i class="fa fa-info-circle" aria-hidden="true"></i>
Más información sobre el dataset [Sonar](https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks))

# <span style="color: SlateBlue;">Descripción de objetivos</span> 

Vamos a utilizar un problema de clasificación binaria como es Sonar en el cual los datos de accuracy rondan el 84%.

Comenzaremos tomando un modelo y resultado de referencia y buscaremos generar mejoras en los resultados obtenidos en base a dicho modelo.

# <span style="color: SlateBlue;">Rendimiento del modelo de NN de referencia</span>  

## Importamos clases y funciones necesarias

In [1]:
import pandas as pd
from keras.models import Sequential
from keras.layers import Dense
from scikeras.wrappers import KerasClassifier
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.preprocessing import LabelEncoder

## Cargamos y dividimos el dataset

In [2]:
df = pd.read_csv('../Datasets/sonar.all-data.csv', header=None)
dataset = df.values

In [3]:
X = dataset[:,0:60].astype(float)
y = dataset[:, 60]

## Transformación de las variables objetivos

In [4]:
encoder = LabelEncoder()
encoder.fit(y)
y_encoded = encoder.transform(y)

## Definimos el modelo base

- Tendrá una única capa oculta completamente conectada
- Utilizamos la función de aplicación ReLu
- Tendrá una única neurona de salida con función de activación sigmoidal
- Utilizamos la función de pérdida logarítmica binaria (`binary_crossentropy`)
- Utilizamos ADAM como algoritmo de optimización y la accuracy como métrica

In [5]:
def baseline_model():
    model = Sequential()
    
    model.add(Dense(60, 
                    input_dim=60,
                   activation='relu'))
    
    model.add(Dense(1,
                    activation='sigmoid'))
    
    model.compile(loss='binary_crossentropy',
                  optimizer='adam',
                  metrics=['accuracy'])
    
    return model

## Evaluación del modelo

Para la evaluación vamos a aplicar una validación cruzada de 10-fold y pasamos el número de epochs al `KerasClassifier`

In [6]:
estimator = KerasClassifier(model=baseline_model,
                           epochs=100,
                           batch_size=5,
                           verbose=0)

In [7]:
kfold = StratifiedKFold(n_splits=10,
                       shuffle=True)

results = cross_val_score(estimator,
                         X,
                         y_encoded,
                         cv=kfold)

print('Accuracy base: %.2f%% (%.2f%%)' % (results.mean()*100, results.std()*100))

Accuracy base: 82.26% (6.99%)


# <span style="color: SlateBlue;">Optimización del rendimiento por procesamiento de datos</span> 

La **estandarización** preserva las distribuciones gaussianas mientras normaliza las tendencias centrales para cada atributo. Para esto utilizaremos `StandardScaler` de scikit-learn

**BUENA PRÁCTICA**: Entrenar el procedimiento de estandarización en los datos de entrenamiento dentro de una ejecución de validación cruzada y utilizar la instancia de estandarización entrenada para preparar el fold de validación no etiquetada.
Utilizaremos la clase `Pipeline` de scikit learn

In [8]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

In [9]:
estimators = []
estimators.append(('standarize', StandardScaler()))
estimators.append(('mlp', KerasClassifier(model=baseline_model,
                           epochs=100,
                           batch_size=5,
                           verbose=0)))
pipeline = Pipeline(estimators)

In [10]:
kfold = StratifiedKFold(n_splits=10,
                       shuffle=True)
results = cross_val_score(pipeline,
                         X,
                         y_encoded,
                         cv=kfold)

print('Accuracy (Modelo estandarizado): %.2f%% (%.2f%%)' % (results.mean()*100, results.std()*100))

Accuracy (Modelo estandarizado): 86.60% (9.72%)


# <span style="color: SlateBlue;">Ajuste de neuronas y capas</span> 

## Evaluación de una topología más pequeña

En la descripción del problema hemos visto que el sónar toma medidas desde distintos ángulos, de forma que se puede estar creando una redundancia en los datos y podemos probar a priorizar algunos ángulos que puedan ser más relevantes.

Entonces, podemos forzar la extracción de las características por parte de la red restringiendo el espacio de la representación en la capa de entrada.

In [11]:
def smaller_model():
    model = Sequential()
    
    model.add(Dense(30, 
                    input_dim=60,
                   activation='relu'))
    
    model.add(Dense(1,
                    activation='sigmoid'))
    
    model.compile(loss='binary_crossentropy',
                  optimizer='adam',
                  metrics=['accuracy'])
    
    return model

Vamos a reutilizar la mejora anterior para potenciar los resultados obtenidos

In [12]:
estimators = []
estimators.append(('standarize', StandardScaler()))
estimators.append(('mlp', KerasClassifier(model=smaller_model,
                           epochs=100,
                           batch_size=5,
                           verbose=0)))
pipeline = Pipeline(estimators)

In [13]:
kfold = StratifiedKFold(n_splits=10,
                        shuffle=True)

results = cross_val_score(pipeline,
                          X,
                          y_encoded,
                          cv=kfold)

print('Accuracy (Modelo más pequeño estandarizado): %.2f%% (%.2f%%)' % (results.mean()*100, results.std()*100))

Accuracy (Modelo más pequeño estandarizado): 85.60% (5.68%)


## Evaluación de una topología más grande

Una red con más capas ofrece más oportunidades para que la red extraiga características claves y las recombine de formas útiles no lineales. Nuestra nueva topología será la siguiente:
```
    60 inputs -> [60 -> 30] -> 1 output
``` 

In [17]:
def larger_model():
    model = Sequential()
    
    model.add(Dense(60, 
                   input_dim=60,
                   activation='relu'))
    
    model.add(Dense(30,
                   activation='relu'))
    
    model.add(Dense(1,
                    activation='sigmoid'))
    
    model.compile(loss='binary_crossentropy',
                  optimizer='adam',
                  metrics=['accuracy'])
    
    return model

In [18]:
estimators = []
estimators.append(('standarize', StandardScaler()))
estimators.append(('mlp', KerasClassifier(model=larger_model,
                           epochs=100,
                           batch_size=5,
                           verbose=0)))
pipeline = Pipeline(estimators)

In [19]:
kfold = StratifiedKFold(n_splits=10,
                        shuffle=True)

results = cross_val_score(pipeline,
                          X,
                          y_encoded,
                          cv=kfold)

print('Accuracy (Modelo más grande estandarizado): %.2f%% (%.2f%%)' % (results.mean()*100, results.std()*100))

Accuracy (Modelo más grande estandarizado): 88.93% (6.44%)


**PROBAR**: Bucle para cada "mejora" para comprobar la media de los datos obtenidos en vez de ejecuciones puntuales