<center><h1>Desafío El Seductor Canto de las Sirenas</h1></center>
Las sirenas endémicas que rodean la isla donde se encuentra tu celda tienen un seductor canto con el que atraen a sus machos y aseguran la persistencia de sus especie.  Ha emigrado, solicitando refugio, una especie de sirenas de otros lares. Esta especie emite un sonido que interfiere con el canto de las sirenas endémicas. 

El guardián del océano va a delimitar una región para cada especie y pide tu ayuda para distribuirlas. Tú recibiste una base de datos (sirenas_endemicas_y_sirenas_migrantes_historico.csv) que el museo de historia natural te ha facilitado con características de individuos de cada especie. 

Recibiste también una base de datos con los individuos que el guardián va a clasificar (sirenas_endemicas_y_sirenas_migrantes.csv). Indica en esta última, a qué especie de sirena pertenece cada individuo.
<ul>
<li>A.	Explica la idea general de tu solución con dibujos, diagramas, videos, legos, bolitas de plastilina, etc.</li>
<li>B.	Implementa tu modelo explicando los pasos.</li>
<li>C.	Completa el archivo (sirenas_endemicas_y_sirenas_migrantes.csv que entregarás al guardián.</li>
</ul>                  

<center><h1>A. Explicación de la Solución</h1></center>

<img src="./img/sirenas.jpg">

Al analizar el problema, se identifica que es un problema de clasificación, dónde hay que clasificar a las sirenas entre endémicas y migrantes.

Se define utilizar el algoritmo perceptrón para poder clasificar a las sirenas.

Se sigue el siguiente algoritmo: 

* Carga de los datos
* Limpieza de los datos
* Definición de proporción datasets Entrenamiento (80%) / Evaluación (20%):
    - Atributos de Entrenamiento
    - Atributos de Evaluación
    - Target Entrenamiento
    - Target Evaluación
* Entrenamiento del modelo
* Evaluación del desempeño del modelo
* Uso del clasificador en nueva información
* Completar archivo en base a resultados del clasificador

<center><h1>B. Implementación del modelo</h1></center>

In [10]:
#Importación de librerías a utilizar:
import pandas as pd
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import classification_report,confusion_matrix

In [4]:
#Carga de los datasets usando la librería pandas.
data = pd.read_csv('./datasets/sirenas_endemicas_y_sirenas_migrantes_historico.csv',header=0)

#Hacemos un poco de limpieza de datos:
#Remplazamos los strings que indican el tipo de sirena por valores Int, para usar como target esa columna
data=data.replace(to_replace='sirena_endemica', value=0)
data=data.replace(to_replace='sirena_migrante', value=1)

In [6]:
#Generamos los datasets de entrenamiento y prueba (80% del dataset)

#Tomamos las filas de enmedio para generar el dataset de entrenamiento (80%)
x_train = data.iloc[10:90,0:4] 

#Tomamos las primeras y las últimas filas del dataset para generar el dataset de prueba (20%)
x_test1 = data.iloc[0:10, 0:4]
x_test2 =data.iloc[90:100, 0:4]
x_test = pd.concat([x_test1, x_test2], ignore_index=False) # Concatenando las primeras y las últimas filas en un solo dataframe

In [7]:
# Generamos el dataset target siguiendo el mismo principio que utilizamos en el paso anterior.

#Tomamos las filas de enmedio para generar el target de entrenamiento (80%)
y_train = data.iloc[10:90,4:]

#Tomamos las primeras y las últimas filas del dataset para generar el target de evaluación (20%)
y_test1 = data.iloc[0:10, 4:]
y_test2= data.iloc[90:100, 4:]
y_test = pd.concat([y_test1, y_test2], ignore_index=False) # Concatenamos las primeras y las últimas filas en un solo dataframe

In [8]:
# Generación del modelo MultiLayer Perceptron.

mlp = MLPClassifier(hidden_layer_sizes=(13,13,13),max_iter=500) #Instancia del modelo
mlp.fit(x_train,y_train.values.ravel()) #Entrenamiento del modelo

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
       beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(13, 13, 13), learning_rate='constant',
       learning_rate_init=0.001, max_iter=500, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=None,
       shuffle=True, solver='adam', tol=0.0001, validation_fraction=0.1,
       verbose=False, warm_start=False)

In [11]:
# Evaluamos el desempeño del modelo con los datasets de evaluación

y_pred= mlp.predict(x_test) 
print("Accuracy: ", metrics.accuracy_score(y_test, y_pred))


print("-------------CLASSIFICATION REPORT-------------")
print(classification_report(y_test,y_pred))

Accuracy:  1.0
-------------CLASSIFICATION REPORT-------------
             precision    recall  f1-score   support

          0       1.00      1.00      1.00        10
          1       1.00      1.00      1.00        10

avg / total       1.00      1.00      1.00        20



De la evaluación anterior podemos descubrir que el modelo entrenó para tener un nivel de Certeza del 100%, lo cual no siempre es bueno, porque probablemente es un modelo que no responderá bien cuando existan cambios en los datos, sin embargo como se cuenta con relativamente poca información de entrenamiento, se considera una buena elección. 

<center><h1>C. Completar archivo para entregar al guardián</h1></center>

In [17]:
#Para completar el archivo, primero cargamos el archivo con la data que tenemos que clasificar
data_pred = pd.read_csv('./datasets/sirenas_endemicas_y_sirenas_migrantes.csv',header=0)

#Tomamos las filas y columnas que necesitamos como atributos
x_pred = data_pred.iloc[0:40,0:4]
clase = mlp.predict(x_pred) #Usamos el modelo que entrenamos para predecir la clasificación correcta de las sirenas

x_pred['especie'] = clase #El vector resultante, lo anexamos al dataframe para completar la información del archivo.

#Sustituimos los valores booleanos por las cadenas originales
x_pred['especie']=x_pred['especie'].replace(to_replace=0, value='sirena_endemica') 
x_pred['especie']=x_pred['especie'].replace(to_replace=1, value='sirena_migrante')

#Generamos el archivo final
x_pred.to_csv('sirenas_endemicas_y_sirenas_migrantes.csv')

In [18]:
# Los resultados obtenidos en el archivo final, son los siguientes:
print(x_pred)

     v1   v2   v3   v4          especie
0   6.6  2.3  4.1  1.5  sirena_endemica
1   4.5  2.9  2.4  1.6  sirena_migrante
2   5.7  2.3  6.3  0.4  sirena_endemica
3   5.1  3.3  1.7  2.1  sirena_migrante
4   7.0  4.0  1.0  1.6  sirena_migrante
5   7.6  2.3  2.1  1.2  sirena_migrante
6   4.7  3.3  5.6  1.8  sirena_endemica
7   4.9  3.8  2.0  2.4  sirena_migrante
8   7.4  3.0  4.3  0.8  sirena_endemica
9   6.0  3.0  2.5  2.1  sirena_migrante
10  6.2  4.1  6.3  2.0  sirena_endemica
11  7.7  2.3  2.5  0.9  sirena_migrante
12  6.4  4.0  6.8  0.8  sirena_endemica
13  5.7  4.4  5.5  0.9  sirena_endemica
14  4.3  4.0  4.3  0.7  sirena_endemica
15  7.7  3.6  6.2  2.1  sirena_endemica
16  6.3  3.7  1.5  2.2  sirena_migrante
17  5.6  3.9  4.5  2.3  sirena_endemica
18  6.3  4.0  6.7  0.3  sirena_endemica
19  5.6  3.1  2.2  1.4  sirena_migrante
20  6.3  2.3  3.7  2.4  sirena_endemica
21  7.8  4.2  5.6  1.3  sirena_endemica
22  7.2  3.8  3.5  0.7  sirena_migrante
23  6.0  3.9  4.3  1.4  sirena_endemica
