# Clasificación de sirenas (Endemicas y Migrantes)

## Importación de librerías

In [99]:
import numpy as np
from sklearn import tree
import pandas as pd

In [100]:
data = pd.read_csv('datasets/sirenas_endemicas_y_sirenas_migrantes_historico.csv')

## Visualización de datos
Primero se vieron todos los datos, y lo que alcanzé a ver es que tal vez los datos de sirenas migrantes y sirenas endemicas estaban separando por la mitad el dataset

In [101]:
data

Unnamed: 0,v1,v2,v3,v4,especie
0,4.3,3.0,1.1,0.1,sirena_migrante
1,4.8,3.0,1.4,0.1,sirena_migrante
2,4.9,3.1,1.5,0.1,sirena_migrante
3,4.9,3.1,1.5,0.1,sirena_migrante
4,4.9,3.1,1.5,0.1,sirena_migrante
5,5.2,4.1,1.5,0.1,sirena_migrante
6,4.6,3.6,1.0,0.2,sirena_migrante
7,5.0,3.2,1.2,0.2,sirena_migrante
8,5.8,4.0,1.2,0.2,sirena_migrante
9,4.4,3.2,1.3,0.2,sirena_migrante


In [102]:
data.shape

(100, 5)

### Análisis de la columna especies
Se separó la columna para ver si el dataset estaba partido en dos

In [103]:
sirenas = data.pop('especie')

Se vió el número de datos por categoría y resutó ser 50% sirena endemicas y 50% sirenas migrantes

In [104]:
sirenas.value_counts()

sirena_endemica    50
sirena_migrante    50
Name: especie, dtype: int64

Se separaron los datos a la mitad del data set y efectivamente los datos de sirenas migrantes estaban en la parte de arriba y los datos de sirenas endémicas estaban en la parte de abajo, lo que causaría problemas al elegir una parte del dataset para entrenamiento y otro para pruebas

In [105]:
migrantes = sirenas[:50]
migrantes.shape

(50,)

In [106]:
migrantes.value_counts()

sirena_migrante    50
Name: especie, dtype: int64

In [107]:
endemicas = sirenas[50:100]
endemicas.shape

(50,)

In [108]:
endemicas.value_counts()

sirena_endemica    50
Name: especie, dtype: int64

## Se regresa el dataset a su estado original

In [109]:
data["especie"] = sirenas
data.shape

(100, 5)

Como ya sabemos que el dataset está partido en 2 vamos a separar las dos partes para poder tener la misma cantidad de datos de sirenas endemicas y sirenas migrantes para datos de entrenamiento y de prueba

In [110]:
data_migrantes = data.iloc[:50]
data_migrantes.shape

(50, 5)

In [111]:
data_migrantes.head()

Unnamed: 0,v1,v2,v3,v4,especie
0,4.3,3.0,1.1,0.1,sirena_migrante
1,4.8,3.0,1.4,0.1,sirena_migrante
2,4.9,3.1,1.5,0.1,sirena_migrante
3,4.9,3.1,1.5,0.1,sirena_migrante
4,4.9,3.1,1.5,0.1,sirena_migrante


In [112]:
data_endemicas = data.iloc[50:100]
data_endemicas.shape

(50, 5)

In [113]:
data_endemicas.head()

Unnamed: 0,v1,v2,v3,v4,especie
50,6.1,2.6,5.6,1.4,sirena_endemica
51,6.0,2.2,5.0,1.5,sirena_endemica
52,6.3,2.8,5.1,1.5,sirena_endemica
53,7.2,3.0,5.8,1.6,sirena_endemica
54,4.9,2.5,4.5,1.7,sirena_endemica


### Datos de entrenamiento
Se seleccionaron el 80% de los datos para entrenar el modelo, 40% de sirenas endemicas y 40% de sirenas migrantes

In [114]:
frames = [data_migrantes[:40], data_endemicas[:40]]
X = pd.concat(frames)
X.shape

(80, 5)

### Datos de prueba
Del el 20% de los datos restantes se seleccionaron 10% de sirenas migrantes y 10% de sirenas endemicas para probar el modelo

In [115]:
frames = [data_migrantes[40:50], data_endemicas[40:50]]
X_test = pd.concat(frames)
X_test.shape

(20, 5)

In [116]:
X_test

Unnamed: 0,v1,v2,v3,v4,especie
40,5.7,3.8,1.7,0.3,sirena_migrante
41,5.4,3.9,1.3,0.4,sirena_migrante
42,5.1,3.7,1.5,0.4,sirena_migrante
43,5.4,3.4,1.5,0.4,sirena_migrante
44,5.7,4.4,1.5,0.4,sirena_migrante
45,5.0,3.4,1.6,0.4,sirena_migrante
46,5.4,3.9,1.7,0.4,sirena_migrante
47,5.1,3.8,1.9,0.4,sirena_migrante
48,5.1,3.3,1.7,0.5,sirena_migrante
49,5.0,3.5,1.6,0.6,sirena_migrante


### Cambiar datos categóricos
La clasificación de datos en el dataset son datos categóricos, así que se reemplazaron con datos numéricos y fue guardada en las variables "y" y "y_test"

In [117]:
y = pd.get_dummies(X.pop("especie"))

In [118]:
y_test = pd.get_dummies(X_test.pop("especie"))

In [119]:
y.shape

(80, 2)

In [120]:
y_test.shape

(20, 2)

In [121]:
X.shape

(80, 4)

In [122]:
X_test.shape

(20, 4)

In [123]:
y.head()

Unnamed: 0,sirena_endemica,sirena_migrante
0,0,1
1,0,1
2,0,1
3,0,1
4,0,1


## Entrenamiento del modelo (árbol de decisiones)

Se creó el modelo y se entrenó con un arbol de decisiones binario con el criterio gini

In [124]:
model = tree.DecisionTreeClassifier()

In [125]:
model.fit(X,y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

### Se obtuvo el error absoluto y la precisión (Creo que los dos están mal)

In [126]:
from sklearn import metrics
metrics.mean_absolute_error(y_test, model.predict(X_test))

0.0

In [127]:
from sklearn import cross_validation
resultado =  cross_validation.cross_val_score(model, X,y,cv=5,scoring='accuracy')
print(resultado)

[ 1.  1.  1.  1.  1.]


## Preparación de datos de predicción
Se leyeron y analizaron los datos para predecir

In [128]:
result = pd.read_csv('datasets/sirenas_endemicas_y_sirenas_migrantes.csv')

In [129]:
result

Unnamed: 0,v1,v2,v3,v4,especie
0,6.6,2.3,4.1,1.5,
1,4.5,2.9,2.4,1.6,
2,5.7,2.3,6.3,0.4,
3,5.1,3.3,1.7,2.1,
4,7.0,4.0,1.0,1.6,
5,7.6,2.3,2.1,1.2,
6,4.7,3.3,5.6,1.8,
7,4.9,3.8,2.0,2.4,
8,7.4,3.0,4.3,0.8,
9,6.0,3.0,2.5,2.1,


Se quitó la columna de especie para poder predecir el dataframe completo

In [130]:
result.pop("especie")

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
5    NaN
6    NaN
7    NaN
8    NaN
9    NaN
10   NaN
11   NaN
12   NaN
13   NaN
14   NaN
15   NaN
16   NaN
17   NaN
18   NaN
19   NaN
20   NaN
21   NaN
22   NaN
23   NaN
24   NaN
25   NaN
26   NaN
27   NaN
28   NaN
29   NaN
30   NaN
31   NaN
32   NaN
33   NaN
34   NaN
35   NaN
36   NaN
37   NaN
38   NaN
Name: especie, dtype: float64

Se predijeron los datos

In [131]:
result_predict = model.predict(result)
result_predict

array([[ 1.,  0.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 0.,  1.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 0.,  1.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 1.,  0.],
       [ 0.,  1.],
       [ 0.,  1.]])

In [132]:
pd_result = pd.DataFrame(data=result_predict,
                        columns=['sirena_endemica','sirena_migrante'])
pd_result.head()

Unnamed: 0,sirena_endemica,sirena_migrante
0,1.0,0.0
1,0.0,1.0
2,1.0,0.0
3,0.0,1.0
4,0.0,1.0


Los datos resultado de la predicción no fueron categóricos, así que se convirtieron a categoricos y se agregaron al dataframe result

In [133]:
result["especie"] = pd_result.idxmax(axis=1)

In [134]:
result

Unnamed: 0,v1,v2,v3,v4,especie
0,6.6,2.3,4.1,1.5,sirena_endemica
1,4.5,2.9,2.4,1.6,sirena_migrante
2,5.7,2.3,6.3,0.4,sirena_endemica
3,5.1,3.3,1.7,2.1,sirena_migrante
4,7.0,4.0,1.0,1.6,sirena_migrante
5,7.6,2.3,2.1,1.2,sirena_migrante
6,4.7,3.3,5.6,1.8,sirena_endemica
7,4.9,3.8,2.0,2.4,sirena_migrante
8,7.4,3.0,4.3,0.8,sirena_endemica
9,6.0,3.0,2.5,2.1,sirena_migrante


Por último se imprimió el archivo resultado_sirenas.csv con los datos de result.

In [135]:
result.to_csv('datasets/resultado_sirenas.csv')