# Ejercicio 5

El archivo ZOO.csv contiene información de 101 animales caracterizados por los siguientes atributos:
| 1. Nombre del animal   | 7. Acuático        | 13. Aletas        |
|------------------------|--------------------|-------------------|
| 2. Tiene Pelo          | 8. Depredador      | 14. Patas         |
| 3. Plumas              | 9. Dentado         | 15. Cola          |
| 4. Huevos              | 10. Vertebrado     | 16. Doméstico     |
| 5. Leche               | 11. Branquias      | 17. Tamaño gato   |
| 6. Vuela               | 12. Venenoso       | 18. Clase         |

Salvo los atributos 1 y 18 que contienen texto y el 14 que contiene el número de patas del animal, el resto toma el valor 1 si el animal posee la característica y 0 si no.  
Hay 7 valores de clase posible (atributo 18): mamífero, ave, pez, invertebrado, insecto, reptil y anfibio.  

Entrene un multiperceptrón que sea capaz de clasificar un animal en una de las 7 clases.  
Utilice el 70% de los ejemplos para entrenar y el 30% para realizar el testeo.  
Realice al menos 10 ejecuciones independientes de la configuración seleccionada para respaldar sus afirmaciones referidas a la performance del modelo.  

Fuente: https://archive.ics.uci.edu/ml/datasets/zoo


In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import preprocessing

DATA_PATH="./Data/"

data = pd.read_csv(DATA_PATH + 'zoo.csv', encoding='latin1')

X = data.drop('Clase', axis=1)
X=X.drop('animal',axis=1)
T = data['Clase']

binarizer = preprocessing.LabelBinarizer()
T = binarizer.fit_transform(T)

X=np.array(X)
scaler = preprocessing.StandardScaler()
X = scaler.fit_transform(X)

X_train, X_test, T_train, T_test = train_test_split(X, T, test_size=0.3, random_state=42, stratify=T)


In [12]:
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

train_scores = []
test_scores = []
train_effectiveness = []
test_effectiveness = []

for i in range(10):
  clf = MLPClassifier(
    solver='adam',
    learning_rate_init=0.05,
    hidden_layer_sizes=(20,20),
    random_state=i,
    max_iter=2500,
    batch_size=200,
    tol=1.0e-05,
    n_iter_no_change=30,
    early_stopping=True,
    validation_fraction=0.2,
    activation='tanh'
  )
  clf.fit(X_train, T_train)

  # Entrenamiento
  Y_pred_train = clf.predict(X_train)
  score_train = clf.score(X_train, T_train)
  Y_it_train = binarizer.inverse_transform(T_train)
  Y_pred_it_train = binarizer.inverse_transform(Y_pred_train)
  efectividad_train = 100 * (Y_pred_it_train == Y_it_train).sum() / len(Y_it_train)
  train_scores.append(score_train)
  train_effectiveness.append(efectividad_train)

  # Test
  Y_pred_test = clf.predict(X_test)
  score_test = clf.score(X_test, T_test)
  Y_it_test = binarizer.inverse_transform(T_test)
  Y_pred_it_test = binarizer.inverse_transform(Y_pred_test)
  efectividad_test = 100 * (Y_pred_it_test == Y_it_test).sum() / len(Y_it_test)
  test_scores.append(score_test)
  test_effectiveness.append(efectividad_test)

print("Entrenamiento:")
print("Efectividad media: %6.2f%% ± %6.2f%%" % (np.mean(train_effectiveness), np.std(train_effectiveness)))
print("Score medio: %6.2f ± %6.2f" % (np.mean(train_scores), np.std(train_scores)))
print("\nTest:")
print("Efectividad media: %6.2f%% ± %6.2f%%" % (np.mean(test_effectiveness), np.std(test_effectiveness)))
print("Score medio: %6.2f ± %6.2f" % (np.mean(test_scores), np.std(test_scores)))

Entrenamiento:
Efectividad media:  95.50% ±   4.08%
Score medio:   0.94 ±   0.05

Test:
Efectividad media:  89.52% ±   4.67%
Score medio:   0.86 ±   0.07


