# Tarea 7. Experimentacion

Esta tarea consiste en llevar a cabo la experimentación de diversos
clasificadores sobre una variedad de datasets. Se reportarán los resultados y,
posteriormente cuando tengamos la clase de significancia estadística, haremos el
análisis de los clasificadores y si hay un ganador cuál de ellos sería.

Las instrucciones se detallan a continuación:

1. Buscar varios datasets (7, 8, 10, etc.) que cumplan con una condición: deben
   tener alguna característica en común. ¿Qué característica en común? Hay
   varias cosas que pueden satisfacer esta condición, por ejemplo, que traten el
   mismo problema (e.g. diagnósticos médicos aunque sean de diferente
   enfermedad), que tengan muchas más variables que instancias (maldición de la
   dimensionalidad), que todos sean de más de 3 clases, que sus clases estén
   desbalanceadas, entre otras cosas que ustedes puedan identificar. La idea es
   que dichos datasets puedan ser identificados en el mismo contexto.

2. Llevar a cabo la clasificación, utilizando scikit-learn, aplicando los
   clasificadores que hemos visto y algunos otros de su predilección. Para
   realizar la clasificación, deben emplear algún método de validación cruzada
   (k-fold cross-validation, o leave-one-out, dependiendo la cantidad de datos).
   Asimismo, deberán reportar los resultados utilizando el balanced accuracy,
   sensibilidad y especificidad (juntas), o bien el área bajo la curva roc (AUC
   ROC).

3. Posteriormente realizaremos alguna prueba de significancia estadística (cuyo
   tema veremos al regreso de vacaciones), con la finalidad de conocer si
   existen diferencias estadísticamente significativas entre los clasificadores.



# Datos de medidas morfológicas de animales o plantas para inferir especie o sexo.

1. [Abalone dataset](https://archive-beta.ics.uci.edu/dataset/1/abalone)

1. [Birds
   bones dataset](https://www.kaggle.com/datasets/zhangjuefei/birds-bones-and-living-habits)

1. [Penguins dataset](https://archive-beta.ics.uci.edu/dataset/690/palmer+penguins-3)

1. [Pokemon_dataset](https://www.kaggle.com/datasets/cristobalmitchell/pokedex)

1. [Sloths dataset](https://www.kaggle.com/datasets/bertiemackie/sloth-species)

In [None]:
import pandas as pd

abalones = pd.read_csv("../datasets/abalone.csv")
print(abalones.shape)
abalones_ft = abalones.loc[:,['Shell_length', 'Shell_diameter', 'Height', 'Whole_weight',
       'Shucked_weight', 'Viscera_weight', 'Shell_weight',]]
abalones_tg = abalones[['Sex']]

birds = pd.read_csv("../datasets/bird.csv")
print(birds.shape)
birds_ft = birds.loc[:,['Humerus_length', 'Humerus_diameter', 'Ulna_length',
       'Ulna_diamater', 'Femur_length', 'Femur_diameter', 'Tibiotarsus_length',
       'Tibiotarsus_diameter', 'Tarsometatarsus_length',
       'Tarsometatarsus_diameter',]]
birds_tg = birds[['Species_group']]

penguins = pd.read_csv("../datasets/penguins.csv")
print(penguins.shape)
penguins_ft = penguins.loc[:,['Culmen_Length_mm', 'Culmen_Depth_mm', 'Flipper_Length_', 'Body_Massgr', ]]
penguins_tg = penguins[['Species']]

#pokemon = pd.read_csv("../datasets/pokemon.csv")

sloths = pd.read_csv("../datasets/sloth_data.csv")
print(sloths.shape)
sloths_ft = sloths.loc[:,['Claw_length_cm', 'Size_cm', 'Tail_length_cm', 'Weight_kg', ]]
sloths_tg = sloths[['Sub_specie']]

datasets = [
    (abalones_ft, abalones_tg),
    (birds_ft, birds_tg),
    (penguins_ft, penguins_tg),
    (sloths_ft, sloths_tg)
]

# Validación cruzada


In [26]:
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier

classifiers = []

lr = LogisticRegression()
dtc = DecisionTreeClassifier()
svc = SVC()
knn = KNeighborsClassifier()
rfc = RandomForestClassifier()
classifiers.append(lr)
classifiers.append(dtc)
classifiers.append(svc)
classifiers.append(knn)
classifiers.append(rfc)

# Validación cruzada (Hold Out)


In [27]:
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score

class DatasetSplitter:
    def __init__(self, test_size, random_state=1111):
        self.test_size = test_size
        self.random_state = random_state
    
    def split_datasets(self, datasets):
        train_datasets = []
        test_datasets = []
        for data, target in datasets:
            X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=self.test_size, random_state=self.random_state)
            train_datasets.append((X_train, y_train))
            test_datasets.append((X_test, y_test))
        return train_datasets, test_datasets
    
splitter = DatasetSplitter(test_size=0.2, random_state=42)
train_datasets, test_datasets = splitter.split_datasets(datasets)

# Print the training and testing subsets for each dataset
print('---Datos de entrenamiento---')
for i, (X_train, y_train) in enumerate(train_datasets):
    print(f"Dataset {i+1} training data:\n{X_train.shape}")
    print(f"Dataset {i+1} training target:\n{y_train.shape}")

print('---Datos de validación---')
for i, (X_test, y_test) in enumerate(test_datasets):
    print(f"Dataset {i+1} testing data:\n{X_test.shape}")
    print(f"Dataset {i+1} testing target:\n{y_test.shape}")

#print(train_datasets)
#plt.scatter(X_train[0].iloc[:,0],X_train_i[0].iloc[:,1], alpha=0.5)
#plt.scatter(X_test[0].iloc[:,0],X_test[0].iloc[:,1], alpha=0.5)
#plt.grid(color='#EEEEEE')
#plt.show()
