### ESCOM - IIA
#### FUNDAMENTOS DE INTELIGENCIA ARTIFICIAL - PROYECTO ML
#### Semestre 2023-2 - Grupo 4BV2
--- 
##### Autor:
- **Valdés Luis Eliot Fabián**

In [None]:
# importamos la librerias necesarias
from ucimlrepo import fetch_ucirepo  # libreria de repositorios de datasets
import pandas as pd  # libreria para el manejo de dataframes

----
# PASO 1: Carga de datos
Sección inicial para obtener el dataset, describirlo de manera general usando estadisticas

In [None]:
# definimos los datasets a utilizar
datasets = {
    "Eliot": 53, # Iris
    "Ethel": 17, # Breast Cancer
    "Leo": 878, # Cirrhosis
    "Adair": 109, # Wine
}
dataset = fetch_ucirepo(id=datasets["Eliot"]) # cargamos el dataset que deseemos utilizar

In [None]:
# mostramos un pequeño resumen de lo que trata el dataset 
dataset.metadata.abstract

In [None]:
# obtenemos los datos
X = dataset.data.features 
y = dataset.data.targets 

In [None]:
# creamos un dataframe con los datos
df = pd.DataFrame(X, columns=dataset.data.feature_names)
# agregamos la columna target
df['target'] = y

# mostramos la cantidad de registros
print(f'Cantidad de registros: {len(df)}')

# imprimimos los primeros 5 registros
df.head()

In [None]:
# mostramos los tipos de datos de cada columna
print(f"Tipos de datos (Metodo pandas):\n{df.dtypes}\n")

In [None]:
# mostramos los tipos de datos usando los metodos de la librearia de repositorios
dataframe_tipos = pd.DataFrame({'Variable Name': dataset.variables['name'], 'Type': dataset.variables['type']})
print(f"Tipos de datos (Metodo ucimlrepo):\n{dataframe_tipos}\n")

In [None]:
# por cada columna hacer lo siguiente 
# si el tipo de dato es numerico, mostrar la media, mediana, desviacion estandar, minimo y maximo
# si el tipo de dato es categorico, mostrar la cantidad de valores unicos

# limitamos la cantidad de columnas a 10
for col in df.columns[:10]:
    if df[col].dtype == 'float64' or df[col].dtype == 'int64':
        print(f"=> '{col}':")
        print(f"\t-Media: {df[col].mean()}")
        print(f"\t-Mediana: {df[col].median()}")
        print(f"\t-Desviacion estandar: {df[col].std()}")
        print(f"\t-Minimo: {df[col].min()}")
        print(f"\t-Maximo: {df[col].max()}")
    else:
        print(f"=> '{col}':")
        print(f"\t-Valores unicos: {df[col].unique()}")
        print(f"\t-Cantidad de valores unicos: {df[col].nunique()}")

----

# PASO 2: PREPROCESAMIENTO DE DATOS

Sección para preprocesar los datos, aquí separamos el dataset en los vectores de entrada X & de salida Y(las clases que son definidas con tipo de dato categorico)


In [None]:
# funcion para separar cualquier dataframe en dos vectores (entrada y salida)
def separate_dataframe(df):
    vector_x = df.drop(df.columns[-1], axis=1) # obtencion de variables de entrada
    vector_y = df[df.columns[-1]] # obtencion de variable de salida (clase/target)
    return vector_x, vector_y

# separamos el dataframe en dos vectores, uno con las variables independientes y otro con la variable dependiente
vector_x, vector_y = separate_dataframe(df)

In [None]:
# mostramos los primeros 5 registros del vector de entrada X
vector_x.head()

In [None]:
# mostramos los primeros 5 registros del vector de salida Y
vector_y.head()

In [None]:
# mostramos los valores unicos del vector de salida Y
vector_y.unique()

In [None]:
# creamos una funcion que recibe como parametros el vector de entrada X y el vector de salida Y
def describe_categories(vector_x, vector_y):
    # agrupamos el vector de entrada X de acuerdo al vector de salida Y
    grouped = vector_x.groupby(vector_y)
    for name, group in grouped:
        print("\n",("="*50))
        print(f'Clase: {name}')
        print("="*50)
        # por cada grupo, accedemos a cada una de las columnas
        for col in group.columns:
            # validamos que el tipo de dato de la columna sea numerico y de ser el caso mosstramos las estadisticas
            if group[col].dtype == 'float64' or group[col].dtype == 'int64':
                print(f"=> '{col}':")
                print(f"\t-Media: {group[col].mean()}")
                print(f"\t-Mediana: {group[col].median()}")
                print(f"\t-Desviacion estandar: {group[col].std()}")
                print(f"\t-Minimo: {group[col].min()}")
                print(f"\t-Maximo: {group[col].max()}")
            else:
                print(f"=> '{col}':")
                print(f"\tValores unicos: {group[col].unique()}")
                print(f"\tCantidad de valores unicos: {group[col].nunique()}")            
        

describe_categories(vector_x, vector_y)

-----
# PASO 3: LIMPIEZA DE DATASET
Sección para limpiar el dataset para eliminar valores que no aportan al modelo, como los valores nulos o NaN.

In [None]:
# juntamos los vectores de entrada y salida en un solo dataframe
df = vector_x.join(vector_y)
# mostramos la cantidad de registros
print(f'Cantidad de registros (Before cleaning): {len(df)}')

In [None]:
# eliminamos los registros que tengan valores nulos en alguna de las columnas
df = df.dropna()
# mostramos la cantidad de registros
print(f'Cantidad de registros: (After cleaning) {len(df)}')

In [None]:
# de nuevo separamos el dataframe en dos vectores, uno con las variables independientes y otro con la variable dependiente
vector_x, vector_y = separate_dataframe(df)

In [None]:
# conservamos unicamente las columnas con tipo de dato Inter o Continuous
vector_x = vector_x.select_dtypes(include=['int64', 'float64'])
# mostramos las primeras 5 filas del vector de entrada
vector_x.head()

In [None]:
print(f'Otra forma de limpiar el vector de entrada. Usa el dataset original y los tipos de datos del dataset pero no es tan eficiente como el metodo anterior ya que alginas columnas con tipo de dato numerico no son numericas en el dataset')
"""
for col_name in vector_x.columns:
    # verificar el tipo de dato de cada columna usando el dataset
    if col_name in dataset.variables['name'].values:
        # obtener el tipo de dato de la columna en el dataset
        col_type = dataset.variables['type'][dataset.variables['name'] == col_name].values[0]
        # eliminamos del vector_x aquellas columnas que no son numericas
        if col_type != 'Integer' and col_type != 'Continuous':
            vector_x = vector_x.drop(col_name, axis=1)
        else:        
            # parseamos las columnas a tipo de dato float64
            vector_x[col_name] = vector_x[col_name].astype('float64')                    

# mostramos las primeras 5 filas del vector de entrada
vector_x.head()                    
"""

-----
# PASO 4: IMPLEMENTACIÓN DE MODELOS DE ML Y EVALUACIÓN CON DIFERENTES MÉTRICAS
Sección para implementar los modelos Minima Distancia y KNN (K=1) para evaluar con los metodos: train-test split, k-fold cross validation y bootstrapping.

### MODELOS

#### - DESARROLLO DE MODELO MINIMA DISTANCIA

In [None]:
#Esta función calcula los centroides de diferentes clases dadas en un conjunto de datos.
def calcular_centroides(X, y):
    # X es una lista de vectores (puntos en un espacio n-dimensional).
    # y es una lista de etiquetas de clase correspondientes a cada vector en X.

    clases = set(y)  # Obtiene un conjunto único de clases en y.

    # Inicializa un diccionario para almacenar la suma de vectores de cada clase.
    # Cada clase c tiene un vector de longitud len(X[0]) (la dimensión de los vectores en X).
    centroides = {c: [0] * len(X[0]) for c in clases}

    # Inicializa un diccionario para contar el número de vectores en cada clase.
    contador = {c: 0 for c in clases}

    # Itera sobre los pares de vectores y etiquetas.
    for xi, yi in zip(X, y):
        contador[yi] += 1  # Incrementa el contador para la clase yi.
        for i in range(len(xi)):
            centroides[yi][i] += xi[i]  # Suma cada componente del vector xi al vector del centroide de su clase.

    # Divide cada componente del vector de centroide por el número de vectores en esa clase
    # para obtener el promedio, que es el centroide.
    for c in centroides:
        centroides[c] = [x / contador[c] for x in centroides[c]]
    
    return centroides  # Retorna el diccionario de centroides.
        
# Esta función clasifica nuevos vectores en X basándose en el centroide más cercano de las clases precalculadas.        
def clasificador_minima_distancia(X, centroides):
    # X es una lista de vectores a clasificar.
    # centroides es un diccionario de centroides precalculados para cada clase.

    predicciones = []  # Lista para almacenar las predicciones.

    # Itera sobre cada vector en X.
    for xi in X:
        # Calcula la distancia al cuadrado de xi a cada centroide.
        distancias = {c: sum((xi[j] - centroides[c][j])**2 for j in range(len(xi))) for c in centroides}

        # Encuentra la clase con la distancia mínima y la agrega a las predicciones.
        predicciones.append(min(distancias, key=distancias.get))
    
    return predicciones  # Retorna la lista de clases predichas.


#### DESARROLLO DE MODELO K NEAREST NEIGHBORS (K=1)

In [None]:
def clasificador_knn(X_train, y_train, X_test):
    # Lista para almacenar las predicciones de las clases para cada punto en X_test
    predicciones = []

    # Itera sobre cada punto de prueba en X_test
    for xi in X_test:
        # Calcula la distancia euclidiana cuadrada entre el punto de prueba xi 
        # y todos los puntos en el conjunto de entrenamiento X_train
        distancias = [sum((xi[j] - X_train[i][j])**2 for j in range(len(xi))) 
                      for i in range(len(X_train))]

        # Encuentra el índice del punto más cercano (menor distancia) en X_train
        min_index = distancias.index(min(distancias))

        # Agrega la etiqueta de clase correspondiente al punto más cercano a las predicciones
        predicciones.append(y_train[min_index])

    # Devuelve la lista de predicciones para cada punto en X_test
    return predicciones

### MÉTODOS DE VALIDACIÓN

#### - DESARROLLO DE MÉTODO TEST-TRAIN SPLIT (80-20)

In [None]:
def entrenamiento_prueba(X, y, porcentaje_prueba):
    # Calcula el índice de corte para dividir los datos en entrenamiento y prueba segun el porcentaje de prueba
    indice_corte = int(len(X) * (1 - porcentaje_prueba))

    # Divide el conjunto de datos X en dos partes: 
    # X_train contiene los datos desde el inicio hasta el índice de corte.
    # Esto forma el conjunto de entrenamiento.
    X_train = X[:indice_corte]

    # y_train contiene las etiquetas correspondientes a X_train.
    y_train = y[:indice_corte]

    # X_test contiene los datos desde el índice de corte hasta el final.
    # Esto forma el conjunto de prueba.
    X_test = X[indice_corte:]

    # y_test contiene las etiquetas correspondientes a X_test.
    y_test = y[indice_corte:]

    # La función devuelve los conjuntos de entrenamiento y prueba.
    return X_train, y_train, X_test, y_test

#### - DESARROLLO DE MÉTODO K-FOLD CROSS VALIDATION (K=5)

In [None]:
def k_fold_cross_validation(X, y, k):
    # Calcular el tamaño de cada fold dividiendo el tamaño total del conjunto de datos por k.
    tamaño_fold = len(X) // k

    # Iterar k veces para crear k folds diferentes.
    for i in range(k):
        # Calcular los índices de inicio y fin para el conjunto de prueba.
        # el inicio va desde 0 hasta el tamaño del fold multiplicado por el numero de iteracion
        inicio = i * tamaño_fold
        # el fin va desde el inicio mas el tamaño del fold hasta el tamaño del fold multiplicado por el numero de iteracion mas 1
        fin = (i + 1) * tamaño_fold if i != k - 1 else len(X)

        # Crear el conjunto de entrenamiento excluyendo los datos del conjunto de prueba actual.
        X_train = X[:inicio] + X[fin:]
        y_train = y[:inicio] + y[fin:]

        # Crear el conjunto de prueba para la iteración actual.
        X_test = X[inicio:fin]
        y_test = y[inicio:fin]

        # 'yield' devuelve un generador que produce una serie de conjuntos de entrenamiento y prueba.
        yield X_train, y_train, X_test, y_test
"""
OJO: Un generador es un tipo especial de iterador, que a diferencia de una lista o cualquier colección que almacena todos sus elementos en la memoria, produce elementos uno a la vez y solo cuando se solicitan.
Manejo de Memoria Eficiente: Los generadores calculan los valores sobre la marcha y los devuelven uno a la vez, lo que ahorra memoria, especialmente útil para procesar grandes cantidades de datos.
Estado de Función Suspendido: Cuando se encuentra un yield, el estado de la función se "congela", y todas las variables y su estado se mantienen hasta la próxima vez que el generador es llamado.
Iteración Conveniente: Al usar un generador, no es necesario esperar a que todos los elementos estén disponibles. Se puede comenzar a procesar el primer elemento tan pronto como esté disponible.
"""

#### - DESARROLLO DE MÉTODO BOOTSTRAPPING (B=100)

In [None]:
import random

def bootstrap(X, y, n):
    # Este bucle se ejecuta 'n' veces. En cada iteración, se realiza un proceso de remuestreo.
    for _ in range(n):
        # Se generan índices aleatorios para el conjunto de entrenamiento.
        # La longitud de la lista de índices es igual a la longitud de 'X'.
        # 'random.randint(0, len(X) - 1)' genera un índice aleatorio entre 0 y len(X)-1.
        indices = [random.randint(0, len(X) - 1) for _ in range(len(X))]

        # Se crean los conjuntos de entrenamiento.
        # 'X_train' contiene elementos de 'X' en las posiciones indicadas por 'indices'.
        # 'y_train' contiene elementos de 'y' en las mismas posiciones.
        X_train = [X[i] for i in indices]
        y_train = [y[i] for i in indices]

        # Se crean los conjuntos de prueba.
        # 'X_test' y 'y_test' contienen elementos de 'X' y 'y' que no están en los índices de entrenamiento.
        X_test = [X[i] for i in range(len(X)) if i not in indices]
        y_test = [y[i] for i in range(len(X)) if i not in indices]

        # La función 'yield' devuelve los conjuntos de entrenamiento y prueba.
        # En cada iteración del bucle, se devuelve un nuevo conjunto de remuestreo.
        yield X_train, y_train, X_test, y_test


### FUNCIONES AUXILIARES

#### - FUNCION PARA CALCULAR LA RELACIÓN EFIENCIA-ERROR DE UN MODELO

In [None]:
def calcular_eficiencia_error(y_real, y_pred):
    # Se inicializa un contador para los valores correctos
    correctos = sum(1 for real, pred in zip(y_real, y_pred) if real == pred)
    # La eficiencia se calcula como la proporción de predicciones correctas
    eficiencia = correctos / len(y_real)
    # El error se calcula como el complemento de la eficiencia
    error = 1 - eficiencia
    # La función devuelve tanto la eficiencia como el error
    return eficiencia, error


#### - FUNCION PARA TRANSFORMAR UN DATAFRAME EN UNA LISTA DE LISTAS

In [None]:
def transformar_datos(vector_x, vector_y):
    # Convierte el vector_x en una lista. 
    # Supone que vector_x es una estructura de datos como un DataFrame de pandas,
    # y utiliza el método .values.tolist() para convertirlo en una lista de Python.
    X = vector_x.values.tolist() 

    # Realiza la misma conversión para vector_y, transformándolo en una lista.
    y = vector_y.values.tolist()

    # Comprueba si el primer elemento de y es una lista.
    # Si es así, se asume que y es una lista de listas, y se procede a "aplanar" esta lista.
    # Esto se hace mediante una comprensión de lista que toma el primer elemento de cada sublista.
    # Por ejemplo, si y = [[1], [2], [3]], esto se convierte en [1, 2, 3].
    # Si y no es una lista de listas, se mantiene como está.
    y = [item[0] for item in y] if isinstance(y[0], list) else y

    # Devuelve las listas X y y transformadas.
    return X, y

- ### 4 => CONTENEDOR DE EJECUCIÓN DE MODELO: DISTANCIA MINIMA

In [None]:
def run_min_distance_model(X, y):
    # ENTRENAMIENTO Y PRUEBA
    X_train, y_train, X_test, y_test = entrenamiento_prueba(X, y, porcentaje_prueba=0.2)
    # Calcular centroides y hacer predicciones
    centroides = calcular_centroides(X_train, y_train)
    predicciones = clasificador_minima_distancia(X_test, centroides)
    # Calcular eficiencia y error
    eficiencia, error = calcular_eficiencia_error(y_test, predicciones)
    print(f"Minima distancia: eficiencia = {eficiencia}, error = {error} - Metodo de entrenamiento y prueba")
    
    # K-FOLD CROSS VALIDATION
    eficiencias = []
    errores = []
    k = 5  # Número de folds
    for X_train, y_train, X_test, y_test in k_fold_cross_validation(X, y, k):
        centroides = calcular_centroides(X_train, y_train)
        predicciones = clasificador_minima_distancia(X_test, centroides)
        eficiencia, error = calcular_eficiencia_error(y_test, predicciones)
        eficiencias.append(eficiencia)
        errores.append(error)
    # Calcular promedios
    eficiencia_promedio = sum(eficiencias) / k
    error_promedio = sum(errores) / k
    print(f"Minima distancia: eficiencia = {eficiencia_promedio}, error = {error_promedio} - K-fold cross validation")
    
    # BOOTSTRAP
    eficiencias = []
    errores = []
    n_iteraciones = 100  # Número de iteraciones de Bootstrap
    for X_train, y_train, X_test, y_test in bootstrap(X, y, n_iteraciones):
        centroides = calcular_centroides(X_train, y_train)
        predicciones = clasificador_minima_distancia(X_test, centroides)
        eficiencia, error = calcular_eficiencia_error(y_test, predicciones)
        eficiencias.append(eficiencia)
        errores.append(error)
    # Calcular promedios
    eficiencia_promedio = sum(eficiencias) / n_iteraciones
    error_promedio = sum(errores) / n_iteraciones
    print(f"Minima distancia: eficiencia = {eficiencia_promedio}, error = {error_promedio} - Bootstrap")      


- ### 5 => CONTENDOR DE EJECUCIÓN DE MODELO: KNN(K=1)

In [None]:
def run_knn_model(X, y):
    # ENTRENAMIENTO Y PRUEBA
    # Dividir los datos
    X_train, y_train, X_test, y_test = entrenamiento_prueba(X, y, porcentaje_prueba=0.2)
    # Hacer predicciones
    predicciones = clasificador_knn(X_train, y_train, X_test)
    # Calcular eficiencia y error
    eficiencia, error = calcular_eficiencia_error(y_test, predicciones)
    print(f"KNN: eficiencia = {eficiencia}, error = {error} - Metodo de entrenamiento y prueba")
    
    # K-FOLD CROSS VALIDATION
    eficiencias = []
    errores = []
    k = 5  # Número de folds
    for X_train, y_train, X_test, y_test in k_fold_cross_validation(X, y, k):
        predicciones = clasificador_knn(X_train, y_train, X_test)
        eficiencia, error = calcular_eficiencia_error(y_test, predicciones)
        eficiencias.append(eficiencia)
        errores.append(error)
    # Calcular promedios
    eficiencia_promedio = sum(eficiencias) / k
    error_promedio = sum(errores) / k
    print(f"KNN: eficiencia = {eficiencia_promedio}, error = {error_promedio} - K-fold cross validation")
    
    # BOOTSTRAP
    eficiencias = []
    errores = []
    n_iteraciones = 10  # Número de iteraciones de Bootstrap
    for X_train, y_train, X_test, y_test in bootstrap(X, y, n_iteraciones):
        predicciones = clasificador_knn(X_train, y_train, X_test)
        eficiencia, error = calcular_eficiencia_error(y_test, predicciones)
        eficiencias.append(eficiencia)
        errores.append(error)
    # Calcular promedios
    eficiencia_promedio = sum(eficiencias) / n_iteraciones
    error_promedio = sum(errores) / n_iteraciones
    print(f"KNN: eficiencia = {eficiencia_promedio}, error = {error_promedio} - Bootstrap")       

### EJECUCIÓN DE MODELOS

In [None]:
# transformamos los vectores de entrada y salida a listas
X, y = transformar_datos(vector_x, vector_y)

-----
# PASO 4: EJECUCIÓN DE DISTANCIA MINIMA
- #### 4.A => DISTANCIA MINIMA - EVALUADO CON: TRAIN-TEST SPLIT
- #### 4.B => DISTANCIA MINIMA - EVALUADO CON: K FOLD CROSS VALIDATION
- #### 4.C => DISTANCIA MINIMA - EVALUADO CON: BOOTSTRAP

In [None]:
# ejecutamos el modelo de distancia minima y validamos internamente con cada metodo
run_min_distance_model(X, y)

-----
# PASO 5: EJECUCIÓN DE KNN(K=1)
- #### 5.A => KNN - EVALUADO CON: TRAIN-TEST SPLIT
- #### 5.B => KNN - EVALUADO CON: K FOLD CROSS VALIDATION
- #### 5.C => KNN - EVALUADO CON: BOOTSTRAP

In [None]:
# ejecutamos el modelo de KNN y validamos internamente con cada metodo
run_knn_model(X, y)

-----
# PASO 6: ELIMINACIÓN DE ATRIBUTOS

In [None]:
# seleccionamos el atributo 1 (columna) de mi vector_x de entradas
atributo_1 = vector_x.columns[1]
# seleccionamos el atributo 2 (columna) de mi vector_x de entradas
atributo_2 = vector_x.columns[2]

In [None]:
# eliminamos el atributo_1 pero de un vector de entradas de prueba
vector_x_prueba_1 = vector_x.drop(atributo_1, axis=1)

# repetimos proceso para hacer test de modelo
X, y = transformar_datos(vector_x_prueba_1, vector_y)
run_min_distance_model(X, y)
run_knn_model(X, y)

In [None]:
# eliminamos el atributo_2 de mi vector de entradas pero de un vector de entradas de prueba 2
vector_x_prueba_2 = vector_x.drop(atributo_2, axis=1)

# repetimos proceso para hacer test de modelo
X, y = transformar_datos(vector_x_prueba_2, vector_y)
run_min_distance_model(X, y)
run_knn_model(X, y)

In [None]:
# eliminamos los atributos 1 y 2 de mi vector de entradas pero de un vector de entradas de prueba 3
vector_x_prueba_3 = vector_x.drop([atributo_1, atributo_2], axis=1)

# repetimos proceso para hacer test de modelo
X, y = transformar_datos(vector_x_prueba_3, vector_y)
run_min_distance_model(X, y)
run_knn_model(X, y)