## **DataSciToolbox**


### Introducción      

Bienvenido/a a *DataSciToolbox*

Le damos la bienvenida a la biblioteca de funciones en Python orientadas a *machine learning*, recopilada por los alumnos de la promoción de abril a agosto de 2023 del bootcamp de Data Science de **The Bridge, Digital Talent Accelerator**.

En ella, encontrará un extensivo repositorio que abarca todas las fases necesarias para afrontar un proyecto de *machine learning*, desde el análisis exploratorio de datos hasta la evaluación de los modelos, pasando por las etapas de preprocesamiento, visualización, *feature engineering* o entrenamiento y evaluación de los modelos.

Esperamos que le sea de utilidad. *Happy coding!*

<a id="0"></a> <br>
## Índice:
* [Instalación](#2)
* [Funciones](#3)
    * [Funciones de Preprocesado de datos](#4)
        * [Class ReduceMemory](#5)
        * [leer_csv_desde_rar](#6)
        * [leer_csv_desde_zip](#7)
        * [tratar_valores_nulos](#8)
        * [split_and_encode_strings](#9)
        * [segmentar_y_guardar](#10)
        * [calcular_edad](#11)
        * [obtener_hora_minuto_segundo](#12)
        * [eliminar_unidades_metricas](#13)
        * [cambiar_nombres_columnas](#14)
        * [create_dataframe_yahoo_finance](#15)
        * [limpiar_columnas_numericas](#16)
        * [encoding_proporcional_target_binaria](#17)
        * [eliminacion_outliers](#18)
        * [comprobacion_outliers](#19)
    * [Funciones de Modelado](#150)
        * [evaluacion_clas](#20)
        * [modelo_kmeans_df](#21)
        * [evaluacion_reg](#22)
        * [train_decision_tree](#23)
        * [train_knn](#24)
        * [train_linear_regression](#25)
        * [train_random_forest](#26)
        * [train_svr](#27)
        * [train_test_split_df](#28)
        * [balance_target_column_random](#29)
        * [balance_target_column_smote](#30)
        * [reductor_calidad](#31)
        * [ByN](#32)
        * [comparar_modelos](#33)
        * [export_import_model](#34)
        * [comparar_scaled](#35)
    * [Funciones de Visualizaciones](#200)
        * [plot_moving_averages](#36)
        * [plot_pca_importance](#37)
        * [plot_pca_importance_agg](#38)
        * [plot_scatter_with_reference](#39)
        * [plot_learning_curve](#40)
        * [plot_precision_recall_curve](#41)
        * [plot_roc_curve](#42)
        * [dist_variables](#43)
        * [plot_correlations](#44)
        * [plot_map](#45)
        * [plot_wordcloud](#46)
        * [plot_quality_counts](#47)
        * [plot_heatmap](#48)
        * [plot_data](#49)
        
* [Conclusiones](#250)




<a id="2"></a> <br>
### Instalación    

Procesos de instalacion...pip install etc...  
Estamos en proceso de construcción de la libreria.

![En obras](obras.png)

[Volver al índice](#0)

<a id="3"></a> <br>
### *Funciones*

En el ámbito del análisis de datos y el aprendizaje automático, las funciones desempeñan un papel crucial para lograr resultados precisos y significativos. Estas funciones abarcan diferentes aspectos, incluyendo el procesamiento de datos, la modelización y la visualización.  

En esta sección mostraremos todas las funciones de la biblioteca y explicaremos la utilidad de ellas.

<a id="4"></a> <br>
### *Funciones de procesado de datos*

El procesamiento de datos es una etapa esencial en el flujo de trabajo de análisis de datos y aprendizaje automático. En esta fase, se aplican diversas funciones de procesado de datos para preparar y transformar los datos brutos en una forma adecuada para el análisis y la modelización.  
A continuación se mostrarán todas las funciones de procesado de datos de esta biblioteca.

<a id="5"></a> <br>
##### Class ReduceMemory

Con esta clase reduciremos el consumo de memoria.  

Tenemos varios metodos dentro de la clase:
- process --> Reduce el consumo de memoria de un DataFrame de Pandas aplicando reducciones de tipo de datos en cada columna del DataFrame.
- reduce_object --> Reduce el consumo de memoria de una columna de tipo objeto (string) convirtiéndola a tipo entero.
- reduce_float --> Reduce el consumo de memoria de una columna de tipo float ajustando su tipo de dato.
- reduce_int --> Reduce el consumo de memoria de una columna de tipo entero ajustando su tipo de dato.

In [None]:
class ReduceMemory:
    """
    Clase para reducir el consumo de memoria de un DataFrame de Pandas
    """

    def __init__(self) -> None:
        self.before_size = 0
        self.after_size = 0

    def process(self, data_df: pd.DataFrame) -> pd.DataFrame:
        """
        Reduce el consumo de memoria de un DataFrame de Pandas aplicando reducciones de 
        tipo de datos en cada columna del DataFrame.

        Args:
            data_df (pd.DataFrame): DataFrame de Pandas a procesar.

        Returns:
            pd.DataFrame: DataFrame de Pandas con el consumo de memoria reducido.
        """
        cols = data_df.columns

        for col in cols:
            try:
                dtype = data_df[col].dtype

                if dtype == 'object':
                    data_df[col] = self.reduce_object(data_df[col])
                elif dtype == 'float':
                    data_df[col] = self.reduce_float(data_df[col])
                elif dtype == 'int':
                    data_df[col] = self.reduce_int(data_df[col])
            except Exception as e:
                print(f"Error processing column '{col}': {str(e)}")

        return data_df

    def reduce_object(self, data_serie: pd.Series) -> pd.Series:
        """
        Reduce el consumo de memoria de una columna de tipo objeto (string) convirtiéndola 
        a tipo entero.

        Args:
            data_serie (pd.Series): Columna de tipo objeto a procesar.

        Returns:
            pd.Series: Columna de tipo entero con el consumo de memoria reducido.
        """
        try:
            self.before_size = round(sys.getsizeof(data_serie) / 1024 ** 2,2)
                    
            transformlabel = {v:k for k,v in enumerate(data_serie.unique())}
            
            data_serie = data_serie.map(transformlabel).astype('int8')

            self.after_size = round(sys.getsizeof(data_serie) / 1024 ** 2,2)
        
            return data_serie
        
        except Exception as err:
            print(f"Error reducing object column: {str(err)}")
            return data_serie

    def reduce_float(self, data_serie: pd.Series) -> pd.Series:
        """
        Reduce el consumo de memoria de una columna de tipo float ajustando su tipo de dato.

        Args:
            data_serie (pd.Series): Columna de tipo float a procesar.

        Returns:
            pd.Series: Columna con el tipo de dato ajustado y el consumo de memoria reducido.
        """
        try:
            self.before_size = round(sys.getsizeof(data_serie) / 1024 ** 2,2)
                    
            min_value, max_value = data_serie.min(), data_serie.max()
            
            if min_value >= np.finfo('float16').min and max_value <= np.finfo('float16').max:
                data_serie = data_serie.astype('float16')
            elif min_value >= np.finfo('float32').min and max_value <= np.finfo('float32').max:
                data_serie = data_serie.astype('float32')
            else:
                data_serie = data_serie.astype('float64')
                
            self.after_size = round(sys.getsizeof(data_serie) / 1024**2,2)

            return data_serie
        
        except Exception as err:
            print(f"Error reducing float column: {str(err)}")
            return data_serie

    def reduce_int(self, data_serie: pd.Series) -> pd.Series:
        """
        Reduce el consumo de memoria de una columna de tipo entero ajustando su tipo de dato.

        Args:
            data_serie (pd.Series): Columna de tipo entero a procesar.

        Returns:
            pd.Series: Columna con el tipo de dato ajustado y el consumo de memoria reducido.
        """
        try:
            self.before_size = round(sys.getsizeof(data_serie) / 1024 ** 2,2)
                    
            min_value,max_value = data_serie.min(), data_serie.max()
            
            if min_value >= np.iinfo('int8').min and max_value <= np.iinfo('int8').max:
                data_serie = data_serie.astype('int8')
            if min_value >= np.iinfo('int16').min and max_value <= np.iinfo('int16').max:
                data_serie = data_serie.astype('int16')
            elif min_value >= np.iinfo('int32').min and max_value <= np.iinfo('int32').max:
                data_serie = data_serie.astype('int32')
            else:
                data_serie = data_serie.astype('int64')
                
            self.after_size = round(sys.getsizeof(data_serie) / 1024**2,2)

            return data_serie
        
        except Exception as err:
            print(f"Error reducing int column: {str(err)}")

            return data_serie      

[Volver al índice](#0)

<a id="6"></a> <br>
##### leer_csv_desde_rar

Lee un archivo CSV desde un archivo .rar.  
Con esto nos evitaremos problemas a la hora de leer csv pesados.

In [None]:
def leer_csv_desde_rar(ruta_archivo:str, nombre_archivo_csv:str) -> pd.DataFrame:
    
    """
        Lee un archivo CSV desde un archivo .rar.

    Args:
        ruta_archivo (str): La ruta del archivo .rar.
        nombre_archivo_csv (str): El nombre del archivo CSV que se desea leer desde el .rar.

    Returns:
        pd.DataFrame: Los datos leídos del archivo CSV como un DataFrame de pandas.

    """
    
    
    try:
        archivo_rar = rarfile.RarFile(ruta_archivo) # Abrir el archivo .rar
        contenido_rar = archivo_rar.namelist() # Leer el contenido del archivo .rar
        if nombre_archivo_csv in contenido_rar: # Verificar si el archivo CSV está presente en el .rar          
            with archivo_rar.open(nombre_archivo_csv) as archivo_csv: # Leer el archivo CSV
                datos = pd.read_csv(archivo_csv)
                return datos
        else:
            print("El archivo CSV no se encuentra en el archivo .rar.")
            return None
    except FileNotFoundError:
        print("El archivo .rar no fue encontrado.")
        return None
    except Exception as e:
        print("Ocurrió un error al leer el archivo .rar:", str(e))
        return None

[Volver al índice](#0)

<a id="7"></a> <br>
##### leer_csv_desde_zip

Lee un archivo CSV desde un archivo .zip.  
Al igual que la función anterior, con esta función nos evitaremos problemas a la hora de leer csv pesados.

In [None]:
def leer_csv_desde_zip(ruta_archivo: str, nombre_archivo_csv: str)-> pd.DataFrame:
    """
    Lee un archivo CSV desde un archivo .zip.

    Args:
        ruta_archivo (str): La ruta del archivo .zip.
        nombre_archivo_csv (str): El nombre del archivo CSV que se desea leer desde el .zip.

    Returns:
        pd.DataFrame: Los datos leídos del archivo CSV como un DataFrame de pandas.


    """

    try:
        archivo_zip = zipfile.ZipFile(ruta_archivo)  # Abrir el archivo .zip
        contenido_zip = archivo_zip.namelist()  # Leer el contenido del archivo .zip
        if nombre_archivo_csv in contenido_zip:  # Verificar si el archivo CSV está presente en el .zip
            with archivo_zip.open(nombre_archivo_csv) as archivo_csv:  # Leer el archivo CSV
                datos = pd.read_csv(archivo_csv)
            return datos
        else:
            print("El archivo CSV no se encuentra en el archivo .zip.")
            return None
    except FileNotFoundError:
        print("El archivo .zip no fue encontrado.")
        return None
    except Exception as e:
        print("Ocurrió un error al leer el archivo .zip:", str(e))
        return None

[Volver al índice](#0)

<a id="8"></a> <br>
##### tratar_valores_nulos

Con esta función lo que podemos conseguir es eliminar, rellenar de ceros o rellenar la media de los valores nulos que hay en un dataframe.

In [None]:
def tratar_valores_nulos(dataframe:pd.DataFrame, opcion:str) -> Union[pd.DataFrame, None]:
    """
    Trata los valores nulos en un DataFrame según la opción seleccionada.

    Args:
        dataframe (pd.DataFrame): El DataFrame que se desea procesar.
        opcion (str): La opción seleccionada para tratar los valores nulos.
            Opciones disponibles: 'eliminar', 'rellenar_cero', 'rellenar_media'.

    Returns:
        Union[pd.DataFrame, None]: El DataFrame con los valores nulos tratados según la opción seleccionada.
        En caso de error, retorna None.

    """
    try:
        if opcion == 'eliminar':
            dataframe_sin_nulos = dataframe.dropna()
            return dataframe_sin_nulos
        elif opcion == 'rellenar_cero':
            dataframe_rellenado = dataframe.fillna(0)
            return dataframe_rellenado
        elif opcion == 'rellenar_media':
            dataframe_rellenado = dataframe.fillna(dataframe.mean())
            return dataframe_rellenado
        else:
            print("Opción inválida. Las opciones disponibles son: 'eliminar', 'rellenar_cero', 'rellenar_media'.")
            return dataframe
    except Exception as e:
        print("Ocurrió un error al tratar los valores nulos:", str(e))
        return None


[Volver al índice](#0)

<a id="9"></a> <br>
##### split_and_encode_strings

Separa una columna de un DataFrame utilizando cualquier carácter que no sea una letra o un número como separador, y opcionalmente aplica one-hot encoding (get dummies) a las palabras separadas.

In [None]:
def split_and_encode_strings(column:pd.Series, use_encoding: bool = False ) -> pd.DataFrame:
    """
    Separa una columna de un DataFrame utilizando cualquier carácter que no sea una letra o un número como separador,
    y opcionalmente aplica one-hot encoding (get dummies) a las palabras separadas.

    Args:
        column (pd.Series): La columna del DataFrame que se desea separar y encodear.
        use_encoding (bool, optional): Indica si se debe aplicar one-hot encoding a las palabras separadas.
            Por defecto es False.

    Returns:
        pd.DataFrame: Un DataFrame con las palabras separadas en una sola columna si use_encoding es False,
            o un DataFrame con columnas correspondientes a cada palabra si use_encoding es True.

    """

    try:
        separador = re.compile(r'[^a-zA-Z0-9]+')
        palabras = column.apply(lambda x: separador.split(x))
        if use_encoding:
            df = pd.get_dummies(palabras.apply(pd.Series).stack()).groupby(level=1).sum()
        else:
            df = pd.DataFrame(palabras)
        return df
    except Exception as e:
        print("Ocurrió un error al separar y encodear las strings:", str(e))
        return None


[Volver al índice](#0)

<a id="10"></a> <br>
##### segmentar_y_guardar

Segmenta un DataFrame en varios segmentos y los guarda en archivos CSV.  
A partir de un Dataframe dividimos en un número de segmentos concreto.

In [None]:
def segmentar_y_guardar(df: pd.DataFrame, num_segmentos:int, output_folder:str):
    """
    Segmenta un DataFrame en varios segmentos y los guarda en archivos CSV.

    Args:
        df (pandas.DataFrame): DataFrame a segmentar.
        num_segmentos (int): Número de segmentos en los que dividir el DataFrame.
        output_folder (str): Ruta de la carpeta de salida para guardar los archivos CSV.

    Returns:
        None
    """
    try:
        segmentos = np.array_split(df, num_segmentos)

        if not os.path.exists(output_folder):
            os.makedirs(output_folder)

        for i, segmento in enumerate(segmentos):
            segmento.to_csv(f'{output_folder}/segmento_{i+1}.csv', index=False)

        print(f"Se han creado {num_segmentos} archivos CSV segmentados en la carpeta '{output_folder}'.")
    except Exception as e:
        print(f"Error al guardar los segmentos en archivos CSV: {str(e)}")

[Volver al índice](#0)

<a id="11"></a> <br>
##### calcular_edad

Con esta función calcula la edad a partir de la fecha de nacimiento en un DataFrame.  

In [None]:
def calcular_edad(df: pd.DataFrame, columna_nacimiento: str, fecha_referencia: str = None) -> pd.DataFrame:
    """
    Calcula la edad a partir de la fecha de nacimiento en un DataFrame.

    Args:
        df (pd.DataFrame): El DataFrame que contiene los datos.
        columna_nacimiento (str): El nombre de la columna que contiene las fechas de nacimiento.
        fecha_referencia (str, optional): La fecha de referencia para calcular la edad. Si no se proporciona,
            se utilizará la fecha actual. Formato: 'YYYY-MM-DD'. Default: None.

    Returns:
        pd.DataFrame: Un nuevo DataFrame con una columna adicional "edad" que contiene las edades calculadas.

    Raises:
        ValueError: Si la columna de fecha de nacimiento no existe en el DataFrame.

    Example:
        # Cargar el DataFrame desde algún origen de datos
        df = pd.read_csv("datos.csv")

        # Calcular la edad utilizando la función calcular_edad
        df_con_edad = calcular_edad(df, "dob")

        # Imprimir el DataFrame resultante con la columna "edad" agregada
        print(df_con_edad)
    """
    try:
        if columna_nacimiento not in df.columns:
            raise ValueError(f"La columna '{columna_nacimiento}' no existe en el DataFrame.")

        df = df.copy()
        df[columna_nacimiento] = pd.to_datetime(df[columna_nacimiento])

        if fecha_referencia is None:
            fecha_referencia = pd.to_datetime("today").date()
        else:
            fecha_referencia = pd.to_datetime(fecha_referencia).date()

        df["edad"] = df[columna_nacimiento].apply(lambda x: relativedelta(fecha_referencia, x).years)
        return df
    except Exception as e:
        print(f"Ocurrió un error: {str(e)}")
        return df

[Volver al índice](#0)

<a id="12"></a> <br>
##### obtener_hora_minuto_segundo

Obtenemos la hora, minuto y segundo en columnas separadas a partir de una columna de hora en un DataFrame.  


In [None]:
def obtener_hora_minuto_segundo(df:pd.DataFrame, columna_hora:str):
    """
    Calcula la hora, minuto y segundo en columnas separadas a partir de una columna de hora en un DataFrame.

    Args:
        df (pandas.DataFrame): DataFrame que contiene la columna de hora.
        columna_hora (str): Nombre de la columna que contiene la hora.

    Returns:
        pandas.DataFrame: DataFrame con las columnas "hora", "minuto" y "segundo" agregadas. Si ocurre un error durante la conversión, se devuelve el DataFrame original sin modificaciones.

    Raises:
        ValueError: Si la columna de hora no se encuentra en el DataFrame.

    Example:
        df = pd.DataFrame({"hora": ["08:30:45", "12:15:30"]})
        nuevo_df = obtener_hora_minuto_segundo(df, "hora")
    """
    if columna_hora not in df.columns:
        raise ValueError(f"La columna '{columna_hora}' no se encuentra en el DataFrame.")

    try:
        hora_dt = pd.to_datetime(df[columna_hora], format="%H:%M:%S")
        df["hora"] = hora_dt.dt.hour
        df["minuto"] = hora_dt.dt.minute
        df["segundo"] = hora_dt.dt.second
    except Exception as e:
        print("Error al convertir la columna de hora:", str(e))

    return df

[Volver al índice](#0)

<a id="13"></a> <br>
##### eliminar_unidades_metricas

Elimina las unidades métricas de una columna de un DataFrame y la convierte a tipo float.

In [None]:
def eliminar_unidades_metricas(df:pd.DataFrame, columna:str):
    """
    Elimina las unidades métricas de una columna de un DataFrame y la convierte a tipo float.

    Args:
        df (pandas.DataFrame): El DataFrame que contiene la columna con unidades métricas.
        columna (str): El nombre de la columna a procesar.

    Returns:
        pandas.DataFrame: El DataFrame modificado con la unidad métrica eliminada y la columna convertida a tipo float.
    """
    try:
        valores = df[columna].astype(str)
        valores_sin_unidades = valores.apply(lambda x: re.sub(r'[a-zA-Z]+', '', x))
        valores_sin_unidades = valores_sin_unidades.str.strip()
        df[columna] = valores_sin_unidades.astype(float)
        return df
    except Exception as e:
        print(f"Error: {str(e)}")

[Volver al índice](#0)

<a id="14"></a> <br>
##### cambiar_nombres_columnas

Con esta función podemos cambiar los nombre de las columnas de los dataframe.

In [None]:
def cambiar_nombres_columnas(df, **kwargs):
    """
    Cambia los nombres de las columnas de un DataFrame.

    Parámetros de entrada:
        - df: DataFrame. El dataframe en el que se cambiarán los nombres de las columnas.
        - **kwargs: Diccionario de argumentos clave-valor donde la clave representa el nombre actual de la columna
                    y el valor representa el nuevo nombre de la columna.

    Retorna:
        DataFrame. El dataframe con los nombres de las columnas modificados.

    Ejemplo:
        df = cambiar_nombres_columnas(df, columna1='nueva_columna1', columna2='nueva_columna2')
    """
    try:
        
        for columna_actual in kwargs.keys():
            if columna_actual not in df.columns:
                raise ValueError(f"La columna '{columna_actual}' no existe en el DataFrame.")

        
        df = df.rename(columns=kwargs)

    except Exception as e:
        print(f"Error al cambiar los nombres de las columnas: {e}")

    return df

[Volver al índice](#0)

<a id="15"></a> <br>
##### create_dataframe_yahoo_finance

Crea un DataFrame a partir de los datos descargados de Yahoo Finance para un símbolo específico.

In [None]:
def create_dataframe_yahoo_finance(symbol):
    """
    Crea un DataFrame a partir de los datos descargados de Yahoo Finance para un símbolo específico.

    Parámetros de entrada:
        - symbol: str. El símbolo del activo financiero para el cual se desea obtener los datos.

    Retorna:
        DataFrame. El dataframe con los datos descargados de Yahoo Finance.

    """
    try:
        data = yf.download(symbol)
        df = pd.DataFrame(data)
        return df
    except Exception as e:
        print(f"Error al descargar los datos de Yahoo Finance para el símbolo {symbol}: {str(e)}")
        return None

[Volver al índice](#0)

<a id="16"></a> <br>
##### limpiar_columnas_numericas

Limpia una columna de un DataFrame, reemplazando los caracteres especiales inválidos por un valor de reemplazo dado.

In [None]:
def limpiar_columnas_numericas(dataframe, columna, caracteres_especiales, valor_reemplazo):
    """
    Limpia una columna de un DataFrame, reemplazando los caracteres especiales inválidos
    por un valor de reemplazo dado.

    Args:
        dataframe (pandas.DataFrame): El DataFrame que contiene la columna a limpiar.
        columna (str): El nombre de la columna a limpiar.
        caracteres_especiales (list): Lista de caracteres especiales inválidos.
        valor_reemplazo (str): Valor utilizado para reemplazar los caracteres especiales.

    Returns:
        pandas.DataFrame: El DataFrame con la columna limpia.

    Raises:
        Exception: Si se encuentra un caracter especial inválido en la columna.
    """
   
    columna_datos = dataframe[columna]
    
    for i, dato in enumerate(columna_datos):
        try:
            for caracter in caracteres_especiales:
                if caracter in dato:
                    raise Exception("Se encontró un caracter especial inválido en la columna.")
            
            for caracter in caracteres_especiales:
                dato = dato.replace(caracter, valor_reemplazo)
            
            columna_datos[i] = dato
        
        except Exception as e:
            print(f"Error: {str(e)}")
    
    dataframe[columna] = columna_datos
    
    return dataframe

[Volver al índice](#0)

<a id="17"></a> <br>
##### encoding_proporcional_target_binaria

Esta función realiza un encoding de una columna de tipo object en un DataFrame de pandas, creando una nueva columna.   
Esta función está diseñada para el contexto en el que la variable a predecir sea binaria. El encoding se realiza proporcionalmente al peso que cada variable categórica tiene en el problema.

In [None]:
def encoding_proporcional_target_binaria(dataframe: pd.DataFrame, target: str, columna_categorica: str, nueva_columna: str):
    '''
    Esta función realiza un encoding de una columna de tipo object en un DataFrame de pandas, creando una nueva columna. Esta función está diseñada para el contexto en el que la variable a predecir sea binaria.

    El encoding se realiza proporcionalmente al peso que cada variable categórica tiene en el problema.

    Argumentos:
    - dataframe: DataFrame de pandas que contiene los datos.
    - target: Nombre de la columna a predecir en el DataFrame. Debe ser binaria y se debe indicar como una cadena de texto.
    - columna_categorica: Nombre de la columna categórica que se desea encodear. Se debe indicar como una cadena de texto.
    - nueva_columna: Nombre de la nueva columna que contendrá los valores encodeados. Se debe indicar como una cadena de texto.
    '''


    if target not in dataframe.columns:
        print("La columna target no existe en el DataFrame.")
        return None

    if columna_categorica not in dataframe.columns:
        print("La columna columna_categorica no existe en el DataFrame.")
        return None

    if dataframe[target].nunique() != 2:
        print("La columna target no es binaria.")
        return None

    try:
        dict_proporcional = dict(dataframe.groupby(columna_categorica)[target].mean())
        dataframe[nueva_columna] = dataframe[columna_categorica].map(dict_proporcional)
        return dataframe
    except (KeyError, TypeError) as e:
        print("Ocurrió un error al codificar la columna categórica:", str(e))
        return None

[Volver al índice](#0)

<a id="18"></a> <br>
##### eliminacion_outliers

En esta funcion eliminamos las filas del dataframe que contiene valores fuera de lo normal.

In [None]:
def eliminacion_outliers(dataframe: pd.DataFrame, nombre_columna: str):
    '''
    Esta función elimina las filas del DataFrame que contienen valores atípicos (outliers) en una columna especificada.

    Args:
    - dataframe: DataFrame de Pandas que contiene los datos.
    - nombre_columna: Nombre de la columna en la cual se desean eliminar las filas con outliers. Se deberá indicar en formato string.

    Return:
    - Devuelve el DataFrame sin los valores atípicos de la columna especificada.
    '''

    if not isinstance(nombre_columna, str):
        raise TypeError("El nombre de la columna debe ser un string.")

    if nombre_columna not in dataframe.columns:
        raise KeyError("La columna especificada no existe en el DataFrame.")

    df = dataframe.copy()
    q1 = np.percentile(df[nombre_columna], 25)
    q3 = np.percentile(df[nombre_columna], 75)
    rango_intercuartilico = q3 - q1
    df = df[(df[nombre_columna] >= (q1 - 1.5 * rango_intercuartilico)) & (df[nombre_columna] <= (q3 + 1.5 * rango_intercuartilico))]

    return df

[Volver al índice](#0)

<a id="19"></a> <br>
##### comprobacion_outliers

Esta función calcula el número de outliers y su proporción con respecto al total en una columna numérica de un DataFrame de Pandas.

In [None]:
def comprobacion_outliers(dataframe: pd.DataFrame, nombre_columna: str) -> dict:
    '''
    Esta función calcula el número de outliers y su proporción con respecto al total en una columna numérica de un DataFrame de Pandas.

    Args:
    - dataframe: DataFrame de Pandas que contiene los datos.
    - nombre_columna: Nombre de la columna para la cual se desea detectar los outliers. Se deberá indicar en formato string.

    Return:
    - Diccionario con el número de outliers en la columna especificada y el porcentaje de outliers en relación al total de datos.
    '''
    try:
        if not isinstance(nombre_columna, str):
            raise TypeError("El nombre de la columna debe ser un string.")
            
        df = dataframe[nombre_columna]
        q1 = np.percentile(df, 25)
        q3 = np.percentile(df, 75)
        rango_intercuartilico = q3 - q1 
        outliers = df[(df < (q1 - 1.5 * rango_intercuartilico)) | (df > (q3 + 1.5 * rango_intercuartilico))]
        num_outliers = len(outliers)
        porcentaje_outliers = round((num_outliers / len(df)) * 100, 2)
        
        result = {
            "numero_outliers": num_outliers,
            "porcentaje_outliers": porcentaje_outliers
        }
        
        return result

    except KeyError:
        raise KeyError("Error: La columna especificada no existe en el DataFrame.")
    except TypeError as e:
        raise TypeError("Error: " + str(e))
    except Exception as e:
        raise Exception("Error: Se produjo un problema al procesar la función. Por favor, revisa la documentación de la función, verifica que los parámetros de entrada estén correctamente indicados y revisa los datos de tu DataFrame.")


[Volver al índice](#0)

<a id="150"></a> <br>
### *Funciones de modelado*

En el ámbito del análisis de datos y el aprendizaje automático, las funciones de modelado desempeñan un papel esencial para comprender los datos y hacer predicciones significativas. El modelado se refiere a la construcción y aplicación de modelos estadísticos o algoritmos de aprendizaje automático que capturan las relaciones y patrones inherentes en los datos.  
A continuación se mostrarán todas las funciones de modelado de la biblioteca.

<a id="20"></a> <br>
##### evaluacion_clas

Función para evaluar las predicciones de un modelo de clasificación de machine learning, devolviendo diferentes métricas en un dataframe.  

En caso de tratarse de una clasificación multiclase, el average de las métricas será None.

In [None]:
def evaluacion_clas(nom_modelo: str, modelo: Any, X_train: numpy.ndarray, y_train: numpy.ndarray, X_test: numpy.ndarray, y_test: numpy.ndarray, redondeo: int = None) -> pandas.DataFrame: # type: ignore
    """
    Función para evaluar las predicciones de un modelo de clasificación de machine learning, devolviendo diferentes métricas en un dataframe.
    En caso de tratarse de una clasificación multiclase, el average de las métricas será None.
    Args:
        nom_modelo (str): El nombre del modelo.
        modelo (Any): Modelo de machine learning para hacer las predicciones.
        X_train (numpy.ndarray): Variables predictivas de entrenamiento.
        y_train (numpy.ndarray): Target de entrenamiento.
        X_test (numpy.ndarray): Variables predictivas de evaluación.
        y_test (numpy.ndarray): Target de evaluación.
        redondeo (int): Cantidad de decimales para redondear las métricas. (default: None)

    Returns:
        pandas.DataFrame: Dataframe con todas las métricas de evaluación del modelo.
    """
    try:
        modelo.fit(X_train, y_train)
        y_pred = modelo.predict(X_test)
        y_pred_prob = modelo.predict_proba(X_test)
        
        if len(numpy.unique(y_test)) > 2:
            average = None
            multi_class = 'ovr'
        else:
            average = 'binary'
            multi_class = 'raise'
        
        accuracy = accuracy_score(y_test, y_pred)
        precision = precision_score(y_test, y_pred, average=average)
        recall = recall_score(y_test, y_pred, average=average)
        f1 = f1_score(y_test, y_pred, average=average)
        roc_auc = roc_auc_score(y_test, y_pred_prob, multi_class=multi_class)
        
        if redondeo is not None:
            accuracy = numpy.round(accuracy, redondeo)
            precision = numpy.round(precision, redondeo)
            recall = numpy.round(recall, redondeo)
            f1 = numpy.round(f1, redondeo)
            roc_auc = numpy.round(roc_auc, redondeo)
        
        result_df = pandas.DataFrame(data=[[nom_modelo, accuracy, precision, recall, f1, roc_auc]], 
                                columns=["Model", 'Accuracy', 'Precision', 'Recall', 'F1 Score', 'ROC AUC'])
        return result_df
    
    except Exception as e:
        print("Error al evaluar el modelo'{}':".format(nom_modelo))
        return None # type: ignore

[Volver al índice](#0)

<a id="21"></a> <br>
##### modelo_kmeans_df

Función para hacer un modelo de Clustering para machine learning, devolviendo diferentes métricas en un dataframe.  
K-means es un algoritmo de clustering ampliamente utilizado en el campo del aprendizaje automático no supervisado. Su objetivo principal es agrupar un conjunto de datos en k grupos o clústeres basados en sus similitudes.



In [None]:
def modelo_kmeans_df(data: pd.DataFrame, n:int):

    """
    Función para hacer un modelo de Clustering para machine learning, devolviendo diferentes métricas en un dataframe.
    Utiliza las columnas numericas del dataframe que se declare en los argumentos.
    Además del return genera una gáfica con la media de las distancias de k en el eje Y, y el numero de K en el eje X.


    Args:
        data (str): El data frame que se quiere modelar.
        n (int): Número máximo del rango de K que se quieren untilizar

    Returns:
        Un pandas.DataFrame con todas las métricas (silhouette_score, Average Distance y SSE (Sum of Squared Errors)) de evaluación del modelo.

    """
    try:
        rango = range(2, n)
        X = data.select_dtypes(include=np.number)

        k_values = []
        average_distances = []
        sse_values = []
        silhouette_scores = []

        for k in rango:
            modelo = KMeans(n_clusters=k, random_state=42)
            modelo.fit(X)

            distances = np.min(modelo.transform(X), axis=1)
            average_distance = np.mean(distances)
            average_distances.append(average_distance)

            sse = modelo.inertia_
            sse_values.append(sse)

            labels = modelo.labels_
            silhouette = silhouette_score(X, labels)
            silhouette_scores.append(silhouette)

            k_values.append(k)

        # Crear el DataFrame con las métricas
        df_metrics = pd.DataFrame({
            'K': k_values,
            'Average Distance': average_distances,
            'SSE': sse_values,
            'Silhouette Score': silhouette_scores
        })

        # Graficar la distancia media en función de K
        plt.plot(rango, average_distances, 'bo-')
        plt.xlabel('K')
        plt.ylabel('Average Distance')
        plt.title('K-Means Average Distance')
        plt.show()

    except Exception as e:
        error_message = "Fallo: " + str(e)
        print(error_message)

    return df_metrics

[Volver al índice](#0)

<a id="22"></a> <br>
##### evaluacion_reg

Función para evaluar las predicciones de un modelo de regresión de machine learning, devolviendo diferentes métricas en un dataframe.


In [None]:
def evaluacion_reg(nom_modelo:str, modelo:Any, X_train:numpy.ndarray, y_train:numpy.ndarray, X_test:numpy.ndarray, y_test:numpy.ndarray) -> pandas.DataFrame:  
    '''
    Función para evaluar las predicciones de un modelo de regresión de machine learning, devolviendo diferentes métricas en un dataframe.

    Args:
        nom_modelo (str): El nombre del modelo.
        modelo (Any): Modelo de machine learning para hacer las predicciones.
        X_train (numpy.ndarray): Variables predictivas de entrenamiento.
        y_train (numpy.ndarray): Target de entrenamiento.
        X_test (numpy.ndarray): Variables predictivas de evaluación.
        y_test (numpy.ndarray): Target de evaluación.

    Returns:
        pandas.DataFrame: Dataframe con todas las métricas de evaluación del modelo.
    '''
    try:
        modelo.fit(X_train, y_train)
        
        y_pred= modelo.predict(X_test)
        
        mae = mean_absolute_error(y_test, y_pred)
        mse = mean_squared_error(y_test, y_pred)
        rmse = numpy.sqrt(mean_squared_error(y_test, y_pred))
        r2 = r2_score(y_test, y_pred)
        y_test_mean= y_test.mean()
        mae_ratio= mae/y_test_mean
        rmse_ratio= rmse/y_test_mean
        
        result_df = pandas.DataFrame(data=[[nom_modelo, mae, mse, rmse, r2, mae_ratio, rmse_ratio]], 
                                columns=["Model", 'MAE', 'MSE', 'RMSE', 'R2 Score', "MAE Ratio", "RMSE Ratio"])
        return result_df
    
    except Exception as e:
        print("Error al evaluar el modelo'{}':".format(nom_modelo))
        return None

[Volver al índice](#0)

<a id="23"></a> <br>
##### train_decision_tree

Función para entrenar un modelo decision tree.  
Un árbol de decisión (decision tree) es un modelo de aprendizaje automático que utiliza una estructura de árbol para tomar decisiones o realizar predicciones. Se basa en una serie de preguntas o condiciones lógicas para dividir los datos y llegar a una conclusión.

In [None]:
def train_decision_tree(X_train, y_train, max_depth=None, min_samples_split=2):
    """
    Función para entrenar decision tree.
    
    Args:
        X_train (array-like): Matriz de características de entrenamiento.
        y_train (array-like): Vector de etiquetas de entrenamiento.
        max_depth (int or None, optional): La profundidad máxima del árbol. 
                                           Si es None, se expande hasta que todas las hojas sean puras o hasta que 
                                           todas las hojas contengan menos de min_samples_split muestras.
        min_samples_split (int, optional): El número mínimo de muestras requeridas para dividir un nodo interno.
    
    Returns:
        model: Modelo decision tree entrenado.
    """
    try:
        model_dt = DecisionTreeRegressor(max_depth=max_depth, min_samples_split=min_samples_split)
        model_dt.fit(X_train, y_train)
        
        return model_dt
    except Exception as e:
        print(f"Error en el entrenamiento: {e}")
        return None

[Volver al índice](#0)

<a id="24"></a> <br>
##### train_knn

Función para entrenar knn.  
KNN (K-Nearest Neighbors) es un algoritmo de aprendizaje automático utilizado para problemas de clasificación y regresión. Es un método basado en instancias, lo que significa que no aprende un modelo explícito, sino que realiza predicciones basadas en la proximidad a los datos de entrenamiento.

In [None]:
def train_knn(X_train, y_train, n_neighbors=5, scale_features=True):
    """
    Función para entrenar knn.
    
    Args:
        X_train (array-like): Matriz de características de entrenamiento.
        y_train (array-like): Vector de etiquetas de entrenamiento.
        n_neighbors (int, optional): El número de vecinos a tener en cuenta durante la clasificación.
        scale_features (bool, optional): Indica si se escala la matriz de características. 
                                         Por defecto, es True.
    
    Returns:
        model_knn: Modelo knn entrenado.
    """
    try:
        if scale_features:
            scaler = StandardScaler()
            X_train = scaler.fit_transform(X_train)
        
        model_knn = KNeighborsRegressor(n_neighbors=n_neighbors)
        model_knn.fit(X_train, y_train)
        
        return model_knn
    except Exception as e:
        print(f"Error en el entrenamiento: {e}")
        return None

[Volver al índice](#0)

<a id="25"></a> <br>
##### train_linear_regression

Función para hacer un modelo de machine learning de linear regression.  
La Linear Regression (regresión lineal) es un modelo estadístico utilizado para analizar la relación entre una variable dependiente continua y una o más variables independientes. Se basa en la suposición de que existe una relación lineal entre las variables.

In [None]:
def train_linear_regression(X_train, y_train, fit_intercept=True, scale_features=True):
    """
    Función para entrenar linear regression.
    
    Args:
        X_train (array-like): Matriz de características de entrenamiento.
        y_train (array-like): Vector de etiquetas de entrenamiento.
        fit_intercept (bool, optional): Indica si se ajusta el término de intercepción. 
                                        Por defecto, es True.
        scale_features (bool, optional): Indica si se escala la matriz de características. 
                                         Por defecto, es True.
    
    Returns:
        model_lr: Modelo linear regression entrenado.
    """
    try:
        if scale_features:
            scaler = StandardScaler()
            X_train = scaler.fit_transform(X_train)
        
        model_lr = LinearRegression(fit_intercept=fit_intercept)
        model_lr.fit(X_train, y_train)
        
        return model_lr
    except Exception as e:
        print(f"Error en el entrenamiento: {e}")
        return None


[Volver al índice](#0)

<a id="26"></a> <br>
##### train_random_forest

Función para hacer un modelo de machine learning de random forest.  
Random Forest (bosque aleatorio) es un algoritmo de aprendizaje automático que se utiliza tanto para problemas de clasificación como de regresión. Es una técnica que combina múltiples árboles de decisión individuales y los combina para obtener una predicción más precisa y robusta.

In [None]:
def train_random_forest(X_train, y_train, n_estimators=100):
    """
    Función para entrenar random forest.
    
    Args:
        X_train (array-like): Matriz de características de entrenamiento.
        y_train (array-like): Vector de etiquetas de entrenamiento.
        n_estimators (int, optional): El número de árboles en el bosque.
    
    Returns:
        model_rf: Modelo random forest entrenado.
    """
    try:
        model_rf = RandomForestRegressor(n_estimators=n_estimators)
        model_rf.fit(X_train, y_train)
        
        return model_rf
    except Exception as e:
        print(f"Error en el entrenamiento: {e}")
        return None


[Volver al índice](#0)

<a id="27"></a> <br>
##### train_svr

Función para hacer un modelo de machine learning de SVR.  
SVR (Support Vector Regression) es un algoritmo de regresión basado en máquinas de vectores de soporte. A diferencia de los modelos de regresión lineal tradicionales, SVR utiliza vectores de soporte para encontrar una función de regresión no lineal.

In [None]:
def train_svr(X_train, y_train, kernel='rbf', scale_features=True):
    """
    Función para entrenar SVR.
    
    Args:
        X_train (array-like): Matriz de características de entrenamiento.
        y_train (array-like): Vector de etiquetas de entrenamiento.
        kernel (str, optional): El kernel a utilizar. Puede ser 'linear', 'poly', 'rbf', 'sigmoid' o una función personalizada.
        scale_features (bool, optional): Indica si se escala la matriz de características. 
                                         Por defecto, es True.
    
    Returns:
        model_svr: Modelo SVR entrenado.
    """
    try:
        if scale_features:
            scaler = StandardScaler()
            X_train = scaler.fit_transform(X_train)
        
        model_svr = SVR(kernel=kernel)
        model_svr.fit(X_train, y_train)
        
        return model_svr
    except Exception as e:
        print(f"Error en el entrenamiento: {e}")
        return None

[Volver al índice](#0)

<a id="28"></a> <br>
##### train_test_split_df

Divide un DataFrame en conjuntos de entrenamiento y prueba para el aprendizaje automático.

In [None]:
def train_test_split_df(df, target_col, test_percent, random_state):
    """
    Divide un DataFrame en conjuntos de entrenamiento y prueba para el aprendizaje automático.

    Parámetros:
        df (pandas.DataFrame): El DataFrame de entrada.
        target_col (str): El nombre de la columna objetivo en el DataFrame.
        test_percent (float): El porcentaje de datos para usar en la prueba (entre 0 y 1).
        random_state (int): El estado aleatorio para garantizar la reproducibilidad.

    Retorna:
        X_train (pandas.DataFrame): Las características del conjunto de entrenamiento.
        X_test (pandas.DataFrame): Las características del conjunto de prueba.
        y_train (pandas.Series): La variable objetivo del conjunto de entrenamiento.
        y_test (pandas.Series): La variable objetivo del conjunto de prueba.

    Imprime:
        La forma de cada conjunto para confirmar la dimensión.
    """
    try:
        # Separar características (X) y variable objetivo (y)
        X = df.drop(target_col, axis=1)
        y = df[target_col]

        # Dividir los datos en conjuntos de entrenamiento y prueba
        X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_percent, random_state=random_state)

        print("Forma de X:", X.shape)
        print("Forma de y:", y.shape)

        print("Forma de X_train:", X_train.shape)
        print("Forma de X_test:", X_test.shape)
        print("Forma de y_train:", y_train.shape)
        print("Forma de y_test:", y_test.shape)

        return X_train, X_test, y_train, y_test

    except Exception as e:
        print("Error al dividir los datos en conjuntos de entrenamiento y prueba:", str(e))
        return None, None, None, None


[Volver al índice](#0)

<a id="29"></a> <br>
##### balance_target_column_random

Equilibra una columna objetivo especificada en el DataFrame utilizando sobremuestreo y submuestreo aleatorio.
Los datos se mezclan antes de devolver el DataFrame equilibrado.

In [None]:
def balance_target_column_random(df, target_column):
    """
    Equilibra una columna objetivo especificada en el DataFrame utilizando sobremuestreo y submuestreo aleatorio.
    Los datos se mezclan antes de devolver el DataFrame equilibrado.

    Parámetros:
        df (pandas.DataFrame): El DataFrame de entrada que contiene la columna objetivo.
        target_column (str): El nombre de la columna objetivo a equilibrar.

    Retorna:
        pandas.DataFrame: Un nuevo DataFrame con la columna objetivo equilibrada y mezclada.

    """
    try:
        # Separar características (X) y variable objetivo (y)
        X = df.drop(target_column, axis=1)
        y = df[target_column]

        # Instanciar RandomOverSampler y RandomUnderSampler
        oversampler = RandomOverSampler(random_state=42)
        undersampler = RandomUnderSampler(random_state=42)

        # Sobremuestrear la clase mayoritaria
        X_oversampled, y_oversampled = oversampler.fit_resample(X, y)

        # Submuestrear la clase minoritaria
        X_resampled, y_resampled = undersampler.fit_resample(X_oversampled, y_oversampled)

        # Crear un nuevo DataFrame equilibrado
        balanced_df = pd.concat([X_resampled, y_resampled], axis=1)

        # Mezclar los datos
        balanced_df = shuffle(balanced_df, random_state=42)

        return balanced_df

    except Exception as e:
        print("Error al equilibrar la columna objetivo:", str(e))
        return None

[Volver al índice](#0)

<a id="30"></a> <br>
##### balance_target_column_smote

Equilibra una columna objetivo especificada en el DataFrame utilizando una combinación de sobremuestreo y submuestreo.
Los datos se mezclan antes de devolver el DataFrame equilibrado.

In [None]:
def balance_target_column_smote(df, target_column):
    """
    Equilibra una columna objetivo especificada en el DataFrame utilizando una combinación de sobremuestreo y submuestreo.
    Los datos se mezclan antes de devolver el DataFrame equilibrado.

    Parámetros:
        df (pandas.DataFrame): El DataFrame de entrada que contiene la columna objetivo.
        target_column (str): El nombre de la columna objetivo a equilibrar.

    Retorna:
        pandas.DataFrame: Un nuevo DataFrame con la columna objetivo equilibrada y mezclada.

    """
    try:
        # Separar características (X) y variable objetivo (y)
        X = df.drop(target_column, axis=1)
        y = df[target_column]

        # Instanciar el muestreador SMOTEENN
        sampler = SMOTEENN(random_state=42)

        # Remuestrear los datos
        X_resampled, y_resampled = sampler.fit_resample(X, y)

        # Crear un nuevo DataFrame equilibrado
        balanced_df = pd.concat([X_resampled, y_resampled], axis=1)

        # Mezclar los datos
        balanced_df = shuffle(balanced_df, random_state=42)

        return balanced_df

    except Exception as e:
        print("Error al equilibrar la columna objetivo:", str(e))
        return None
    

[Volver al índice](#0)

<a id="31"></a> <br>
##### reductor_calidad

Función para hacer reducir el tamaño de memoria que ocupa una imagen reduciendo el numero de colores de ésta. 

In [None]:
def reductor_calidad(path_imagen:str,n:int):
    
    """
    Función para hacer reducir el tamaño de memoria que ocupa una imagen reduciendo el numero de colores de ésta. 

    Args:
        path_imagen (str): El data frame que se quiere modelar.
        n (int): Número de colores total del que se desea la foto.

    Returns:
        None

    """
    try:

        imagen = Image.open(path_imagen)
        imagen_1 = np.asarray(imagen,dtype=np.float32)/255

        w, h = imagen.size
        colors = imagen.getcolors(w * h)
        num_colores_0 = len(colors) 
        num_pixels_0 = w*h 
        
        R = imagen_1[:,:,0]
        G = imagen_1[:,:,1]
        B = imagen_1[:,:,2]
        XR = R.reshape((-1, 1))  
        XG = G.reshape((-1, 1)) 
        XB = B.reshape((-1, 1)) 
        X = np.concatenate((XR,XG,XB),axis=1)
        
        k_means = KMeans(n_clusters=n)
        k_means.fit(X)
        centroides = k_means.cluster_centers_
        etiquetas = k_means.labels_
        m = XR.shape
        for i in range(m[0]):
            XR[i] = centroides[etiquetas[i]][0] 
            XG[i] = centroides[etiquetas[i]][1] 
            XB[i] = centroides[etiquetas[i]][2] 
        XR.shape = R.shape 
        XG.shape = G.shape
        XB.shape = B.shape 
        XR = XR[:, :, np.newaxis]  
        XG = XG[:, :, np.newaxis]
        XB = XB[:, :, np.newaxis]
        Y = np.concatenate((XR,XG,XB),axis=2)
        
        plt.figure(figsize=(12,12))
        plt.imshow(Y)
        plt.axis('off')
        plt.show()

        print (u'Número de colores iniciales = ', num_colores_0)
        print (u'Número de colores finales = ', n)

    except Exception as e:
        error_message = "Fallo: " + str(e)
        print(error_message)

    return None

[Volver al índice](#0)

<a id="32"></a> <br>
##### ByN

Función que devuelve la imagen que se introduce en blanco y negro.

In [None]:
def ByN(path_imagen:str):

    """
    Función que devuelve la misma imagen que se introduce pero en blanco y negro.

    Args:
        path_imagen (str): La dirección de la imagen.
        
    Returns:
        None

    """
    try:

        imagen = Image.open(path_imagen)

        
        imagen = imagen.convert('L')
        imagen_2 = np.asarray(imagen,dtype=np.float)

        plt.figure(figsize=(8,8))
        plt.imshow(imagen_2,cmap='gray')
        plt.axis('off')
        plt.show()

    except Exception as e:
        error_message = "Fallo: " + str(e)
        print(error_message)

    return None

[Volver al índice](#0)

<a id="33"></a> <br>
##### comparar_modelos

Función para comparar las métricas de varios modelos y devolver el modelo con mejores metricas.

In [None]:
def comparar_modelos(modelos, X_test, y_test):
    """
    Funcion para comparar las metricas de varios modelos y devolver el modelo con mejores metricas.

    Parametros
    ----------
        modelos: lista con los modelos a comparar.

        X_test: variables a predecir.

        y_test: predicción.
        
    Returns
    -------
        Mejor modelo: el modelo con mejores métricas.
    """
    mejor_modelo = None
    mejor_r2 = -np.inf  #marcamos peor metrica posible
    mejor_mae = np.inf
    mejor_mape = np.inf
    mejor_mse = np.inf
    

        
    for modelo in modelos:
        try:
            y_pred = modelo.predict(X_test)

            r2 = r2_score(y_test, y_pred)
            mae = mean_absolute_error(y_test, y_pred)
            mape = mean_absolute_percentage_error(y_test, y_pred)
            mse = mean_squared_error(y_test, y_pred)

            if r2 > mejor_r2:
                mejor_modelo = modelo
                mejor_r2 = r2
                mejor_mae = mae
                mejor_mape = mape
                mejor_mse = mse
        except Exception as e:
            print(f"Error al evaluar el modelo {modelo}: {str(e)}")
    
        print("Mejor modelo:", str(mejor_modelo))
        print("Mejor R2 Score:", mejor_r2)
        print("Mejor MAE:", mejor_mae)
        print("Mejor MAPE:", mejor_mape)
        print("Mejor MSE:", mejor_mse)
        
        return mejor_modelo

[Volver al índice](#0)

<a id="34"></a> <br>
##### export_import_model

Función para exportar o importar el modelo entrenado concreto que se utilizó anteriormente.


In [None]:
def export_import_model(model, path_model, name, save=True, open=False):
    '''
    Funcion para exportar o importar el modelo entrenado
    Parametros
    ----------
        model: el modelo a guardar.
        path_model: directorio donde se almacenará.
        name: nombre del modelo a guardar.
        
        save: por defecto nos guarda el modelo entrenado.
        open: por defecto False. Si True, importamos el modelo entrenado
    '''

    # Exportamos el modelo con el nombre seleccionado, al path escogido.
    filename = os.path.join(path_model, name)

    if save:
        try:
            with open(filename, 'wb') as archivo_salida:
                pickle.dump(model, archivo_salida)
        except Exception as e:
            print(f"Error al guardar el modelo: {str(e)}")

    if open:
        try:
            with open(filename, 'rb') as archivo_entrada:
                model_pretrained = pickle.load(archivo_entrada)
        except Exception as e:
            print(f"Error al cargar el modelo: {str(e)}")
            model_pretrained = None

    return model_pretrained

[Volver al índice](#0)

<a id="35"></a> <br>
##### comparar_scaled

Función para comparar las métricas de un modelo, escalando o no los datos.

In [None]:
def comparar_scaled(modelo, x_train, x_test, y_train, y_test):
    '''
    Funcion para comparar las metricas de un modelo, escalando o no los datos.

    Parametros
    ----------
        modelo (objeto): El modelo de machine learning que se utilizará para las predicciones.

        x_train (array-like): Los datos de entrenamiento sin escalar.

        x_test (array-like): Los datos de prueba sin escalar.

        y_train (array-like): Las etiquetas de entrenamiento correspondientes a x_train.
        
        y_test (array-like): Las etiquetas de prueba correspondientes a x_test.
    '''
    # Entrenar el modelo con x_train sin escalar
    model1 = modelo
    try:
        model1.fit(x_train, y_train)
    except Exception as e:
        warnings.warn(f"Error al entrenar el modelo sin escalar: {str(e)}")

    # Obtener las predicciones del modelo en x_test sin escalar
    try:
        y_pred = model1.predict(x_test)
    except Exception as e:
        warnings.warn(f"Error al hacer predicciones sin escalar: {str(e)}")
        

    # Calcular las métricas de evaluación utilizando y_test y las predicciones correspondientes
    try:
        r2 = r2_score(y_test, y_pred)
        mae = mean_absolute_error(y_test, y_pred)
        mape = mean_absolute_percentage_error(y_test, y_pred)
        mse = mean_squared_error(y_test, y_pred)
    except Exception as e:
        warnings.warn(f"Error al calcular las métricas sin escalar: {str(e)}")
        r2, mae, mape, mse = None, None, None, None

    # Imprimir los resultados para x_train sin escalar
    print("Modelo: x_train")
    print("R2 Score:", r2)
    print("MAE:", mae)
    print("MAPE:", mape)
    print("MSE:", mse)
    print()

    # Crear el objeto StandardScaler
    scaler = StandardScaler()

    # Ajustar el scaler utilizando x_train
    try:
        scaler.fit(x_train)
    except Exception as e:
        warnings.warn(f"Error al ajustar el scaler: {str(e)}")

    # Escalar x_train y x_test
    try:
        x_train_scaled = scaler.transform(x_train)
        x_test_scaled = scaler.transform(x_test)
    except Exception as e:
        warnings.warn(f"Error al escalar los datos: {str(e)}")
        x_train_scaled, x_test_scaled = None, None

    # Entrenar el modelo con x_train_scaled
    model_scal = modelo
    try:
        model_scal.fit(x_train_scaled, y_train)
    except Exception as e:
        warnings.warn(f"Error al entrenar el modelo escalado: {str(e)}")

    # Obtener las predicciones del modelo en x_test_scaled
    try:
        y_pred_scaled = model_scal.predict(x_test_scaled)
    except Exception as e:
        warnings.warn(f"Error al hacer predicciones escaladas: {str(e)}")
        
    # Calcular las métricas de evaluación utilizando y_test y las predicciones correspondientes
    try:
        r2_scaled = r2_score(y_test, y_pred_scaled)
        mae_scaled = mean_absolute_error(y_test, y_pred_scaled)
        mape_scaled = mean_absolute_percentage_error(y_test, y_pred_scaled)
        mse_scaled = mean_squared_error(y_test, y_pred_scaled)
    except Exception as e:
        warnings.warn(f"Error al calcular las métricas sin escalar: {str(e)}")
        r2_scaled, mae_scaled, mape_scaled, mse_scaled = None, None, None, None
    

    # Imprimir los resultados para x_train_scaled
    print("Modelo: x_train_scaled")
    print("R2 Score:", r2_scaled)
    print("MAE:", mae_scaled)
    print("MAPE:", mape_scaled)
    print("MSE:", mse_scaled)
    print()

[Volver al índice](#0)

<a id="200"></a> <br>
### *Funciones de visualización*

En el análisis de datos y la ciencia de datos, las funciones de visualización juegan un papel fundamental en la exploración y comunicación de los datos. Estas funciones se centran en la representación gráfica de los datos y en la creación de visualizaciones efectivas y comprensibles.  
A continuación se mostrarán todas las funciones de visualización de la biblioteca.


<a id="36"></a> <br>
##### plot_moving_averages

Genera un gráfico interactivo utilizando la biblioteca Plotly que muestra las medias móviles de una característica específica en un conjunto de datos.

In [None]:
def plot_moving_averages (data:pd.DataFrame, feature:str, medias_moviles=None, colores=None):
    '''
    Genera un gráfico interactivo utilizando la biblioteca Plotly que muestra las medias móviles de una característica específica en un conjunto de datos.

    Parámetros:
    - data (pd.DataFrame): El conjunto de datos que contiene la información.
    - feature (str): El nombre de la característica para la cual se calcularán las medias móviles y se mostrarán en el gráfico.
    - medias_moviles (list, opcional): Una lista de enteros que representan las ventanas de las medias móviles. Por defecto, se utilizan [8, 21, 30, 50, 100, 200].
    - colores (list, opcional): Una lista de colores en formato de cadena para asignar a las medias móviles. Debe tener la misma longitud que la lista de medias móviles. Por defecto, se utilizan ['orange', 'blue', 'grey', 'green', 'purple', 'red'].

    Retorna:
    - data (pd.DataFrame): El conjunto de datos original con las columnas de medias móviles agregadas.
    - fig (plotly.graph_objects.Figure): El gráfico interactivo generado con Plotly.

    Ejemplo de uso:
    data = pd.read_csv('datos.csv')
    plot_moving_averages(data, 'Precio', medias_moviles=[10, 20, 30], colores=['red', 'blue', 'green'])
    '''
    try:
        # Definir las medias móviles
        if medias_moviles is None:
            medias_moviles = [8, 21, 30, 50, 100, 200]
            
        # Definir los colores para las medias móviles
        if colores is None:
            colores = ['orange', 'blue', 'grey', 'green', 'purple', 'red']

        # Calcular las medias móviles
        for ma in medias_moviles:
            columna = 'MA_' + str(ma)  # Nombre de la columna de la media móvil
            data[columna] = data[feature].rolling(window=ma).mean()

        # Crear la figura de Plotly
        fig = go.Figure()

        # Agregar 'feature' al gráfico
        fig.add_trace(go.Scatter(x=data.index, y=data[feature], name='Precio', line=dict(color='blue', width=1)))

        # Agregar las medias móviles al gráfico con colores diferentes
        for ma, color in zip(medias_moviles, colores):
            columna = 'MA_' + str(ma)
            fig.add_trace(go.Scatter(x=data.index, y=data[columna], name='MA ' + str(ma), line=dict(color=color, width=0.5)))

        # Personalizar el diseño del gráfico
        fig.update_layout(
            title={'text': 'Medias Móviles', 'x': 0.5, 'xanchor': 'center'},
            xaxis_title='Fecha',
            yaxis_title=feature,
        )

        # Mostrar el gráfico interactivo
        fig.show()

        return data, fig
    
    except Exception as e:
        print("Error en la función plot_moving_averages:", str(e))


[Volver al índice](#0)

<a id="37"></a> <br>
##### plot_pca_importance

Genera un gráfico de barras que muestra el porcentaje de varianza explicada por cada componente principal en un modelo de PCA.

In [None]:
def plot_pca_importance (data, modelo_pca):
    '''
    Genera un gráfico de barras que muestra el porcentaje de varianza explicada por cada componente principal
    en un modelo de PCA.

    Parámetros:
    - data: El conjunto de datos utilizado en el modelo de PCA.
    - modelo_pca: El objeto del modelo de PCA entrenado.

    Retorna:
    - fig: El objeto Figure del gráfico generado.

    '''
    try:
        fig, ax = plt.subplots(nrows=1, ncols=1)
        ax.bar(
            x      = np.arange(modelo_pca.n_components_) + 1,
            height = modelo_pca.explained_variance_ratio_
        )

        for x, y in zip(np.arange(len(data.columns)) + 1, modelo_pca.explained_variance_ratio_):
            label = round(y, 2)
            ax.annotate(
                label,
                (x,y),
                textcoords="offset points",
                xytext=(0,10),
                ha='center'
            )

        ax.set_xticks(np.arange(modelo_pca.n_components_) + 1)
        ax.set_ylim(0, 1.1)
        ax.set_title('Porcentaje de varianza explicada por cada componente')
        ax.set_xlabel('Componente principal')
        ax.set_ylabel('Por. varianza explicada')

        fig.show()

        return fig
    
    except Exception as e:
        print("Ocurrió un error en plot_pca_importance:", str(e))


[Volver al índice](#0)

<a id="38"></a> <br>
##### plot_pca_importance_agg

Genera un gráfico de línea que muestra el porcentaje acumulado de varianza explicada por cada componente principal en un modelo de PCA.

In [None]:
def plot_pca_importance_agg (data, modelo_pca):
    '''
    Genera un gráfico de línea que muestra el porcentaje acumulado de varianza explicada por cada componente principal
    en un modelo de PCA.

    Parámetros:
    - data: El conjunto de datos utilizado en el modelo de PCA.
    - modelo_pca: El objeto del modelo de PCA entrenado.

    Retorna:
    - fig: El objeto Figure del gráfico generado.

    '''
    try:
        prop_varianza_acum = modelo_pca.explained_variance_ratio_.cumsum()

        fig, ax = plt.subplots(nrows=1, ncols=1)
        ax.plot(
            np.arange(len(data.columns)) + 1,
            prop_varianza_acum,
            marker = 'o'
        )

        for x, y in zip(np.arange(len(data.columns)) + 1, prop_varianza_acum):
            label = round(y, 2)
            ax.annotate(
                label,
                (x,y),
                textcoords="offset points",
                xytext=(0,10),
                ha='center'
            )
            
        ax.set_ylim(0, 1.1)
        ax.set_xticks(np.arange(modelo_pca.n_components_) + 1)
        ax.set_title('Porcentaje de varianza explicada acumulada')
        ax.set_xlabel('Componente principal')
        ax.set_ylabel('% varianza acumulada')

        fig.show()

        return fig
    

    except Exception as e:
        print("Ocurrió un error en plot_pca_importance_agg:", str(e))
        


[Volver al índice](#0)

<a id="39"></a> <br>
##### plot_scatter_with_reference

Genera un gráfico de dispersión con una línea de referencia para comparar los valores de prueba con los valores predichos.


In [None]:
def plot_scatter_with_reference(y_test: np.array, predictions: np.array, title: str) -> None:
    """
    Genera un gráfico de dispersión con una línea de referencia para comparar los valores de prueba con los valores predichos.

    Args:
        y_test (array-like): Valores de prueba.
        predictions (array-like): Valores predichos.
        title (str): Título del gráfico.

    Returns:
        None
    """
    try:
        sns.set(style="darkgrid")
        plt.scatter(y_test, predictions, color='blue',
                    label='Valores de prueba vs. Valores predichos')
        # Línea de referencia: valores reales = valores predichos
        plt.plot([min(y_test), max(y_test)], [min(y_test), max(y_test)], 'r--')
        plt.scatter(y_test, y_test, color='red', label='Valores de prueba')
        plt.xlabel('Valores de prueba')
        plt.ylabel('Valores predichos')
        plt.title(title)
        plt.legend()
        plt.show()
    except Exception as e:
        print("Ocurrió un error al generar el gráfico de dispersión:", str(e))
    finally:
        return None

[Volver al índice](#0)

<a id="40"></a> <br>
##### plot_learning_curve

Genera una curva de aprendizaje para un estimador dado.


In [None]:
def plot_learning_curve(estimator, X, y, cv=None, train_sizes=np.linspace(0.1, 1.0, 5)):
    """
    Genera una curva de aprendizaje para un estimador dado.

    Parámetros:
    estimator: objeto de estimador
    X: matriz de características
    y: vector de etiquetas
    cv: validación cruzada (opcional)
    train_sizes: tamaños de los conjuntos de entrenamiento (opcional)

    Devuelve:
    None
    """
    try:
        plt.figure()
        plt.title("Curva de aprendizaje")
        plt.xlabel("Tamaño del conjunto de entrenamiento")
        plt.ylabel("Score")

        train_sizes, train_scores, test_scores = learning_curve(
            estimator, X, y, cv=cv, train_sizes=train_sizes)

        # Calcular la media y el desvío estándar del training score
        train_scores_mean = np.mean(train_scores, axis=1)
        train_scores_std = np.std(train_scores, axis=1)

        # Graficar la curva de aprendizaje del training score
        plt.grid()
        plt.fill_between(train_sizes, train_scores_mean - train_scores_std,
                         train_scores_mean + train_scores_std, alpha=0.1,
                         color="r")
        plt.plot(train_sizes, train_scores_mean, 'o-', color="r",
                 label="Training score")

        plt.legend(loc="best")
    except Exception as e:
        print(f"An error occurred: {e}")

[Volver al índice](#0)

<a id="41"></a> <br>
##### plot_precision_recall_curve

Genera una curva de precisión-recall que es una representación gráfica que muestra la relación entre la tasa de verdaderos positivos (TPR) y el porcentaje de ejemplos positivos recuperados (recall) a medida que se varía el umbral de clasificación en un modelo de clasificación.


In [None]:
def plot_precision_recall_curve(y_true, y_prob):
    """
    Genera una curva de precisión-recall dadas las etiquetas verdaderas y las probabilidades predichas.

    Parámetros:
    y_true: vector de etiquetas verdaderas
    y_prob: vector de probabilidades predichas
    """
    try:
        # Verificar si los argumentos son válidos
        y_true = column_or_1d(y_true)
        y_prob = column_or_1d(y_prob)
        check_consistent_length(y_true, y_prob)

        # Calcular la precisión y el recall para diferentes umbrales
        precision, recall, _ = precision_recall_curve(y_true, y_prob)

        # Generar la gráfica
        plt.plot(recall, precision)
        plt.xlabel('Recall')
        plt.ylabel('Precision')
        plt.title('Precision-Recall Curve')
        plt.show()
    except Exception as e:
        print(f"An error occurred: {e}")
        raise e

[Volver al índice](#0)

<a id="42"></a> <br>
##### plot_roc_curve

Función para visualizar la roc-curve, esta curva muestra la relación entre la tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR) a medida que se varía el umbral de clasificación del modelo.

In [None]:
def plot_roc_curve(y_true, y_score):
    try:
        fpr, tpr, _ = roc_curve(y_true, y_score)
        plt.plot(fpr, tpr)
        plt.xlabel('False Positive Rate')
        plt.ylabel('True Positive Rate')
        plt.title('ROC Curve')
        plt.show()
    except Exception as e:
        print(f'Error: {e}')

[Volver al índice](#0)

<a id="43"></a> <br>
##### dist_variables

Función para visualizar las distribuciones de las variables en un DataFrame.


In [None]:
def dist_variables(data: pd.DataFrame, target: str = None, ncols: int = 2, figsize: tuple = (30, 30)) -> plt.Figure: # type: ignore
    """
    Función para visualizar las distribuciones de las variables en un DataFrame.

    Args:
        data (pd.DataFrame): DataFrame con los datos.
        target (str or None): Nombre de la columna objetivo. Si es None, no se divide por grupos (default: None).
        ncols (int): Número de columnas en la figura de subplots (default: 2).
        figsize (tuple): Tamaño de la figura (default: (15, 20)).

    Returns:
        plt.Figure: Figura con todas las distribuciones de los datos.
    """
    try:
        total_columns = len(data.columns)
        nrows = int(np.ceil(total_columns / ncols))

        fig, axes = plt.subplots(nrows, ncols, figsize=figsize)
        axes = axes.ravel() # type: ignore

        for i, column in enumerate(data.columns):
            ax = axes[i]

            if target is not None:
                # Variables categóricas
                if data[column].dtype == 'object':
                    sns.countplot(x=column, hue=target, data=data, ax=ax)
                    ax.set_title(column)
                    ax.legend(title=target)
                # Variables continuas
                else:
                    for value in data[target].unique():
                        sns.histplot(data[data[target] == value][column], ax=ax, label=value)
                    ax.set_title(column)
                    ax.legend(title=target)
            else:
                # Variables categóricas
                if data[column].dtype == 'object':
                    sns.countplot(x=column, data=data, ax=ax)
                    ax.set_title(column)
                # Variables continuas
                else:
                    sns.histplot(data[column], ax=ax)
                    ax.set_title(column)

        return fig

    except Exception as e:
        error_message = "Ocurrió un error durante la visualización: " + str(e)
        print(error_message)
        return None

[Volver al índice](#0)

<a id="44"></a> <br>
##### plot_correlations

Esta función crea un gráfico de barras que muestra las correlaciones de la variable objetivo con el resto de las variables.


In [None]:
def plot_correlations(dataframe, target, figsize, filename):
    
    try:
        """Esta función crea un gráfico de barras que muestra las correlaciones de la variable objetivo con el resto de las variables.

        Args:
        dataframe (pd.DataFrame): El DataFrame que contiene los datos.
        target (str): El nombre de la columna que representa la variable objetivo.
        figsize (tuple): El tamaño de la figura del gráfico en pulgadas (ancho, alto).
        filename (str): El nombre del archivo en el que se guardará la figura.
        """

        #para calcular las correlaciones de la variable objetivo con el resto de las variables con dataframe.corr()
        correlations = dataframe.corr()[target].drop(target)

        #Ordenar las correlaciones de mayor a menor usando correlations.sort_values()
        correlations = correlations.sort_values(ascending=False)

        #tamaño de la figura
        plt.figure(figsize=figsize)

        #gráfico de barras con sns.barplot()
        sns.barplot(x=correlations, y=correlations.index, palette='Blues')

        #Añadir los ejes y el título usando plt.xlabel(), plt.ylabel() y plt.title()
        plt.xlabel('Correlación')
        plt.ylabel('Variable')
        plt.title(f'Correlaciones de {target} con el resto de las variables')

        #Guardar la figura en un archivo
        plt.savefig(filename)

        #gráfico
        plt.show()
    
    except Exception as e:
        error_message = "Ocurrió un error durante la visualización: " + str(e)
        print(error_message)
        return None

[Volver al índice](#0)

<a id="45"></a> <br>
##### plot_map

Esta función crea un mapa interactivo a partir de un DataFrame.


In [None]:
def plot_map(dataframe, figsize):
    
    try:
        """Esta función crea un mapa interactivo a partir de un DataFrame.

        Argumentos:
            dataframe (pd.DataFrame): El DataFrame que contiene los datos.
            figsize (tuple): El tamaño de la figura del mapa en píxeles (ancho, alto).
        """

        #Crear el mapa usando folium.Map()
        mapa = folium.Map(location=[dataframe['lat'].mean(), dataframe['lon'].mean()], 
                        zoom_start=10, tiles='Stamen Terrain')

        #Añadir marcadores con folium.Marker()
        for i, row in dataframe.iterrows():
            folium.Marker(location=[row['lat'], row['lon']],
                        popup=row['name'], 
                        icon=folium.Icon(color=row['color'])).add_to(mapa)

        #Mostrar el mapa usando folium.Figure()
        fig = folium.Figure(width=figsize[0], height=figsize[1])
        fig.add_child(mapa)
        mapa.save("map.html") #PARA QUE SE VEA EL MAPA
        fig
        
    except Exception as e:
        error_message = "Ocurrió un error durante la visualización: " + str(e)
        print(error_message)
        return None

[Volver al índice](#0)

<a id="46"></a> <br>
##### plot_wordcloud

Esta función crea una nube de palabras a partir de un texto.


In [None]:
def plot_wordcloud(text, figsize, filename):
    try:
        """Esta función crea una nube de palabras a partir de un texto.

        Argumentos=
            text (str): El texto que contiene las palabras.
            figsize (tuple): El tamaño de la figura de la nube de palabras en pulgadas (ancho, alto).
            filename (str): El nombre del archivo en el que se guardará la figura.
        """

        #Nube de palabras creada usando WordCloud()
        wc = WordCloud(background_color='white', 
                    max_words=100, 
                    width=figsize[0]*100, 
                    height=figsize[1]*100).generate(text)

        #Tamaño de la figura
        plt.figure(figsize=figsize)

        #Mostrar la nube de palabras usando plt.imshow() y plt.axis()
        plt.imshow(wc, interpolation='bilinear')
        plt.axis('off')

        #Guardar
        plt.savefig(filename)

        #Mostrar
        plt.show()
    except Exception as e:
        error_message = "Ocurrió un error durante la visualización: " + str(e)
        print(error_message)
        return None

<a id="47"></a> <br>
##### plot_quality_counts

Crea un gráfico de barras que muestra el recuento de valores en una columna específica.
    

In [None]:
def plot_quality_counts(dataframe: pd.DataFrame, column: str, color: str) -> None:
    """Crea un gráfico de barras que muestra el recuento de valores en una columna específica.
    
    Args:
        dataframe (pd.DataFrame): El DataFrame que contiene los datos.
        column (str): El nombre de la columna para la cual se desea hacer el gráfico de barras.
        color (str): El color de las barras del gráfico.
    """
    try:
        # Crea el gráfico de barras utilizando value_counts() y plot.bar()
        dataframe[column].value_counts().plot.bar(rot=0, color=color)
        
        # Personaliza el gráfico
        plt.ylabel('Recuento')
        plt.xlabel(column)
        
        # Muestra el gráfico
        plt.show()
    except KeyError:
        print(f"La columna '{column}' no existe en el DataFrame.")
    except Exception as e:
        print(f"Ocurrió un error: {str(e)}")

[Volver al índice](#0)

<a id="48"></a> <br>
##### plot_heatmap

Crea un mapa de calor (heatmap) a partir de un DataFrame.   Un heatmap es una representación visual que utiliza colores para mostrar la densidad o la distribución de datos.
    

In [None]:
def plot_heatmap(dataframe: pd.DataFrame, figsize: tuple) -> None:
    """Crea un mapa de calor (heatmap) a partir de un DataFrame.
    
    Args:
        dataframe (pd.DataFrame): El DataFrame que contiene los datos.
        figsize (tuple): El tamaño de la figura del heatmap en pulgadas (ancho, alto).
    """
    try:
        # Configurar el tamaño de la figura
        plt.figure(figsize=figsize)
        
        # Crear el mapa de calor utilizando sns.heatmap()
        sns.heatmap(dataframe.corr(), annot=True)
        
        # Mostrar el mapa de calor
        plt.show()
    except Exception as e:
        print(f"Ocurrió un error: {str(e)}")


[Volver al índice](#0)

<a id="49"></a> <br>
##### plot_data

Crea un gráfico de barras que muestra el recuento de valores en una columna específica.
    

In [None]:
def plot_data(dataframe: pd.DataFrame, x: str, y: str, plot_type: str) -> None:
    """Visualiza diferentes tipos de gráficos a partir de un DataFrame.
    
    Args:
        dataframe (pd.DataFrame): El DataFrame que contiene los datos.
        x (str): La columna del DataFrame para el eje x.
        y (str): La columna del DataFrame para el eje y.
        plot_type (str): El tipo de gráfico a crear ('violin', 'scatter', 'bar', etc.).
    """
    try:
        if plot_type == 'violin':
            # Violin plot
            sns.violinplot(x=x, y=y, data=dataframe)
            plt.xlabel(x)
            plt.ylabel(y)
            plt.title('Violin Plot')
        
        elif plot_type == 'scatter':
            # Scatter plot
            plt.scatter(dataframe[x], dataframe[y])
            plt.xlabel(x)
            plt.ylabel(y)
            plt.title('Scatter Plot')
        
        elif plot_type == 'bar':
            # Bar plot
            sns.barplot(x=x, y=y, data=dataframe)
            plt.xlabel(x)
            plt.ylabel(y)
            plt.title('Bar Plot')
        
        # Agregar más tipos de gráficos según sea necesario
        
        plt.show()
    except Exception as e:
        print(f"Ocurrió un error: {str(e)}")

[Volver al índice](#0)

<a id="250"></a> <br>
### *Conclusiones*

Se nos planteaba un interesante desafío, no solo en cuanto al contenido en sí, sino a la estructura y dinámica mismas del proyecto. Un trabajo en grupo, en un breve plazo de tiempo, con el fin de crear una completa y exhaustiva biblioteca de funciones en Python que resultaran útiles a cualquier persona que se dispusiera a enfrentarse a un proyecto de *machine learning*.

Y sí demostró ser desafiante pero ampliamente valioso en cuanto a aprendizaje y coordinación. Es un proyecto que sin duda resulta beneficioso para desarrolladores y científicos de datos. Las funciones creadas y probadas nacen con la intención de ser reutilizables en cualquier proceso de implementación, y abarcan todas las etapas de un proyecto de aprendizaje automático, desde el preprocesamiento de los datos hasta la evaluación de los modelos, pasando por la visualización de datos y resultados.

En definitiva, desde un punto de vista técnico y humano, esta biblioteca es, en sí misma, un instrumento de aprendizaje.



[Volver al índice](#0)