# **¿Cómo crear un Modelo de Machine Learning.?** 

*by: Alberto Padilla Nieto*

 ## Pasos para modelo Machine Learning 

1. Importar las **librerías** necesarias para el análisis de datos, preprocesamiento y modelado, como Pandas, NumPy, Scikit-learn, TensorFlow, PyTorch, etc.


2. **Cargar y explorar los datos** que se utilizarán para entrenar y evaluar el modelo.


3. **Preprocesar los datos**, lo que puede incluir la limpieza, transformación y normalización o  cualquier test estadístico de los datos, la selección de características, la codificación de variables categóricas, la división de los datos en conjuntos de entrenamiento y prueba, etc.


4. Seleccionar y entrenar un **modelo de machine learning** que se ajuste a los datos y el problema a resolver, como regresión lineal, árboles de decisión, redes neuronales, etc.


5. Evaluar el **rendimiento del modelo** utilizando métricas relevantes, como la precisión, la recall, el F1-score, la matriz de confusión, etc.


6. **Ajustar el modelo** utilizando técnicas como la búsqueda de hiperparámetros, la validación cruzada, el ajuste de peso de clases y/o el uso de algoritmos robustos como SVM o Redes Neuronales Profundas.


7. Realizar pruebas exhaustivas del modelo para asegurarse de que pueda manejar situaciones extremas como **outliers y datos ruidosos.**


8. Utilizar el modelo entrenado para **realizar predicciones** sobre nuevos datos y/o para resolver el problema que se planteó inicialmente.

# **Librerias** 

## Machine Learning

- **Librerías gráficas:** Estas librerías permiten la visualización de datos y la creación de gráficos y diagramas para ayudar en el análisis de datos. Matplotlib.pyplot es una de las librerías más populares para visualización de datos en Python, Seaborn se enfoca en gráficos estadísticos más sofisticados y Pandas.plotting proporciona algunas herramientas de visualización integradas en Pandas para análisis de datos.
~~~~
                        import matplotlib.pyplot, 
                        import seaborn, 
                        import pandas.plotting
~~~~

- **Librerías de dataframes:** Pandas es una librería muy útil para el análisis de datos y la manipulación de datos en forma de tablas y dataframes. Numpy también se utiliza frecuentemente en combinación con Pandas para realizar operaciones matemáticas en los datos.
~~~~
                        import pandas
                        import numpy  
~~~~

- **Librerías del sistema:** Estas librerías están relacionadas con la manipulación del sistema operativo y los archivos. Os proporciona funciones para trabajar con los sistemas operativos, Base64 se utiliza para la codificación y decodificación de datos, io.BytesIO proporciona un buffer de bytes para leer y escribir datos en memoria, PIL.Image permite la manipulación de imágenes, IPython.display muestra objetos en formato HTML en notebooks de Jupyter, tkinter es una biblioteca gráfica para interfaces de usuario en Python y tkinter.font proporciona funciones para trabajar con fuentes.
~~~~
                        import o 
                        import base6 
                        import io.BytesI 
                        import PIL.Imag 
                        import IPython.displa 
                        import tkinte 
                        import tkinter.font  
~~~~

- **Librerías de informes:** Estas librerías se utilizan para generar informes y realizar análisis estadísticos. Statsmodels.api proporciona funciones para realizar análisis de regresión y otros modelos estadísticos, statsmodels.formula.api proporciona una interfaz más sencilla para trabajar con modelos estadísticos, Pandas_profiling genera informes automatizados sobre los datos, y statsmodels.stats.outliers_influence proporciona funciones para analizar los puntos atípicos en los datos.
~~~~
                        import statsmodels.api 
                        import statsmodels.formula.api 
                        import pandas_profiling 
                        import statsmodels.stats.outliers_influence
~~~~

- **Librerías para datos de entrenamiento y prueba:** sklearn.model_selection proporciona funciones para dividir los datos en conjuntos de entrenamiento y prueba para su uso en modelos de aprendizaje automático.
~~~~
                        import sklearn.model_selection
~~~~


- **Librerías para modelos lineales:** sklearn.linear_model y sklearn.preprocessing se utilizan para trabajar con modelos lineales como regresión lineal, regresión logística, etc.
~~~~
                        import sklearn.linear_model 
                        import sklearn.preprocessing
~~~~

- **Librerías para modelos logísticos:** sklearn.linear_model y sklearn.metrics se utilizan para trabajar con modelos logísticos.
~~~~
                        import sklearn.linear_model 
                        import sklearn.metrics
~~~~

- **Librerías para modelos de clasificación:** sklearn.preprocessing, sklearn.model_selection y sklearn.metrics se utilizan para trabajar con modelos de clasificación.
~~~~
                        import sklearn.preprocessing 
                        import sklearn.model_selection 
                        import sklearn.metrics
~~~~

- **Librerías para KNN:** sklearn.neighbors proporciona funciones para trabajar con el algoritmo K-Nearest Neighbors.
~~~~
                        import sklearn.neighbors
~~~~

- **Librerías para árboles de decisión:** sklearn.tree proporciona funciones para trabajar con modelos de árboles de decisión. 
~~~~
                        import sklearn.tree
~~~~

- **Librerías para generación de datos:** sklearn.datasets proporciona funciones para generar datos de prueba y entrenamiento de diferentes tipos de datos.
~~~~
                        import sklearn.datasets
~~~~

# **Carga y Exploración de Datos** ([PandasProfiling](https://ydata-profiling.ydata.ai/docs/master/pages/getting_started/quickstart.html))

**Pandas profiling** 

Es una biblioteca de Python para generar informes descriptivos rápidos de conjuntos de datos de Pandas. Al utilizar pandas profiling, se puede generar automáticamente un informe detallado que incluye estadísticas básicas de resumen, distribución de valores, valores faltantes, correlaciones y mucho más. Este informe puede ser útil para obtener una visión general rápida y completa de los datos, lo que puede ahorrar tiempo en la exploración manual de los datos. Además, el informe generado por pandas profiling se presenta en un formato visualmente atractivo y fácil de entender.
~~~
profile=ProfileReport(df)
~~~
    
    
    
   - **Extracción de Datos del informe**

    El informe generado incluye una sección llamada "Variables" que lista todas las variables en el conjunto de datos y proporciona información detallada sobre cada una. Para cada variable, se muestra una tabla con estadísticas resumidas, una distribución de frecuencia y un gráfico que representa la distribución de valores.
    En cada sección del informe, se proporcionan enlaces para descargar los datos utilizados para crear las visualizaciones y tablas. Por lo tanto, es posible descargar los datos utilizados para generar el informe y trabajar con ellos en un marco de datos de pandas regular. Esto puede ser especialmente útil si se desea realizar análisis más detallados o utilizar técnicas de modelado predictivo avanzadas en los datos.
    
**OTROS**

**df.info():** Este método de pandas se utiliza para obtener información sobre un DataFrame, como la cantidad de filas y columnas, los nombres de las columnas, el tipo de datos de cada columna, la cantidad de valores no nulos en cada columna, entre otros. 
~~~
df.info()

~~~

**df.describe():** Este método de pandas se utiliza para obtener estadísticas descriptivas sobre un DataFrame, como la media, la mediana, el mínimo y el máximo de cada columna. 
~~~
df.describe(include=[])

El parámetro include se puede establecer con uno o varios tipos de datos como una lista, y se pueden utilizar los siguientes valores:

                'object': incluye columnas de tipo objeto o string.
                'int': incluye columnas de tipo entero.
                'float': incluye columnas de tipo flotante.
                'bool': incluye columnas de tipo booleano.
                'all': incluye todas las columnas.
~~~

**df.head():** Este método de pandas se utiliza para obtener las primeras filas de un DataFrame. Por defecto, devuelve las primeras 5 filas, pero se puede especificar un número diferente.
~~~
df.head(10)  # devuelve las primeras 10 filas
~~~

**df.tail():** Este método de pandas se utiliza para obtener las últimas filas de un DataFrame. Por defecto, devuelve las últimas 5 filas, pero se puede especificar un número diferente. 
~~~
df.tail(10)  # devuelve las últimas 10 filas
~~~

**df.shape:** Este atributo de pandas devuelve una tupla con la cantidad de filas y columnas de un DataFrame. Ejemplo:
~~~
print(df.shape)  # muestra la cantidad de filas y columnas
~~~

**df.sample():** Este atributo devuelve un numero aleatorio de filas del df.

~~~
df.sample(10)    # Muestra 10 filas aleatorias
~~~

# **Pre-procesamiento de Datos**

- **Variables numéricas:** estas variables representan números y pueden ser continuas o discretas.


- **Variables categóricas:** estas variables representan categorías o clases y pueden ser nominales o ordinales.


- **Variables de texto:** estas variables representan texto o cadenas de caracteres.


- **Variables booleanas:** estas variables representan valores binarios verdadero/falso o 0/1.


- **Variables de fecha/hora:** estas variables representan fechas y/o horas.


- **Variables de objetos:** estas variables pueden contener diferentes tipos de datos, como listas, diccionarios y otros objetos complejos.

## **Limpieza de datos:**

### Eliminación de valores atípicos (Outliers).
En general, se pueden considerar tres escenarios en los que se podría optar por eliminar los outliers:

- **Errores de medición:** Si los outliers son el resultado de errores de medición o de entrada de datos, pueden eliminarse para obtener una imagen más precisa del conjunto de datos.


- **Análisis estadístico:** En algunos casos, los outliers pueden afectar negativamente el análisis estadístico, como el cálculo de la media o la desviación estándar. En estos casos, se podría optar por eliminar los outliers para obtener estadísticas más representativas.


- **Modelos de aprendizaje automático:** Algunos modelos de aprendizaje automático pueden verse afectados negativamente por la presencia de outliers, especialmente los modelos lineales. En estos casos, la eliminación de outliers podría mejorar el rendimiento del modelo.

Es importante tener en cuenta que la elección del método de eliminación de outliers depende del conjunto de datos y del problema en cuestión. Además, es importante realizar un análisis detallado de los datos antes de eliminar outliers para asegurarse de que se están eliminando solo aquellos valores que son realmente atípicos y no aquellos que son simplemente **extremos pero importantes para el análisis**.

**criterios y técnicas**

**Corte de valores extremos:** Este método implica la eliminación de los valores que se encuentran por encima o por debajo de ciertos umbrales definidos por el usuario. Por ejemplo, se pueden eliminar todos los valores que estén por encima del percentil 95 o por debajo del percentil 5 de la distribución de los datos.
~~~
# Eliminar valores extremos
df = df[(df['x'] >= df['x'].quantile(0.05)) & (df['x'] <= df['x'].quantile(0.95))]

En este ejemplo, se utiliza el método quantile() para calcular el percentil 5 y el percentil 95 de la columna x, y luego se eliminan todos los valores que estén por debajo del percentil 5 o por encima del percentil 95.
~~~


**Z-score:** Este método implica el cálculo del z-score para cada punto de datos y la eliminación de los puntos que se encuentran por encima de un umbral determinado. El z-score se calcula como la diferencia entre el punto de datos y la media, dividida por la desviación estándar.
~~~
# Calcular el z-score para cada punto de datos
df['z_score'] = np.abs((df['x'] - df['x'].mean()) / df['x'].std())

# Eliminar valores extremos
df = df[df['z_score'] < 3]

En este ejemplo, se calcula el z-score para cada punto de datos en la columna x y se elimina cualquier valor que tenga un z-score superior a 3.
~~~
**Análisis multivariante:** El análisis multivariante puede detectar patrones inusuales en los datos, lo que puede indicar la presencia de outliers. Por ejemplo, se pueden utilizar técnicas de análisis de componentes principales (PCA) para reducir la dimensionalidad de los datos y detectar patrones inusuales.
~~~
# Reducir la dimensionalidad utilizando PCA
pca = PCA(n_components=1)
df['pca'] = pca.fit_transform(df)

# Eliminar valores extremos
df = df[np.abs(df['pca']) < 3 * np.std(df['pca'])]

En este ejemplo, se utiliza el análisis de componentes principales (PCA) para reducir la dimensionalidad del DataFrame a una sola columna y luego se eliminan cualquier valor que tenga un valor absoluto superior a 3 veces la desviación estándar de la columna reducida.
~~~
**Filtrado de mediana:** El filtrado de mediana implica la sustitución de los valores extremos por la mediana del conjunto de datos. Este método es útil cuando se desea mantener la forma de la distribución original de los datos.
~~~
# Calcular la mediana
median = np.median(df['x'])

# Reemplazar los valores extremos con la mediana
df.loc[df['x'] > 3 * median, 'x'] = median
df.loc[df['x'] < 0.3 * median, 'x'] = median

En este ejemplo, se calcula la mediana de la columna x y se reemplazan cualquier valor por encima de 3 veces la mediana o por debajo de 0.3 veces la mediana con la mediana.
~~~
**Modelos robustos:** Los modelos robustos son menos sensibles a los valores atípicos, por lo que pueden ser utilizados para identificar y eliminar los outliers. Por ejemplo, se pueden utilizar modelos de regresión robustos en lugar de modelos de regresión lineal estándar.
~~~
df = pd.read_csv('archivo.csv')

Calcular el cuantil 0.95 de la columna 'B' para identificar los outliers
q = df['B'].quantile(0.95)

Eliminar los valores que estén por encima del cuantil 0.95
df = df[df['B'] < q]

Mostrar el DataFrame resultante sin outliers
print(df)
~~~
**...Y MÁS**
~~~
~~~

### Valores Duplicados.

En particular, los valores duplicados pueden afectar negativamente la calidad del modelo de aprendizaje automático, ya que pueden dar lugar a una sobreestimación de la importancia de ciertos datos en el modelo y a una subestimación de la variabilidad de los datos. Por lo tanto, es **importante eliminar** los valores duplicados antes de entrenar un modelo para evitar resultados imprecisos o sesgados.

Sin embargo, en algunos casos, puede ser apropiado conservar los valores duplicados si su presencia es significativa para el análisis, como en el caso de conjuntos de datos que contienen datos de series temporales o datos de mediciones repetidas en el tiempo. En estos casos, los valores duplicados pueden proporcionar información valiosa sobre patrones de comportamiento y cambios en el tiempo.

~~~
df_sin_duplicados = df.drop_duplicates()

'subset' si solo queremos eliminar los nulos de esas columnas:
df_sin_duplicados = df.drop_duplicates(subset=['A', 'B'])
~~~


### Valores nulos.

Los casos en los que se deben eliminar los datos nulos, depende del contexto del análisis de datos. En general, es importante eliminar los datos nulos para **evitar distorsiones** en los resultados de los análisis y para asegurarse de que los **modelos** de aprendizaje automático se entrenen con **datos completos y precisos**. 

Sin embargo, en algunos casos, puede ser útil **conservar los datos nulos** si su presencia es significativa para el análisis, como en el caso de datos faltantes que pueden **indicar un patrón de comportamiento específico**.

detección de los mismos df.isna().sum() y del relleno de los mismos con fillna()
~~~
df_sin_nulos = df.dropna()

'subset' si solo queremos eliminar los nulos de esas columnas:
df_sin_nulos = df.dropna(subset=['A', 'B'])

df.isna().sum() y del relleno de los mismos con fillna()
~~~

**NOTA: NORMALMENTE SE ELIMINAN LOS VALORES NULOS, Y SI SON MUCHOS, SE NECESITAN MAS DATOS.** 

                                        "MAQUILLAR" LOS DATOS, NO ES BUENA PRACTICA

## **Agrupación de Variables Categóricas**

La agrupación de variables categóricas puede ser necesaria para simplificar y mejorar la interpretación de un modelo, mejorar la capacidad del modelo para capturar el efecto de ciertas categorías y reducir la dimensionalidad del modelo. Sin embargo, es importante tener cuidado al agrupar variables categóricas, ya que esto puede llevar a la pérdida de información importante si no se realiza correctamente.

- **Cuando las categorías son muy numerosas:** Si hay muchas categorías diferentes en una variable categórica, puede ser difícil para un modelo manejar todas ellas. Agruparlas en categorías más amplias puede simplificar el modelo y hacerlo más fácil de interpretar.


- **Cuando algunas categorías tienen muy pocos datos:** Si hay categorías con muy pocos datos, es posible que el modelo no pueda capturar adecuadamente su efecto en el resultado. En este caso, agruparlas con otras categorías puede ayudar a aumentar la cantidad de datos para cada categoría y mejorar la capacidad del modelo para capturar su efecto.


- **Cuando hay categorías muy similares entre sí:** Si hay categorías que son muy similares entre sí y que representan la misma idea o concepto, agruparlas en una sola categoría puede hacer que el modelo sea más simple y fácil de interpretar.


- **Cuando se quiere reducir la dimensionalidad:** Si hay muchas variables categóricas diferentes en un modelo, puede ser necesario reducir la dimensionalidad para que el modelo no se vuelva demasiado complejo. La agrupación de variables categóricas similares puede ser una forma efectiva de reducir la cantidad de variables y simplificar el modelo.

~~~~
                    lista=[...] # lista de valores a sustituir
                    lista2=[...]
                    df['column'] = df['column'].apply(lambda x: 'A' if x in lista else 'B' if x in lista2 else...)
~~~~

## **Codificación - Discretización:** 

<img src=https://electronicaengeneral.files.wordpress.com/2014/11/muestreo.jpg width="400">

- **Codificación:** Transformación de variables categóricas en variables numéricas que se puedan utilizar en el modelo.


- **Discretización:** Transformación de variables numericas en variables categoricas que se puedan utilizar en el modelo.

La decisión de transformar variables categóricas en numéricas o viceversa depende del contexto del problema y del tipo de análisis que se desea realizar.

En general, se transforman **variables categóricas en numéricas** cuando se desea realizar un **análisis estadístico** que requiere datos numéricos, como la regresión lineal o el análisis de varianza. Sin embargo, es importante asegurarse de que la variable categórica tenga una escala de medida ordinal o de intervalo para que la conversión tenga sentido.

Por otro lado, se transforman **variables numéricas en categóricas** cuando se desea analizar la **distribución de datos** en grupos discretos, como en el caso de análisis de segmentación de clientes o de agrupamiento de productos. En este caso, la variable numérica se divide en categorías o intervalos, por ejemplo, por rango de edad o por niveles de ingresos.

**Cambiar todas las variables Object, Str y Bool** a categóricas en un dataframe en Python puede ser una **buena práctica** para algunos modelos de machine learning, ya que los algoritmos suelen trabajar mejor con variables numéricas y categóricas en lugar de texto o booleanos. Sin embargo, esto no siempre es necesario y puede depender del modelo específico que se esté utilizando y de los datos que se estén analizando.

~~~
df['mi_variable'] = df['mi_variable'].astype('category')
~~~

## **Reducción de dimensionalidad:**

<img src=https://aukera.es/blog/imagenes/creaci%C3%B3n-de-dimension.png widht="400">

La reducción de dimensionalidad implica la **transformación de los datos de alta dimensionalidad** a un espacio de menor dimensión, mientras se trata de preservar la mayor cantidad posible de información importante. Esta técnica se utiliza para simplificar la representación de datos y mejorar el rendimiento de los algoritmos de aprendizaje automático.

Los datos de alta dimensionalidad son conjuntos de **datos que contienen una gran cantidad de características o atributos**. En otras palabras, son conjuntos de datos que tienen un gran número de variables o dimensiones.

- **Por ejemplo** una imagen en alta resolución puede tener millones de píxeles y, por lo tanto, puede considerarse como un conjunto de datos de alta dimensionalidad. Otro ejemplo puede ser una base de datos de clientes de una tienda en línea que tiene muchos atributos diferentes para cada cliente, como edad, género, historial de compras, preferencias, etc.



Transformación de variables para que cumplan con los supuestos de normalidad y homocedasticidad, como la transformación de Box-Cox o la transformación logarítmica.

## **Clasificación de los Datos**
Se divide el Dataframe en subdataframe para posteriores análisis.

~~~~
          - Variable Objetivo
            df_target=df_nout['TARGET'].copy()

          - Variables Independientes
            df_indepent=df_nout.drop('TARGET', axis=1).copy()

          - Variables Independientes Categoricas y Numericas
            df_ind_num = df_indepent.select_dtypes(include=["int64"]).copy() (VARIABLES INDEPENDIENTES NUMERICAS)
            df_ind_cat= df_indepent.select_dtypes(include=["object"]).copy() (VARIABLES INDEPENDIENTES CATEGORICAS)
~~~~


## **Interacción entre variables** (var. independientes *(num, cat y num+cat)* y var. independientes+dependiente)

<img src=https://multimedia.elsevier.es/PublicationsMultimediaV1/item/multimedia/thumbnail/13099413:4v26n02-13099413tab01.gif width="400">

La interacción entre variables en la creación de un modelo se refiere a la **relación entre dos o más variables** que afecta la salida o la variable dependiente que se está tratando de predecir en el modelo. En otras palabras, la interacción entre variables implica que el efecto de una variable en la variable de salida puede **depender de los valores** de otras variables.

- **Por ejemplo** en un modelo de predicción de precios de viviendas, la interacción entre la ubicación de la vivienda y el tamaño del jardín podría ser importante. Es decir, el efecto de la ubicación en el precio de la vivienda puede depender del tamaño del jardín. Es posible que en algunas ubicaciones, un jardín grande aumente el precio de la vivienda más que en otras ubicaciones.

Es importante considerar la interacción entre variables al crear un modelo, ya que puede mejorar la precisión de las predicciones.

**Interacción entre Variables**

- **Análisis de correlación:** Se puede examinar la correlación entre pares de variables y también la correlación parcial para detectar la presencia de una interacción.

                        corr_matrix = data.corr()
                        sns.heatmap(data)

- **Análisis gráfico:** La visualización de los datos en gráficos puede ayudar a identificar patrones y relaciones complejas entre variables, incluyendo la interacción. Por ejemplo, se pueden construir diagramas de dispersión para analizar la relación entre dos variables, o gráficos de superficie para analizar la relación tridimensional entre tres variables.

                      - Diagrama de Dispersión (2 - Variables)
                        plt.scatter(data['variable1'], data['variable2'])

                      - Gráfico de superficie (3 - Variables)
                        fig = plt.figure()
                        ax = fig.add_subplot(111, projection='3d')
                        ax.plot_trisurf(data['variable1'], data['variable2'], data['variable3'])


- **Análisis de regresión:** Se pueden incluir términos de interacción en los modelos de regresión para analizar si los coeficientes de interacción son significativos.

                      - Términos de interacción
                        X_interaction = X.copy()
                        X_interaction['variable1*variable2'] = X_interaction['variable1'] * X_interaction['variable2']
                        model_interaction = LinearRegression()
                        model_interaction.fit(X_interaction, y)

- **Análisis de varianza (ANOVA):** Se puede realizar un análisis ANOVA para comparar la varianza explicada por un modelo con y sin términos de interacción.

                        model_without_interaction = ols('target ~ variable1 + variable2 + variable3', data=data).fit()
                        model_with_interaction = ols('target ~ variable1*variable2 + variable3', data=data).fit()

                        anova_table = sm.stats.anova_lm(model_without_interaction, model_with_interaction)


## **Balanceo de clases:** 
El balanceo de clases se refiere al proceso de **ajustar la distribución** de las clases de una variable objetivo en un conjunto de datos, para que **NO haya una clase dominante** que pueda afectar negativamente el rendimiento del modelo de aprendizaje automático. En muchos casos, los conjuntos de datos pueden estar desequilibrados, lo que significa que hay muchas más observaciones de una clase que de otra.

Cuando se entrena un modelo de aprendizaje automático en un conjunto de datos desequilibrado, es probable que el modelo se sesgue hacia la clase dominante y tenga un rendimiento pobre en la clase minoritaria. Para evitar esto, se puede utilizar el balanceo de clases para ajustar la distribución de las clases de una variable objetivo en un conjunto de datos.

<img src=https://www.researchgate.net/profile/Tomas-Mateo-Sanguino/publication/354389400/figure/fig4/AS:1065124949405696@1630956985021/Distribucion-de-las-clases-Reposo-y-Vehiculo-inicialmente-a-la-izquierda-y-posterior-al.png width="400">

- **Submuestreo (undersampling):** Este método consiste en eliminar aleatoriamente instancias de la clase mayoritaria hasta que se alcance un equilibrio entre las clases. Aunque puede ser efectivo, puede resultar en la pérdida de información valiosa y en la reducción de la precisión del modelo.

                                from imblearn.under_sampling import RandomUnderSampler

                                rus = RandomUnderSampler(random_state=0)
                                X_resampled, y_resampled = rus.fit_resample(X, y)

- **Sobremuestreo (oversampling):** Este método consiste en crear nuevas instancias de la clase minoritaria mediante la replicación de instancias existentes o la generación de nuevas instancias sintéticas. Aunque puede aumentar la precisión del modelo, también puede generar problemas de sobreajuste y aumentar el tiempo de procesamiento.

                                from imblearn.over_sampling import RandomOverSampler

                                ros = RandomOverSampler(random_state=0)
                                X_resampled, y_resampled = ros.fit_resample(X, y)

- **Combinación de submuestreo y sobremuestreo:** Este método implica la combinación de los dos métodos anteriores, donde se submuestrea la clase mayoritaria y se sobremuestrea la clase minoritaria. Puede ser una buena opción cuando el submuestreo o el sobremuestreo por sí solos no son suficientes.

                                from imblearn.under_sampling import TomekLinks

                                tl = TomekLinks()
                                X_resampled, y_resampled = tl.fit_resample(X, y)

- **Generación de nuevas muestras (SMOTE):** Este método utiliza una técnica de interpolación para generar nuevas muestras sintéticas de la clase minoritaria, y se basa en los puntos cercanos de la clase minoritaria para generar los nuevos puntos.

                                from imblearn.over_sampling import SMOTE

                                smote = SMOTE(random_state=0)
                                X_resampled, y_resampled = smote.fit_resample(X, y)

- **Cost-sensitive learning:** Este método implica la asignación de diferentes costos a los errores de clasificación para diferentes clases. Los modelos se entrenan con una función de costos personalizada que penaliza los errores de clasificación de la clase minoritaria más que los errores de la clase mayoritaria. Esto puede ser una buena opción cuando el costo de los errores de clasificación es desigual entre las clases.

                                from sklearn.svm import SVC
                                from sklearn.utils import class_weight

                                class_weights = class_weight.compute_class_weight('balanced', np.unique(y_train), y_train)
                                svc = SVC(kernel='linear', class_weight=class_weights)
                                svc.fit(X_train, y_train)


- **Ensemble learning:** Este método utiliza algoritmos de aprendizaje de conjuntos para combinar varios modelos entrenados en diferentes subconjuntos de los datos. Puede ser efectivo para mejorar la precisión de la clasificación y reducir la variabilidad del modelo.

                                from sklearn.ensemble import RandomForestClassifier

                                rfc = RandomForestClassifier(n_estimators=100, random_state=42)
                                rfc.fit(X_train, y_train)

## **Análisis de multicolinealidad:**
La multicolinealidad ocurre cuando **dos o más variables predictoras están altamente correlacionadas**, lo que puede afectar la capacidad del modelo para identificar la verdadera relación entre las variables predictoras y la variable de respuesta.
- **VIF (Factor de Inflación de la Varianza):** Valor adimensional que se utiliza para medir la multicolinealidad en un modelo de regresión lineal. El VIF mide la proporción de la varianza de una variable predictora que se puede explicar por las otras variables predictoras en el modelo. Un VIF alto indica que la variable predictora está altamente correlacionada con otras variables predictoras y que puede estar introduciendo ruido en el modelo. Un valor de **VIF de 1** indica que **no** hay **multicolinealidad** entre la **variable predictora** y las **demás** variables predictoras. Un valor de VIF mayor que 1 indica que hay una cierta cantidad de multicolinealidad en el modelo. Generalmente, se considera que un valor de **VIF superior a 5 indica una multicolinealidad problemática.**

                    from statsmodels.stats.outliers_influence import variance_inflation_factor

                  - Seleccionar las variables predictoras
                    X_i = data[['Variable_1', 'Variable_2', 'Variable_3'],...]

                  - Calcular el factor de inflación de la varianza (VIF) para cada variable predictora
                    vif = pd.DataFrame()
                    vif["VIF Factor"] = [variance_inflation_factor(X_i.values, i) for i in range(X_i.shape[1])]
                    vif["Predictor"] = X_i.columns

                  - Imprimir los resultados del análisis de multicolinealidad
                    print(vif)

**OTROS**

                    - Calcula la matriz de correlación
                    corr_matrix = np.corrcoef(data, rowvar=False)
- **Condición de número:** La condición de número es una medida que mide la relación entre la mayor y la menor varianza propia en una matriz de correlación. Si la condición de número es alta, puede indicar la presencia de multicolinealidad.

                    condition_number = np.linalg.cond(corr_matrix)
                    print(condition_number)

- **Análisis de valores propios:** El análisis de valores propios es una técnica que se utiliza para descomponer una matriz de correlación en sus componentes principales. La multicolinealidad se puede medir observando los valores propios de la matriz de correlación. Si los valores propios son altos, puede indicar la presencia de multicolinealidad.

                    eigenvalues, eigenvectors = eig(corr_matrix)
                    sorted_eigenvalues = sorted(eigenvalues, reverse=True)
                    print(sorted_eigenvalues)

- **Factor de inflación de la varianza media (VIFM):** El VIFM es similar al VIF, pero en lugar de medir el efecto de una variable predictora sobre otra, mide el efecto combinado de varias variables predictoras sobre otra variable predictora. El VIFM se utiliza a menudo en modelos con múltiples variables de respuesta.

                    vifm = np.mean(vif)
                    print(vifm)
                    
- **Y MAS...**

**DIFERENCIAS ENTRE CORRELACIÓN Y MULTICOLINEALIDAD**

- El **análisis de correlación** se utiliza para medir la **relación lineal** entre dos variables, mientras que el **VIF** se utiliza para medir la **cantidad de varianza** de una variable predictora que se puede **explicar por las otras variables predictoras** en el modelo.


- En otras palabras, el VIF es una medida específica de la multicolinealidad que se centra en la correlación entre variables predictoras en un modelo de regresión. Por otro lado, el análisis de correlación es una medida más general de la relación lineal entre dos variables. 

## **Codificación Variables** (DUMMIES)
**Variable Dummy** 

Son variables binarias que se utilizan en el aprendizaje automático para representar características categóricas. Estas variables toman el valor 1 si una observación pertenece a una determinada categoría y 0 en caso contrario. Se utilizan para convertir las variables categóricas en una forma que puede ser procesada por algoritmos de aprendizaje automático que requieren datos numéricos.

                                for col in cat_col:
                                    col+_dummy = pd.get_dummies (df[col], prefix=f'{col}')

<img src=https://fhernanb.github.io/libro_regresion/images/var_cuali_01.png width="600">


**Código:**

Para cada columna en la lista de columnas **categóricas**, crea la variable "nombre_de_la columna"_dummy que es el codigo binario de la columna.

**get_dummies:** 

Es una función de Pandas que se utiliza para convertir variables categóricas en variables numéricas binarias. Crea columnas adicionales para cada categoría en una columna dada y asigna un valor de 1 o 0 a cada fila según la presencia o ausencia de esa categoría. Esto es útil para el análisis de datos y el modelado predictivo, ya que muchos algoritmos requieren datos numéricos para funcionar.

**OneHotEnconder vs get_dummies**

Tanto get_dummies como OneHotEncoder se utilizan para convertir variables categóricas en variables numéricas en el preprocesamiento de datos. Sin embargo, hay algunas diferencias clave entre ambas:

- **Librería:** get_dummies es una función de pandas, mientras que OneHotEncoder es una clase de la librería scikit-learn.


- **Entrada:** get_dummies toma un objeto pandas DataFrame como entrada y convierte automáticamente todas las columnas categóricas en variables ficticias. En cambio, OneHotEncoder requiere que se seleccione manualmente la(s) columna(s) a transformar.


- **Salida:** get_dummies devuelve un nuevo objeto DataFrame con las variables ficticias añadidas, mientras que OneHotEncoder devuelve una matriz numpy con las variables numéricas resultantes.


- **Flexibilidad:** OneHotEncoder ofrece más opciones de personalización que get_dummies, como la posibilidad de especificar cómo manejar las categorías que no están presentes en los datos de entrenamiento.


~~~
                                from sklearn.preprocessing import OneHotEncoder

                                - Creamos una instancia de OneHotEncoder y ajustamos los datos
                                    encoder = OneHotEncoder()
                                    encoder.fit(data)

                                - Transformamos los datos en variables ficticias
                                    encoded_data = encoder.transform(data).toarray()
~~~

## **Selección de características - Componenetes principales :** 
La selección de características (también conocida como selección de atributos) es un proceso en el aprendizaje automático que implica elegir un **subconjunto de características o variables relevantes** para la construcción de un modelo predictivo. El objetivo de la selección de características es reducir la dimensionalidad de los datos y mejorar la precisión y eficiencia de un modelo.

## **Train - Test** 
Consiste en **dividir** el conjunto de datos en dos subconjuntos: uno para entrenar el modelo (datos de entrenamiento - **TRAIN**) y otro para evaluar su rendimiento (datos de prueba - **TEST**).

<img src=https://miro.medium.com/v2/resize:fit:720/format:webp/1*4G__SV580CxFj78o9yUXuQ.png width="400">

  from sklearn.model_selection import train_test_split

                                - Cargar datos
                                  X = ...  # matriz de características
                                  y = ...  # vector de etiquetas

                                - Dividir datos en conjunto de entrenamiento y conjunto de prueba
                                  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
                                  
**Validation set (conjunto de validación):** Es un conjunto de datos adicional que se utiliza para ajustar los hiperparámetros del modelo. Los hiperparámetros son valores que se establecen antes del entrenamiento del modelo y que afectan el rendimiento del mismo. El conjunto de validación se utiliza para ajustar estos valores y encontrar la configuración óptima de los hiperparámetros.

## **Transformacion de variables: Estandarización, Escalado...**

<img src=https://pro.arcgis.com/es/pro-app/2.9/tool-reference/data-management/GUID-71C48BE3-D4E3-422C-A241-089FE0784469-web.png width="600">

**Técnicas para ajustar la escala de los datos**


- **Estandarización:** es el proceso de ajustar los valores de una columna para que tengan una media de cero y una desviación estándar de uno. Esto se hace para que los datos estén centrados alrededor de cero y tengan una varianza comparable. La estandarización es útil cuando se conocen las distribuciones de los datos y se desea que los datos se ajusten a una distribución normal.
    ~~~
                                - Crear una instancia del escalador
                                    scaler = StandardScaler()

                                - Aplicar el escalado a los datos en X e y
                                  data_scaled = scaler.fit_transform(data)

                                  nums_train = scaler.fit_transform(X_train[nums])
                                  nums_test = scaler.fit_transform(X_test[nums])
    ~~~
- **Min-Max scaler:** esta técnica transforma los datos para que estén en un rango específico, típicamente de 0 a 1 o -1 a 1. Se logra restando el valor mínimo y dividiendo por la diferencia entre el valor máximo y mínimo.
    ~~~
                                - Crear una instancia del escalador
                                  scaler = MinMaxScaler()
    ~~~

- **Robust scaler:** esta técnica escala los datos por la mediana y la diferencia intercuartil para evitar el impacto de valores extremos en la distribución de los datos.
    ~~~
                                - Crear una instancia del escalador
                                  scaler = RobustScaler()
    ~~~

- **MaxAbs scaler:** esta técnica divide cada valor por el valor absoluto máximo para escalar los datos dentro del rango de -1 a 1.
    ~~~
                                - Crear una instancia del escalador
                                  scaler = MaxAbsScaler()
    ~~~

**Técnicas de transformación de distribución:**
- **Transformación Box-Cox:** esta técnica transforma los datos para que sigan una distribución normal. Es útil cuando los datos no siguen una distribución normal y se requiere una transformación para aplicar ciertos modelos estadísticos.
~~~
                                from scipy.stats import boxcox

                                X_boxcox, _ = boxcox(X)
~~~
- **Yeo-Johnson:** La transformación de Yeo-Johnson es una variante del método Box-Cox que funciona con datos que incluyen valores negativos.
~~~
                                from sklearn.preprocessing import PowerTransformer

                                pt = PowerTransformer(method='yeo-johnson')
                                X_pt = pt.fit_transform(X)
~~~
- **Power transform:** La transformación de Power busca una función que haga que los datos tengan una distribución normal. Puede ser útil para modelos que asumen una distribución normal de los datos.
~~~
                                from sklearn.preprocessing import PowerTransformer

                                pt = PowerTransformer(method='box-cox')
                                X_pt = pt.fit_transform(X)
~~~
- **Discretización:** La discretización es la transformación de variables numéricas en variables categóricas. Puede ser útil para modelos que requieren variables categóricas o para reducir el ruido en los datos. (**PUNTO 4.2**)


- **Quantile transform:** La transformación de quantile mapea los datos a una distribución uniforme y luego a una distribución normal. Puede ser útil para modelos que asumen una distribución normal de los datos.
~~~~
                                from sklearn.preprocessing import QuantileTransformer

                                qt = QuantileTransformer(n_quantiles=10, output_distribution='normal')
                                X_qt = qt.fit_transform(X)
~~~~
- **Transformación Logarítmica:** esta técnica aplica una transformación logarítmica a los datos. Es útil cuando los datos tienen una distribución sesgada a la derecha y se quiere reducir el sesgo.
~~~
                                import numpy as np

                                X_log = np.log(X)
~~~
- **Raíz cuadrada:** La transformación de la raíz cuadrada se utiliza a menudo para reducir la varianza de los datos. Puede ser útil cuando los datos tienen una distribución sesgada hacia valores bajos.

~~~
                                X_sqrt = np.sqrt(X)
~~~
- **Transformación inversa:** Esta técnica se utiliza para transformar valores que han sido transformados previamente a su escala original.
~~~
                                X_orig = scaler.inverse_transform(X_scaled)
~~~

**Técnica para ajustar los límites de los datos**
El truncamiento implica establecer un límite superior o inferior en los valores de la variable. Todos los valores por encima o por debajo del límite se establecen en el valor límite. Esta técnica puede ser útil cuando se sabe que ciertos valores son imposibles o son errores de medición.
~~~~
                                import numpy as np

                                - Creamos un array de ejemplo
                                x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

                                - Establecemos el límite inferior y superior
                                lim_inf = 2
                                lim_sup = 8

                                - Aplicamos el truncamiento
                                x_truncado = np.clip(x, lim_inf, lim_sup)

~~~~

El binning implica agrupar los valores de la variable en un número finito de categorías o "bins". Esta técnica puede ser útil cuando se tienen datos continuos pero se desea trabajar con datos categóricos o discretos. Por ejemplo, se puede utilizar para crear rangos de edades o ingresos.
~~~~
                                from sklearn.preprocessing import KBinsDiscretizer
                                import numpy as np

                                - Creamos un array de ejemplo
                                x = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
                                - Establecemos el número de bins
                                n_bins = 5

                                - Creamos un objeto KBinsDiscretizer y lo ajustamos a los datos
                                kb = KBinsDiscretizer(n_bins=n_bins, encode='ordinal', strategy='uniform')
                                kb.fit(x.reshape(-1, 1))

                                - Aplicamos el binning
                                x_binning = kb.transform(x.reshape(-1, 1)).flatten()
~~~~

**Y MÁS...**

# **Tipos: Distribuciones** 

Un **test de uniformidad** es una prueba estadística que se utiliza para determinar si los datos se distribuyen de manera uniforme en un **rango determinado.**

Un **test de bondad** es una prueba estadística que se utiliza para determinar si un conjunto de datos sigue una **distribución específica.**

Un **test de normalidad** es una prueba estadística que se utiliza para determinar si un conjunto de datos sigue una **distribución normal o gaussiana.**


- **Distribución normal:** 

<img src=https://economipedia.com/wp-content/uploads/Captura-de-pantalla-2019-09-10-a-les-11.09.35.png width="400">

        - Test de normalidad de Shapiro-Wilk.
        - Test de normalidad de Anderson-Darling.
        - Test de normalidad de Kolmogorov-Smirnov. 

- **Distribución bimodal:** 

<img src=https://www.researchgate.net/publication/363774562/figure/fig1/AS:11431281085885730@1663938284472/Figura-1a-Distribucion-simetrica-bimodal-con-las-modas-en-valores-intermedios-de-la.ppm width="400">

        - Test de normalidad de Anderson-Darling.
        - Test de normalidad de Kolmogorov-Smirnov.

- **Distribución uniforme:** 

<img  src=https://upload.wikimedia.org/wikipedia/commons/thumb/9/9c/Uniform_distribution_PDF.png/1200px-Uniform_distribution_PDF.png width="400">

        - Test de uniformidad de Chi-Cuadrado.

- **Distribución de Poisson:** 

<img src=https://www.lifeder.com/wp-content/uploads/2019/09/poisson1.jpg width="400">

        - Test de normalidad de Anderson-Darling.
        - Test de normalidad de Kolmogorov-Smirnov Test de goodness of fit de Poisson.
        
- **Distribución exponencial:**

<img src= https://miro.medium.com/max/778/1*TZvxiHi8loOjSvvGYT48-A.png width="400">

        - Test de normalidad de Anderson-Darling.
        - Test de normalidad de Kolmogorov-Smirnov.
        - Test de bondad de ajuste de Kolmogorov-Smirnov para distribución exponencial.

- **Distribución de Bernoulli:**

<img src=http://www5.uva.es/estadmed/probvar/d_univar/bernoulli.gif width="400">

        - Test de bondad de ajuste de Chi-Cuadrado.
        - Test exacto de Fisher.

- **Distribución binomial:**

<img src=https://fisicaymates.com/wp-content/uploads/2016/04/binomial-distribution-critical-value.jpg width="400">

        - Test de bondad de ajuste de Chi-Cuadrado.
        - Test exacto de Fisher.
        - Test de bondad de ajuste de Kolmogorov-Smirnov para distribución binomial.

- **Distribución de chi-cuadrado:**

<img src=https://www.lifeder.com/wp-content/uploads/2020/08/chi-cuadrado-3.jpg width="400">

        - Test de bondad de ajuste de Chi-Cuadrado.
        - Test de normalidad de Anderson-Darling.
        - Test de normalidad de Kolmogorov-Smirnov.

- **Distribución t de Student:**

<img src=https://upload.wikimedia.org/wikipedia/commons/c/cf/Student_densite_best.JPG width="400">

        - Test de normalidad de Anderson-Darling.
        - Test de normalidad de Kolmogorov-Smirnov.
        - Test t de Student.
        
- **Y MÁS...**

## Ejemplos de Test: Supuestos y Limitaciones.

- **Test de normalidad de Shapiro-Wilk:** 
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos. 
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas (menos de 50 observaciones) o para distribuciones muy no normales.


- **Test de normalidad de Anderson-Darling:** 
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos. 
    - **Limitaciones:** puede ser más sensible a outliers que otros test de normalidad.


- **Test de normalidad de Kolmogorov-Smirnov:** 
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos. 
    - **Limitaciones:** puede ser menos preciso para distribuciones muy no normales.


- **Test de uniformidad de Chi-Cuadrado:** 
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y se deben contar en intervalos discretos.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas.


- **Test de goodness of fit de Poisson:** 
    - **Supuestos:** los datos deben seguir una distribución de Poisson y deben ser independientes e identicamente distribuidos. 
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones que están lejos de ser perfectamente Poisson
   
   
- **Test de bondad de ajuste de Lilliefors:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y se supone que los datos provienen de una distribución normal.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas y puede ser engañoso para distribuciones muy no normales.


- **Test de hipótesis de K-S para dos muestras:**
    - **Supuestos:** las dos muestras deben ser independientes e identicamente distribuidas.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones muy no similares.


- **Test de homogeneidad de varianza de Levene:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas y puede ser influenciado por outliers.


- **Test de homogeneidad de proporciones de Z:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben contarse en categorías.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones con una gran cantidad de categorías.


- **Test de varianza de Bartlett:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de varias poblaciones normales.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones con una gran cantidad de variabilidad entre las diferentes poblaciones.


- **Test de bondad de ajuste de Cramér-von Mises:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de una distribución continua.
    - **Limitaciones**: puede ser menos preciso para muestras pequeñas o para distribuciones muy no similares a la distribución supuesta.
    

- **Test de correlación de Pearson:**
    - **Supuestos:** los datos deben ser continuos y linealmente correlacionados.
    - **Limitaciones:** no es adecuado para datos categóricos o no linealmente correlacionados.
    
    
- **Test de correlación de Spearman:**
    - **Supuestos:** los datos deben ser ordinales o continuos y estar correlacionados de manera monótona.
    - **Limitaciones:** puede ser menos preciso para datos muy dispersos o con outliers.
    
    
- **Test de independencia de t de Student:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de dos poblaciones normales.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones muy no normales.
    
    
- **Test de diferencia de medias de Welch:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de dos poblaciones con varianzas diferentes.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones muy no similares.


- **Test de varianzas de Levene:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de dos o más poblaciones con varianzas posiblemente diferentes.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones muy no similares.


- **Test de hipótesis de Mann-Whitney U:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de dos poblaciones con distribuciones no necesariamente normales.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones muy similares.


- **Test de Bondad de Ajuste de Lilliefors:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de una distribución normal o similar a una normal.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones muy no similares a la distribución normal.


- **Test de Hipótesis de Wilcoxon Rank-Sum:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de dos poblaciones con distribuciones no necesariamente normales.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones muy similares.


- **Test de homogeneidad de varianzas de Bartlett:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de dos o más poblaciones con varianzas posiblemente diferentes.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones muy no similares.


- **Test de hipótesis de Kruskal-Wallis:**
    - **Supuestos:** los datos deben ser independientes e identicamente distribuidos y deben provenir de dos o más poblaciones con distribuciones no necesariamente normales.
    - **Limitaciones:** puede ser menos preciso para muestras pequeñas o para distribuciones muy similares.
    

- **Y MÁS...**


**Bibliografia**
Libro: "An Introduction to Statistical Learning" de Gareth James, Daniela Witten, Trevor Hastie y Robert Tibshirani
Libro: "Discovering Statistics Using R" de Andy Field Libro: "Statistics for People Who (Think They) Hate Statistics" de Neil J. Salkind Libro: "Applied Multivariate Statistical Analysis" de Richard Johnson y Dean Wichern Página web: scipy.org Página web: statsmodels.org

# **Datos Representativos** ???

 Si los residuos siguen una distribución aleatoria y no muestran patrones sistemáticos, entonces es probable que el modelo sea representativo de los datos. Por otro lado, si los residuos muestran patrones sistemáticos, como una tendencia creciente o decreciente en el tiempo o una relación no lineal entre la variable objetivo y las variables predictoras, entonces el modelo podría no ser representativo de los datos.

 # **Modelos**:
 **Variables de Regresión**
 - **y(x)** o **y:** Variable Dependiente o Respuesta
 
 
 - **X** o **X_i:** Variable/s Independiente/s, Predictora o Explicativas
 
 
 - **βo:** Intercepto 
 
 
 - **βn:** Coeficientes de Regresión
 
 
 - **ε:** Error Residual
 
 
**Métodos más comunes utilizados en los modelos de machine learning:**

- **.fit():** Método utilizado para ajustar el modelo a los datos de entrenamiento. En este método, se estima los parámetros del modelo que mejor ajustan los datos de entrenamiento.


- **.predict():** Método utilizado para predecir las etiquetas de clase o valores de respuesta para nuevos datos.


- **.transform():** Método utilizado para transformar los datos, como ajustar la escala o codificar variables categóricas.


- **.score():** Método utilizado para evaluar el desempeño del modelo utilizando un conjunto de datos de prueba.


- **.get_params():** Método utilizado para obtener los parámetros del modelo.


- **.set_params():** Método utilizado para establecer los valores de los parámetros del modelo.


- **.cross_val_score():** Método utilizado para realizar una validación cruzada del modelo, evaluando el desempeño en múltiples divisiones del conjunto de datos de entrenamiento.


- **.predict_proba():** Método utilizado para obtener la probabilidad de pertenecer a cada clase en modelos de clasificación.


- **.coef_:** Atributo utilizado para obtener los coeficientes del modelo de regresión.


- **.intercept_:** Atributo utilizado para obtener el término independiente del modelo de regresión.

- **.fit_transform():** Método utilizado para ajustar y transformar simultáneamente los datos de entrenamiento.


- **.score_samples():** Método utilizado para calcular la puntuación de probabilidad de los datos de entrada en modelos de clustering basados en densidad.


- **.transform_inverse():** Método utilizado para revertir la transformación de los datos de entrada que se realizó previamente utilizando el método .transform().


- **.decision_function():** Método utilizado para obtener la función de decisión en modelos de clasificación lineal.


- **.classes_:** Atributo utilizado para obtener las etiquetas de clase de un modelo de clasificación.


- **.n_features_:** Atributo utilizado para obtener el número de características o variables en un modelo de aprendizaje automático.


- **.n_outputs_:** Atributo utilizado para obtener el número de salidas en un modelo de aprendizaje automático con múltiples salidas.


- **.get_support():** Método utilizado para obtener una máscara booleana que indica las características seleccionadas por un modelo de selección de características.

## **Modelos Supervisados**

### **Modelos Paramétricos:**
Es un modelo que utiliza un **conjunto finito de parámetros** para describir la distribución subyacente de los datos. Los modelos paramétricos **asumen una distribución** específica para los datos y **utilizan estimaciones de los parámetros** de esta distribución para hacer predicciones.

Algunos modelos paramétricos:

**BÁSICOS**
1. **Regresión lineal**
1. **Regresión Multilineal**
1. **Regresión logística**
**OTROS:**
1. Análisis de varianza (ANOVA)
1. Análisis de covarianza (ANCOVA)
1. Modelos de regresión polinómica
1. Análisis de regresión por pasos (Stepwise regression)
1. Análisis discriminante lineal
1. Análisis de la varianza multivariante (MANOVA)
1. Análisis de la covarianza multivariante (MANCOVA)
1. Modelos de series de tiempo autoregresivos (AR)
1. Modelos de series de tiempo de media móvil (MA)
1. Modelos de series de tiempo autoregresivos de media móvil (ARMA)
1. Modelos de series de tiempo autoregresivos integrados de media móvil (ARIMA)
1. Modelos de series de tiempo estacionales (Seasonal ARIMA)
1. Modelos de regresión de Poisson
1. Modelos de regresión binomial negativa
1. Modelos de efectos aleatorios
1. Modelos de efectos mixtos

#### Regresion Lineal:

En estadística, la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente **y**, e una variable independiente **X1**.

                                        y(x) = βo + β1·X1 + ε

Este método es aplicable en muchas situaciones en las que se estudia la relación entre **dos o más variables o predecir un comportamiento**, algunas incluso sin relación con la tecnología. En caso de que **no se puede** aplicar un modelo de regresión a un estudio, se dice que **no hay correlación** entre las variables estudiadas.

<img src=https://economipedia.com/wp-content/uploads/Regresi%C3%B3n-lineal.png width="400">>

- **OLS, o regresión lineal ordinaria:** es un método de regresión que se utiliza para ajustar una línea recta a un conjunto de datos. OLS minimiza la suma de los errores al cuadrado entre los valores observados y los valores predichos por el modelo.

                                
                                        import statsmodels.api as sm
                                        modelo_lineal_OLS = sm.OLS(y_train, X_train)
                               


- **Linear Regression** es un enfoque más general que se refiere a cualquier modelo de regresión que asume una relación lineal entre la variable dependiente y las variables independientes. Linear Regression no se limita a ajustar una línea recta a los datos, sino que también puede ajustar modelos polinómicos o modelos de regresión lineal múltiple.

                               
                                        from sklearn.linear_model import LinearRegression
                                        modelo_lineal= LinearRegression(fit_intercept=True)
                                

#### Regresion Lineal Multiple:

La regresión lineal múltiple es una técnica estadística utilizada para examinar la relación entre una variable dependiente **y**
y dos o más variables independientes **X_i** (también conocidas como variables explicativas o predictoras) continuas.

La regresión lineal múltiple trata de encontrar una ecuación lineal que pueda predecir el valor de la variable de respuesta en función de los valores de las variables explicativas, minimizando el error residual.

                                        y(x) = βo·Xo + β1·X1 + β2·X2 ...βn·Xn + ε

Donde **y** es la variable de respuesta,**X1**, **X2**, ..., **Xn** son las variables explicativas, **β0** es la intercepción, **β1, β2, ..., βn** son los coeficientes de regresión que indican la relación entre cada variable explicativa y la variable de respuesta, y ε es el error residual.

<img src=https://www.researchgate.net/publication/311548169/figure/fig4/AS:667625285763081@1536185680916/Figura-6-Modelo-de-regresion-lineal-con-dos-regresores.png width="400">


#### Regresiones Logística (Clasificación):
La Regresión Logística es un algoritmo de clasificación que se utiliza para **predecir** la probabilidad de una **variable dependiente categórica**. En la regresión logística, la variable dependiente es una variable binaria que contiene datos codificados como 1 – 0, sí – no, abierto – cerrado, etc.

<img src=https://conceptosclaros.com/wp-content/uploads/2019/01/curva-logistica-wikipedia.jpg width="400">

El resultado o variable objetivo es de naturaleza dicotómica. Dicotómica significa que solo hay **dos clases posible**s. Por ejemplo, se puede utilizar para problemas de detección de cáncer o calcular la probabilidad de que ocurra un evento.

<img src=https://www.juanbarrios.com/wp-content/uploads/2019/07/MATRIZ-CONFUSION-400x358.png width="400">

~~~
                                      - Instanciar el modelo:
                                        logisticRegr = LogisticRegression(max_iter=10000)
                                        # entrenamiento
                                        logisticRegr.fit(X_train, y_train)
                                        
                                      - Testeo del modelo
                                        y_pred = logisticRegr.predict(X_test)
~~~

## **Modelos No-Paramétricos**
Un modelo no paramétrico es un tipo de modelo que **no hace suposiciones** explícitas sobre la forma de la **distribución** subyacente de los **dato**s. A diferencia de los modelos paramétricos, los modelos no paramétricos **no requieren** que se especifique una **función de probabilidad** o una **distribución específica**.

En cambio, los modelos no paramétricos se basan en algoritmos y técnicas de aprendizaje automático que utilizan los datos para aprender la estructura subyacente de los mismos. Estos modelos **son útiles** cuando **no** se tiene conocimiento previo de la **distribución de los datos o cuando la forma de la distribución es muy compleja** para ser descrita por una función de probabilidad simple.

**Algunos Modelos:**

1. **Árboles de decisión:** Estos modelos dividen los datos en subconjuntos cada vez más pequeños utilizando reglas de decisión basadas en las características de los datos.


2. **K vecinos más cercanos (KNN):** Este modelo clasifica nuevos puntos de datos según la clase a la que pertenecen los puntos de datos más cercanos.


3. **Redes neuronales artificiales:** Estos modelos imitan el funcionamiento del cerebro humano mediante la conexión de neuronas artificiales y son utilizados para problemas de clasificación y regresión.


4. **Máquinas de vectores de soporte (SVM):** Estos modelos se utilizan para la clasificación y regresión y encuentran la mejor separación entre las clases al maximizar la distancia entre las clases.


5. **Métodos de clustering:** Estos modelos agrupan los datos en grupos o clústeres basados en similitudes entre los datos.

###  Modelo KNN
Es un modelo de aprendizaje supervisado que se basa en la **cercanía de los puntos de datos** en el espacio de características para clasificar o **predecir** nuevos puntos de datos. Se asume que los puntos de datos similares se agrupan en la misma clase o tienen valores de respuesta similares.

En KNN, se busca **clasificar o predecir** el valor de un punto de datos desconocido **utilizando la información de los puntos de datos más cercanos** en el espacio de características

<img src=https://helloacm.com/wp-content/uploads/2016/03/2012-10-26-knn-concept.png width="400">

~~~~
from sklearn.neighbors import KNeighborsClassifier

- Crear un objeto de clasificador KNN con k=3 (nº vecinos)
  knn = KNeighborsClassifier(n_neighbors=3)

- Ajustar el clasificador a los datos de entrenamiento
  knn.fit(X_train, y_train)

- Clasificar un nuevo punto de datos
  X_new = []
  y_pred = knn.predict(X_new)
~~~~

### Arbol de Decisión (Decision Tree)
Un modelo de árbol de decisión es un modelo predictivo que se construye a partir de un conjunto de datos de entrenamiento, en el que cada nodo interno representa una característica del conjunto de datos y cada hoja representa una clase de respuesta. El objetivo es maximizar la ganancia de información (o reducción en la entropía) en cada división, lo que significa que el árbol se divide de tal manera que la cantidad de incertidumbre o desorden en el conjunto de datos se reduce tanto como sea posible.

El modelo se utiliza para hacer predicciones sobre nuevos datos al clasificarlos según la ruta tomada desde la raíz hasta la hoja correspondiente. Los modelos de árbol de decisión son populares debido a su facilidad de interpretación y capacidad para manejar una mezcla de tipos de datos, pero también pueden sufrir de sobreajuste si se construyen árboles demasiado grandes y complicados.

<img src=https://www.grupodabia.com/post/2020-05-19-arbol-de-decision/arbol-decision.png width="600">

~~~~
arbol = DecisionTreeClassifier(criterion='gini', max_depth=depth, min_samples_leaf=1, min_samples_split=2, ccp_alpha=0)
arbol.fit(X_train, y_train)
~~~~
- **criterion:** criterio utilizado para evaluar la calidad de la división de los nodos del árbol. 


    - "gini": para utilizar el índice de impureza de Gini como criterio de división. Es el valor por defecto si no se especifica nada.
    

    - "entropy": para utilizar la entropía como criterio de división.
    
    "Ambos criterios miden la homogeneidad de las muestras en un nodo. El criterio de Gini tiende a ser un poco más rápido en términos de tiempo de ejecución, mientras que el criterio de entropía tiende a favorecer las particiones que producen clases más uniformes en los nodos del árbol."
    

- **max_depth:** la profundidad máxima del árbol. Esto limita el número de niveles que puede tener el árbol.


- **min_samples_leaf:** el número mínimo de muestras requeridas para que un nodo sea considerado una hoja (un nodo terminal). Si el número de muestras en un nodo es menor que este valor, no se permitirá la división adicional.


- **min_samples_split:** el número mínimo de muestras requeridas para que un nodo pueda ser dividido en dos hijos. Si el número de muestras en un nodo es menor que este valor, la división no se realizará.

    "*min_samples_leaf* se refiere al número mínimo de muestras que deben estar en un nodo hoja del árbol. Un nodo hoja es aquel que no tiene ramificaciones adicionales, es decir, es un nodo terminal. Si después de una división, el número de muestras en un nodo es menor que el valor de min_samples_leaf, entonces la división no se realiza y el nodo se convierte en una hoja. Es decir, si min_samples_leaf está establecido en 1, entonces el árbol se dividirá hasta que todas las hojas tengan una sola muestra.

    Por ejemplo, si en una base de datos de flores, se establece min_samples_leaf en 5, significa que cada hoja del árbol debe tener al menos 5 muestras. Si durante la construcción del árbol, en un nodo se encuentra que solo hay 3 muestras, la división no se realizará y el nodo se convertirá en una hoja.

    *min_samples_split*, por otro lado, se refiere al número mínimo de muestras que se requieren para que un nodo pueda dividirse. Es decir, si el número de muestras en un nodo es menor que min_samples_split, entonces no se puede realizar una división y ese nodo se convierte en una hoja.

    Por ejemplo, si en una base de datos de coches, se establece min_samples_split en 10, significa que se necesitan al menos 10 muestras para que un nodo se pueda dividir en dos. Si en un nodo hay solo 8 muestras, la división no se realizará y ese nodo se convertirá en una hoja.

En resumen, **min_samples_leaf y min_samples_split** son parámetros que controlan la complejidad del modelo de árbol de decisión y **previenen el sobreajuste**. Al aumentar estos valores, se reduce la profundidad del árbol y se limita la capacidad del modelo para memorizar los datos de entrenamiento. Por otro lado, si estos valores son demasiado grandes, el modelo podría ser demasiado simple y tener un rendimiento inferior en los datos de prueba.

- **ccp_alpha:** parámetro de complejidad basada en costo (Cost-Complexity Pruning) utilizado para podar el árbol. Un valor mayor de ccp_alpha aumenta la cantidad de poda en el árbol, lo que puede ayudar a prevenir el sobreajuste.

## Modelos NO-Supervisados

## Modelos Por Refuerzo

# **Evaluación del Modelo.**

Las medidas de evaluación de un modelo son una forma de medir el rendimiento o la capacidad predictiva de un modelo de aprendizaje automático. Estas medidas proporcionan información sobre qué tan bien el modelo puede generalizar a nuevos datos y predecir resultados precisos.

<img src=https://miro.medium.com/v2/resize:fit:640/format:webp/1*tBErXYVvTw2jSUYK7thU2A.png width="800">

## Evaluación de Regresión (errores)

- **El Error Cuadrático Medio (MSE, por sus siglas en inglés):** mide el promedio de los errores al cuadrado entre las predicciones del modelo y los valores reales. Es útil para modelos en los que se quiere penalizar más los errores grandes. Sin embargo, al elevar al cuadrado los errores, el MSE puede verse afectado por valores atípicos en los datos.

                                        r2_score(y_train, y_pred)


- **La Raíz del Error Cuadrático Medio (RMSE, por sus siglas en inglés):** es la raíz cuadrada del MSE. Se utiliza para obtener una métrica que tenga las mismas unidades que la variable objetivo, lo que facilita la interpretación de los resultados. Al igual que el MSE, el RMSE puede verse afectado por valores atípicos.

                                np.sqrt(mean_squared_error(y_train, y_pred))

- **El Error Absoluto Medio (MAE, por sus siglas en inglés):** mide el promedio de las diferencias absolutas entre las predicciones del modelo y los valores reales. Es útil para modelos en los que se quiere penalizar por igual los errores grandes y pequeños. Al no elevar al cuadrado los errores, el MAE no se ve afectado por valores atípicos en los datos.

                                    mean_squared_error(y_train, y_pred)

En resumen, la elección de la métrica dependerá del tipo de problema y del contexto en el que se está trabajando. En algunos casos, puede ser más apropiado utilizar el MSE o el RMSE, mientras que en otros casos el MAE puede ser una mejor opción. En general, es recomendable utilizar varias métricas para evaluar el modelo y obtener una visión más completa de su rendimiento.

## Evalución de Logistica (Clasificación).

**Comunes**
- **Exactitud (Accuracy):** mide la proporción de predicciones correctas del modelo, es decir, la cantidad de observaciones clasificadas correctamente en comparación con el número total de observaciones.


- **Precisión (Precision):** mide la proporción de verdaderos positivos (TP) entre todas las predicciones positivas, es decir, la capacidad del modelo de no clasificar incorrectamente una observación negativa como positiva.


- **Sensibilidad (Recall):** mide la proporción de verdaderos positivos (TP) entre todas las observaciones positivas, es decir, la capacidad del modelo de identificar correctamente todas las observaciones positivas.


- **F1 score:** es una medida que combina la precisión y la sensibilidad para proporcionar una medida única del rendimiento del modelo.

<img src=https://upload.wikimedia.org/wikipedia/commons/thumb/2/26/Precisionrecall.svg/800px-Precisionrecall.svg.png width="300">

- **AUC-ROC:** mide el área bajo la curva de la curva ROC (Receiver Operating Characteristic) y proporciona una medida de la capacidad del modelo para discriminar entre las clases positiva y negativa.


<img src=https://www.themachinelearners.com/wp-content/uploads/2020/12/roc-curve-v2.png width="500">


~~~~
logit_roc_auc = roc_auc_score(y_test, logisticRegr.predict(X_test_final))
fpr, tpr, thresholds = roc_curve(y_test, logisticRegr.predict_proba(X_test_final)[:,1])
~~~~

**Otros**
- **AUC-PR (área bajo la curva precision-recall):** es una medida de evaluación utilizada en problemas de clasificación binaria para evaluar la calidad del modelo al predecir la clase positiva en lugar de la negativa. Es especialmente útil en casos donde la clase positiva es rara.


- **Log-loss:** es una medida de evaluación que se utiliza en problemas de clasificación para evaluar la capacidad del modelo para predecir la probabilidad de que una instancia pertenezca a una clase determinada.


- **Brier score:** es una medida de evaluación que mide la diferencia entre las probabilidades predichas y las observadas. Se utiliza para evaluar la calidad de las predicciones de probabilidades en problemas de clasificación.


- **Cohen's kappa:** es una medida de evaluación utilizada en problemas de clasificación para medir la concordancia entre dos clasificadores. Es especialmente útil cuando las clases no están equilibradas.


- **MCC (Matthews Correlation Coefficient):** es una medida de evaluación utilizada en problemas de clasificación binaria para medir la calidad de la clasificación. MCC toma en cuenta los cuatro valores de la tabla de confusión y se considera una medida más equilibrada que la exactitud en problemas con clases desequilibradas.


- **Gini coefficient:** es una medida de evaluación que mide la diferencia entre la curva de Lorenz y la línea de igualdad. Se utiliza en problemas de clasificación binaria para evaluar la calidad del modelo.


- **KS (Kolmogorov-Smirnov) statistic:** es una medida de evaluación utilizada en problemas de clasificación binaria para medir la calidad de la clasificación. Mide la distancia máxima entre las funciones de distribución acumulativa de la clase positiva y la clase negativa.


- **RMSE (Root Mean Squared Error):** es una medida de evaluación utilizada en problemas de regresión para evaluar la calidad del modelo. Mide la diferencia entre los valores observados y los valores predichos por el modelo.


- **MAE (Mean Absolute Error):** es una medida de evaluación utilizada en problemas de regresión para evaluar la calidad del modelo. Mide la diferencia absoluta entre los valores observados y los valores predichos por el modelo.


- **R-squared (coeficiente de determinación):** es una medida de evaluación utilizada en problemas de regresión para evaluar la calidad del modelo. Mide la proporción de la varianza en la variable dependiente que se explica por la variable independiente.


- **Explained variance score:** es una medida de evaluación utilizada en problemas de regresión para evaluar la calidad del modelo. Mide la proporción de la varianza en la variable dependiente que se explica por el modelo.


- **Mean squared logarithmic error:** es una medida de evaluación utilizada en problemas de regresión para evaluar la calidad del modelo. Mide la diferencia entre los valores observados y los valores predichos por el modelo utilizando una escala logarítmica.


- **Mean Poisson deviance:** es una medida de evaluación utilizada en problemas de regresión de Poisson para evaluar la calidad del modelo. Mide la diferencia entre los valores observados y los valores predichos por el modelo utilizando la distribución de Poisson.


- **Mean gamma deviance:** es una medida de evaluación utilizada en problemas de regresión gamma para evaluar la calidad del modelo. Mide la diferencia entre los valores observados y los valores predichos por el modelo utilizando la distribución gamma.


- **Mean absolute percentage error (MAPE):** es una medida de evaluación utilizada en problemas de regresión para evaluar la calidad del modelo. Mide el porcentaje promedio de la diferencia absoluta entre los valores observados y los valores predichos por el modelo en relación con los valores observados.


- **Symmetric mean absolute percentage error (SMAPE):** es una medida de evaluación utilizada en problemas de regresión para evaluar la calidad del modelo. Mide el porcentaje promedio de la diferencia absoluta simétrica entre los valores observados y los valores predichos por el modelo en relación con los valores observados.


- **Mean absolute scaled error (MASE):** es una medida de evaluación utilizada en problemas de series de tiempo para evaluar la calidad del modelo. Mide la capacidad del modelo para predecir valores futuros en relación con la precisión de una predicción ingenua.


- **Mean directional accuracy (MDA):** es una medida de evaluación utilizada en problemas de clasificación multiclase para evaluar la calidad del modelo. Mide la capacidad del modelo para predecir la dirección correcta de un cambio en la variable de respuesta

### RESIDUOS
En el contexto de un modelo estadístico, los residuos son la diferencia entre los valores observados y los valores predichos por el modelo. Matemáticamente, si y es el valor observado y f(x) es el valor predicho por el modelo para una observación con un valor de entrada x, el residuo (r) para esa observación se calcula como:

<img src=https://www.maximaformacion.es/wp-content/uploads/2021/07/que-son-los-residuos-en-un-modelo-de-regresion.jpg width="400">

~~~~
                                            r = y - f(x)

                                  - Calculamos los residuos del modelo
                                    residuos_modelo = y_train - y_modelo

                                  - Realizamos el gráfico
                                    plt.figure(figsize=(10,7))
                                    plt.scatter(x=y_modelo, y=residuos_modelo, alpha=0.6, c='royalblue', edgecolor='black')
                                    plt.axhline(y=0, c='black', ls='--', linewidth=2.5)
                                    plt.title("Modelo Superficie y Baños");

~~~~

# Selección del Mejor Modelo 

- **R-cuadrado ajustado (Adjusted R-squared):** Este criterio mide el ajuste del modelo en términos de la cantidad de variabilidad de la variable objetivo explicada por el modelo en relación a la variabilidad total de la variable objetivo, ajustando por el número de variables en el modelo. Valores más altos de R-cuadrado ajustado indican un mejor ajuste del modelo.<br><br>
- **Criterio de información de Akaike (Akaike Information Criterion, AIC):** Este criterio mide la calidad del modelo en términos de la capacidad predictiva y la complejidad del modelo, ajustando por el número de observaciones en el conjunto de datos. Valores más bajos de AIC indican un mejor ajuste del modelo.<br><br>
- **Criterio de información bayesiano (Bayesian Information Criterion, BIC)**: Este criterio es similar al AIC, pero penaliza más fuertemente los modelos más complejos. Valores más bajos de BIC indican un mejor ajuste del modelo.<br><br>
- **Error cuadrático medio (Mean Squared Error, MSE):** Este criterio mide la calidad del modelo en términos de la precisión de las predicciones del modelo, en comparación con los valores reales. Valores más bajos de MSE indican un mejor ajuste del modelo.<br><br>
- **Validación cruzada (Cross-validation):** Este criterio implica dividir el conjunto de datos en subconjuntos de entrenamiento y prueba, ajustando el modelo en el subconjunto de entrenamiento y evaluando la precisión de las predicciones en el subconjunto de prueba. El mejor modelo es aquel que tiene el menor error de predicción en el conjunto de prueba.<br><br>