#**Regresión lineal simple**

##**Breve resumen**
La siguiente estructura es un archivo "ipynb" que importa diferentes librerías para desarrollar un caso de uso de aprendizaje automático. En primer lugar, se importan las librerías necesarias, como "os", "pandas", "numpy", "sklearn" y "statsmodels". En segundo lugar, se cargan los datos a través de la librería "pandas" y se comprueba la cantidad de datos y variables presentes. En tercer lugar, se realiza la preparación de los datos para asegurar que no contienen errores, como datos faltantes o duplicados. Se eliminan los registros con ausencias y duplicados y se comprueba el tamaño del conjunto de datos después de estos pasos de limpieza. Finalmente, se preparan las variables para cumplir con los requerimientos de entrada de los algoritmos de aprendizaje.

##**Introducción**
Este notebook tiene como finalidad realizar una regresión lienal simple con aprendizaje autómatico ("Machine Learning" por sus siglas en ingles).

La regresión lineal es una técnica estadística que se utiliza para encontrar la mejor línea recta que se ajusta a un conjunto de datos. Esta línea recta se utiliza para hacer predicciones sobre los valores desconocidos de una variable independiente a partir de los valores conocidos de otra variable. La regresión lineal es una herramienta útil para analizar la relación entre variables continuas y para predecir una variable a partir de otra variable.

Para esto necesitaremos la librería [scikit-learn](https://scikit-learn.org/stable/). Scikit-learn es una librería de Python para el aprendizaje automático. Incluye una variedad de algoritmos de aprendizaje automático como regresión lineal, regresión logística, árboles de decisión, k-vecinos, entre otros. Además, proporciona funciones para preprocesamiento de datos, como escalado, etiquetado y selección de características. La librería es fácil de usar y está diseñada para ser integrada con otras librerías de Python de ciencia de datos, como [NumPy](https://numpy.org/) y [pandas](https://pandas.pydata.org/).
La librería también cuenta con una interfaz uniforme para todos los algoritmos, lo que facilita el uso y la comparación de diferentes algoritmos, para poder elegir el mejor modelo para un conjunto de datos.
Scikit-learn es una librería ampliamente utilizada en la industria y en la investigación, y cuenta con una amplia comunidad de desarrolladores y usuarios que contribuyen a su mejora continua.

##**1. Importación de librerías**
En siguintes líneas de código se importan las librerías y herramientas necesarias para desarrollar el caso de uso:

* os: para comandos de sistema
* pandas: para manejo de datos
* numpy: para manejo de datos numéricos
* sklearn.model_selection: para separar el conjunto de aprendizaje en entrenamiento y test
* sklearn.linear_model: para construir un modelo con el algoritmo de regresión lineal
* sklearn.metrics: para determinar el rendimiento del modelo con las métricas MSE, MAE y R^2
* statsmodels.api: para generar un reporte estadístico para determinar las importancia de las variables explicativas.

In [11]:
# Librería para comandos de sistema
import os

# Librerías para manejo de datos
import pandas as pd
import numpy as np

# Librerías de aprendizaje automático
# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test
from sklearn.model_selection import train_test_split
# Para construir un modelo con el algoritmo de regresión lineal
from sklearn.linear_model import LinearRegression
# Para determinar el rendimiento del modelo con las métricas MSE, MAE y R2
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
# Para sacar un reporte estadístico que podemos usar para determinar las importancia de las variables explicativas.
import statsmodels.api as sm


##**2. Carga de los datos**
* Se cargan los datos a través de la librería "pandas" desde un archivo excel.
* Se comprueba la cantidad de datos y variables presentes en los datos.
* Se muestran los datos cargados.

In [13]:
# Carga de los datos
data = pd.read_csv('insurance.csv')

# Verificamos la cantidad de datos y número de variables
print("Cantidad de datos: ", data.shape[0])
print("Cantidad de variables: ", data.shape[1])

# Mostramos los primeros 5 datos para tener una idea de cómo se ven los datos
data.head()


Cantidad de datos:  1338
Cantidad de variables:  7


Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


##**3. Preparación de los datos**
* Se observa las características generales de los datos
* Se realizan comprobaciones para asegurar que los datos no contienen errores como datos faltantes o duplicados.
* Se eliminan los registros con ausencias y duplicados.
* Se comprueba el tamaño del conjunto de datos después de estos pasos de limpieza.
* Se preparan las variables para cumplir con los requerimientos de entrada de los algoritmos de aprendizaje.
(No se especifica qué pasos adicionales se realizan en esta sección)


In [21]:
# Para ver las caracteríticas generales de los datos, 
# usamos la siguiente instrucción
data.info()
# Con esta instrucción podemos ver el nombre de nuestras columnas,
# También se observa se tienen o no datos vacíos, 
# el número de filas y columnas, y el tipo de datos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


Desde aquí podemos ir observando que se requeriran varios cambios, en principio cambiar el nombre de las columnas y traducirlas al español.
A pesar de que no tenemos datos faltantes ejecutaremos las instrucciónes pertinenetes para cuando ocurra el caso, puedas hacerlo.
Recordemos que, la regresión lineal simple ocupa datos númericos por lo que habrá que convetir a variables dummies, nuestras variables categorícas.
Como breve recordatorio:
* int = números enteros
* float = números con decímales
* object = En este caso obedece a variables categoricas


In [22]:
# Debe tomarse en cuenta que resulta optimo realizar el procesamiento de datos 
# sobre una copia de la variable original
data_j = data

In [23]:
# Iniciamos cambiando el nombre de las variables donde:
#   age = edad
#   sex = sexo
#   ibm = imc (indice de masa corporal)
#   children = hijos (número de hijos)
#   smoker = fumador (idicador de si es fumador)
#   region = region (región donde vive)
#   charges = prima (prima del seguro)
data_j.columns = ['edad', 'sexo', 'imc', 'hijos', 'fumador', 'region', 'prima']
data_j.head()

Unnamed: 0,edad,sexo,imc,hijos,fumador,region,prima
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [24]:
# Observamos si nuestras variables tienen ausencias en de valores 
print(data_j.isna().sum()/len(data_j))

edad       0.0
sexo       0.0
imc        0.0
hijos      0.0
fumador    0.0
region     0.0
prima      0.0
dtype: float64


In [25]:
# En este caso en particular nuestra base de datos no posee valores vacíos.
# Sin embargo, se utilizaria el siguiente código sobre la base de datos si existiesen.
"data_t=data_j.dropna()"

'data_t=data_j.dropna()'

In [26]:
# Verificamos el tamaño del conjunto de datos después de este paso de limpieza de datos.
print("Cantidad de datos después de eliminar ausencias: ", data_j.shape[0])
# Naturalmente al no haber datos vacíos la base de datos seguirá con el mismo número de entradas

Cantidad de datos después de eliminar ausencias:  1338


In [27]:
# En la exploración de datos suele mostrase si hay datos duplicados,
# sin embargo, en este no es el caso, aún así cuando esto se presente,
# podemos usar la siguiente instrucción
"data_j=data_j.drop_duplicates()"
# y nuevamente observamos el tamaño del conjunto de datos después de este paso de limpieza de datos.
print("Cantidad de datos después de eliminar duplicados: ", data_j.shape[0])

Cantidad de datos después de eliminar duplicados:  1338


Un aspecto muy importante para tener en cuenta son los requerimientos de entrada de los algoritmos de aprendizaje. 
Cada uno de estos puede trabajar con un tipo de variable. 
Por ejemplo, para el algoritmo de regresión lineal todas las variables en el conjunto de datos deben ser numéricas. 
¿Que pasa si en el conjunto de datos hay variables categóricas? 
Pues se debe realizar una transformación de estas variables a un formato numérico.


In [31]:
# Hay 3 variables de tipo categorico "sexo, fumador y región"
# Se muestran las categorías de la variable "sexo" con sus frecuencias
print(pd.value_counts(data_j['sexo']))

male      676
female    662
Name: sexo, dtype: int64


In [30]:
# Se muestran las categorías de la variable "fumador" con sus frecuencias
print(pd.value_counts(data_j['fumador']))

no     1064
yes     274
Name: fumador, dtype: int64


In [32]:
# Se muestran las categorías de la variable "region" con sus frecuencias
print(pd.value_counts(data['region']))

southeast    364
southwest    325
northwest    325
northeast    324
Name: region, dtype: int64


In [33]:
# Realizamos la transformación de las variables categóricas a variables dummies
data_j = pd.get_dummies(data_j, columns=["sexo", "fumador", "region"])

# Mostramos las primeras filas de este nuevo conjunto de datos
data_j.head()

Unnamed: 0,edad,imc,hijos,prima,sexo_female,sexo_male,fumador_no,fumador_yes,region_northeast,region_northwest,region_southeast,region_southwest
0,19,27.9,0,16884.924,1,0,0,1,0,0,0,1
1,18,33.77,1,1725.5523,0,1,1,0,0,0,1,0
2,28,33.0,3,4449.462,0,1,1,0,0,0,1,0
3,33,22.705,0,21984.47061,0,1,1,0,0,1,0,0
4,32,28.88,0,3866.8552,0,1,1,0,0,1,0,0


In [35]:
data_j.columns = ['edad', 'imc', 'hijos', 'prima', 'sexo_mujer', 'sexo_hombre', 'fumador_no', 'fumador_si', 'region_noreste', 'region_noroeste', 'region_sureste', 'region_suroeste']
data_j.head()

Unnamed: 0,edad,imc,hijos,prima,sexo_mujer,sexo_hombre,fumador_no,fumador_si,region_noreste,region_noroeste,region_sureste,region_suroeste
0,19,27.9,0,16884.924,1,0,0,1,0,0,0,1
1,18,33.77,1,1725.5523,0,1,1,0,0,0,1,0
2,28,33.0,3,4449.462,0,1,1,0,0,0,1,0
3,33,22.705,0,21984.47061,0,1,1,0,0,1,0,0
4,32,28.88,0,3866.8552,0,1,1,0,0,1,0,0


##**4. Elaboración del modelo**
En este fragmento de código se  construye un modelo de regresión lineal. Primero, se selecciona la variable objetivo "prima" del conjunto de datos y se elimina de las variables independientes. Luego, se muestran las primeras filas de ambas variables. A continuación, se separan los datos en un conjunto para el entrenamiento y otro para el test. El conjunto de entrenamiento se utiliza para ajustar el modelo y el conjunto de test se utiliza para hacer predicciones y determinar el rendimiento del modelo. Finalmente, se crea un objeto de la clase LinearRegression y se ajusta el modelo con los datos de entrenamiento.

In [36]:
# Se elige la variable objetivo, en este caso "prima".
Y=data_j['prima']
# De las variables, se elimina la variable "prima".
X=data_j.drop(['prima'], axis=1)

# Mostramos las primeras filas de nuestras variables independientes
print(X.head())

# Mostramos las primeras filas de nuestra variable dependiente
print(Y.head())

   edad     imc  hijos  sexo_mujer  sexo_hombre  fumador_no  fumador_si  \
0    19  27.900      0           1            0           0           1   
1    18  33.770      1           0            1           1           0   
2    28  33.000      3           0            1           1           0   
3    33  22.705      0           0            1           1           0   
4    32  28.880      0           0            1           1           0   

   region_noreste  region_noroeste  region_sureste  region_suroeste  
0               0                0               0                1  
1               0                0               1                0  
2               0                0               1                0  
3               0                1               0                0  
4               0                1               0                0  
0    16884.92400
1     1725.55230
2     4449.46200
3    21984.47061
4     3866.85520
Name: prima, dtype: float64


Después, dividimos nuestros datos en dos conjuntos: uno para entrenar el modelo y otro para evaluar su rendimiento con nuevos datos. El conjunto de entrenamiento se usa para ajustar el modelo, mientras que el conjunto de prueba se utiliza para hacer predicciones y compararlas con los valores esperados para medir su rendimiento con una métrica seleccionada.

In [37]:
# Realizamos la división entrenamiento - test. Se deja 20% de los datos para el test.
X_train, X_test, Y_train, Y_test = train_test_split( X, Y, test_size=0.2, random_state=0)

# Creamos un objeto de la clase LinearRegression,
# para construir el modelo
modelo_regresion = LinearRegression()

# Ajustamos el modelo con los datos de entrenamiento
modelo_regresion.fit(X_train,Y_train)


LinearRegression()

##**Evaluación del modelo**
En esta parte se evaluamos el desempeño del modelo de regresión utilizando las métricas Mean-Squared-Error (MSE), Mean-Absolute-Error (MAE) y R² o Coeficiente de Determinación. Luego, se obtienen las predicciones del modelo sobre los conjuntos de entrenamiento y prueba y se calculan las métricas correspondientes. Finalmente, se entrena el modelo con todos los datos y se imprimen los coeficientes de regresión.

In [39]:
# Obtener las predicciones del modelo sobre el conjunto de entrenamiento
y_pred_train = modelo_regresion.predict(X_train)

# Obtener las métricas a partir de la predicción y la base de evaluación (valores reales)
print("MSE (Conjunto de entrenamiento): %.2f" % mean_squared_error(Y_train, y_pred_train, squared=False))
print("MAE (Conjunto de entrenamiento): %.2f" % mean_absolute_error(Y_train, y_pred_train))
print('R² (Conjunto de entrenamiento): %.2f' % r2_score(Y_train, y_pred_train))

MSE (Conjunto de entrenamiento): 6140.16
MAE (Conjunto de entrenamiento): 4234.55
R² (Conjunto de entrenamiento): 0.74


In [40]:
# Obtener las predicciones del modelo sobre el conjunto test
y_pred_test = modelo_regresion.predict(X_test)

# Obtener las métricas a partir de la predicción y la base de evaluación (valores reales)
print("MSE (Conjunto de test): %.2f" % mean_squared_error(Y_test, y_pred_test, squared=False))
print("MAE (Conjunto de test): %.2f" % mean_absolute_error(Y_test, y_pred_test))
print('R² (Conjunto de test): %.2f' % r2_score(Y_test, y_pred_test))

MSE (Conjunto de test): 5641.63
MAE (Conjunto de test): 3933.27
R² (Conjunto de test): 0.80


In [41]:
# Ajustar el modelo con todos los datos
modelo_regresion.fit(X,Y)

# Visualizar los parámetros del modelo (coeficientes de regresión)
print(modelo_regresion.coef_)

[   256.85635254    339.19345361    475.50054515     65.6571797
    -65.6571797  -11924.26727096  11924.26727096    587.00923503
    234.0453356    -448.01281436   -373.04175627]


##**6.Interpretación del modelo**
En esta parte se genera un reporte estadístico del modelo utilizando la librería statsmodels. El reporte incluye información sobre los coeficientes de regresión, los valores p, el R-cuadrada, entre otros. El ajuste del modelo se hace utilizando el método OLS (Ordinary Least Squares), el cual busca minimizar la suma de los cuadrados de las diferencias entre los valores observados y los valores predichos.

In [42]:
# Ajustar el modelo utilizando OLS (Ordinary Least Squares)
model = sm.OLS(Y, X).fit()

# Generar el reporte estadístico del modelo
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:                  prima   R-squared:                       0.751
Model:                            OLS   Adj. R-squared:                  0.749
Method:                 Least Squares   F-statistic:                     500.8
Date:                Sun, 22 Jan 2023   Prob (F-statistic):               0.00
Time:                        04:36:01   Log-Likelihood:                -13548.
No. Observations:                1338   AIC:                         2.711e+04
Df Residuals:                    1329   BIC:                         2.716e+04
Df Model:                           8                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
edad              256.8564     11.899     

###!Atención¡
Los coeficientes de regresión son los valores que indican el cambio en la variable dependiente (Y) por cada unidad de cambio en la variable independiente (X). Por ejemplo, si el coeficiente de regresión es positivo, entonces se espera que a medida que aumenta X, también aumente Y, y si es negativo, se espera que a medida que aumenta X, disminuya Y.

El valor P es utilizado para determinar la significancia estadística de los coeficientes de regresión. Un valor P bajo (menor a 0.05) sugiere que es muy probable que el coeficiente de regresión no sea cero, lo que significa que hay una relación significativa entre la variable independiente y la variable dependiente.

El R-cuadrado es una medida de bondad de ajuste del modelo, que indica qué porcentaje de la variabilidad en la variable dependiente se explica por la variable independiente. Un R-cuadrado cercano a 1 indica un buen ajuste del modelo, mientras que un R-cuadrado cercano a 0 indica un mal ajuste del modelo.

##**7.Almacenamiento del modelo**
Finalmente esta parte guarda el modelo de regresión en un archivo utilizando la librería joblib. El modelo se guarda en un archivo con el nombre "ModeloRegresion.joblib", y se puede recuperar más tarde utilizando la función load de joblib, asignando el modelo a una variable. Esto es útil ya que permite guardar el modelo entrenado y utilizarlo más tarde sin tener que volver a entrenarlo. El modelo guardado en un archivo puede ser utilizado en producción.

In [43]:
# Importar la librería joblib para guardar el modelo
import joblib

# Guardar el modelo en un archivo con el nombre "ModeloRegresion.joblib"
joblib.dump(modelo_regresion, 'ModeloRegresion.joblib')

# Cargar el modelo guardado en una variable
modelo_recuperado = joblib.load('ModeloRegresion.joblib')


##**7.Bibliografía**
* Raschka, S., & Mirjalili, V. (2018). Python Machine Learning: Machine Learning and Deep Learning with Python, scikit-learn, and TensorFlow (2nd ed.). Packt Publishing.

* Müller, A., & Guido, S. (2016). Introduction to machine learning with Python: A guide for data scientists. O'Reilly Media, Inc.

* VanderPlas, J. (2016). Python data science handbook: essential tools for working with data. O'Reilly Media, Inc.

* Medical Cost Personal Datasets (2018). Recuperado de https://www.kaggle.com/datasets/mirichoi0218/insurance/discussion