# Universidad Central


##  Curso Transformación Digital a través de la Inteligencia Artificial

## ***Predicción de la Rotación de Clientes (Churn) en una Empresa de Telecomunicaciones***


# **1. Planteamiento del Problema**

+ **Descripción:** En el sector de telecomunicaciones, la
retención de clientes es clave para la sostenibilidad del negocio. La capacidad de predecir qué clientes están en riesgo de abandonar permite a la empresa tomar decisiones proactivas, como por ejemplo ofrecer promociones específicas o mejorar la calidad del servicio.

+ **Objetivo del Proyecto:** Desarrollar un modelo de predicción que permita identificar clientes con alta probabilidad de abandonar los servicios de una empresa de telecomunicaciones (*churn*), utilizando datos históricos y técnicas aprendidas durante el curso. Este proyecto integrará preprocesamiento de datos, análisis exploratorio, diseño y evaluación de modelos, y una presentación estructurada de los resultados.


## **1.1 Preparación del entorno**

+ ###  Importar librerías


In [10]:
# montar drive
#from google.colab import drive #: Integración con Google Drive

#Importación de librerías
import pandas as pd  #Manipulación y análisis de datos estructurados (similar a Excel en Python).
import matplotlib.pyplot as plt # Gráficos de barras, dispersión,...
import seaborn as sns # Visualización estadística
import matplotlib.ticker as ticke
import matplotlib.pyplot as plt
import matplotlib.image as mpimg  # ¡Esta línea faltaba!
# drive.mount('/content/drive') # Acceder a google Drive desde Colab
# img_path = '/content/drive/MyDrive/ProyectoIA/img/la-satisfaccion-del-cliente.gif'
# img = mpimg.imread(img_path)
# plt.imshow(img)
# plt.axis('off')  # Oculta los ejes
# plt.show()

# **2. Exploración y Preprocesamiento de Datos**


## 2.1 Análisis Exploraotrios

###  Lectura de los datos

In [11]:
# Cargar el conjunto de datos
# archivo = "/content/drive/MyDrive/ProyectoIA/WA_Fn-UseC_-Telco-Customer-Churn.csv" #Ruta donde se encuentra almacenada la información
archivo = "./WA_Fn-UseC_-Telco-Customer-Churn.csv" #Ruta donde se encuentra almacenada la información
df = pd.read_csv(archivo)

###Acerca del conjunto de datos

#### **Contexto**

Predecir el comportamiento para fidelizar a los clientes. Puede analizar todos los datos relevantes de los clientes y desarrollar programas de fidelización específicos. **[Conjuntos de datos de muestra de IBM]**

#### **Contenido**

Cada fila representa un cliente, cada columna contiene los atributos del cliente descritos en la columna Metadatos.

***El conjunto de datos incluye información sobre:***

+ Clientes que se fueron durante el último mes: la columna se llama **Churn**

+ Servicios a los que se ha suscrito cada cliente: teléfono, líneas múltiples, Internet, seguridad en línea, copia de seguridad en línea, protección de dispositivos, soporte técnico y transmisión de TV y películas.

+ Información de la cuenta del cliente: cuánto tiempo ha sido cliente, contrato, método de pago, facturación electrónica, cargos mensuales y cargos totales

+ Información demográfica sobre los clientes: género, rango de edad y si tienen parejas y dependientes.

*https://www.kaggle.com/datasets/blastchar/telco-customer-churn*

### Información General de los Datos

Del resultado de la función ***.info*** se obtiene la siguiente información del conjunto de datos a analizar

1.  Contiene 7043 filas (**Registros**)
2.  Contiene 1 elemento tipo float64
3.  Contiene 2 elementos tipo int64
4.  Contiene 18 elementos tipo object (*string*)
5.  Contiene 21 columnas
6.  No tiene valores null



In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


In [13]:
# Crear una tabla que combine información de las columnas y valores nulos
summary = pd.DataFrame({
    'Non-Null Count': df.notnull().sum(),
    'Null Count': df.isnull().sum(),
    'Data Type': df.dtypes
})

# Mostrar el resultado
print(summary)

                  Non-Null Count  Null Count Data Type
customerID                  7043           0    object
gender                      7043           0    object
SeniorCitizen               7043           0     int64
Partner                     7043           0    object
Dependents                  7043           0    object
tenure                      7043           0     int64
PhoneService                7043           0    object
MultipleLines               7043           0    object
InternetService             7043           0    object
OnlineSecurity              7043           0    object
OnlineBackup                7043           0    object
DeviceProtection            7043           0    object
TechSupport                 7043           0    object
StreamingTV                 7043           0    object
StreamingMovies             7043           0    object
Contract                    7043           0    object
PaperlessBilling            7043           0    object
PaymentMet

In [14]:
df.isnull().sum()

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

### Variables

+ **customerID:**
+ **gender',
+ 'SeniorCitizen',
+ 'Partner',
+ 'Dependents',
+ 'tenure',
+ 'PhoneService',
+ 'MultipleLines',
+ 'InternetService',
+ 'OnlineSecurity',
+ 'OnlineBackup',
 'DeviceProtection',
 'TechSupport',
 'StreamingTV',
 'StreamingMovies',
 'Contract',
 'PaperlessBilling',
 'PaymentMethod',
 'MonthlyCharges',
 'TotalCharges',
 'Churn'


------------------------------



In [None]:
#Ver los 5 primeros registros del conjunto de datos
df.head(5)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


#  Identificación de la Tipología de Variables y Valores Faltantes

In [None]:

data_types = df.dtypes
missing_values = df.isnull().sum()
duplicates = df.duplicated().sum()

summary = pd.DataFrame({
    "Data Type": data_types,
    "Missing Values": missing_values
}).sort_values(by="Missing Values", ascending=False)

print("Duplicated Rows:", duplicates)
print(summary)



Duplicated Rows: 0
                 Data Type  Missing Values
customerID          object               0
gender              object               0
SeniorCitizen        int64               0
Partner             object               0
Dependents          object               0
tenure               int64               0
PhoneService        object               0
MultipleLines       object               0
InternetService     object               0
OnlineSecurity      object               0
OnlineBackup        object               0
DeviceProtection    object               0
TechSupport         object               0
StreamingTV         object               0
StreamingMovies     object               0
Contract            object               0
PaperlessBilling    object               0
PaymentMethod       object               0
MonthlyCharges     float64               0
TotalCharges        object               0
Churn               object               0


# **Análisis descriptivo**


+  Informe general de los datos



In [None]:
print("\nInformación del dataset:")
df.info()
df.shape


Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling

(7043, 21)

## Estadísticas descriptivas

In [None]:
print("\nEstadísticas descriptivas:")
df.describe() .round(5)


Estadísticas descriptivas:


Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges
count,7043.0,7043.0,7043.0
mean,0.16215,32.37115,64.76169
std,0.36861,24.55948,30.09005
min,0.0,0.0,18.25
25%,0.0,9.0,35.5
50%,0.0,29.0,70.35
75%,0.0,55.0,89.85
max,1.0,72.0,118.75


+ media del área

$$\bar{x} = \dfrac{\sum_{i=1}^{n} x_i}{n} = 2184$$


#  Medidas de Tendencia Central, asimetría y curtosis

In [None]:

numerical_columns = df.select_dtypes(include=["float64", "int64"]).columns
statistics = df[numerical_columns].agg(['mean', 'median', 'std', 'var', 'min', 'max', 'skew', 'kurt']).transpose()
statistics.rename(columns={
    "mean": "Mean",
    "median": "Median",
    "std": "Standard Deviation",
    "var": "Variance",
    "min": "Minimum",
    "max": "Maximum",
    "skew": "Skewness",
    "kurt": "Kurtosis"
}, inplace=True)

print("\nMedidas de tendencia central y dispersión:\n", statistics)




Medidas de tendencia central y dispersión:
                      Mean  Median  Standard Deviation    Variance  Minimum  \
SeniorCitizen    0.162147    0.00            0.368612    0.135875     0.00   
tenure          32.371149   29.00           24.559481  603.168108     0.00   
MonthlyCharges  64.761692   70.35           30.090047  905.410934    18.25   

                Maximum  Skewness  Kurtosis  
SeniorCitizen      1.00  1.833633  1.362596  
tenure            72.00  0.239540 -1.387372  
MonthlyCharges   118.75 -0.220524 -1.257260  


+ Medidas de tendencia central: media, mediana

+ Medida de dispersión: varianza, desviación estandar

$$
s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1}
$$

$$
s = \sqrt{\frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n-1}}
$$

#  Análisis Gráfico Univariado y Bivariado

In [None]:
# Análisis de precios
plt.figure(figsize=(12, 6))
sns.histplot(df['PRICE'], bins=50, kde=True, color="#99BADD")
plt.title('Distribución de Precios de Propiedades')
plt.xlabel('Precio (USD)')
plt.ylabel('Frecuencia')
#plt.xscale('log')  # Usar escala logarítmica por la amplia dispersión de precios
plt.show()

KeyError: 'PRICE'

<Figure size 1200x600 with 0 Axes>

In [None]:
plt.figure(figsize=(12, 6))

# Convertir a millones y crear el histograma
sns.histplot(df['PRICE']/100000, bins=50, kde=True, color='tomato')

# Configurar el formato de los millones en el eje X
def millones_formatter(x, pos):
    return f'${x:.1f}M'

plt.gca().xaxis.set_major_formatter(ticker.FuncFormatter(millones_formatter))

# Personalización avanzada
plt.title('Distribución de Precios de Propiedades (en millones de USD)',
          fontsize=14, pad=20, fontweight='bold')
plt.xlabel('Precio (Millones de USD)', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.3)

# Ajustar los límites si hay valores extremos
plt.xlim(left=0)  # Comenzar desde 0

# Mostrar el gráfico
plt.tight_layout()
plt.show()

# Top 5 de propiedades más caras

In [None]:
# Top 5 propiedades más caras
top_5_expensive = df.nlargest(5, 'PRICE')[['ADDRESS', 'PRICE', 'TYPE', 'BEDS', 'BATH']]
print("\nTop 5 propiedades más caras:")
print(top_5_expensive)

# Análisis por tipo de propiedad

In [None]:
# Análisis por tipo de propiedad
plt.figure(figsize=(12, 6))
sns.countplot(data=df, y='TYPE', order=df['TYPE'].value_counts().index,color='#00FFFF')
plt.title('Distribución por Tipo de Propiedad')
plt.xlabel('Cantidad')
plt.ylabel('Tipo de Propiedad')
plt.show()

# Precio promedio por tipo de propiedad

In [None]:
# Precio promedio por tipo de propiedad
plt.figure(figsize=(12, 6))
sns.barplot(data=df, x='TYPE', y='PRICE', estimator='mean',color="#66FF00")
plt.title('Precio Promedio por Tipo de Propiedad')
plt.xlabel('Tipo de Propiedad')
plt.ylabel('Precio Promedio (USD)')
plt.xticks(rotation=45)
plt.show()

# Relación entre tamaño y precio

In [None]:
# Relación entre tamaño y precio
plt.figure(figsize=(12, 6))
sns.scatterplot(data=df, x='PROPERTYSQFT', y='PRICE', hue='TYPE')
plt.title('Relación entre Tamaño y Precio')
plt.xlabel('Tamaño (sqft)')
plt.ylabel('Precio (USD)')
plt.yscale('log')
plt.show()

In [None]:
# Distribución de habitaciones y baños
fig, axes = plt.subplots(1, 2, figsize=(15, 5))
sns.countplot(data=df, x='BEDS', ax=axes[0], color="#BD33A4")
axes[0].set_title('Distribución de Habitaciones')
sns.countplot(data=df, x='BATH', ax=axes[1], color="#FF0038")
axes[1].set_title('Distribución de Baños')
plt.show()

In [None]:

sns.set(style="whitegrid")

# Distribuciones de variables numéricas
for col in numerical_columns:
    plt.figure(figsize=(10, 6))
    sns.histplot(df[col], kde=True, bins=30)
    plt.title(f'Distribución de {col}', fontsize=14)
    plt.xlabel(col)
    plt.ylabel('Frecuencia')
    plt.show()



In [None]:
# Relación con el precio
for col in numerical_columns:
    if col != 'PRICE':
        plt.figure(figsize=(10, 6))
        sns.scatterplot(data=df, x=col, y='PRICE')
        plt.title(f'Relación entre {col} y Precio', fontsize=14)
        plt.xlabel(col)
        plt.ylabel('Precio')
        plt.show()

#   Análisis de Correlación


El coeficiente de correlación (Pearson) mide la relación lineal entre dos variables

+   $-1 \leq r_{x,y}  \leq 1$

+   $r_{x,x}=1$

+   $r_{x,y}=r_{y,x}$

+   a-dimensional

+  Se interpreta el signo:

   + positivo: indica relación directa

   + negativo: indica relación inversa


+  Se interpreta la fuerza de la relación:

   + Cerca del cero: debil

   + Cerca a 1 o a -1 : fuerte   

In [None]:

correlation_matrix = df[numerical_columns].corr()
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f", linewidths=0.5)
plt.title("Matriz de Correlación entre Variables Numéricas", fontsize=14)
plt.show()



#  Tratamiento de Valores Atípicos

In [None]:

#valores atípicos
def remove_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

# Inicializar df_cleaned con una copia de df antes de usarlo
df_cleaned = df.copy()  # Crear una copia para no modificar el DataFrame original

df_cleaned = remove_outliers(df_cleaned, 'PRICE')
df_cleaned = remove_outliers(df_cleaned, 'PROPERTYSQFT')
df_cleaned = remove_outliers(df_cleaned, 'BEDS')
df_cleaned = remove_outliers(df_cleaned, 'BATH')




# Visualización antes y después para PRICE
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.boxplot(x=df['PRICE'])
plt.title('Precio - Antes de remover atípicos')

plt.subplot(1, 2, 2)
sns.boxplot(x=df_cleaned['PRICE'])
plt.title('Precio - Después de remover atípicos')
plt.show()

df_clean = df.drop_duplicates()
df_clean = df_clean[(df_clean['PRICE'] < 1e8) & (df_clean['BATH'] <= 10)]

In [None]:


# Visualización antes y después para PROPERTYSQFT
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.boxplot(x=df['PROPERTYSQFT'])
plt.title('Tamaño de propiedad - Antes de remover atípicos')

plt.subplot(1, 2, 2)
sns.boxplot(x=df_cleaned['PROPERTYSQFT'])
plt.title('Tamaño de propiedad - Después de remover atípicos')
plt.show()



In [None]:
# Visualización antes y después para BEDS
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.boxplot(x=df['BEDS'], color="violet")
plt.title('Número de dormitorios- Antes de remover atípicos')

plt.subplot(1, 2, 2)
sns.boxplot(x=df_cleaned['BEDS'], color="orange")
plt.title('Número de dormitorios- Después de remover atípicos')
plt.show()

In [None]:
# Visualización antes y después para BEDS
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.boxplot(x=df['BATH'], color="tomato")
plt.title('Número de baños- Antes de remover atípicos')

plt.subplot(1, 2, 2)
sns.boxplot(x=df_cleaned['BATH'], color="green")
plt.title('Número de baños- Después de remover atípicos')
plt.show()

# Codificación de Variables Categóricas

Colocarle números a un variable cualitativa

ej Bueno, regulra y malo
1ro crear vriables Dummy
2do quitar una
ej =
{1 bueno O no


In [None]:

categorical_columns = ['TYPE', 'STATE', 'SUBLOCALITY']
df_encoded = pd.get_dummies(df_cleaned, columns=categorical_columns, drop_first=True)

# Mostrar las primeras filas codificadas
print(df_encoded.head(4))



#  Ingeniería de Características

In [None]:
#  7. Ingeniería de Características
df_encoded['PRICE_PER_SQFT'] = df_encoded['PRICE'] / df_encoded['PROPERTYSQFT']
df_encoded['BATHS_PER_BED'] = df_encoded['BATH'] / df_encoded['BEDS']
df_encoded['BEDS_PER_SQFT'] = df_encoded['BEDS'] / df_encoded['PROPERTYSQFT']

# Visualización de las nuevas variables
print(df_encoded[['PRICE', 'PROPERTYSQFT', 'PRICE_PER_SQFT', 'BATHS_PER_BED', 'BEDS_PER_SQFT']].head())

# Modelos de regresión

+  **Regresión:**

$$y=f(x_1, x_2, \dots ,x_p)+ \varepsilon$$

+ donde $(x_1, \dots, x_p)$ son variables

+   $y:$  variable **respuesta** (dependiente)


+   $x_1.x_2,  \dots, x_p:$ variables independientes

Se debe escojer las variables, cuales son las x y cuales son las y

ej variable $y$ precio del predio en relacion de todas las otras variables, ej $x:$ área


###  Modelo de regresión lineal


$$y=\beta_0+\beta_1x_1+  \cdots + \beta_px_p+ \varepsilon$$

### Modelo estimado

Se debe entrenar el modelo para que de valores estimados a variables

$$\hat{y}=\hat{\beta}_0+\hat{\beta}_1x_1+  \cdots + \hat{\beta}_px_p$$


## Importación de librerías

In [None]:
# Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


# Función para entrenar, evaluar, graficar modelos y cálculo de métricas


En **Machine Learning**, entrenar un modelo de regresión con datos es fundamental porque permite que el algoritmo aprenda la relación entre las variables predictoras (características o features) y la variable objetivo (target).

>  0.  Tomar el 20% para entrenar y 80 de prueba (20 - 80) y si la cantidad total de datos es pequeña se debe tomar mas muestra para entrenar ej (40 - 60). Los datos de entrenamiento se toman de roma aleatorea

>  1. Aprender la Relación entre Variables
El objetivo de un modelo de regresión (como Regresión Lineal, Regresión Polinómica, etc.) es predecir un valor continuo (como precios, temperaturas, ventas, etc.).
Durante el entrenamiento, el algoritmo ajusta los parámetros del modelo (como coeficientes en regresión lineal) para minimizar el error entre las predicciones y los valores reales.



> 2. Generalizar a Datos No Vistos
El modelo debe ser capaz de hacer buenas predicciones en datos que no ha visto antes (datos de prueba o nuevos datos).
Si no se entrena correctamente, el modelo puede sufrir de sobreajuste (**overfitting**) o subajuste (**underfitting**).

> 3. Optimizar la Función de Pérdida (Loss Function)
En regresión, se usa comúnmente el Error Cuadrático Medio (MSE) como función de pérdida.
El entrenamiento busca minimizar esta función, ajustando los pesos del modelo mediante métodos como Gradiente Descendente.

> 4. Evaluar el Rendimiento del Modelo
Al entrenar con datos históricos, podemos medir métricas como:

+ $R^2$ (Coeficiente de Determinación) → Qué tan bien explica el modelo la variabilidad de los datos.

+ MAE (Error Absoluto Medio) → Magnitud promedio de los errores.

+ RMSE (Raíz del Error Cuadrático Medio) → Error en las mismas unidades que la variable objetivo.

>  5. Prevenir Sesgos y Mejorar la Precisión
Un buen entrenamiento asegura que el modelo no esté sesgado hacia ciertos patrones irrelevantes.
Técnicas como validación cruzada (cross-validation) ayudan a garantizar que el modelo generalice bien.

In [None]:
# Función para entrenar, evaluar y graficar modelos
def train_and_evaluate_model(model, X_train, X_test, y_train, y_test, title):
    """
    Entrena un modelo de regresión, evalúa su rendimiento y grafica predicciones vs. valores reales.

    Parámetros:
        model: Modelo de sklearn a entrenar.
        X_train, X_test: características de entrenamiento y prueba.
        y_train, y_test: Objetivo de entrenamiento y prueba.
        title: Título para el gráfico.

    Retorna:
        Diccionario con métricas de evaluación.
    """
    # Entrenamiento del modelo
    model.fit(X_train, y_train)

    # Predicciones
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)

    # Cálculo de métricas
    metrics = {
        "MAE_Train": mean_absolute_error(y_train, y_pred_train),
        "RMSE_Train": np.sqrt(mean_squared_error(y_train, y_pred_train)),
        "R2_Train": r2_score(y_train, y_pred_train),
        "MAE_Test": mean_absolute_error(y_test, y_pred_test),
        "RMSE_Test": np.sqrt(mean_squared_error(y_test, y_pred_test)),
        "R2_Test": r2_score(y_test, y_pred_test)
    }

      # Gráfico de predicciones vs valores reales
    plt.figure(figsize=(8, 6))
    sns.scatterplot(x=y_test, y=y_pred_test, alpha=0.6, edgecolor='k', label='Datos')
    plt.plot([y_test.min(), y_test.max()],
             [y_test.min(), y_test.max()],
             '--r',
             linewidth=2,
             label='Línea ideal')
    plt.xlabel("Precio Real", fontsize=12)
    plt.ylabel("Precio Predicho", fontsize=12)
    plt.title(f"{title} - Predicción vs Real", fontsize=14)
    plt.legend()
    plt.grid(True, linestyle='--', alpha=0.5)
    plt.show()

    return metrics

#  Preparación de los Datos

In [None]:


# Variables objetivo y predictoras para la base original
X_original = df[['BEDS', 'BATH', 'PROPERTYSQFT']]
y_original = df['PRICE']

# Variables para la base tratada (sin atípicos, codificada y con nuevas características)
X_processed = df_encoded.drop(columns=['PRICE', 'ADDRESS', 'MAIN_ADDRESS', 'BROKERTITLE', 'ADMINISTRATIVE_AREA_LEVEL_2', 'LOCALITY', 'FORMATTED_ADDRESS', 'LONG_NAME', 'STREET_NAME'], errors='ignore')
y_processed = df_encoded['PRICE']

# División train-test
# esta entreanado el 20% --> test_size=0.2, random_state=44 --> numero aleatorio para sacar muestra de 20% aleatorio
X_train_orig, X_test_orig, y_train_orig, y_test_orig = train_test_split(X_original, y_original, test_size=0.2, random_state=742025)
X_train_proc, X_test_proc, y_train_proc, y_test_proc = train_test_split(X_processed, y_processed, test_size=0.2, random_state=742025)

#  Modelos y Evaluación

+  Regresión tradicional (Mínimos Cuadrados Ordinarios)

+  Regresión Lasso (Regularización $L_1$)

+  Regresión Ridge (Regularización $L_2$)

-----------------------------------------------



###  Regresión tradicional

+  Mínimos Cuadrados Ordinarios - OLS

Función objetivo:

$$\min_{\beta} \sum_{i=1}^n (y_i-(\beta_0+\beta_1x_{i1}+\beta_2 x_{i2}+  \cdots+ \beta_{p}x_{ip}))^2$$

#### Propiedades :

+  No considera multicolinealidad

+  Solución analítica cerrada:

$$\hat{\pmb{\beta}}=(\pmb{X}'\pmb{X})^{-1}\pmb{X}'\pmb{y}$$

+  Alta varianza cuando $p \approx n$


---------------------------------------------


###  Regresión Lasso

+  Función objetivo:

$$\min_{\beta} \sum_{i=1}^n (y_i-(\beta_0+\beta_1x_{i1}+\beta_2 x_{i2}+  \cdots+ \beta_{p}x_{ip}))^2 +\lambda(|\beta_1|+ |\beta_2|+  \cdots +|\beta_p|)$$

#### Propiedades :

+  Penalización absoluta ($L1$) sobre los coeficientes

+  No tiene solución analítica cerrada (se resuelve por optimización convexa)

+  Puede producir coeficientes exactamente cero (selección de variables)

+  Comportamiento discontinuo con variables correlacionadas

------------------------------

###  Regresión Ridge

+  Función objetivo:

$$\min_{\beta} \sum_{i=1}^n (y_i-(\beta_0+\beta_1x_{i1}+\beta_2 x_{i2}+  \cdots+ \beta_{p}x_{ip}))^2 +\lambda(\beta_1^2+ \beta_2^2+  \cdots +\beta_p^2)$$

#### Propiedades :

+  Penalización cuadrática ($L2$) sobre los coeficientes

+  Solución analítica cerrada:

$$\hat{\pmb{\beta}}^{ridge}=(\pmb{X}'\pmb{X}+\lambda\pmb{I})^{-1}\pmb{X}'\pmb{y}$$

+ Nunca anula coeficientes exactamente

$$\beta_j \to 0  \hspace{5mm}  \text{cuando}  \hspace{5mm}  \lambda \to \infty$$

+ Maneja bien multicolinealidad

------------------------------

###  Propiedades Estadísticas

| Modelo | Sesgo  |Varianza|
|:-----:|:-----:|:-------:|
|  OLS	 | Bajo	  | Alta   |
| Ridge	 | Medio	| Media-Baja|
| Lasso  |	Medio-Alto	|Media|


###  Ventajas y desventajas

|Criterio	|Regresión Tradicional	| Lasso (L1)	| Ridge (L2)|
|:-------:|:---------------------:|:----------:|:---------:|
Manejo de Multicolinealidad|	❌ Pobre	|✅ Bueno (selecciona 1 variable)	|✅ Excelente (distribuye pesos)
Selección de Variables |	❌ No aplica	|✅ Sí (coeficientes = 0)	|❌ No
Estabilidad |	❌ Inestable con muchas variables	|✅ Estable |	✅ Muy estable
Interpretabilidad	|✅ Fácil	|✅ Modelos más simples	|❌ Menos interpretable
Rendimiento Predictivo |	❌ Sensible a overfitting|	✅ Bueno con datos procesados	|✅ Mejor en general

# Modelos



#  Métricas de comparación de modelos

+  $R^2=\dfrac{SCM}{SCT}*100\%$: coeficiente de determinación

$$0 \leq R^2 \leq 100\%$$

se busca el modelos con mayor coeficiente de determinación


+  $MAD=\sum_{i=1}^n \dfrac{|e_i|}{n}$

+  $MSE=\sum_{i=1}^n \dfrac{e_i^2}{n}$


+  $RMSE=\sqrt{\sum_{i=1}^n \dfrac{e_i^2}{n}}$

En las medidas basadas en $e_i$  se busca el modelos con menor valor

+  $AIC=malo-bueno=2\log(p)-2log(L)$



In [None]:
models = {
    "Regresión Lineal Múltiple": LinearRegression(),
    "Lasso (alpha=0.1)": Lasso(alpha=0.1),
    "Ridge (alpha=1.0)": Ridge(alpha=1.0)
}

results = []

In [None]:
import statsmodels.api as sm
from sklearn.base import clone


# Función modificada para incluir summary completo
def train_and_evaluate_model(model, X_train, X_test, y_train, y_test, title):
    # Entrenar modelo scikit-learn para métricas
    sklearn_model = clone(model)
    sklearn_model.fit(X_train, y_train)
    y_pred_train = sklearn_model.predict(X_train)
    y_pred_test = sklearn_model.predict(X_test)

    # Métricas de evaluación
    metrics = {
        "MAE_Train": mean_absolute_error(y_train, y_pred_train),
        "RMSE_Train": np.sqrt(mean_squared_error(y_train, y_pred_train)),
        "R2_Train": r2_score(y_train, y_pred_train),
        "MAE_Test": mean_absolute_error(y_test, y_pred_test),
        "RMSE_Test": np.sqrt(mean_squared_error(y_test, y_pred_test)),
        "R2_Test": r2_score(y_test, y_pred_test),
    }

    # Generar summary con statsmodels (solo para modelos compatibles)
    if isinstance(model, LinearRegression):
        X_train_sm = sm.add_constant(X_train)
        modelo_sm = sm.OLS(y_train, X_train_sm).fit()
        print(f"\n{'='*50}\nSummary completo para {title}\n{'='*50}")
        print(modelo_sm.summary())
    elif isinstance(model, (Lasso, Ridge)):
        print(f"\n{'='*50}\nResumen para {title} (Lasso/Ridge)\n{'='*50}")
        print("Nota: statsmodels no soporta summary directo para Lasso/Ridge")
        # Access coefficients from the fitted model (sklearn_model)
        coef_df = pd.DataFrame({
            'Variable': X_train.columns,
            'Coeficiente': sklearn_model.coef_,  # Changed to sklearn_model
            'Importancia': np.abs(sklearn_model.coef_)  # Changed to sklearn_model
        }).sort_values('Importancia', ascending=False)
        print(coef_df)
        print(f"\nIntercepto: {sklearn_model.intercept_:.2f}") # Changed to sklearn_model

    return metrics

for name, model in models.items():
    metrics = train_and_evaluate_model(model, X_train_orig, X_test_orig, y_train_orig, y_test_orig, f"{name} - Datos Originales")
    results.append({"Modelo": name + " - Original", **metrics})


# Entrenamiento y evaluación con la base original

In [None]:
for name, model in models.items():
    metrics = train_and_evaluate_model(model, X_train_orig, X_test_orig, y_train_orig, y_test_orig, f"{name} - Datos Originales")
    results.append({"Modelo": name + " - Original", **metrics})

# Entrenamiento y evaluación con la base tratada

In [None]:
# Convertir columnas  con 'object'
for col in X_train_proc.select_dtypes(include=['object']).columns:
    X_train_proc[col] = pd.to_numeric(X_train_proc[col], errors='coerce')
    X_test_proc[col] = pd.to_numeric(X_test_proc[col], errors='coerce')

# Complete los valores NaN (si los hay) con una estrategia adecuada, por ejemplo, media o mediana
X_train_proc = X_train_proc.fillna(X_train_proc.mean())
X_test_proc = X_test_proc.fillna(X_test_proc.mean())

# Aseguramos de que todas las columnas sean numéricas convirtiéndolas explícitamente a valores de punto flotante.
# Esto garantiza que, incluso si algunos valores no son numéricos (por ejemplo, cadenas), se gestionen correctamente (se convertirán a NaN y luego se rellenarán con 0).
for col in X_train_proc.columns:
    X_train_proc[col] = X_train_proc[col].astype(float)
    X_test_proc[col] = X_test_proc[col].astype(float)

for name, model in models.items():
    metrics = train_and_evaluate_model(model, X_train_proc, X_test_proc, y_train_proc, y_test_proc, f"{name} - Datos Procesados")
    results.append({"Modelo": name + " - Procesado", **metrics})

#  Métricas de comparación

In [None]:
results_df = pd.DataFrame(results)
print(round(results_df,2))

+  Comparación en entrenamiento


|Modelo | R2  |  MAD  | RMSE |
|:------:|:----:|:----:|:----:|
| Tradicional|  23\% |1523920.80 | 4569869.64 |
| Lasso    |  23\% |1523920.78 | 4569869.64 |
| Ridge    |  23\% |1523889.76 | 4569869.64 |


+  Comparación en entrenamiento (datos procesados)


|Modelo | R2  |  MAD  | RMSE |
|:------:|:----:|:----:|:----:|
| Tradicional|  90\% |118718.86 | 172334.53|
| Lasso    |  90\% |118718.47 | 172335.96  |
| Ridge    |  89\% |124039.01 |   178457.91 |


+  Comparación en prueba


|Modelo | R2  |  MAD  | RMSE |
|:------:|:----:|:----:|:----:|
| Tradicional|  1\% |3636602.94 |  69045474.86 |
| Lasso    |  1\% |3636602.92 |  69045474.86 |
| Ridge    |  1\% |3636569.94 | 69045474.92 |


+  Comparación en prueba (datos procesados)


|Modelo | R2  |  MAD  | RMSE |
|:------:|:----:|:----:|:----:|
| Tradicional|  87\% |137135.57 |   191074.38 |
| Lasso    |  87\% |118718.47 | 172335.96  |
| Ridge    |  86\% |124039.01 |   178457.91 |

# Exportar a HTML

In [None]:
from google.colab import files
import os

# Ruta CORRECTA del notebook en Google Drive (asegúrate de que coincida con tu estructura)
notebook_path = '/content/drive/MyDrive/Colab Notebooks/Copia de Ejemplo_Viviendas.ipynb'

# Verifica si el archivo existe antes de convertirlo
if not os.path.exists(notebook_path):
    raise FileNotFoundError(f"El archivo no existe en la ruta: {notebook_path}")

# 1. Convertir el notebook a HTML
!jupyter nbconvert --to html '{notebook_path}'

# 2. Obtener la ruta del archivo HTML generado (auto-detecta el nombre)
html_filename = os.path.splitext(os.path.basename(notebook_path))[0] + '.html'
html_path = f'/content/MyDrive/Colab Notebooks/{html_filename}'

# 3. Descargar el archivo (con verificación)
if os.path.exists(html_path):
    files.download(html_path)
    print(f"✅ Archivo descargado: {html_filename}")
else:
    print(f"❌ Error: No se pudo generar {html_filename}")

**Gracias:**
dbermudezr1@ucentral.edu.co