# Conclusiones y Recomendaciones

## 1. Resumen del Proyecto

En este proyecto se buscó predecir la facturación total que un usuario pagará en el próximo mes para la empresa TelcoAndes, utilizando datos de consumo (llamadas, mensajes e internet), características del usuario (edad, ciudad, etc.) y detalles del plan (minutos, mensajes y MB incluidos, tarifas, etc.). 

El proceso se dividió en las siguientes etapas:
- **EDA:** Se exploraron las tablas de USUARIOS, LLAMADAS, MENSAJES, INTERNET y PLANES para identificar la estructura, distribución y calidad de los datos.
- **Data Wrangling:** Se limpiaron y unificaron las tablas, transformando variables de fecha y agregando los consumos totales por usuario.
- **Feature Engineering:** Se generaron variables derivadas (por ejemplo, consumo extra) y se definió la variable objetivo "facturación", calculada como la suma del costo base del plan y los costos extra por consumo.
- **Modelado y Evaluación:** Se entrenaron modelos de regresión (LinearRegression, SGDRegressor y Ridge) sobre los datos escalados, y se evaluaron usando métricas (RMSE, MAE, R²) y validación cruzada. Se descartó el uso de la regresión polinomial, ya que generaba sobreajuste y un \( R^2 \) perfecto en el conjunto de test, lo que indicaba data leakage o un ajuste excesivo.

## 2. Resultados y Evaluación de Modelos

Los resultados obtenidos fueron los siguientes:

- **LinearRegression:**
  - RMSE de Test: ≈ 76.49
  - \( R^2 \) de Test: 0.9851
  - RMSE en validación cruzada: ≈ 69.50 (Std ≈ 9.44)

- **SGDRegressor:**
  - RMSE de Test: ≈ 77.10
  - \( R^2 \) de Test: 0.9849

- **Ridge Regression:**
  - RMSE de Test: ≈ 76.74
  - \( R^2 \) de Test: 0.9850
  - RMSE en validación cruzada: ≈ 69.50 (Std ≈ 9.44)

Estos resultados indican que los modelos lineales se comportan de forma consistente, con errores moderados y un alto \( R^2 \) (alrededor del 98.5%), lo que sugiere que la relación entre las variables explicativas y la facturación es muy fuerte.

## 3. Por Qué Descartamos la Regresión Polinomial

Durante el análisis se probó también la regresión polinomial (grado 2) mediante un pipeline con `PolynomialFeatures` y `LinearRegression`. Los resultados mostraron:
- RMSE de Test y \( R^2 \) prácticamente perfectos (RMSE ≈ 0 y \( R^2 = 1.0 \)) en el conjunto de test.
- Sin embargo, en validación cruzada el RMSE fue significativamente mayor (≈ 0.29), lo que indica que el modelo no generalizaba bien.

Esto se debió a que:
- La regresión polinomial genera términos de interacción y cuadrados que, en nuestro caso, permitieron al modelo reconstruir casi perfectamente el target en el conjunto de test. Esto es un claro signo de **sobreajuste (overfitting)**.
- Es probable que algunas de las variables derivadas que se incluyeron en las features reprodujeran de manera directa la facturación (por ejemplo, si se incluyeran componentes como `total_extra_cost`), lo que causaba data leakage en ese modelo.
- Dado que el objetivo era tener un modelo robusto y generalizable, decidimos descartar la regresión polinomial y optar por modelos lineales más simples (LinearRegression, SGDRegressor y Ridge), que muestran un desempeño consistente y realista.

## 4. Recomendaciones de Negocio

Con base en estos hallazgos, se pueden extraer las siguientes recomendaciones para TelcoAndes:
- **Optimización de Precios:** Los modelos lineales muestran una alta capacidad predictiva, lo que permite confiar en la predicción de la facturación para diseñar estrategias de precios.
- **Segmentación de Usuarios:** Con las dimensiones de usuario (edad, ciudad, plan), se pueden identificar segmentos con mayor o menor consumo extra, permitiendo ofertas o promociones personalizadas.
- **Monitoreo y Actualización:** Se recomienda actualizar el modelo periódicamente para capturar cambios en el comportamiento de consumo y en las tarifas de los planes.

## 5. Conclusión Final

El proyecto demuestra que, con un adecuado proceso de limpieza, integración y transformación de datos, es posible predecir con alta precisión la facturación total de los usuarios. Se observó que los modelos lineales (LinearRegression y Ridge) ofrecen resultados consistentes y realistas, mientras que la regresión polinomial, a pesar de su capacidad de ajuste, incurre en sobreajuste y data leakage, por lo que fue descartada.  

Estos hallazgos y recomendaciones pueden ser la base para estrategias de optimización de precios y segmentación de mercado que ayuden a maximizar los ingresos y la satisfacción del cliente en TelcoAndes.