## Descripción del proyecto
Al operador de telecomunicaciones Interconnect le gustaría poder pronosticar su tasa de cancelación de clientes. Si se descubre que un usuario o usuaria planea irse, se le ofrecerán códigos promocionales y opciones de planes especiales. El equipo de marketing de Interconnect ha recopilado algunos de los datos personales de sus clientes, incluyendo información sobre sus planes y contratos.

Servicios de Interconnect

Interconnect proporciona principalmente dos tipos de servicios:

1. Comunicación por teléfono fijo. El teléfono se puede conectar a varias líneas de manera simultánea.
2. Internet. La red se puede configurar a través de una línea telefónica (DSL, *línea de abonado digital*) o a través de un cable de fibra óptica.

Algunos otros servicios que ofrece la empresa incluyen:

- Seguridad en Internet: software antivirus (*ProtecciónDeDispositivo*) y un bloqueador de sitios web maliciosos (*SeguridadEnLínea*).
- Una línea de soporte técnico (*SoporteTécnico*).
- Almacenamiento de archivos en la nube y backup de datos (*BackupOnline*).
- Streaming de TV (*StreamingTV*) y directorio de películas (*StreamingPelículas*)

La clientela puede elegir entre un pago mensual o firmar un contrato de 1 o 2 años. Puede utilizar varios métodos de pago y recibir una factura electrónica después de una transacción.

### Condiciones:

Característica objetivo: la columna `'EndDate'` es igual a `'No'`.

Métrica principal: AUC-ROC.

Métrica adicional: exactitud.

Criterios de evaluación:

- AUC-ROC < 0.75 — 0 SP
- 0.75 ≤ AUC-ROC < 0.81 — 4 SP
- 0.81 ≤ AUC-ROC < 0.85 — 4.5 SP
- 0.85 ≤ AUC-ROC < 0.87 — 5 SP
- 0.87 ≤ AUC-ROC < 0.88 — 5.5 SP
- AUC-ROC ≥ 0.88 — 6 SP

### Descripción de los datos 

Los datos consisten en archivos obtenidos de diferentes fuentes:

- `contract.csv` — información del contrato;
- `personal.csv` — datos personales del cliente;
- `internet.csv` — información sobre los servicios de Internet;
- `phone.csv` — información sobre los servicios telefónicos.

En cada archivo, la columna `customerID` (ID de cliente) contiene un código único asignado a cada cliente. La información del contrato es válida a partir del 1 de febrero de 2020.

## Análisis exploratorio de datos (Python)
### Etapas
Como analista de datos, el trabajo consiste en analizar conjuntos de datos para extraer información valiosa que permita tomar decisiones informadas. Este proceso implica varias etapas cruciales, entre ellas:

Una descripción general de los datos

El preprocesamiento de los datos

La prueba de hipótesis

### Inicialización e importación de librerias 
    - Importar librerías de pandas para crear graficas
    - Leer el conjunto de datos utilizamos pd.read_csv
      
### Cargar datasets
    - Identificamos el delimitador sep=";" para leer adecuadamente las tablas

### Exploración inicial de datos
    - Verificar info() para ver información de cada DataFrame 
    - Utlizamos head() para mostrar información del DataFrame
    - Utlizamos describe() para ver la descripción del DataFrame 
    
###  Preprocesamiento de los datos
    - Verifica y corrige los tipos de datos (por ejemplo, asegúrate de que las columnas de ID sean números enteros).
    - Verifica y corrige los tipos de datos con dtype() 
    - Identifica y completa valores ausentes con isna() sum()
    - Identifica y elimina los valores duplicados duplicated()  
    - Verificamos que los nombres esten bien escritos

### Prueba de hipotesis
- Hipótesis: Los clientes que utilizan servicios adicionales como ProtecciónDeDispositivo y StreamingTV tienen una tasa de cancelación menor en comparación con aquellos que no utilizan estos servicios.

Procedimiento:

Formulación de hipótesis:

Hipótesis nula ( H0): No hay diferencia en la tasa de cancelación entre los clientes que utilizan servicios adicionales y los que no.

Hipótesis alternativa ( HA): Los clientes que utilizan servicios adicionales tienen una tasa de cancelación menor.

Recolección de datos: Obtén los datos de cancelación de clientes y el uso de servicios adicionales.

Análisis estadístico: Realiza un análisis de proporciones para comparar las tasas de cancelación entre los dos grupos (usuarios de servicios adicionales y no usuarios).

Prueba de hipótesis: Utiliza una prueba de chi-cuadrado para evaluar si la diferencia en las tasas de cancelación es significativa.

- Interpretación de resultados:

Si el valor p es menor que el nivel de significancia (por ejemplo, 0.05), rechaza la hipótesis nula y acepta la hipótesis alternativa.

De esta manera, podrás determinar si los servicios adicionales influyen en la retención de clientes.

### Analisis de distribución 

- Identificación de los 10 principales servicios adicionales más contratados por los usuarios de Interconnect.
- Gráficos que muestren la distribución de métodos de pago utilizados por los clientes de Interconnect

## Instrucciones del proyecto 
### Plan de trabajo
1. Examina el equilibrio de clases. Entrena el modelo sin tener en cuenta el desequilibrio. Describe brevemente tus hallazgos.

2. Mejora la calidad del modelo. Asegúrate de utilizar al menos dos enfoques para corregir el desequilibrio de clases. Utiliza conjuntos de entrenamiento y validación para encontrar el mejor modelo y el mejor conjunto de parámetros. Entrena diferentes modelos en los conjuntos de entrenamiento y validación. Encuentra el mejor. Describe brevemente tus hallazgos.

3. Realiza la prueba final.

### Los objetivos 

Necesitamos predecir si un cliente planea irse, pronto. Debemos analizar el comportamiento de los clientes y determinar qué tarifa de prepago genera más ingresos.

Entrenar un modelo con el máximo valor F1 posible. Verifica F1 para el conjunto de prueba. 
Además, debes medir la métrica AUC-ROC y compararla con el valor F1.


## Estudia el comportamiento de usuario

### Porcentaje (proporción) de usuarios que no han cancelado la suscripción
### Muestra cuantos clientes se estan registrando por mes
### Muestra la distribución de usuarios cada mes

## Desarrolla un modelo con la mayor exactitud posible. 
En este proyecto, el umbral de exactitud es 0.75. Usa el dataset para comprobar la exactitud.

Instrucciones del proyecto.

Segmenta los datos fuente en un conjunto de entrenamiento, uno de validación y uno de prueba.
Investiga la calidad de diferentes modelos cambiando los hiperparámetros. Describe brevemente los hallazgos del estudio.
Comprueba la calidad del modelo usando el conjunto de prueba.


### Entrenamiento del modelo 
 Dividir los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba)
 Separa utilizando train_test_split.

##  Conclusiones 
### El mejor modelo de entrenamiento es Catboost performance para el analisis en tiempo, velocidad y exactitud.

Evaluación de los modelos:
- RMSE_LinearRegression: 
- RMSE_Catboost performance: 
- RMSE_RandomForestRegressor: 


