##Estructura del sprint final

En el sprint final, pondrás en práctica todo lo aprendido en un bootcamp de dos semanas que simula el trabajo en una empresa real. Se te asignarán varias tareas y los miembros del equipo de orientación de estudiantes podrán ayudarte. Serán tus colegas durante estos 14 días.

Colegas
El líder del equipo establecerá las tareas y se asegurará de que las completes con éxito.
El colega sénior responderá preguntas generales sobre aprendizaje automático y te ayudará en caso de que lo necesites.
El revisor del proyecto revisará tu código. Los revisores son expertos independientes de otro departamento que trabajan en aprendizaje automático, pero no conocen los detalles de la tarea.
Ejercicios
Para completar el sprint final con éxito, necesitarás una puntuación de cinco puntos de historia (SP). Estas son unidades convencionales para medir la dificultad de la tarea. Obtendrás:

de 4 a 6 SP por el proyecto principal;
1 SP por la tarea adicional.
Construirás un prototipo de un modelo de aprendizaje automático. Estos serán tus pasos:

Hacer un plan de trabajo. Cuando veas la tarea por primera vez, notarás que está incompleta y que contiene información innecesaria. Haz un análisis exploratorio de datos para averiguar qué preguntas hacer.
Investigar la tarea. Haz preguntas al líder de tu equipo.
Desarrollar un modelo. Envía tu código al revisor del proyecto.
Preparar el informe. Envía el informe a tu líder de equipo para comprobar si completaste las tareas con éxito.
La puntuación final depende de la calidad de tu modelo. El community manager te compartirá los criterios de evaluación después del paso 2.

La tarea adicional se basa en los mismos datos que el proyecto principal.

Al final del sprint, el líder del equipo revisará tu código.

Condiciones de la asignación principal
Al operador de telecomunicaciones Interconnect le gustaría poder pronosticar su tasa de cancelación de clientes. Si se descubre que un usuario o usuaria planea irse, se le ofrecerán códigos promocionales y opciones de planes especiales. El equipo de marketing de Interconnect ha recopilado algunos de los datos personales de sus clientes, incluyendo información sobre sus planes y contratos.
Servicios de Interconnect
Interconnect proporciona principalmente dos tipos de servicios:
Comunicación por teléfono fijo. El teléfono se puede conectar a varias líneas de manera simultánea.
Internet. La red se puede configurar a través de una línea telefónica (DSL, línea de abonado digital) o a través de un cable de fibra óptica.
Algunos otros servicios que ofrece la empresa incluyen:
Seguridad en Internet: software antivirus (ProtecciónDeDispositivo) y un bloqueador de sitios web maliciosos (SeguridadEnLínea).
Una línea de soporte técnico (SoporteTécnico).
Almacenamiento de archivos en la nube y backup de datos (BackupOnline).
Streaming de TV (StreamingTV) y directorio de películas (StreamingPelículas)
La clientela puede elegir entre un pago mensual o firmar un contrato de 1 o 2 años. Puede utilizar varios métodos de pago y recibir una factura electrónica después de una transacción.
Descripción de los datos
Los datos consisten en archivos obtenidos de diferentes fuentes:
contract.csv — información del contrato;
personal.csv — datos personales del cliente;
internet.csv — información sobre los servicios de Internet;
phone.csv — información sobre los servicios telefónicos.
En cada archivo, la columna customerID (ID de cliente) contiene un código único asignado a cada cliente. La información del contrato es válida a partir del 1 de febrero de 2020.

### Preparación del entorno y carga de datos
En esta sección se importan las librerías necesarias y se cargan los archivos de datos proporcionados para el análisis.

In [1]:
# Importar librerías principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# Cargar los archivos de datos
contract = pd.read_csv('contract.csv')
personal = pd.read_csv('personal.csv')
internet = pd.read_csv('internet.csv')
phone = pd.read_csv('phone.csv')

# Mostrar las primeras filas de cada archivo
print('contract.csv')
display(contract.head())
print('personal.csv')
display(personal.head())
print('internet.csv')
display(internet.head())
print('phone.csv')
display(phone.head())

contract.csv


Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,2020-01-01,No,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,2017-04-01,No,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,2019-10-01,2019-12-01 00:00:00,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,2016-05-01,No,One year,No,Bank transfer (automatic),42.3,1840.75
4,9237-HQITU,2019-09-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,70.7,151.65


personal.csv


Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
0,7590-VHVEG,Female,0,Yes,No
1,5575-GNVDE,Male,0,No,No
2,3668-QPYBK,Male,0,No,No
3,7795-CFOCW,Male,0,No,No
4,9237-HQITU,Female,0,No,No


internet.csv


Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,7590-VHVEG,DSL,No,Yes,No,No,No,No
1,5575-GNVDE,DSL,Yes,No,Yes,No,No,No
2,3668-QPYBK,DSL,Yes,Yes,No,No,No,No
3,7795-CFOCW,DSL,Yes,No,Yes,Yes,No,No
4,9237-HQITU,Fiber optic,No,No,No,No,No,No


phone.csv


Unnamed: 0,customerID,MultipleLines
0,5575-GNVDE,No
1,3668-QPYBK,No
2,9237-HQITU,No
3,9305-CDSKC,Yes
4,1452-KIOVK,Yes


### Plan de trabajo para el modelo de predicción de cancelación de clientes
1. **Integración y limpieza de datos:** Fusionar los diferentes archivos de datos en un solo dataset maestro, tratar valores nulos, duplicados y asegurar la correcta tipificación de las variables.
2. **Análisis exploratorio de datos (EDA):** Analizar la distribución y relaciones de las variables numéricas y categóricas, identificar patrones y posibles factores asociados a la cancelación.
3. **Ingeniería de características:** Crear nuevas variables relevantes, transformar variables categóricas y seleccionar las variables más importantes para el modelo.
4. **Desarrollo y validación del modelo:** Probar diferentes algoritmos de clasificación, ajustar hiperparámetros y validar el desempeño del modelo con métricas adecuadas.
5. **Implementación y recomendaciones:** Presentar los resultados, interpretar los factores clave de cancelación y proponer acciones para reducir la tasa de churn.

### Plan de trabajo resumido para el modelo de predicción de cancelación de clientes
1. **Preparación e integración de datos:** Unificar los archivos en un dataset maestro y limpiar los datos para asegurar su calidad.
2. **Análisis exploratorio e ingeniería de variables:** Analizar las variables, identificar patrones relevantes y crear nuevas características útiles para el modelo.
3. **Desarrollo y validación del modelo:** Construir, ajustar y validar el modelo predictivo, interpretando los resultados para proponer acciones de negocio.