# Plan de trabajo

## Descripción del proyecto

Al operador de telecomunicaciones Interconnect le gustaría poder pronosticar su tasa de cancelación de clientes. Si se descubre que un usuario o usuaria planea irse, se le ofrecerán códigos promocionales y opciones de planes especiales. El equipo de marketing de Interconnect ha recopilado algunos de los datos personales de sus clientes, incluyendo información sobre sus planes y contratos.

## Importación de datos

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

Contamos con 4 datasets, los cuales han sido obtenidos de diferentes fuentes
* `contract.csv`: tiene informacaión del contrato
* `personal.csv`: tiene datos personales del cliente
* `internet.csv`: tiene información sobre los servicios de internet
* `phone.csv`: tiene información sobre los servicios telefónicos

In [2]:
# Importación de los datasets
contract_df = pd.read_csv('datasets/contract.csv')
personal_df = pd.read_csv('datasets/personal.csv')
internet_df = pd.read_csv('datasets/internet.csv')
phone_df = pd.read_csv('datasets/phone.csv')

## Preprocesamiento de los datos

Se van a revisar los 4 DataFrames creados y se buscarán datos ausentes, valores duplicados, etc.

### Contract

In [3]:
contract_df.info()
print()
print(contract_df.describe())
print()
display(contract_df.sample(5))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB

       MonthlyCharges
count     7043.000000
mean        64.761692
std         30.090047
min         18.250000
25%         35.500000
50%         70.350000
75%         89.850000
max        118.750000



Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
6458,9644-UMGQA,2019-08-01,No,Month-to-month,Yes,Electronic check,49.15,295.65
6988,1684-FLBGS,2018-03-01,No,Month-to-month,Yes,Credit card (automatic),69.5,1652.1
5261,1409-PHXTF,2015-08-01,No,Two year,Yes,Electronic check,110.45,6077.75
3499,0426-TIRNE,2019-11-01,2019-12-01 00:00:00,Month-to-month,No,Mailed check,20.9,20.9
956,3261-CQXOL,2014-03-01,No,Two year,No,Bank transfer (automatic),25.45,1813.35


***Conclusión***

No hay datos ausentes, pero se observa que el tipo de datos en la columna `'TotalCharges'` es `object`, vamos a cambiarlo a u tipo `float`. También se van a buscar si hay filas repetidas.

In [6]:
# Cambiamos el tipo de datos de la columna TotalCharges
contract_df['TotalCharges'] = contract_df['TotalCharges'].astype('float64')

# Comprobación del cambio
print(contract_df['TotalCharges'].dtype)

ValueError: could not convert string to float: ' '

In [10]:
display(contract_df[contract_df['TotalCharges'] == ' '])

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
488,4472-LVYGI,2020-02-01,No,Two year,Yes,Bank transfer (automatic),52.55,
753,3115-CZMZD,2020-02-01,No,Two year,No,Mailed check,20.25,
936,5709-LVOEQ,2020-02-01,No,Two year,No,Mailed check,80.85,
1082,4367-NUYAO,2020-02-01,No,Two year,No,Mailed check,25.75,
1340,1371-DWPAZ,2020-02-01,No,Two year,No,Credit card (automatic),56.05,
3331,7644-OMVMY,2020-02-01,No,Two year,No,Mailed check,19.85,
3826,3213-VVOLG,2020-02-01,No,Two year,No,Mailed check,25.35,
4380,2520-SGTTA,2020-02-01,No,Two year,No,Mailed check,20.0,
5218,2923-ARZLG,2020-02-01,No,One year,Yes,Mailed check,19.7,
6670,4075-WKNIU,2020-02-01,No,Two year,No,Mailed check,73.35,
