# Proyecto Final, Parte 1: Exploración de Datos

## 1. Importación de librerías

A continuación se importarán las librerías que se usarán para realizar la exploración de datos.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#Semilla de random_state
rs = 12345

## 2. Importación de datos

A continuación se importarán cada una de las tablas en dataframes y se mostrarán sus primeros registros para verificar que la información se haya obtenido exitosamente.

In [2]:
df_internet = pd.read_csv("internet.csv")
df_internet.head()

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
0,7590-VHVEG,DSL,No,Yes,No,No,No,No
1,5575-GNVDE,DSL,Yes,No,Yes,No,No,No
2,3668-QPYBK,DSL,Yes,Yes,No,No,No,No
3,7795-CFOCW,DSL,Yes,No,Yes,Yes,No,No
4,9237-HQITU,Fiber optic,No,No,No,No,No,No


In [3]:
df_contract = pd.read_csv("contract.csv")
df_contract.head()

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
0,7590-VHVEG,2020-01-01,No,Month-to-month,Yes,Electronic check,29.85,29.85
1,5575-GNVDE,2017-04-01,No,One year,No,Mailed check,56.95,1889.5
2,3668-QPYBK,2019-10-01,2019-12-01 00:00:00,Month-to-month,Yes,Mailed check,53.85,108.15
3,7795-CFOCW,2016-05-01,No,One year,No,Bank transfer (automatic),42.3,1840.75
4,9237-HQITU,2019-09-01,2019-11-01 00:00:00,Month-to-month,Yes,Electronic check,70.7,151.65


In [4]:
df_personal = pd.read_csv("personal.csv")
df_personal.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
0,7590-VHVEG,Female,0,Yes,No
1,5575-GNVDE,Male,0,No,No
2,3668-QPYBK,Male,0,No,No
3,7795-CFOCW,Male,0,No,No
4,9237-HQITU,Female,0,No,No


In [5]:
df_phone = pd.read_csv("phone.csv")
df_phone.head()

Unnamed: 0,customerID,MultipleLines
0,5575-GNVDE,No
1,3668-QPYBK,No
2,9237-HQITU,No
3,9305-CDSKC,Yes
4,1452-KIOVK,Yes


## 3. Descripción de los datos

En el siguiente apartado se realizará un análisis de cada tabla y de cada una de sus columnas para verificar sus tipos de datos, presencia de valores faltantes y otras características que sean de relevancia para el análisis.

### 3.1 Internet

In [6]:
# Breve descripción de las columnas.
# No se encuentran valores faltantes.
df_internet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5517 entries, 0 to 5516
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   customerID        5517 non-null   object
 1   InternetService   5517 non-null   object
 2   OnlineSecurity    5517 non-null   object
 3   OnlineBackup      5517 non-null   object
 4   DeviceProtection  5517 non-null   object
 5   TechSupport       5517 non-null   object
 6   StreamingTV       5517 non-null   object
 7   StreamingMovies   5517 non-null   object
dtypes: object(8)
memory usage: 344.9+ KB


In [7]:
# Breve descripción de las frecuencias de las columnas.
# La mayoría de las columnas son binarias, por lo que no presentarán mayor problema al realizar un modelo.
df_internet.describe(include="all")

Unnamed: 0,customerID,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies
count,5517,5517,5517,5517,5517,5517,5517,5517
unique,5517,2,2,2,2,2,2,2
top,7590-VHVEG,Fiber optic,No,No,No,No,No,No
freq,1,3096,3498,3088,3095,3473,2810,2785


### 3.2 Contract

In [8]:
# Breve descripción de las columnas.
# No se encuentran valores faltantes.
df_contract.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   BeginDate         7043 non-null   object 
 2   EndDate           7043 non-null   object 
 3   Type              7043 non-null   object 
 4   PaperlessBilling  7043 non-null   object 
 5   PaymentMethod     7043 non-null   object 
 6   MonthlyCharges    7043 non-null   float64
 7   TotalCharges      7043 non-null   object 
dtypes: float64(1), object(7)
memory usage: 440.3+ KB


In [9]:
# Breve descripción de la distribución de los datos.
# Llama la atención la columna TotalCharges, la cual debería ser de tipo numérico.
df_contract.describe(include="all")

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges
count,7043,7043,7043,7043,7043,7043,7043.0,7043.0
unique,7043,77,5,3,2,4,,6531.0
top,7590-VHVEG,2014-02-01,No,Month-to-month,Yes,Electronic check,,
freq,1,366,5174,3875,4171,2365,,11.0
mean,,,,,,,64.761692,
std,,,,,,,30.090047,
min,,,,,,,18.25,
25%,,,,,,,35.5,
50%,,,,,,,70.35,
75%,,,,,,,89.85,


In [10]:
# Verificamos la columna TotalCharges
# Vemos que el problema es que se encuentran valores faltantes en la columna TotalCharges.
# Sin embargo, estos valores no se muestran cono NaN, sino como un caracter de espacio vacío.
df_contract["totalchargesnum"] = pd.to_numeric(df_contract["TotalCharges"], errors="coerce")
df_contract[df_contract["totalchargesnum"].isna()]

Unnamed: 0,customerID,BeginDate,EndDate,Type,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,totalchargesnum
488,4472-LVYGI,2020-02-01,No,Two year,Yes,Bank transfer (automatic),52.55,,
753,3115-CZMZD,2020-02-01,No,Two year,No,Mailed check,20.25,,
936,5709-LVOEQ,2020-02-01,No,Two year,No,Mailed check,80.85,,
1082,4367-NUYAO,2020-02-01,No,Two year,No,Mailed check,25.75,,
1340,1371-DWPAZ,2020-02-01,No,Two year,No,Credit card (automatic),56.05,,
3331,7644-OMVMY,2020-02-01,No,Two year,No,Mailed check,19.85,,
3826,3213-VVOLG,2020-02-01,No,Two year,No,Mailed check,25.35,,
4380,2520-SGTTA,2020-02-01,No,Two year,No,Mailed check,20.0,,
5218,2923-ARZLG,2020-02-01,No,One year,Yes,Mailed check,19.7,,
6670,4075-WKNIU,2020-02-01,No,Two year,No,Mailed check,73.35,,


In [11]:
# Verificamos los valores de la columna Type, así como su distribución.
df_contract["Type"].value_counts()

Month-to-month    3875
Two year          1695
One year          1473
Name: Type, dtype: int64

In [25]:
# ¿Por qué hay contratos a uno y dos años sin fecha de fin del contrato?
df_contract[["Type","EndDate"]].value_counts()

Type            EndDate            
Month-to-month  No                     2220
Two year        No                     1647
One year        No                     1307
Month-to-month  2019-11-01 00:00:00     429
                2019-12-01 00:00:00     419
                2020-01-01 00:00:00     413
                2019-10-01 00:00:00     394
One year        2019-10-01 00:00:00      56
                2019-11-01 00:00:00      39
                2020-01-01 00:00:00      37
                2019-12-01 00:00:00      34
Two year        2019-11-01 00:00:00      17
                2019-12-01 00:00:00      13
                2020-01-01 00:00:00      10
                2019-10-01 00:00:00       8
dtype: int64

In [12]:
# Verificamos los valores de la columna PaymentMethod, así como su distribución.
df_contract["PaymentMethod"].value_counts()

Electronic check             2365
Mailed check                 1612
Bank transfer (automatic)    1544
Credit card (automatic)      1522
Name: PaymentMethod, dtype: int64

In [23]:
# Verificamos la distribución de los valores de la columna BeginDate.
df_contract["BeginDate"].value_counts().sort_index()

2013-10-01      3
2013-11-01      2
2013-12-01      3
2014-01-01      7
2014-02-01    366
             ... 
2019-10-01    237
2019-11-01    237
2019-12-01    220
2020-01-01    233
2020-02-01     11
Name: BeginDate, Length: 77, dtype: int64

In [13]:
# Verificamos los valores de la columna EndDate, así como su distribución.
# Vemos que la mayoría de contratos son de duración indefinida.
df_contract["EndDate"].value_counts()

No                     5174
2019-11-01 00:00:00     485
2019-12-01 00:00:00     466
2020-01-01 00:00:00     460
2019-10-01 00:00:00     458
Name: EndDate, dtype: int64

### 3.3 Personal

In [14]:
# Breve descripción de las columnas.
# No se encuentran valores faltantes.
df_personal.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     7043 non-null   object
 1   gender         7043 non-null   object
 2   SeniorCitizen  7043 non-null   int64 
 3   Partner        7043 non-null   object
 4   Dependents     7043 non-null   object
dtypes: int64(1), object(4)
memory usage: 275.2+ KB


In [15]:
# Breve descripción de la distribución de los datos.
df_personal.describe(include="all")

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents
count,7043,7043,7043.0,7043,7043
unique,7043,2,,2,2
top,7590-VHVEG,Male,,No,No
freq,1,3555,,3641,4933
mean,,,0.162147,,
std,,,0.368612,,
min,,,0.0,,
25%,,,0.0,,
50%,,,0.0,,
75%,,,0.0,,


In [16]:
# Verificamos los valores de la columna SeniorCitizen.
# Concluimos que la mayoría de las columnas de esta tabla son binarias, por lo que no presentarán mayor problema al entrenar un modelo.
df_personal["SeniorCitizen"].value_counts()

0    5901
1    1142
Name: SeniorCitizen, dtype: int64

### 3.4 Phone

In [17]:
# Breve descripción de las columnas.
# No se encuentran valores faltantes.
df_phone.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6361 entries, 0 to 6360
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   customerID     6361 non-null   object
 1   MultipleLines  6361 non-null   object
dtypes: object(2)
memory usage: 99.5+ KB


In [18]:
# Verificamos la distribución de los datos.
# Vemos que solo poseen un identificador y una columna binaria.
df_phone.describe(include="all")

Unnamed: 0,customerID,MultipleLines
count,6361,6361
unique,6361,2
top,5575-GNVDE,No
freq,1,3390
