# **Exploración de datos y descripción**

**Descripción:**
Visión general de los datos y exploración para comprobar los tipos de datos y solucionar cualquier problema con los tipos de datos.
Esto es para hacer un correcto análisis y visualización de los datos.

📚 **Importar librerías**

In [27]:
# base libraries for data science
from pathlib import Path
import numpy as np
import pandas as pd
import pyarrow as pa

💾 **Carga de datos**

In [28]:
# path del directorio del datset
BASE_DIR = Path("/home/lof/Projects/Telco-Customer-Churn")
DATA_DIR = BASE_DIR / "data" / "raw"
file_path = DATA_DIR / "churn_raw.csv"

churn_df = pd.read_csv(file_path)

📊 **Descripción del dataset**

In [29]:
# Ajustar la configuración para mostrar todas las columnas
pd.set_option('display.max_columns', None)
churn_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24742 entries, 0 to 24741
Data columns (total 23 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   MonthlyCharges    24527 non-null  float64
 1   data_source       24739 non-null  object 
 2   StreamingMovies   24415 non-null  object 
 3   Partner           24639 non-null  object 
 4   value             24739 non-null  float64
 5   PhoneService      24527 non-null  object 
 6   InternetService   24445 non-null  object 
 7   StreamingTV       24375 non-null  object 
 8   OnlineSecurity    24393 non-null  object 
 9   MultipleLines     24493 non-null  object 
 10  Dependents        24585 non-null  object 
 11  DeviceProtection  24383 non-null  object 
 12  SeniorCitizen     24636 non-null  float64
 13  TotalCharges      24601 non-null  object 
 14  TechSupport       24379 non-null  object 
 15  gender            24684 non-null  object 
 16  PaperlessBilling  24504 non-null  object

In [30]:
churn_df.sample(10)

Unnamed: 0,MonthlyCharges,data_source,StreamingMovies,Partner,value,PhoneService,InternetService,StreamingTV,OnlineSecurity,MultipleLines,Dependents,DeviceProtection,SeniorCitizen,TotalCharges,TechSupport,gender,PaperlessBilling,tenure,Churn,OnlineBackup,PaymentMethod,Contract,customerID
19101,79.45,other,No,No,151642.0,Yes,DSL,Yes,Yes,Yes,Yes,Yes,0.0,5502.55,Yes,Male,Yes,69.0,No,Yes,Credit card (automatic),Two year,5736-YEJAX
10464,88.95,other,No,No,151642.0,Yes,Fiber optic,Yes,No,Yes,No,No,1.0,2291.2,No,Male,Yes,25.0,Yes,Yes,Electronic check,Month-to-month,6595-YGXIT
8858,99.8,other,Yes,Yes,151642.0,Yes,Fiber optic,Yes,No,Yes,Yes,Yes,0.0,5515.45,No,Female,Yes,56.0,No,No,Credit card (automatic),One year,1091-SOZGA
20191,75.0,other,No,No,151642.0,Yes,Fiber optic,No,No,Yes,No,No,0.0,999.45,No,Female,Yes,13.0,Yes,No,Mailed check,Month-to-month,5899-MQZZL
23068,59.9,other,No,Yes,151642.0,Yes,DSL,No,No,Yes,No,No,0.0,3505.1,Yes,Female,Yes,58.0,No,Yes,Credit card (automatic),Two year,3638-WEABW
17146,69.25,other,No,Yes,151642.0,Yes,Fiber optic,No,No,No,No,No,0.0,1554.0,No,Female,Yes,22.0,Yes,No,Electronic check,Month-to-month,4704-ERYFC
12962,43.95,other,,No,151642.0,,,,,,,,0.0,43.95,,Female,No,,Yes,,Mailed check,Month-to-month,3085-QUOZK
22288,108.1,other,Yes,No,151642.0,Yes,Fiber optic,Yes,Yes,Yes,No,Yes,1.0,5839.3,No,Female,No,52.0,No,Yes,Credit card (automatic),Month-to-month,3657-COGMW
16364,20.05,other,No internet service,No,151642.0,Yes,No,No internet service,No internet service,No,No,No internet service,0.0,33.7,No internet service,Male,No,2.0,No,No internet service,Mailed check,Month-to-month,0188-GWFLE
13777,84.2,other,No,Yes,151642.0,Yes,Fiber optic,No,No,Yes,Yes,Yes,1.0,4146.05,No,Male,Yes,51.0,Yes,Yes,Electronic check,Month-to-month,8623-TMRBY


**Valores nulos**

In [31]:
nans = ['NA', 'N/A', 'null', 'NULL', 'nan', 'NaN', '', ' ', '?']
for col in churn_df.columns:
    if len(churn_df[churn_df[col].isin(nans)]) > 0:
        print(f"Weird Nan representation found for column {col}")

Weird Nan representation found for column TotalCharges


In [32]:
def porcentaje_nulos(df, columna):
    return df[columna].isnull().mean() * 100

for col in churn_df.columns:
    porcentaje = porcentaje_nulos(churn_df, col)
    print(f"El {porcentaje:.2f}% de los valores en '{col}' son nulos.")

El 0.87% de los valores en 'MonthlyCharges' son nulos.
El 0.01% de los valores en 'data_source' son nulos.
El 1.32% de los valores en 'StreamingMovies' son nulos.
El 0.42% de los valores en 'Partner' son nulos.
El 0.01% de los valores en 'value' son nulos.
El 0.87% de los valores en 'PhoneService' son nulos.
El 1.20% de los valores en 'InternetService' son nulos.
El 1.48% de los valores en 'StreamingTV' son nulos.
El 1.41% de los valores en 'OnlineSecurity' son nulos.
El 1.01% de los valores en 'MultipleLines' son nulos.
El 0.63% de los valores en 'Dependents' son nulos.
El 1.45% de los valores en 'DeviceProtection' son nulos.
El 0.43% de los valores en 'SeniorCitizen' son nulos.
El 0.57% de los valores en 'TotalCharges' son nulos.
El 1.47% de los valores en 'TechSupport' son nulos.
El 0.23% de los valores en 'gender ' son nulos.
El 0.96% de los valores en 'PaperlessBilling' son nulos.
El 0.73% de los valores en 'tenure' son nulos.
El 0.69% de los valores en 'Churn' son nulos.
El 1.49%

No hay un número de valores nulos representativos dentro de las columnas para descartar una de ellas

In [33]:
def reemplazar_nulos(df):
    valores_nulos = ['NA', 'N/A', 'null', 'NULL', 'nan', 'NaN', '', ' ', '?']
    return df.replace(valores_nulos, np.nan)

churn_df = reemplazar_nulos(churn_df)

In [34]:
churn_df['data_source'].unique()

array(['other', nan], dtype=object)

In [35]:
churn_df['value'].unique()

array([151642.,     nan])

**Columnas removidas**

Tenía sospechas de que la columna 'data_source' y 'value 'tenían un único valor para todos sus registros y eran ciertas mis sospechas, por lo tanto son las siguientes columnas que vamos a descartar.

La columna 'customerID' es una cadena que es única para cada cliente, pero es sólo un identificador, por lo que la eliminaremos.

In [36]:
churn_df = churn_df.drop(columns=['data_source', 'customerID', 'value'])
churn_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24742 entries, 0 to 24741
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   MonthlyCharges    24527 non-null  float64
 1   StreamingMovies   24415 non-null  object 
 2   Partner           24639 non-null  object 
 3   PhoneService      24527 non-null  object 
 4   InternetService   24445 non-null  object 
 5   StreamingTV       24375 non-null  object 
 6   OnlineSecurity    24393 non-null  object 
 7   MultipleLines     24493 non-null  object 
 8   Dependents        24585 non-null  object 
 9   DeviceProtection  24383 non-null  object 
 10  SeniorCitizen     24636 non-null  float64
 11  TotalCharges      24560 non-null  object 
 12  TechSupport       24379 non-null  object 
 13  gender            24684 non-null  object 
 14  PaperlessBilling  24504 non-null  object 
 15  tenure            24562 non-null  float64
 16  Churn             24571 non-null  object

**Variables categóricas**

**Ordinales**
   - Ninguna variable es categórica ordinal

**Nominales**
   - gender: Si el cliente es 'Masculino' o 'Femenino'
   - MultipleLines: Si el cliente tiene múltiples líneas o no (Sí, No, Sin servicio telefónico)
   - InternetService: Proveedor de servicio de internet del cliente (DSL, Fibra óptica, No)
   - OnlineSecurity: Si el cliente tiene seguridad en línea o no (Sí, No, Sin servicio de internet)
   - DeviceProtection: Si el cliente tiene protección para su dispositivo o no (Sí, No, Sin servicio de internet)
   - TechSupport: Si el cliente tiene soporte técnico o no (Sí, No, Sin servicio de internet)
   - StreamingTV: Si el cliente tiene servicio de TV en streaming o no (Sí, No, Sin servicio de internet)
   - StreamingMovies: Si el cliente tiene servicio de películas en streaming o no (Sí, No, Sin servicio de internet)
   - Contract: Tipo de contrato del cliente (Mes a mes, Un año, Dos años)
   - PaymentMethod: Método de pago del cliente (Cheque electrónico, Cheque por correo, Transferencia bancaria (automática), Tarjeta de crédito)
   - OnlineBackup: Si el cliente dispone o no de copia de seguridad (Sí, No, Sin servicio de Internet)

---

**Variables numéricas**

**Discretas**
   - tenure: Número de meses que el cliente ha permanecido con la empresa

**Continuas**
   - MonthlyCharges: Monto cobrado al cliente mensualmente
   - TotalCharges: Monto total cobrado al cliente

---

**Variables booleanas**
   - SeniorCitizen: Si el cliente es un ciudadano mayor o no (1, 0)
   - Partner: Si el cliente tiene pareja o no (Sí, No)
   - Dependents: Si el cliente tiene dependientes o no (Sí, No)
   - PhoneService: Si el cliente tiene servicio telefónico o no (Sí, No)
   - PaperlessBilling: Si el cliente usa facturación electrónica o no (Sí, No)
   - Churn: Si el cliente canceló el servicio o no (Sí, No)

---

**Variables de tipo string**
   - No hay variables de solo texto en estos momentos


In [37]:
cols_categoric = ['StreamingMovies', 'InternetService',
       'StreamingTV', 'OnlineSecurity', 'MultipleLines',
       'DeviceProtection', 'TechSupport', 'gender ', 'OnlineBackup', 'PaymentMethod',
       'Contract']
churn_df[cols_categoric] = churn_df[cols_categoric].astype("category")

In [38]:
cols_boolean = ['SeniorCitizen', 'Partner', 'Dependents', 'PhoneService', 'PaperlessBilling', 'Churn']
churn_df[cols_boolean] = churn_df[cols_boolean].astype("bool")

In [39]:
cols_numeric_float = ['MonthlyCharges', 'TotalCharges']
churn_df[cols_numeric_float] = churn_df[cols_numeric_float].astype("float")

In [None]:
#Esta columna posee valores np.nan por lo que la convertiremos en int en otro momento donde hayamos tratado los nulos
cols_numeric_float = ['tenure']
churn_df[cols_numeric_float] = churn_df[cols_numeric_float].astype("float")

In [45]:
churn_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24742 entries, 0 to 24741
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   MonthlyCharges    24527 non-null  float64 
 1   StreamingMovies   24415 non-null  category
 2   Partner           24742 non-null  bool    
 3   PhoneService      24742 non-null  bool    
 4   InternetService   24445 non-null  category
 5   StreamingTV       24375 non-null  category
 6   OnlineSecurity    24393 non-null  category
 7   MultipleLines     24493 non-null  category
 8   Dependents        24742 non-null  bool    
 9   DeviceProtection  24383 non-null  category
 10  SeniorCitizen     24742 non-null  bool    
 11  TotalCharges      24560 non-null  float64 
 12  TechSupport       24379 non-null  category
 13  gender            24684 non-null  category
 14  PaperlessBilling  24742 non-null  bool    
 15  tenure            24562 non-null  float64 
 16  Churn             2474

In [46]:
schema = pa.Table.from_pandas(churn_df).schema

In [47]:
DATA_DIR = BASE_DIR / "data" / "interim"
churn_df.to_parquet(
    DATA_DIR / "churn_type_fixed.parquet", index=False, schema=schema
)

Se han eliminado algunas columnas y se han corregido los data types para corregir los tipos de datos de pyarrow. y los valores nulos se han sustituido por np.nan para poder hacer un correcto análisis y visualización de los datos.


📖 **Referencias**
 - https://pandas.pydata.org/docs/user_guide/pyarrow.html