#### Paso 1: Importar las librerías necesarias
###### * Utilizamos pandas para manipulación de datos, matplotlib y seaborn para visualización.

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

##### * Configurar estilo visual

###### Se puede elegir un sin fin de stilos pre-hechos para los gráficos este es uno que estuve probando
https://ggplot2.tidyverse.org/

In [4]:
plt.style.use("ggplot")

##### Paso 2: Cargar los datos
###### * Aquí cargamos los datos desde el archivo CSV para comenzar el análisis.

In [5]:
file_path = 'data/WA_Fn-UseC_-Telco-Customer-Churn.csv'
df = pd.read_csv(file_path)

#### Paso 3: Inspección inicial de los datos
###### Exploramos las primeras filas para obtener una idea de la estructura y el contenido.


In [6]:
display(df.head())

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


###### Verificamos el tipo de cada columna y si hay valores faltantes para asegurar consistencia en los datos.


In [7]:
print("\nInformación general del dataset:")
display(df.info())


Información general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  Paperles

None

#### Paso 4: Verificación de duplicados basados en el ID único de cliente
###### Verificamos que cada 'customerID' sea único en el dataset



In [8]:
duplicados = df['customerID'].duplicated().sum()
#Analisamos que si los datos para un customerID (CLIENTE) son repetidos entonces es un duplicado
if duplicados > 0:
    print(f"Advertencia: Se encontraron {duplicados} IDs de cliente duplicados.")
    # Opcionalmente, podríamos mostrar los registros duplicados para investigar más a fondo
    display(df[df.duplicated(subset='customerID', keep=False)])
else:
    print("customerID es único para cada entrada. No se encontraron duplicados.")

customerID es único para cada entrada. No se encontraron duplicados.


#### Paso 5: Conversión de tipos de datos para optimizar manipulación


In [None]:
# Convertimos columnas con valores "Yes"/"No" a booleanos y otras columnas a categóricas para optimizar el uso de memoria.
bool_columns = ['Partner', 'Dependents', 'PhoneService', 'PaperlessBilling', 'Churn']
df[bool_columns] = df[bool_columns] == 'Yes'  # Convierte 'Yes' a True y 'No' a False automáticamente

# Convertimos 'SeniorCitizen' a booleano donde 1 es True (senior) y 0 es False (no senior)
df['SeniorCitizen'] = df['SeniorCitizen'].astype(bool)

# Convertimos columnas categóricas con valores limitados a tipo 'category' para optimizar
category_columns = ['gender', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup',
                    'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaymentMethod']
df[category_columns] = df[category_columns].astype('category')

# Verificamos los tipos de datos después de la conversión
print("\nTipos de datos después de la conversión:")
print(df.dtypes)