# Analisis de los datos tratados

## Importación de bibliotecas y datos


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

url = ('https://raw.githubusercontent.com/n-riverad/challenge_telecom_x/refs/heads/main/datos_tratados.csv')
df = pd.read_csv(url)
df.head()

In [None]:
numerical_cols = df.select_dtypes(include=np.number).columns

descriptive_stats = df[numerical_cols].describe()

descriptive_stats

In [None]:
# Calcular la matriz de correlación
correlation_matrix = df[numerical_cols].corr()

# Crear un Heatmap
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Heatmap de Correlación de Variables Numéricas')
plt.show()

In [None]:
df[numerical_cols].hist(figsize=(15, 10))
plt.tight_layout()
plt.show()

In [None]:
# Selecionar columnas categoricas
categorical_cols = df.select_dtypes(include='object').columns
print("Categorical columns:")
print(categorical_cols)

## Visualizar la distribución de Churn para cada variable categórica

In [None]:
# Traducciones al español para los nombres de las columnas
spanish_column_names = {
    'Churn': 'Deserción',
    'gender': 'Género',
    'MultipleLines': 'Líneas Múltiples',
    'InternetService': 'Servicio de Internet',
    'OnlineSecurity': 'Seguridad Online',
    'OnlineBackup': 'Copia de Seguridad Online',
    'DeviceProtection': 'Protección de Dispositivo',
    'TechSupport': 'Soporte Técnico',
    'StreamingTV': 'Streaming de TV',
    'StreamingMovies': 'Streaming de Películas',
    'Contract': 'Contrato',
    'PaymentMethod': 'Método de Pago'
}

for col in categorical_cols:
    if col != 'customerID': # Excluir customerID ya que es un identificador único
        plt.figure(figsize=(10, 6))
        # Mapear valores de Churn para mejor legibilidad
        df['Desercion'] = df['Churn'].map({0: 'No', 1: 'Sí'})
        ax = sns.countplot(data=df, x=col, hue='Desercion', palette='viridis') # Cambiado hue de vuelta a Churn_label

        # Agregar anotaciones de conteo y porcentaje
        total = len(df)
        for p in ax.patches:
            height = p.get_height()
            if height > 0: # Solo anotar si la altura es mayor que 0
                ax.annotate(f'{height}\n({height/total:.1%})',
                            (p.get_x() + p.get_width() / 2., height / 2), # Posición dentro de la barra
                            ha='center', va='center', # Alineación central
                            xytext=(0, 0), # Sin desplazamiento de texto
                            textcoords='offset points',
                            color='white') # Establecer color del texto a blanco para mejor visibilidad dentro de barras oscuras

        # Usar traducción al español para el título
        spanish_title = f'Distribución de Deserción por {spanish_column_names.get(col, col)}' # Obtener nombre en español, usar inglés si no se encuentra
        plt.title(spanish_title)
        plt.xlabel(col) # Mantener el nombre de la columna en el eje x
        plt.ylabel('Clientes') # Cambiar la etiqueta del eje y a 'Clientes'
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout()
        plt.show()

# Eliminar la columna temporal 'Desercion'
df = df.drop('Desercion', axis=1)

## Insights y Conclusiones


### Observando los gráficos que hemos generado, podemos identificar algunas tendencias interesantes relacionadas con la deserción de clientes ('Churn') y las variables categóricas:

* Servicio de Internet: Los clientes con Fiber optic parecen tener una tasa de deserción significativamente mayor en comparación con aquellos con servicio DSL o sin servicio de internet.

* Contrato: Los clientes con contratos Month-to-month (mes a mes) muestran una tasa de deserción mucho más alta que aquellos con contratos de uno o dos años. Esto sugiere que los compromisos a largo plazo están asociados con una menor probabilidad de deserción.

* Método de Pago: El método de pago Electronic check (cheque electrónico) parece estar asociado con una mayor tasa de deserción en comparación con otros métodos de pago.

* Seguridad Online y Soporte Técnico: Los clientes que no tienen servicios adicionales como Online Security o Tech Support tienen una tasa de deserción más alta que aquellos que sí los tienen. Esto podría indicar que estos servicios adicionales contribuyen a la retención de clientes.

* Streaming TV y Streaming Movies: Similar a la seguridad online y soporte técnico, los clientes que no tienen servicios de streaming de TV o películas también parecen tener una tasa de deserción ligeramente mayor.

