In [2]:
import pandas as pd
from ydata_profiling import ProfileReport

# Cargar datos
df = pd.read_csv('teleCust1000t.csv')

# Crear el informe de profiling con configuración básica
profile = ProfileReport(df, 
                       title="Análisis Exploratorio de Datos de Clientes",
                       minimal=False)

# Guardar el informe en HTML
profile.to_file("reporte_clientes.html")

# Mostrar algunas estadísticas básicas
print("Resumen del Dataset:")
print("\nDimensiones del dataset:", df.shape)
print("\nTipos de datos:")
print(df.dtypes)
print("\nEstadísticas descriptivas:")
print(df.describe().round(2))
print("\nValores faltantes por columna:")
print(df.isnull().sum())

# Calcular correlaciones manualmente
correlations = df.corr()
print("\nCorrelaciones más fuertes:")
strong_correlations = []
for i in range(len(correlations.columns)):
    for j in range(i):
        if abs(correlations.iloc[i,j]) > 0.5:
            strong_correlations.append((
                correlations.columns[i],
                correlations.columns[j],
                correlations.iloc[i,j]
            ))

for var1, var2, corr in sorted(strong_correlations, key=lambda x: abs(x[2]), reverse=True):
    print(f"{var1} - {var2}: {corr:.3f}")

# Estadísticas por variable categórica
categorical_vars = ['region', 'marital', 'ed', 'retire', 'gender', 'custcat']
print("\nDistribución de variables categóricas:")
for var in categorical_vars:
    print(f"\n{var}:")
    print(df[var].value_counts(normalize=True).round(3) * 100, "%")

Summarize dataset: 100%|██████████| 57/57 [00:01<00:00, 38.67it/s, Completed]                  
Generate report structure: 100%|██████████| 1/1 [00:00<00:00,  1.08it/s]
Render HTML: 100%|██████████| 1/1 [00:00<00:00,  1.62it/s]
Export report to file: 100%|██████████| 1/1 [00:00<00:00, 224.16it/s]

Resumen del Dataset:

Dimensiones del dataset: (1000, 12)

Tipos de datos:
region       int64
tenure       int64
age          int64
marital      int64
address      int64
income     float64
ed           int64
employ       int64
retire     float64
gender       int64
reside       int64
custcat      int64
dtype: object

Estadísticas descriptivas:
        region   tenure      age  marital  address   income       ed   employ  \
count  1000.00  1000.00  1000.00   1000.0  1000.00  1000.00  1000.00  1000.00   
mean      2.02    35.53    41.68      0.5    11.55    77.54     2.67    10.99   
std       0.82    21.36    12.56      0.5    10.09   107.04     1.22    10.08   
min       1.00     1.00    18.00      0.0     0.00     9.00     1.00     0.00   
25%       1.00    17.00    32.00      0.0     3.00    29.00     2.00     3.00   
50%       2.00    34.00    40.00      0.0     9.00    47.00     3.00     8.00   
75%       3.00    54.00    51.00      1.0    18.00    83.00     4.00    17.00   
max    




# 1. Descripción General del Dataset

## Dimensiones
- 1000 registros (clientes)
- 12 variables/características
- No hay valores faltantes en ninguna columna

## Tipos de Variables
- Mayoría variables enteras (int64)
- Solo 'income' y 'retire' son float64

# 2. Análisis de Variables Principales

## Variables Demográficas

### Edad (age)
- Media: 41.68 años
- Rango: 18-77 años
- 50% de clientes entre 32-51 años
- Distribución bastante normal

### Género (gender)
- Hombres (1): 51.7%
- Mujeres (0): 48.3%
- Distribución casi equilibrada

### Estado Civil (marital)
- Solteros (0): 50.5%
- Casados (1): 49.5%
- Distribución perfectamente equilibrada

## Variables Socioeconómicas

### Ingresos (income)
- Media: $77,540
- Mediana: $47,000
- Gran dispersión (std: 107.04)
- Rango muy amplio: $9,000 - $1,668,000
- Distribución asimétrica hacia la derecha

### Educación (ed)
1. Bachiller (2): 28.7%
2. Master (4): 23.4%
3. Profesional (3): 20.9%
4. Pregrado (1): 20.4%
5. Doctorado (5): 6.6%
- Base de clientes con buena educación

### Empleo (employ)
- Media: 10.99 años
- Rango: 0-47 años
- 50% entre 3-17 años de empleo

## Variables de Servicio

### Antigüedad (tenure)
- Media: 35.53 meses
- Rango: 1-72 meses
- 50% entre 17-54 meses
- Base de clientes mixta en antigüedad

### Categoría de Cliente (custcat)
1. Plus (3): 28.1%
2. Básico (1): 26.6%
3. Total (4): 23.6%
4. E-Service (2): 21.7%
- Buena distribución entre categorías

### Región (region)
- Región 3: 34.4%
- Región 2: 33.4%
- Región 1: 32.2%
- Distribución muy equilibrada

# 3. Correlaciones Importantes

## Correlaciones Más Fuertes
1. **Empleo-Edad** (0.670)
   - A mayor edad, más años de empleo
   - Correlación esperada y lógica

2. **Dirección-Edad** (0.660)
   - Personas mayores tienden a vivir más tiempo en el mismo lugar
   - Indica estabilidad con la edad

3. **Residentes-Estado Civil** (0.626)
   - Hogares con parejas tienden a tener más residentes
   - Probable indicador de familias

4. **Dirección-Antigüedad** (0.523)
   - Clientes más antiguos son más estables en residencia
   - Indicador de lealtad

5. **Empleo-Antigüedad** (0.520)
   - Estabilidad laboral relacionada con lealtad al servicio

6. **Empleo-Ingresos** (0.516)
   - Mayor experiencia laboral = Mayores ingresos
   - Correlación esperada

# 4. Insights Clave para el Negocio

1. **Base de Clientes Diversificada**
   - Buena distribución demográfica
   - Balance en categorías de servicio
   - Distribución regional equilibrada

2. **Potencial de Desarrollo**
   - 26.6% en categoría básica → Oportunidad de upgrade
   - Alto nivel educativo → Capacidad de servicios complejos
   - Base joven significativa → Potencial de crecimiento

3. **Estabilidad**
   - Antigüedad media considerable
   - Correlaciones positivas con estabilidad
   - Base madura de clientes

4. **Segmentación Natural**
   - Perfiles claros por categoría
   - Diferencias socioeconómicas marcadas
   - Oportunidades de personalización