# Análisis exploratorio de datos

Contentesta las siguientes preguntas escribiendo el código de Python necesario para encontrar las respuestas o producir las gráficas necesarias

---


In [None]:
# No mostrar advertencias
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de estilo
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

# Carga de datos y renombrado de columnas (¡Crítico para que el código de abajo funcione!)
# Asumo que estás usando el archivo Mall_Customers.csv y renombrando.
try:
    # Ajusta esta ruta si es diferente, ej. './data/Mall_Customers.csv'
    df = pd.read_csv('Mall_Customers.csv') 
    df.columns = ['CustomerID', 'Gender', 'Age', 'AnnualIncome_k', 'SpendingScore_100']
    print("Datos cargados y columnas renombradas correctamente.")
except FileNotFoundError:
    print("Error: Asegúrate de que el archivo Mall_Customers.csv esté en la ruta correcta.")
    df = pd.DataFrame() # Crea un DataFrame vacío para evitar errores

### 1. ¿Cuál es la distribución de edades de los clientes?
- **Objetivo**: Comprender la distribución de las edades en el conjunto de datos.
- **Respuesta esperada**: Un histograma de la columna Age.

In [None]:
# # tu código aquí
plt.figure(figsize=(8, 6))
sns.boxplot(x='Gender', y='AnnualIncome_k', data=df, palette='pastel')
plt.title('2. Ingreso Anual (k$) por Género', fontsize=16)
plt.xlabel('Género')
plt.ylabel('Ingreso Anual (k$)')
plt.show()

### 2. ¿Existen diferencias significativas en los ingresos anuales entre hombres y mujeres?
- **Objetivo**: Comparar la distribución de ingresos anuales entre géneros.
- **Respuesta esperada**: Una gráfica de cajas (boxplot) que muestre la distribución de Annual Income (k$) por género.

In [None]:
# # tu código aquí
plt.figure(figsize=(8, 6))
sns.boxplot(x='Gender', y='AnnualIncome_k', data=df, palette='pastel')
plt.title('2. Ingreso Anual (k$) por Género', fontsize=16)
plt.xlabel('Género')
plt.ylabel('Ingreso Anual (k$)')
plt.show()

### 3. ¿Cómo se distribuye la puntuación de gasto (Spending Score) entre los diferentes rangos de edad?
- **Objetivo**: Analizar la relación entre la edad y la puntuación de gasto.
- **Respuesta esperada**: Una gráfica de dispersión (scatter plot) o un gráfico de cajas que compare la Spending Score (1-100) con diferentes grupos de edad.

In [None]:
# # tu código aquí
# Creamos grupos de edad para facilitar el análisis visual en un boxplot
bins = [18, 25, 35, 45, 55, 65, 75]
labels = ['18-24', '25-34', '35-44', '45-54', '55-64', '65+']
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)

plt.figure(figsize=(12, 6))
sns.boxplot(x='Age_Group', y='SpendingScore_100', data=df, palette='viridis')
plt.title('3. Puntuación de Gasto vs. Rangos de Edad', fontsize=16)
plt.xlabel('Rango de Edad')
plt.ylabel('Puntuación de Gasto (1-100)')
plt.show()

# Opcional: Eliminar la columna auxiliar después de la visualización
df.drop('Age_Group', axis=1, inplace=True)

### 4. ¿Cuál es la correlación entre el ingreso anual y la puntuación de gasto?
- **Objetivo**: Identificar si existe una relación lineal entre el ingreso y el gasto.
- **Respuesta esperada**: Una gráfica de dispersión y el cálculo del coeficiente de correlación entre Annual Income (k$) y Spending Score (1-100).

In [None]:
# # tu código aquí
plt.figure(figsize=(10, 6))
sns.scatterplot(x='AnnualIncome_k', y='SpendingScore_100', data=df, color='darkorange')
plt.title('4. Ingreso Anual vs. Puntuación de Gasto', fontsize=16)
plt.xlabel('Ingreso Anual (k$)')
plt.ylabel('Puntuación de Gasto (1-100)')
plt.show()

# Calcular el coeficiente de correlación de Pearson
correlation = df['AnnualIncome_k'].corr(df['SpendingScore_100'])

print(f"Coeficiente de Correlación (Pearson): {correlation:.2f}")
print("El coeficiente cercano a cero sugiere que no hay una relación lineal fuerte. Sin embargo, la gráfica muestra una estructura de grupos que el clustering podría explotar.")

### 5. ¿Cómo varía la puntuación de gasto en diferentes grupos de ingresos anuales?
- **Objetivo**: Examinar cómo los clientes en diferentes rangos de ingresos se comportan en términos de gasto.
- **Respuesta esperada**: Una gráfica de cajas o de violín que muestre la Spending Score (1-100) para diferentes rangos de Annual Income (k$).

In [None]:
# # tu código aquí
# Crear grupos de Ingreso Anual
income_bins = [0, 40, 70, 100, 150]
income_labels = ['Bajo (0-40k)', 'Medio (40-70k)', 'Alto (70-100k)', 'Muy Alto (100k+)']
df['Income_Group'] = pd.cut(df['AnnualIncome_k'], bins=income_bins, labels=income_labels, right=False)

plt.figure(figsize=(12, 6))
sns.violinplot(x='Income_Group', y='SpendingScore_100', data=df, palette='Set2')
plt.title('5. Puntuación de Gasto por Grupos de Ingresos Anuales', fontsize=16)
plt.xlabel('Grupo de Ingreso Anual')
plt.ylabel('Puntuación de Gasto (1-100)')
plt.show()

# Eliminar columna auxiliar
df.drop('Income_Group', axis=1, inplace=True)

### 6. ¿Cuál es la proporción de clientes por género?
- **Objetivo**: Determinar el balance de género en el conjunto de datos.
- **Respuesta esperada**: Una gráfica de barras o un gráfico de pastel que muestre la proporción de hombres y mujeres.

In [None]:
# # tu código aquí
gender_counts = df['Gender'].value_counts()

plt.figure(figsize=(8, 8))
plt.pie(gender_counts, labels=gender_counts.index, autopct='%1.1f%%', startangle=90, colors=['pink', 'lightblue'])
plt.title('6. Proporción de Clientes por Género', fontsize=16)
plt.show()

print("Conteo por Género:")
print(gender_counts)

### 7. ¿Qué grupos de edad gastan más en promedio?
- **Objetivo**: Identificar los grupos de edad que tienen una mayor puntuación de gasto en promedio.
- **Respuesta esperada**: Una gráfica de barras que compare la puntuación de gasto promedio entre diferentes grupos de edad.

In [None]:
# # tu código aquí
# Recalcular grupos de edad
bins = [18, 25, 35, 45, 55, 65, 75]
labels = ['18-24', '25-34', '35-44', '45-54', '55-64', '65+']
df['Age_Group'] = pd.cut(df['Age'], bins=bins, labels=labels, right=False)

avg_spending_by_age = df.groupby('Age_Group')['SpendingScore_100'].mean().reset_index()

plt.figure(figsize=(10, 6))
sns.barplot(x='Age_Group', y='SpendingScore_100', data=avg_spending_by_age, palette='magma')
plt.title('7. Puntuación de Gasto Promedio por Grupo de Edad', fontsize=16)
plt.xlabel('Grupo de Edad')
plt.ylabel('Gasto Promedio (Spending Score)')
plt.show()

# Eliminar columna auxiliar
df.drop('Age_Group', axis=1, inplace=True)

### 8. ¿Hay alguna relación entre la edad y el ingreso anual de los clientes?
- **Objetivo**: Explorar si hay una tendencia entre la edad de los clientes y sus ingresos.
- **Respuesta esperada**: Una gráfica de dispersión que muestre la relación entre Age y Annual Income (k$).

In [None]:
# # tu código aquí
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Age', y='AnnualIncome_k', data=df, hue='Gender', palette='coolwarm')
plt.title('8. Relación entre Edad e Ingreso Anual (k$)', fontsize=16)
plt.xlabel('Edad')
plt.ylabel('Ingreso Anual (k$)')
plt.show()

### 9. ¿Cuál es la distribución conjunta de la edad y el ingreso anual?
- **Objetivo**: Entender cómo se distribuyen estas dos variables en conjunto.
- **Respuesta esperada**: Una gráfica de dispersión con una densidad de puntos o un gráfico de hexágonos que muestre la distribución conjunta de Age y Annual Income (k$).

In [None]:
# # tu código aquí
# Usamos jointplot para mostrar la distribución conjunta y marginales
sns.jointplot(x='Age', y='AnnualIncome_k', data=df, kind='hex', height=8, color='#4CB391')
plt.suptitle('9. Distribución Conjunta de Edad e Ingreso Anual (k$)', y=1.02, fontsize=16)
plt.show()

### 10. ¿Cómo se distribuyen los clientes en función de la puntuación de gasto y el género?
- **Objetivo**: Analizar la relación entre la puntuación de gasto y el género.
- **Respuesta esperada**: Una gráfica de dispersión o un gráfico de violín que muestre la Spending Score (1-100) separada por género.

In [None]:
# # tu código aquí
plt.figure(figsize=(10, 6))
sns.violinplot(x='Gender', y='SpendingScore_100', data=df, palette={'Female': 'pink', 'Male': 'lightblue'})
plt.title('10. Distribución de Gasto por Género', fontsize=16)
plt.xlabel('Género')
plt.ylabel('Puntuación de Gasto (1-100)')
plt.show()

spending_stats_gender = df.groupby('Gender')['SpendingScore_100'].agg(['mean', 'median'])
print("Media y Mediana de Gasto por Género:")
print(spending_stats_gender.round(2))