
# 01 · Análisis de clientes (actividad guiada)

Este notebook te guía paso a paso para analizar el archivo `datos_clientes.csv`.
Sigue la estructura propuesta en clase: **cargar datos → explorar → visualizar → resumir → guardar resultados**.



## 0. Preparación

- Asegúrate de tener el archivo CSV en `../data/raw/datos_clientes.csv`.
- Activa el entorno del proyecto antes de abrir el notebook.
- No olvides seleccionar el **kernel** correcto en Jupyter (el del entorno que creaste).


In [None]:

import pandas as pd
import matplotlib.pyplot as plt

# Mostrar números con dos decimales al imprimir dataframes
pd.options.display.float_format = '{:,.2f}'.format


## 1. Carga de datos

In [None]:

# Ruta relativa desde /notebooks/ hacia /data/raw/
csv_path = "../data/raw/datos_clientes.csv"

# Cargar datos
df = pd.read_csv(csv_path)
df.head()


## 2. Inspección inicial

In [None]:

# Estructura del DataFrame
df.info()


In [None]:

# Estadísticos descriptivos de columnas numéricas
df.describe()


In [None]:

# Comprobar valores nulos
df.isnull().sum()



## 3. Limpieza mínima (opcional)

En este dataset no hay valores nulos, pero dejamos el bloque para que sepas cómo actuar si los hubiera.


In [None]:

# (Ejemplo) Convertir tipos si fuera necesario:
# df['edad'] = pd.to_numeric(df['edad'], errors='coerce')
# df['importe_compra'] = pd.to_numeric(df['importe_compra'], errors='coerce')

# (Ejemplo) Rellenar nulos o eliminarlos:
# df = df.dropna(subset=['edad', 'importe_compra'])


## 4. Análisis rápido

In [None]:

# Promedios globales
promedio_importe = df['importe_compra'].mean()
promedio_frecuencia = df['frecuencia_compras'].mean()
promedio_importe, promedio_frecuencia


In [None]:

# Clientes por ciudad (conteo)
df['ciudad'].value_counts()


In [None]:

# Importe medio por ciudad
df.groupby('ciudad')['importe_compra'].mean().sort_values(ascending=False)


## 5. Visualización

In [None]:

# Dispersión: edad vs importe
plt.figure()
plt.scatter(df['edad'], df['importe_compra'])
plt.title('Relación entre edad e importe de compra')
plt.xlabel('Edad')
plt.ylabel('Importe (€)')
plt.grid(True)
plt.show()


In [None]:

# Histograma de importes
plt.figure()
df['importe_compra'].hist(bins=8)
plt.title('Distribución del importe de compra')
plt.xlabel('Importe (€)')
plt.ylabel('Frecuencia')
plt.grid(False)
plt.show()


## 6. Crear y guardar resultados procesados

In [None]:

# Crear un resumen por ciudad
resumen_ciudades = df.groupby('ciudad')[['importe_compra','frecuencia_compras']].mean().round(2)
resumen_ciudades


In [None]:

# Guardar el resumen en data/processed/
output_path = '../data/processed/resumen_ciudades.csv'
resumen_ciudades.to_csv(output_path, index=True)
output_path



## 7. Conclusiones (rellena tú)
- ¿Qué ciudades muestran mayor gasto medio?
- ¿Observas relación aparente entre edad e importe?
- ¿Qué hipótesis te gustaría comprobar con más datos?



---

### 🧰 Consejos rápidos
- Si Jupyter no encuentra el archivo, revisa las **rutas relativas** y la **estructura de carpetas**.
- Si aparece `ModuleNotFoundError`, confirma que estás usando el **kernel** del entorno del proyecto.
- Exporta el notebook a HTML al finalizar (menú `File → Save and Export Notebook As → HTML`).
