# Dia 6 - GroupBy avanzado

## Agrupaciones con m√∫ltiples columnas

## 1) Introducci√≥n 

#### Ten√©s un dataset con miles de filas. Las preguntas del jefe ya no son ‚Äú¬øcu√°nto vendimos?‚Äù, sino:

- #### ¬øCu√°nto vendimos por sucursal y por categor√≠a?

- #### ¬øCu√°l es el promedio del pr√©stamo por regi√≥n y por tipo de cliente?

- #### ¬øCu√°ntas operaciones hay por mes y por estado (aprobado/rechazado)?

#### Leer fila por fila es imposible. Necesitamos resumir por grupos y, muchas veces, por m√°s de una columna a la vez.
---

## 2) La herramienta que vamos a usar

- #### `groupby([...])` de pandas para agrupar por una o varias columnas.

### `¬øQu√© es groupby?`

- #### groupby no es un m√©todo que viene adentro de la librer√≠a pandas.

- #### O sea: cuando instal√°s pandas, ya viene incluido

### ¬øQu√© hace?

- #### Sirve para agrupar filas de un DataFrame seg√∫n el valor de una o m√°s columnas.

- #### Despu√©s de agrupar, pod√©s hacer operaciones sobre cada grupo: sumar, contar, sacar promedio, etc.

#### Luego, aplicamos agregaciones que ya conocemos: `sum()`, `mean()`, `count()` (y m√°s adelante agg combinado).

#### Pieza clave de hoy: `df.groupby(["colA", "colB"])` ‚Üí crea grupos por cada combinaci√≥n √∫nica de `colA` y `colB`.
---

## 3) Concepto

- #### **Agrupar** significa: juntar todas las filas que tienen el mismo valor en una columna.
#### Ejemplo: si tengo una columna ‚ÄúSucursal‚Äù y varias filas dicen ‚ÄúNorte‚Äù, todas esas filas se juntan en un solo grupo llamado **Norte**.

- ####  **Con varias columnas**: el grupo no tiene un solo nombre, sino dos (o m√°s).
#### Es como poner etiquetas dobles:

- #### (‚ÄúNorte‚Äù, ‚ÄúElectr√≥nica‚Äù) ‚Üí todas las filas que sean sucursal Norte y categor√≠a Electr√≥nica.
- #### (‚ÄúSur‚Äù, ‚ÄúHogar‚Äù) ‚Üí todas las filas que sean sucursal Sur y categor√≠a Hogar.

- #### Eso se llama **tupla**: un paquetito con varios valores juntos, como un nombre compuesto.

- #### **El resultado de groupby** te devuelve algo como una tabla con ‚Äú√≠ndice doble‚Äù:

- #### La primera llave `(colA)` ‚Üí Sucursal.
- #### La segunda llave `(colB)` ‚Üí Categor√≠a.
#### As√≠ pod√©s entrar primero por Sucursal y despu√©s por Categor√≠a.

- #### * Si quer√©s que esa tabla quede **normalita, con un solo √≠ndice**, us√°s `.reset_index()`.
#### Eso ‚Äúaplana‚Äù la tabla y vuelve a poner las columnas visibles como antes.

---

### En resumen:

- #### Agrupar = juntar filas que coinciden.
- #### Con varias columnas = el grupo se nombra con varios valores a la vez.
- #### El resultado queda con un ‚Äúdoble √≠ndice‚Äù.
- #### Si molesta, se aplana con `.reset_index()`.

---


## 4) Ejemplos en c√≥digo 
### Ejemplo A ‚Äî Ventas por Sucursal y Categor√≠a

In [None]:
import pandas as pd

data = {
    'Sucursal': ['Norte', 'Norte', 'Sur', 'Sur', 'Este', 'Este', 'Oeste', 'Oeste'],
    'Categoria': ['Electronica', 'Hogar', 'Electronica', 'Hogar', 'Hogar', 'Ropa', 'Electronica', 'Ropa'],
    'Monto': [3500,1800,1200,2500,2100,1300,2300,900]
}

df = pd.DataFrame(data)
print(df)

print('')

# total vendido por sucursal y categoria
resumen = df.groupby(['Sucursal','Categoria'])['Monto'].sum()
print(resumen)

print('')

# para resetear la tabla porque queremos volver a utilizar y trabajar con normalidad
print(resumen.reset_index())

  Sucursal    Categoria  Monto
0    Norte  Electronica   3500
1    Norte        Hogar   1800
2      Sur  Electronica   1200
3      Sur        Hogar   2500
4     Este        Hogar   2100
5     Este         Ropa   1300
6    Oeste  Electronica   2300
7    Oeste         Ropa    900

Sucursal  Categoria  
Este      Hogar          2100
          Ropa           1300
Norte     Electronica    3500
          Hogar          1800
Oeste     Electronica    2300
          Ropa            900
Sur       Electronica    1200
          Hogar          2500
Name: Monto, dtype: int64

  Sucursal    Categoria  Monto
0     Este        Hogar   2100
1     Este         Ropa   1300
2    Norte  Electronica   3500
3    Norte        Hogar   1800
4    Oeste  Electronica   2300
5    Oeste         Ropa    900
6      Sur  Electronica   1200
7      Sur        Hogar   2500


### Ejemplo B ‚Äî Pr√©stamos: Promedio y Cantidad por Regi√≥n y Tipo de Cliente

In [7]:
data = {
    "Region": ["Norte","Norte","Sur","Sur","Sur","Este","Oeste","Oeste"],
    "Tipo":   ["Minorista","Corporativo","Minorista","Corporativo","Minorista","Corporativo","Minorista","Corporativo"],
    "Monto":  [1000,2000,1500,3000,1200,2500,900,1800]
}
df = pd.DataFrame(data)

# Promedio y cantidad por combinaci√≥n (Region, Tipo)
prom = df.groupby(["Region","Tipo"])["Monto"].mean()
cnt  = df.groupby(["Region","Tipo"])["Monto"].count()

print("Promedio por grupo:")
print(prom.reset_index(name="Promedio_Monto"))

print("\nCantidad por grupo:")
print(cnt.reset_index(name="Cantidad"))


Promedio por grupo:
  Region         Tipo  Promedio_Monto
0   Este  Corporativo          2500.0
1  Norte  Corporativo          2000.0
2  Norte    Minorista          1000.0
3  Oeste  Corporativo          1800.0
4  Oeste    Minorista           900.0
5    Sur  Corporativo          3000.0
6    Sur    Minorista          1350.0

Cantidad por grupo:
  Region         Tipo  Cantidad
0   Este  Corporativo         1
1  Norte  Corporativo         1
2  Norte    Minorista         1
3  Oeste  Corporativo         1
4  Oeste    Minorista         1
5    Sur  Corporativo         1
6    Sur    Minorista         2


## 5) Errores t√≠picos (y c√≥mo evitarlos)

### Olvidar seleccionar una columna num√©rica antes de sumar/promediar:
- #### `df.groupby(["A","B"]).sum()` suma todas las num√©ricas; si quer√©s solo una, hac√© `["col"]`.

- #### Asustarse por el MultiIndex: es normal. Si necesit√°s un √≠ndice com√∫n, us√° `.reset_index()`.

- #### Nulos: `count()` no cuenta NaN. Si hay faltantes, tus totales/cantidades pueden sorprender. Revisar con `df.isna().sum()`.
---

## 6) Lectura e interpretaci√≥n (c√≥mo ‚Äúleer‚Äù el resultado)

- #### Cada fila del resultado representa una combinaci√≥n √∫nica de las columnas por las que agrupaste.

- #### La columna agregada (ej. Monto) muestra el resumen para esa combinaci√≥n (suma, promedio, conteo).

- #### Si ves un MultiIndex, pensalo como ‚Äút√≠tulo y subt√≠tulo‚Äù: primero Sucursal, dentro Categoria.
---

## Ejercicio √∫nico (GroupBy multi-columna, corto)

### **Dataset:** `Fecha`, `Sucursal` (Norte/Sur/Este/Oeste), `Categoria` (Electr√≥nica/Hogar/Ropa), `Precio`, `Cantidad`.

#### 1. Crear `Ingreso = Precio * Cantidad`.
#### 2. `groupby(["Sucursal","Categoria"])` y calcular:

- #### **Ingreso\_total** = `sum` de `Ingreso`
- #### **Precio\_prom** = `mean` de `Precio`
- #### **Ops** = `count` (cualquier columna)
#### Luego `reset_index()`.
#### 3. **Sin ordenar**, responder:

- #### ¬øQu√© (Sucursal, Categoria) tiene **Ingreso\_total** m√°ximo? (us√° `.max()` y filtr√° esa fila)
- #### ¬øD√≥nde el **Precio\_prom** es m√°ximo? (igual: `.max()` + filtro)
#### 4. Repet√≠ 1‚Äì3 **solo** con filas `Cantidad >= 3` **y** `Categoria != "Ropa"`.

- #### Dec√≠ en **1 l√≠nea** qu√© cambi√≥ y por qu√©.
---


### 1) Armar dataset y columna derivada

In [10]:
import pandas as pd

data = {
    "Fecha": ["2025-01-01","2025-01-02","2025-01-03","2025-01-04","2025-01-05","2025-01-06"],
    "Sucursal": ["Norte","Norte","Sur","Sur","Este","Oeste"],
    "Categoria": ["Electr√≥nica","Hogar","Electr√≥nica","Hogar","Ropa","Electr√≥nica"],
    "Precio": [3500,1800,1200,2500,1300,2300],
    "Cantidad": [2,3,5,1,4,2]
}
df = pd.DataFrame(data)

# Columna derivada
df["Ingreso"] = df["Precio"] * df["Cantidad"]


## 2) Agrupaci√≥n multi-columna

In [11]:
resumen = df.groupby(["Sucursal","Categoria"]).agg(
    Ingreso_total=("Ingreso","sum"),
    Precio_prom=("Precio","mean"),
    Ops=("Fecha","count")
).reset_index()

print(resumen)


  Sucursal    Categoria  Ingreso_total  Precio_prom  Ops
0     Este         Ropa           5200       1300.0    1
1    Norte  Electr√≥nica           7000       3500.0    1
2    Norte        Hogar           5400       1800.0    1
3    Oeste  Electr√≥nica           4600       2300.0    1
4      Sur  Electr√≥nica           6000       1200.0    1
5      Sur        Hogar           2500       2500.0    1


## 3) Buscar m√°ximos

In [12]:
# M√°ximo ingreso total
max_ing = resumen["Ingreso_total"].max()
print(resumen[resumen["Ingreso_total"] == max_ing])

# M√°ximo precio promedio
max_prec = resumen["Precio_prom"].max()
print(resumen[resumen["Precio_prom"] == max_prec])


  Sucursal    Categoria  Ingreso_total  Precio_prom  Ops
1    Norte  Electr√≥nica           7000       3500.0    1
  Sucursal    Categoria  Ingreso_total  Precio_prom  Ops
1    Norte  Electr√≥nica           7000       3500.0    1


### Con estos datos:

- #### Ingreso_total m√°ximo ‚Üí Sur, Electr√≥nica (Ingreso_total = 6000).

- #### Precio_prom m√°ximo ‚Üí Norte, Electr√≥nica (Precio_prom = 3500).
---

## 4) Repetir con filtro (Cantidad >= 3 y Categoria != "Ropa")

In [13]:
filtro = df[(df["Cantidad"] >= 3) & (df["Categoria"] != "Ropa")]
resumen_f = filtro.groupby(["Sucursal","Categoria"]).agg(
    Ingreso_total=("Ingreso","sum"),
    Precio_prom=("Precio","mean"),
    Ops=("Fecha","count")
).reset_index()

print(resumen_f)


  Sucursal    Categoria  Ingreso_total  Precio_prom  Ops
0    Norte        Hogar           5400       1800.0    1
1      Sur  Electr√≥nica           6000       1200.0    1


## Ahora:

- #### Quedan solo Norte-Hogar y Sur-Electr√≥nica.

- #### M√°ximo ingreso sigue siendo Sur, Electr√≥nica pero con menos datos.
---

## 5) Conclusi√≥n en 1 l√≠nea

#### Al aplicar el filtro se reducen las combinaciones v√°lidas ‚Üí cambian los totales y desaparecen las categor√≠as que no cumplen condiciones.
---
---

## Ejercicio 2 ‚Äî Pr√©stamos por Regi√≥n y Tramo de Monto
#### Dataset con: Cliente, Region (N/E/S/O), Monto, Plazo.

#### 1. Crear columna Tramo con 3 rangos de monto (ej.: ‚ÄúBajo‚Äù ‚â§1500, ‚ÄúMedio‚Äù 1501‚Äì2500, ‚ÄúAlto‚Äù >2500) usando condiciones simples.

#### 2. Agrupar por Region y Tramo y calcular:

- #### Suma de Monto.

- #### Promedio de Plazo.

- #### Cantidad de operaciones.

#### 3. Con una sola frase por √≠tem, interpretar:

- #### ¬øQu√© regi√≥n concentra m√°s monto en el tramo ‚ÄúAlto‚Äù?

- #### ¬øEn qu√© tramo los plazos promedio resultan mayores y por qu√© podr√≠a pasar?

#### (Pistas: crear `Tramo` con `np.where`/condiciones encadenadas o equivalentes sencillos; agrupar con `groupby(["Region","Tramo"])`; `sum()`, `mean()`, `count()`; `reset_index()`.)

## Ejercicio 2 - 1) Dataset + columna Tramo

In [14]:
import pandas as pd
import numpy as np

data = {
    "Cliente": ["Ana","Luis","Sof√≠a","Marta","Juan","Carla","Pedro","Laura"],
    "Region":  ["N","N","S","S","E","E","O","O"],
    "Monto":   [1000, 2800, 1500, 3200, 2200, 1300, 2700, 1800],
    "Plazo":   [12, 24, 18, 36, 24, 12, 30, 18]
}
df = pd.DataFrame(data)

# Crear columna Tramo
df["Tramo"] = np.where(df["Monto"] <= 1500, "Bajo",
                np.where(df["Monto"] <= 2500, "Medio", "Alto"))

print(df[["Cliente","Region","Monto","Plazo","Tramo"]])


  Cliente Region  Monto  Plazo  Tramo
0     Ana      N   1000     12   Bajo
1    Luis      N   2800     24   Alto
2   Sof√≠a      S   1500     18   Bajo
3   Marta      S   3200     36   Alto
4    Juan      E   2200     24  Medio
5   Carla      E   1300     12   Bajo
6   Pedro      O   2700     30   Alto
7   Laura      O   1800     18  Medio


## 2) Agrupar por Regi√≥n y Tramo

In [15]:
resumen = df.groupby(["Region","Tramo"]).agg(
    Monto_total=("Monto","sum"),
    Plazo_prom=("Plazo","mean"),
    Operaciones=("Cliente","count")
).reset_index()

print(resumen)


  Region  Tramo  Monto_total  Plazo_prom  Operaciones
0      E   Bajo         1300        12.0            1
1      E  Medio         2200        24.0            1
2      N   Alto         2800        24.0            1
3      N   Bajo         1000        12.0            1
4      O   Alto         2700        30.0            1
5      O  Medio         1800        18.0            1
6      S   Alto         3200        36.0            1
7      S   Bajo         1500        18.0            1


## 3) Interpretaciones

#### 1. ¬øQu√© regi√≥n concentra m√°s monto en el tramo ‚ÄúAlto‚Äù?
- #### La regi√≥n Sur concentra m√°s monto en el tramo Alto porque tiene el pr√©stamo m√°s grande (3200).

#### 2. ¬øEn qu√© tramo los plazos promedio resultan mayores y por qu√© podr√≠a pasar?
- #### En el tramo Alto, porque los pr√©stamos grandes suelen darse a plazos m√°s largos para que sean m√°s pagables.
---

## 8) Cierre

#### Agrupar por m√∫ltiples columnas es el paso natural cuando las preguntas del negocio son bidimensionales (o m√°s): por regi√≥n y categor√≠a, 
#### por mes y estado, por sucursal y canal.
#### Hoy viste c√≥mo construir esos grupos, agregar m√©tricas y leer el resultado. En el pr√≥ximo bloque, vamos a combinar agregaciones en una sola instrucci√≥n con agg, 
#### para producir varias m√©tricas a la vez de forma limpia y eficiente.
---

# Tema 2: Agregaciones combinadas (agg)

## 1) Introducci√≥n 

#### Cuando trabajamos con datos reales, no alcanza con mirar un solo n√∫mero. En un an√°lisis serio casi siempre necesitamos varias m√©tricas al mismo tiempo: totales, promedios, conteos, m√≠nimos o m√°ximos. Cada una de esas medidas nos da un √°ngulo distinto de la informaci√≥n y juntas nos permiten ver el panorama completo.

### Hasta ahora, lo que hicimos fue aplicar estas m√©tricas por separado. Por ejemplo:

- #### usamos `sum()` para calcular los totales,

- #### despu√©s aplicamos `mean()` para obtener los promedios,

- #### y m√°s tarde `count()` para conocer la cantidad de operaciones.

#### Este enfoque funciona, pero tiene un problema: es repetitivo. Para cada c√°lculo hay que volver a agrupar los datos y eso se vuelve lento, confuso y dif√≠cil de leer cuando el an√°lisis crece.

#### Imaginemos una situaci√≥n t√≠pica: el jefe nos pide un informe que muestre el total de pr√©stamos, el promedio y la cantidad de operaciones por sucursal y tipo de cliente.
#### Si intentamos resolverlo con lo que ven√≠amos haciendo, tendr√≠amos que escribir tres pasos distintos, repetir el groupby varias veces y luego combinar manualmente los resultados.

#### Claramente eso no es eficiente. Lo ideal ser√≠a poder hacer todos esos c√°lculos juntos, en una sola pasada, y obtener una tabla compacta con todas las m√©tricas al lado.
---

## 2) La herramienta (agg)

#### La funci√≥n `.agg()` es de **pandas**, no de Python puro. Se usa despu√©s de un `groupby()` y permite aplicar varias operaciones de resumen al mismo tiempo 
#### (como suma, promedio y conteo) en una sola pasada. Esto hace el c√≥digo m√°s claro y r√°pido, porque no ten√©s que repetir el agrupamiento varias veces.

#### `Una analog√≠a simple:` es como un profesor que mira las notas de un grupo y, de una sola vez, anota el promedio, la nota m√°s alta y la m√°s baja, sin tener que revisar la libreta tres veces.
---


### Sintaxis b√°sica:

## `df.groupby("col")["otra_col"].agg(["sum","mean","count"])`


### Tambi√©n se puede usar un diccionario para personalizar nombres:

### `df.groupby("col").agg(`
###     `Total_Monto=("Monto","sum"),`
###     `Promedio_Monto=("Monto","mean"),`
###     `Operaciones=("Cliente","count")`
### `)`
---


## 3) Concepto en palabras simples

- #### agg viene de aggregate, que significa juntar o resumir datos.

- #### Con agg pod√©s pedir varias cuentas al mismo tiempo (suma, promedio, cantidad, etc.) dentro de un mismo `groupby()`.

- #### En vez de hacer un `groupby().sum()`, despu√©s otro `groupby().mean()`, despu√©s otro `roupby().count()`, con agg hac√©s todo junto en una sola pasada.

### ¬øQu√© gan√°s?

- #### Menos c√≥digo (m√°s corto).

- #### M√°s ordenado (todo en la misma tabla).

- #### M√°s r√°pido (la compu hace el trabajo de una vez).

### El resultado es una tabla con todas las m√©tricas lado a lado, lista para analizar o mostrar.
---

## 4) Ejemplo simple en c√≥digo

### Ejemplo A ‚Äî Pr√©stamos por regi√≥n

In [9]:
import pandas as pd

# Creamos un diccionario con datos de regi√≥n, monto y cliente
data = {
    'Region': ['N', 'N', 'S', 'S', 'E', 'E', 'O', 'O'],
    'Monto': [1000, 2000, 1500, 3000, 2200, 1300, 2700, 1800],
    'Cliente': ['Ana', 'Luis', 'Sofia', 'Marta', 'Juan', 'Carla', 'Pedro', 'Laura']
}

df = pd.DataFrame(data)  # Convertimos el diccionario en un DataFrame (tabla)

print(df) # Mostramos la tabla original con todos los datos

print('')

# Agrupamos por regi√≥n y calculamos suma, promedio y cantidad en una sola instrucci√≥n
resumen = df.groupby('Region').agg(
    Total_Monto=('Monto','sum'), # Suma de montos por regi√≥n
    Promedio_Monto=('Monto','mean'),  # Promedio de montos por regi√≥n
    Operaciones=('Cliente','count') # Cantidad de clientes en cada regi√≥n
    ).reset_index() # Convierte Region otra vez en columna normal

print(resumen)

  Region  Monto Cliente
0      N   1000     Ana
1      N   2000    Luis
2      S   1500   Sofia
3      S   3000   Marta
4      E   2200    Juan
5      E   1300   Carla
6      O   2700   Pedro
7      O   1800   Laura

  Region  Total_Monto  Promedio_Monto  Operaciones
0      E         3500          1750.0            2
1      N         3000          1500.0            2
2      O         4500          2250.0            2
3      S         4500          2250.0            2


### Ejemplo B ‚Äî Multi-columna (Regi√≥n y Tipo)

In [12]:
# Creamos un diccionario con columnas: Regi√≥n, Tipo de cliente y Monto del pr√©stamo
data = {
    'Region': ['N', 'N', 'S', 'S', 'E', 'E', 'O', 'O'],
    'Tipo': ["Minorista","Corporativo","Minorista","Corporativo","Minorista","Corporativo","Minorista","Corporativo"],
    'Monto': [1000, 2000, 1500, 3000, 2200, 1300, 2700, 1800]
}

df = pd.DataFrame(data) # Convertimos el diccionario en un DataFrame (tabla de pandas)

# Agrupamos por Regi√≥n y Tipo, luego aplicamos varias agregaciones con agg()
resumen = df.groupby(['Region', 'Tipo']).agg(
    Total_Monto=('Monto','sum'), # Suma de montos por cada grupo (Region+Tipo)
    Promedio_Monto=('Monto','mean'), # Promedio de montos por cada grupo
    Operaciones=('Monto','count') # Cantidad de registros en cada grupo
).reset_index() # Convertimos el √≠ndice de nuevo en columnas normales

print(resumen)

  Region         Tipo  Total_Monto  Promedio_Monto  Operaciones
0      E  Corporativo         1300          1300.0            1
1      E    Minorista         2200          2200.0            1
2      N  Corporativo         2000          2000.0            1
3      N    Minorista         1000          1000.0            1
4      O  Corporativo         1800          1800.0            1
5      O    Minorista         2700          2700.0            1
6      S  Corporativo         3000          3000.0            1
7      S    Minorista         1500          1500.0            1


### 5) Errores t√≠picos

## **1. Olvidar usar diccionario en `agg`**

- #### Si escrib√≠s `agg(["sum","mean"])`, las columnas se llaman *sum* y *mean* ‚Üí nombres gen√©ricos y poco claros.
- #### Con diccionario pod√©s dar nombres descriptivos:

  ```python
  df.groupby("Region").agg(
      Total_Monto=("Monto","sum"),
      Promedio_Monto=("Monto","mean")
  )
  ```

#### Esto hace que el resultado sea entendible y presentable. Adem√°s pod√©s combinar distintas columnas y funciones en el mismo diccionario.

#### **2. Contar con `count()` en columnas con nulos**

#### `count()` solo cuenta valores **no nulos** ‚Üí si hay `NaN`, el resultado es menor al n√∫mero real de filas.
####  Si quer√©s **todas las filas**, uses o no datos v√°lidos, us√° `size()`.
###  Diferencia:
- #### `count()` = ‚Äú¬øcu√°ntos datos v√°lidos tengo en esta columna?‚Äù
- #### `size()` = ‚Äú¬øcu√°ntas filas hay en este grupo, con o sin datos faltantes?‚Äù

---


## 6) Ejercicios

#### Ejercicio 1 ‚Äî Ventas por Sucursal y Categor√≠a
#### Dataset: Sucursal, Categoria, Precio, Cantidad.

#### 1. Crear columna Ingreso = Precio * Cantidad.

#### 2. Agrupar por Sucursal y Categoria.

#### 3. Con agg, calcular:

- #### Total de Ingreso `(sum)`.

- #### Ingreso promedio `(mean)`.

- #### Cantidad de operaciones `(count)`.

#### 4. Interpretar: ¬øqu√© combinaci√≥n factura m√°s y cu√°l tiene el ingreso promedio m√°s alto?

In [15]:
import pandas as pd

# creamos el dataset 
data = {
    "Sucursal": ["Norte","Norte","Norte","Sur","Sur","Este","Este","Oeste","Oeste"],
    "Categoria": ["Electr√≥nica","Ropa","Ropa","Electr√≥nica","Ropa","Ropa","Electr√≥nica","Ropa","Electr√≥nica"],
    "Precio": [1000,500,800,1200,700,400,900,600,1500],
    "Cantidad": [2,3,1,1,5,2,3,4,1]
}

df = pd.DataFrame(data)

print(df)

print('')

# 2) creamos la columna Ingreso
df['Ingreso'] = df['Precio'] * df['Cantidad']

# 2) agrupamos por sucursal y cantidad
resumen = df.groupby(['Sucursal','Categoria']).agg(
    Total_Ingreso=('Ingreso','sum'),
    Promedio_Ingreso=('Ingreso','mean'),
    Operaciones=('Ingreso','count')
).reset_index()


print(resumen)

# 5) Interpretaci√≥n

# La combinaci√≥n que m√°s factura (Total_Ingreso) ‚Üí Sur + Ropa = 3500

# La que tiene mayor ingreso promedio (Promedio_Ingreso) ‚Üí Sur + Ropa = 3500

  Sucursal    Categoria  Precio  Cantidad
0    Norte  Electr√≥nica    1000         2
1    Norte         Ropa     500         3
2    Norte         Ropa     800         1
3      Sur  Electr√≥nica    1200         1
4      Sur         Ropa     700         5
5     Este         Ropa     400         2
6     Este  Electr√≥nica     900         3
7    Oeste         Ropa     600         4
8    Oeste  Electr√≥nica    1500         1

  Sucursal    Categoria  Total_Ingreso  Promedio_Ingreso  Operaciones
0     Este  Electr√≥nica           2700            2700.0            1
1     Este         Ropa            800             800.0            1
2    Norte  Electr√≥nica           2000            2000.0            1
3    Norte         Ropa           2300            1150.0            2
4    Oeste  Electr√≥nica           1500            1500.0            1
5    Oeste         Ropa           2400            2400.0            1
6      Sur  Electr√≥nica           1200            1200.0            1
7      Sur 

# Caso pr√°ctico: Promedio de pr√©stamo y % mora por regi√≥n

## 1. Introducci√≥n

#### vamos a trabajar con un an√°lisis muy t√≠pico en el mundo financiero: entender c√≥mo se comportan los pr√©stamos en distintas regiones.
#### Un banco o financiera no solo quiere saber cu√°nto dinero prest√≥, sino tambi√©n:

- #### ¬øCu√°l es el monto promedio que la gente pide?

- #### ¬øQu√© porcentaje de esos pr√©stamos entra en mora (es decir, clientes que no pagan a tiempo)?

#### Estos indicadores son clave porque ayudan a tomar decisiones: d√≥nde conviene prestar m√°s, d√≥nde hay m√°s riesgo, y c√≥mo manejar las pol√≠ticas de cr√©dito en cada zona.
---

## 2. necesidad 

### Imaginemos que yo trabajo en el √°rea de riesgo crediticio de un banco.
#### mi jefe me llama y me dice:

#### Necesito un informe urgente: quiero ver por regi√≥n cu√°l es el promedio de pr√©stamo y el porcentaje de mora. As√≠ podremos decidir d√≥nde expandir nuestras operaciones y d√≥nde tener m√°s cuidado.

#### Ah√≠ surge la necesidad: tenemos que calcular dos m√©tricas al mismo tiempo, agrupadas por regi√≥n.
---

#### Para resolver este tipo de problemas en pandas, usamos dos pasos:

#### 1. `groupby()` ‚Üí agrupar los datos por una columna (en este caso, ‚ÄúRegion‚Äù).

#### 2. `.agg()` ‚Üí calcular varias m√©tricas a la vez (promedios, sumas, porcentajes, etc.).

### üìå Concepto importante:

- #### Cuando la columna tiene n√∫meros continuos (ejemplo: monto), podemos calcular mean, sum, max, etc.

- #### Cuando la columna tiene 0 y 1 (ejemplo: mora: 0 = paga, 1 = en mora), el mean devuelve el porcentaje de morosos, porque calcula la proporci√≥n.
---

## Ejemplo 1

In [16]:
import pandas as pd

# Dataset sencillo
data = {
    "Region": ["Norte","Norte","Sur","Sur","Este","Este"],
    "Monto":  [2000, 2500, 1200, 1000, 3000, 2800],
    "Mora":   [0, 1, 0, 1, 0, 0]  # 0 = paga, 1 = en mora
}
df = pd.DataFrame(data)

resumen = df.groupby("Region").agg(
    Promedio_Prestamo=("Monto","mean"),
    Porcentaje_Mora=("Mora","mean")
).reset_index()

# Convertimos a porcentaje
resumen["Porcentaje_Mora"] = resumen["Porcentaje_Mora"] * 100

print(resumen)


  Region  Promedio_Prestamo  Porcentaje_Mora
0   Este             2900.0              0.0
1  Norte             2250.0             50.0
2    Sur             1100.0             50.0


## Ejemplo 2 (con m√°s columnas)

#### Ahora agregamos los clientes para ver que se pueden incluir m√°s datos.

In [17]:
data = {
    "Region":   ["Norte","Norte","Sur","Sur","Este","Este","Oeste","Oeste"],
    "Cliente":  ["A","B","C","D","E","F","G","H"],
    "Monto":    [2000,1500,1200,1000,3000,2800,1700,1600],
    "Mora":     [0,1,1,0,0,0,1,0]
}
df = pd.DataFrame(data)

resumen = df.groupby("Region").agg(
    Promedio_Prestamo=("Monto","mean"), # promedio de pr√©stamo
    Total_Prestamos=("Monto","sum"),    # suma total prestada
    Porcentaje_Mora=("Mora","mean")     # porcentaje de mora (promedio de 0 y 1)
).reset_index()

# Convertimos la mora en porcentaje (ej: 0.25 ‚Üí 25%)
resumen["Porcentaje_Mora"] = resumen["Porcentaje_Mora"] * 100
print(resumen)

# Ahora tenemos: promedio de pr√©stamo, total prestado y % de mora.
# Esto se parece mucho m√°s a un informe real de un banco.


  Region  Promedio_Prestamo  Total_Prestamos  Porcentaje_Mora
0   Este             2900.0             5800              0.0
1  Norte             1750.0             3500             50.0
2  Oeste             1650.0             3300             50.0
3    Sur             1100.0             2200             50.0


## Ejemplo 3 (ordenando resultados)
#### Podemos ordenar las regiones seg√∫n el riesgo (mayor % de mora primero).

In [18]:
# Ordenamos las regiones por % de mora (de mayor a menor)
resumen_ordenado = resumen.sort_values(by="Porcentaje_Mora", ascending=False) 
print(resumen_ordenado)


  Region  Promedio_Prestamo  Total_Prestamos  Porcentaje_Mora
1  Norte             1750.0             3500             50.0
2  Oeste             1650.0             3300             50.0
3    Sur             1100.0             2200             50.0
0   Este             2900.0             5800              0.0


## Ejercicios propuestos

#### 1. **Ventas por regi√≥n**
   Dataset: Regi√≥n, Producto, Precio, Cantidad, Deuda (0 = pag√≥, 1 = debe).

- #### Crear columna Ingreso = Precio \* Cantidad.
- #### Agrupar por Regi√≥n.
- #### Calcular:

- ####   Promedio de Ingreso.
- ####   Total de Ingreso.
- ####   % de clientes con deuda.

#### 2. **Cr√©ditos por sucursal**
   Dataset: Sucursal, Cliente, Monto, Mora.

- #### Agrupar por sucursal.
- #### Calcular el monto promedio, el monto m√°ximo y el % de mora.
- #### Ordenar las sucursales por monto promedio descendente.

#### 3. **An√°lisis extra**
####    Con el dataset de ejemplo, calcular adem√°s **cu√°ntos clientes tiene cada regi√≥n** y mostrarlo junto al promedio y % de mora.

---
---
---

## Ejercicios

### 1. Ventas por regi√≥n
#### Dataset: Regi√≥n, Producto, Precio, Cantidad, Deuda (0 = pag√≥, 1 = debe).

- #### Crear columna Ingreso = Precio * Cantidad.

- #### Agrupar por Regi√≥n.

- #### Calcular:

#### Promedio de Ingreso.

#### Total de Ingreso.

#### % de clientes con deuda.

In [19]:
import pandas as pd

# Dataset: Regi√≥n, Producto, Precio, Cantidad, Deuda (0=pag√≥, 1=debe)
data = {
    "Region":   ["Norte","Norte","Sur","Sur","Este","Este","Oeste","Oeste"],
    "Producto": ["A","B","A","C","B","C","A","B"],
    "Precio":   [100, 150,  80, 120, 200, 180, 90, 160],
    "Cantidad": [  5,   2,  10,   1,   3,   2,  4,   1],
    "Deuda":    [  0,   1,   0,   1,   0,   0,  1,   0]
}
df = pd.DataFrame(data)

# 1) Columna Ingreso = Precio * Cantidad
df["Ingreso"] = df["Precio"] * df["Cantidad"]

# 2) Agrupar por Regi√≥n y calcular m√©tricas
resumen = df.groupby("Region").agg(
    Promedio_Ingreso=("Ingreso","mean"),     # promedio por operaci√≥n
    Total_Ingreso=("Ingreso","sum"),         # suma total
    Porcentaje_Deuda=("Deuda","mean")        # proporci√≥n de operaciones con deuda
).reset_index()

# 3) Convertir proporci√≥n a porcentaje
resumen["Porcentaje_Deuda"] = resumen["Porcentaje_Deuda"] * 100

print(resumen)
# Nota: el % de deuda aqu√≠ es por operaci√≥n (no por cliente, porque no hay columna Cliente).


  Region  Promedio_Ingreso  Total_Ingreso  Porcentaje_Deuda
0   Este             480.0            960               0.0
1  Norte             400.0            800              50.0
2  Oeste             260.0            520              50.0
3    Sur             460.0            920              50.0


## 2. Cr√©ditos por sucursal
### Dataset: Sucursal, Cliente, Monto, Mora.

- #### Agrupar por sucursal.

- #### Calcular el monto promedio, el monto m√°ximo y el % de mora.

- #### Ordenar las sucursales por monto promedio descendente.

In [20]:
import pandas as pd

# Dataset: Sucursal, Cliente, Monto, Mora (0=paga, 1=en mora)
data = {
    "Sucursal": ["Centro","Centro","Centro","Norte","Norte","Sur","Sur","Sur"],
    "Cliente":  ["A","B","C","D","E","F","G","H"],
    "Monto":    [2000, 1500, 3000, 1800, 2200, 1000, 1200, 900],
    "Mora":     [0,    1,    0,    0,    1,    0,    1,    0]
}
df = pd.DataFrame(data)

# 1) Agrupar por Sucursal y calcular m√©tricas
resumen = df.groupby("Sucursal").agg(
    Monto_Promedio=("Monto","mean"),   # promedio
    Monto_Maximo=("Monto","max"),      # m√°ximo
    Porcentaje_Mora=("Mora","mean")    # proporci√≥n de clientes en mora
).reset_index()

# 2) Convertir proporci√≥n a %
resumen["Porcentaje_Mora"] = resumen["Porcentaje_Mora"] * 100

# 3) Ordenar por monto promedio (descendente)
resumen_ordenado = resumen.sort_values(by="Monto_Promedio", ascending=False)

print(resumen_ordenado)


  Sucursal  Monto_Promedio  Monto_Maximo  Porcentaje_Mora
0   Centro     2166.666667          3000        33.333333
1    Norte     2000.000000          2200        50.000000
2      Sur     1033.333333          1200        33.333333


## 3. An√°lisis extra
#### Con el dataset de ejemplo, calcular adem√°s cu√°ntos clientes tiene cada regi√≥n y mostrarlo junto al promedio y % de mora.

In [None]:
import pandas as pd

# Dataset de ejemplo: Region, Cliente, Monto, Mora
data = {
    "Region":  ["Norte","Norte","Norte","Sur","Sur","Este","Este","Oeste","Oeste"],
    "Cliente": ["A","B","A","C","D","E","F","G","H"],  # un cliente puede aparecer m√°s de una vez
    "Monto":   [2000,1500,1800,1200,1000,3000,2800,1700,1600],
    "Mora":    [0,1,0,1,0,0,0,1,0]
}
df = pd.DataFrame(data)

# 1) M√©tricas principales por regi√≥n
resumen = df.groupby("Region").agg(
    Promedio_Prestamo=("Monto","mean"),
    Porcentaje_Mora=("Mora","mean")
).reset_index()

# 2) Contar clientes √∫nicos por regi√≥n (no repite el mismo cliente)
clientes_region = df.groupby("Region")["Cliente"].nunique().reset_index(name="Clientes_Unicos")

# 3) Unir m√©tricas + cantidad de clientes
resumen = resumen.merge(clientes_region, on="Region", how="left")

# 4) Convertir mora a %
resumen["Porcentaje_Mora"] = resumen["Porcentaje_Mora"] * 100

print(resumen)
# Ahora ves: promedio, % mora y cu√°ntos clientes √∫nicos tiene cada regi√≥n.
