# Selección de columnas y filas con loc e iloc

### Bienvenidos a la cuarta clase de nuestro curso de Fundamentos de NumPy y Pandas.
#### Hoy vamos a empezar con algo fundamental: `cómo seleccionar y filtrar información en un DataFrame.`
#### Ya sabemos crear DataFrames, ver sus primeras filas, info y estadísticas… pero ahora toca aprender a elegir solo lo que necesitamos.
#### Esto es clave en análisis de datos, porque rara vez usamos todo el dataset: casi siempre queremos enfocarnos en una parte.
---

## Contexto / Necesidad

## Imaginemos esta situación: trabajamos en un banco y tenemos miles de clientes con datos de préstamos.
### Nuestra jefa nos dice:

- #### ‘Mostrame solo la columna de montos.’

- #### ‘Dame las filas de los primeros 3 clientes.’

- #### ‘Mostrame los datos del cliente número 5.’

#### Si intentáramos hacerlo con listas normales de Python, sería un lío de bucles y posiciones.
#### Con Pandas tenemos dos herramientas súper claras y rápidas: loc e iloc.”*
---

## Concepto s

### 📌 loc

### Concepto:
- #### loc sirve para seleccionar datos usando el nombre de las filas o de las columnas.

### Explicación:
- #### Imaginá que tenés una libreta con contactos. Buscás el número de teléfono de “Juan”. No te importa si está en la primera página o en la última, lo encontrás por su nombre. Eso hace loc.
---

### 📌 iloc

### Concepto:
- #### iloc sirve para seleccionar datos usando la posición numérica de las filas o de las columnas.

### Explicación:
- #### Es como cuando contás los asientos de un cine: “quiero el asiento número 3 de la fila 2”. No te importa el nombre de la persona, solo el número de su lugar. Eso hace iloc.
---

## Ejemplo en la vida real

### Supongamos que tenemos este dataset de préstamos:
| Cliente | Monto | Plazo |
| ------- | ----- | ----- |
| Ana     | 1000  | 12    |
| Luis    | 2000  | 24    |
| Sofía   | 1500  | 18    |
| Marta   | 3000  | 36    |
| Juan    | 1200  | 12    |


## Ejemplo en código

### Vamos a verlo en código, tranquilos, paso a paso.

## `seleccion con loc por nombre`

In [None]:
import pandas as pd

# creamos el dataframe
datos = {
    'Cliente': ['Ana', 'Luis', 'Sofia', 'Marta', 'Juan'],
    'Monto': [1000, 2000, 1500, 3000, 1200],
    'Plazo': [12, 24, 18, 36, 12]
}
# creamos el dataframe
df = pd.DataFrame(datos)
# mostramos
print(df)

# seleccion con loc por nombre - : usamos indexacion para traer todas las filas de la columna monto
print(df.loc[:, 'Monto'])

# traemos los datos de un cliente especifico y lo buscamos por indice
print(df.loc[2])

# traemos todas las filas de las columnas cliente y monto
print(df.loc[:, ['Cliente', 'Monto']])

  Cliente  Monto  Plazo
0     Ana   1000     12
1    Luis   2000     24
2   Sofia   1500     18
3   Marta   3000     36
4    Juan   1200     12
  Cliente  Monto
0     Ana   1000
1    Luis   2000
2   Sofia   1500
3   Marta   3000
4    Juan   1200


## `seleccion con iloc por posicion`

In [None]:
# seleccionamos la primera fila con iloc
print(df.iloc[0])

# aca le decimos que nos traiga desde la fila 0 hasta antes de la 2
print(df.iloc[0:3])

# cuando metemos una coma nos trae todas las filas, luego le especificamos de cual columna
# trame todas las filas de la columna 1
print(df.iloc[:, 1])

# aca le decimos lo siguiente
# Dame las primeras 3 filas y las primeras 2 columnas
print(df.iloc[0:3, 0:2])

Cliente     Ana
Monto      1000
Plazo        12
Name: 0, dtype: object
  Cliente  Monto  Plazo
0     Ana   1000     12
1    Luis   2000     24
2   Sofia   1500     18
0    1000
1    2000
2    1500
3    3000
4    1200
Name: Monto, dtype: int64
  Cliente  Monto
0     Ana   1000
1    Luis   2000
2   Sofia   1500


## Ejercicios 

#### Ahora vamos a hacer un ejercicio para practicar. Tomen un nuevo DataFrame con productos de supermercado (Producto, Precio, Cantidad) y hagan lo siguiente:

- #### Mostrar solo la columna “Precio” con loc.

- #### Mostrar las primeras 2 filas con iloc.

- #### Usar loc para seleccionar “Producto” y “Cantidad” de todos los registros.

- #### Usar iloc para mostrar las filas 1 a 3 y columnas 0 y 2.

#### Con esto ya tenemos la base para trabajar después con filtrado y ordenamiento, que vamos a ver en la siguiente parte.

In [59]:
import pandas as pd

# supermercado
productos_super = {
    'Productos': ['Arroz', 'Azucar', 'Leche', 'Pollo', 'Pan'],
    'Precio': [5.500, 8.000, 6.000, 15.000, 12.500],
    'Cantidad': [1, 1, 1, 2, 1]
}

data_frame = pd.DataFrame(productos_super)

# mostramos el dataframe completo
print(data_frame)

# mostramos solo la columna precio
print(data_frame.loc[0:, 'Precio'])

# seleccionamos las filas 0 y 1 (las dos primeras) y muestra todas las columnas
print(data_frame.iloc[0:2])

# : seleccionamos todos los registros de las columnas produtos y cantidad
print(data_frame.loc[:, ['Productos', 'Cantidad']])

# mostramos las filas 1 a 3 y las columnas 0 y 2 de esas filas
print(data_frame.iloc[1:4, [0, 2]])

  Productos  Precio  Cantidad
0     Arroz     5.5         1
1    Azucar     8.0         1
2     Leche     6.0         1
3     Pollo    15.0         2
4       Pan    12.5         1
0     5.5
1     8.0
2     6.0
3    15.0
4    12.5
Name: Precio, dtype: float64
  Productos  Precio  Cantidad
0     Arroz     5.5         1
1    Azucar     8.0         1
  Productos  Cantidad
0     Arroz         1
1    Azucar         1
2     Leche         1
3     Pollo         2
4       Pan         1
  Productos  Cantidad
1    Azucar         1
2     Leche         1
3     Pollo         2


# Filtrado con condiciones

### Muy bien, ahora que ya sabemos cómo seleccionar columnas y filas con loc e iloc, vamos a dar un paso más: aprender a filtrar datos con condiciones.

#### Esto es fundamental porque en análisis de datos casi nunca queremos ver todo el dataset completo. Siempre necesitamos enfocarnos en una parte de los datos que cumpla con una condición.

## 1. Necesidad

### Imaginemos que tenemos una tabla con ventas de productos.
#### Nuestra jefa nos pide:

- #### Mostrar solo los productos que cuesten más de 2000.

- #### Mostrar los productos que tengan stock mayor a 10.

- #### O incluso: mostrar solo los productos que cumplan ambas condiciones.

#### ¿Cómo lo hacemos de manera rápida con Pandas?
#### Con filtrado de condiciones.
---


## 2. **Concepto**

### El filtrado en Pandas es como pasar una tabla por un colador: solo quedan las filas que cumplen la condición que vos pedís.

- #### **Condición**: es la regla que ponés sobre una columna.
### Ejemplo: Precio mayor a 2000

### **Máscara booleana**: cuando escribís esa condición, Pandas genera una lista de respuestas *True* o *False*.

- #### *True* = la fila cumple la regla.
- #### *False* = la fila no la cumple.

### **Aplicación del filtro**: al aplicar esa máscara sobre el DataFrame, Pandas devuelve solo las filas con *True*. Es como decir: “mostrame solo lo que pasa el filtro”.

### **Combinación de condiciones**:

- #### `&` (**AND**) → se cumplen ambas.
- #### `|` (**OR**) → se cumple al menos una.
- #### `~` (**NOT**) → es lo contrario, lo que **no** cumple.

### **Ejemplo mental**:

- #### “Dame productos con precio mayor a 2000” → filtro simple.
- #### “Dame productos con precio mayor a 2000 **y** cantidad mayor a 3” → dos condiciones al mismo tiempo (AND).
- #### “Dame productos con precio mayor a 2000 **o** cantidad mayor a 3” → al menos una condición (OR).
- #### “Dame productos que **no** tengan precio mayor a 2000” → usamos NOT.

### En resumen: el filtrado en Pandas es escribir reglas claras, dejar que Pandas genere una columna de *True/False*, y después quedarte solo con las filas que tienen *True*.

---


## 3. Ejemplo en la vida real

### Vamos a seguir con el dataset de supermercado:
| Producto | Precio | Cantidad |
| -------- | ------ | -------- |
| Arroz    | 1200   | 10       |
| Leche    | 2500   | 5        |
| Pan      | 1500   | 20       |
| Aceite   | 4800   | 3        |
| Fideos   | 2000   | 12       |

---


## 4. Ejemplo en código

In [74]:
import pandas as pd

# creamos el dataframe
data = {
    'Producto': ['Arroz', 'Leche', 'Pan', 'Aceite', 'Fideos'],
    'Precio': [1200, 2500, 1500, 4800, 2000],
    'Cantidad': [10, 5, 20, 3, 12]
}

# convertimos a dataframe
df = pd.DataFrame(data)

# 1) Productos con precio mayor a 2000
print(df[df['Precio'] > 2000])

# 2) Productos con mayor cantidad a 10
print(df[df['Cantidad'] > 10])

# 3) Productos con precio mayor a 1000 y cantidad mayor a 10
print(df[(df['Precio'] > 1000) & (df['Cantidad'] > 10)])

# 4) Productos con precio menor o igual a 2000 o cantidad menor a 5
print(df[(df['Precio'] <= 2000) | (df['Cantidad'] < 5)])

'''
Arroz (1200, 10) → 1200 <= 2000  (entra por precio).

Pan (1500, 20) → 1500 <= 2000  (entra por precio).

Aceite (4800, 3) → 3 < 5  (entra por cantidad).

Fideos (2000, 12) → 2000 <= 2000 (entra por precio porque es igual a 2000).'''

  Producto  Precio  Cantidad
1    Leche    2500         5
3   Aceite    4800         3
  Producto  Precio  Cantidad
2      Pan    1500        20
4   Fideos    2000        12
  Producto  Precio  Cantidad
2      Pan    1500        20
4   Fideos    2000        12
  Producto  Precio  Cantidad
0    Arroz    1200        10
2      Pan    1500        20
3   Aceite    4800         3
4   Fideos    2000        12


'\nArroz (1200, 10) → 1200 <= 2000  (entra por precio).\n\nPan (1500, 20) → 1500 <= 2000  (entra por precio).\n\nAceite (4800, 3) → 3 < 5  (entra por cantidad).\n\nFideos (2000, 12) → 2000 <= 2000 (entra por precio porque es igual a 2000).'

## 5. Ejercicios

### Ahora quiero que ustedes lo intenten con el mismo DataFrame o uno inventado. Resuelvan esto:

- #### Mostrar los productos con precio mayor o igual a 2000.

- #### Mostrar los productos con cantidad menor a 10.

- #### Mostrar los productos con precio mayor a 1500 y cantidad mayor a 5.

- #### Mostrar los productos que tengan precio menor a 2000 o cantidad mayor a 15.

#### 
#### En la próxima parte vamos a ver cómo ordenar datos, para acomodar los resultados según precio, cantidad u otra columna
---

In [None]:
# seleccionamos la columna precio y le damos la condicion
print(df[df['Precio'] >= 2000])

# seleccionamos la columna cantidad y la condicion
print(df[df['Cantidad']  < 10])

# seleccionamos la columna precio con la condicion y la columna cantidad con la condicion
print(df[(df['Precio'] > 1500) & (df['Cantidad'] > 5)])

# seleccionamos la columna precio con la condicion y la columna cantidad con la condicion
print(df[(df['Precio'] < 2000) | (df['Cantidad'] < 15)])



  Producto  Precio  Cantidad
1    Leche    2500         5
3   Aceite    4800         3
4   Fideos    2000        12
  Producto  Precio  Cantidad
1    Leche    2500         5
3   Aceite    4800         3
  Producto  Precio  Cantidad
4   Fideos    2000        12
  Producto  Precio  Cantidad
0    Arroz    1200        10
1    Leche    2500         5
2      Pan    1500        20
3   Aceite    4800         3
4   Fideos    2000        12


# Ordenar datos en Pandas

## 1. Concepto

#### Ordenar datos significa reorganizar las filas de un DataFrame según los valores de una columna (o varias).
#### Es como cuando en Excel hacés clic en “ordenar de menor a mayor” o “de mayor a menor”.
#### Esto es útil porque permite analizar mejor la información, detectar los valores extremos y organizar reportes.
---

## 2. Ejemplo de la vida real

#### Imaginá que tenés una lista de préstamos en un banco.
- #### Si los ordenás por monto, podés ver rápidamente cuáles son los más grandes y los más chicos.
- #### Si los ordenás por fecha, podés ver cuál fue el primero y cuál el último.
- #### Si los ordenás por cliente, podés ver todos los registros agrupados por nombre.
---

## 3. Ejemplo en código

In [14]:
import pandas as pd

#  DataFrame de ejemplo
data = {
    "Cliente": ["Ana", "Luis", "Sofía", "Marta", "Juan"],
    "Monto": [1000, 2000, 1500, 3000, 1200],
    "Plazo": [12, 24, 18, 36, 12]
}

df = pd.DataFrame(data)

# Ordenar por la columna Monto (de menor a mayor)
print("Ordenado por Monto ascendente:")
print(df.sort_values(by="Monto"))  
# Ordena priorizando la columna Monto de menor a mayor.

# Ordenar por la columna Monto (de mayor a menor)
print("\nOrdenado por Monto descendente:")
print(df.sort_values(by="Monto", ascending=False))  
# Ordena priorizando la columna Monto de mayor a menor.

# Ordenar por dos columnas: primero Plazo, luego Monto
print("\nOrdenado por Plazo y luego por Monto:")
print(df.sort_values(by=["Plazo", "Monto"]))  
# Ordena por Plazo de menor a mayor y, en empates, usa Monto.

print('')
# Ordenar por dos columnas en orden descendente
print(df.sort_values(by=['Plazo', 'Monto'], ascending=False))  
# Ordena por Plazo y luego Monto, ambos de mayor a menor.





Ordenado por Monto ascendente:
  Cliente  Monto  Plazo
0     Ana   1000     12
4    Juan   1200     12
2   Sofía   1500     18
1    Luis   2000     24
3   Marta   3000     36

Ordenado por Monto descendente:
  Cliente  Monto  Plazo
3   Marta   3000     36
1    Luis   2000     24
2   Sofía   1500     18
4    Juan   1200     12
0     Ana   1000     12

Ordenado por Plazo y luego por Monto:
  Cliente  Monto  Plazo
0     Ana   1000     12
4    Juan   1200     12
2   Sofía   1500     18
1    Luis   2000     24
3   Marta   3000     36

  Cliente  Monto  Plazo
3   Marta   3000     36
1    Luis   2000     24
2   Sofía   1500     18
4    Juan   1200     12
0     Ana   1000     12


## 4. Ejercicio

### Con el siguiente DataFrame de ventas:

- #### Columnas: VentaID, Categoria, Producto, Precio, Cantidad, Sucursal.

#### Tareas:

- #### 1. Mostrar las ventas ordenadas por Categoria y luego por Precio descendente.

- #### 2. Filtrar las ventas con Precio >= 2000 y Cantidad >= 5, y ordenar por Sucursal y luego Producto.

- #### 3. Mostrar solo las filas de Categoria == "Electrónica" ordenadas por Cantidad descendente.

- #### 4. Crear una vista de las ventas de Sucursal == "Norte" y ordenarlas por Precio descendente.
---

In [17]:
import pandas as pd

# DataFrame más simple y claro
data = {
    "VentaID":   [101, 102, 103, 104, 105, 106, 107, 108],
    "Categoria": ["Electrónica", "Hogar", "Electrónica", "Ropa",
                "Hogar", "Electrónica", "Ropa", "Hogar"],
    "Producto":  ["Notebook", "Licuadora", "Auriculares", "Campera",
                "Aspiradora", "Tablet", "Pantalón", "Microondas"],
    "Precio":    [3500, 1800, 1200, 2200, 2500, 2100, 1300, 2300],
    "Cantidad":  [3, 4, 8, 2, 6, 7, 5, 3],
    "Sucursal":  ["Norte", "Sur", "Este", "Oeste", "Norte", "Sur", "Este", "Oeste"]
}

df = pd.DataFrame(data)

# 1) Ordenar por Categoria (A→Z) y, dentro, por Precio (descendente)
print("1) Categoria asc + Precio desc")
print(df.sort_values(by=["Categoria", "Precio"], ascending=[True, False]))

# 2) Filtrar Precio >= 2000 y Cantidad >= 5, luego ordenar por Sucursal y Producto
print("\n2) Filtro (Precio>=2000 y Cantidad>=5) + orden por Sucursal y Producto")
filtro = (df["Precio"] >= 2000) & (df["Cantidad"] >= 5)
print(df[filtro].sort_values(by=["Sucursal", "Producto"]))

# 3) Solo Electrónica, ordenado por Cantidad desc
print("\n3) Electrónica + Cantidad desc")
print(df[df["Categoria"] == "Electrónica"].sort_values(by="Cantidad", ascending=False))

# 4) Ventas en Sucursal Norte, ordenadas por Precio desc
print("\n4) Sucursal Norte + Precio desc")
print(df[df["Sucursal"] == "Norte"].sort_values(by="Precio", ascending=False))



1) Categoria asc + Precio desc
   VentaID    Categoria     Producto  Precio  Cantidad Sucursal
0      101  Electrónica     Notebook    3500         3    Norte
5      106  Electrónica       Tablet    2100         7      Sur
2      103  Electrónica  Auriculares    1200         8     Este
4      105        Hogar   Aspiradora    2500         6    Norte
7      108        Hogar   Microondas    2300         3    Oeste
1      102        Hogar    Licuadora    1800         4      Sur
3      104         Ropa      Campera    2200         2    Oeste
6      107         Ropa     Pantalón    1300         5     Este

2) Filtro (Precio>=2000 y Cantidad>=5) + orden por Sucursal y Producto
   VentaID    Categoria    Producto  Precio  Cantidad Sucursal
4      105        Hogar  Aspiradora    2500         6    Norte
5      106  Electrónica      Tablet    2100         7      Sur

3) Electrónica + Cantidad desc
   VentaID    Categoria     Producto  Precio  Cantidad Sucursal
2      103  Electrónica  Auriculares

## Ejercicio 

#### DataFrame de ventas con columnas: Producto, Categoria, Precio, Cantidad, Sucursal.

### Tareas:

- #### Ordenar por Precio descendente y, en empates, por Producto ascendente.

- #### Filtrar Categoria en ["Electrónica","Hogar"] y Cantidad >= 3; ordenar por Categoria y luego Precio (ambas ascendentes).

- #### Ventas de Sucursal "Centro" o "Norte" con Precio >= 2000; ordenar por Sucursal asc y Cantidad desc.

In [18]:
import pandas as pd

data = {
    "Producto":  ["Notebook", "Tostadora", "Auriculares", "Campera", "Aspiradora", "Tablet", "Pantalón"],
    "Categoria": ["Electrónica", "Hogar", "Electrónica", "Ropa", "Hogar", "Electrónica", "Ropa"],
    "Precio":    [3200, 900, 1200, 2200, 2100, 3200, 1300],
    "Cantidad":  [2, 6, 4, 2, 5, 3, 7],
    "Sucursal":  ["Centro", "Sur", "Norte", "Oeste", "Centro", "Norte", "Centro"]
}

df = pd.DataFrame(data)

# 1) Precio desc y, en empates, Producto asc
print("1) Precio desc + Producto asc")
print(df.sort_values(by=["Precio", "Producto"], ascending=[False, True]))

# 2) (Categoria in ['Electrónica','Hogar']) y (Cantidad >= 3), orden por Categoria y Precio asc
print("\n2) Filtro por categoria y cantidad + orden por Categoria, Precio asc")
filtro2 = (df["Categoria"].isin(["Electrónica", "Hogar"])) & (df["Cantidad"] >= 3)
print(df[filtro2].sort_values(by=["Categoria", "Precio"], ascending=[True, True]))

# 3) (Sucursal 'Centro' o 'Norte') y (Precio >= 2000), orden por Sucursal asc y Cantidad desc
print("\n3) Sucursal Centro/Norte y Precio >= 2000 + Sucursal asc, Cantidad desc")
filtro3 = (df["Sucursal"].isin(["Centro", "Norte"])) & (df["Precio"] >= 2000)
print(df[filtro3].sort_values(by=["Sucursal", "Cantidad"], ascending=[True, False]))


1) Precio desc + Producto asc
      Producto    Categoria  Precio  Cantidad Sucursal
0     Notebook  Electrónica    3200         2   Centro
5       Tablet  Electrónica    3200         3    Norte
3      Campera         Ropa    2200         2    Oeste
4   Aspiradora        Hogar    2100         5   Centro
6     Pantalón         Ropa    1300         7   Centro
2  Auriculares  Electrónica    1200         4    Norte
1    Tostadora        Hogar     900         6      Sur

2) Filtro por categoria y cantidad + orden por Categoria, Precio asc
      Producto    Categoria  Precio  Cantidad Sucursal
2  Auriculares  Electrónica    1200         4    Norte
5       Tablet  Electrónica    3200         3    Norte
1    Tostadora        Hogar     900         6      Sur
4   Aspiradora        Hogar    2100         5   Centro

3) Sucursal Centro/Norte y Precio >= 2000 + Sucursal asc, Cantidad desc
     Producto    Categoria  Precio  Cantidad Sucursal
4  Aspiradora        Hogar    2100         5   Centro
0   