# Introducción

Seleccionar valores específicos de un DataFrame o Series de pandas para trabajar con ellos es un paso implícito en casi cualquier operación de datos que ejecutes, por lo que una de las primeras cosas que necesitas aprender al trabajar con datos en Python es cómo seleccionar los puntos de datos relevantes para ti de manera rápida y efectiva.

In [None]:
import pandas as pd

# Crear dataset de ejemplo con reseñas de vinos
reviews = pd.DataFrame({
    'country': ['Italy', 'Portugal', 'US', 'US', 'France', 'Spain', 'Italy', 'Chile', 'Argentina', 'Australia'] * 3,
    'description': ['Aromas include tropical fruit...'] * 30,
    'points': [87, 87, 87, 87, 87, 90, 87, 88, 91, 90] * 3,
    'price': [None, 15.0, 14.0, 13.0, 65.0, 15.0, None, 16.0, 25.0, 18.0] * 3,
    'province': ['Sicily & Sardinia', 'Douro', 'Oregon', 'Michigan', 'Oregon',
                 'Navarra', 'Sicily', 'Casablanca Valley', 'Mendoza', 'South Australia'] * 3,
    'variety': ['White Blend', 'Portuguese Red', 'Pinot Gris', 'Riesling', 'Pinot Noir',
                'Tempranillo', 'Sangiovese', 'Chardonnay', 'Malbec', 'Sauvignon Blanc'] * 3,
    'winery': ['Nicosia', 'Quinta dos Avidagos', 'Rainstorm', 'St. Julian', 'Sweet Cheeks',
               'Tandem', 'Terre di Giurfo', 'Leyda', 'Valentin Bianchi', 'Richard Hamilton'] * 3
})

print(f"Dataset cargado: {reviews.shape[0]} filas × {reviews.shape[1]} columnas")
reviews.head()

# Accesores nativos

Los objetos nativos de Python proporcionan buenas formas de indexar datos. Pandas lleva todos estos métodos consigo, lo que ayuda a que sea fácil comenzar.

En Python, podemos acceder a la propiedad de un objeto accediendo a ella como un atributo. Un objeto libro, por ejemplo, podría tener una propiedad `title`, a la cual podemos acceder llamando `book.title`. Las columnas en un DataFrame de pandas funcionan de manera muy similar.

Por lo tanto, para acceder a la propiedad `country` de `reviews` podemos usar:

In [None]:
reviews.country

Si tenemos un diccionario de Python, podemos acceder a sus valores usando el operador de indexación (`[]`). Podemos hacer lo mismo con las columnas en un DataFrame:

In [None]:
reviews['country']

Estas son las dos formas de seleccionar una Series específica de un DataFrame. Ninguna de ellas es más o menos sintácticamente válida que la otra, pero el operador de indexación `[]` tiene la ventaja de que puede manejar nombres de columnas con caracteres reservados en ellos (por ejemplo, si tuviéramos una columna `country providence`, `reviews.country providence` no funcionaría).

¿No se parece una Series de pandas a un diccionario elegante? Prácticamente lo es, así que no es sorpresa que, para profundizar hasta un solo valor específico, solo necesitemos usar el operador de indexación `[]` una vez más:

In [None]:
reviews['country'][0]

'Italy'

# Indexación en pandas

El operador de indexación y la selección de atributos son agradables porque funcionan igual que en el resto del ecosistema Python. Como novato, esto hace que sean fáciles de aprender y usar. Sin embargo, pandas tiene sus propios operadores de acceso, `loc` e `iloc`. Para operaciones más avanzadas, estos son los que se supone que debes usar.

## Selección basada en índice

La indexación de Pandas funciona en uno de dos paradigmas. El primero es la **selección basada en índice**: seleccionar datos basándose en su posición numérica en los datos. `iloc` sigue este paradigma.

Para seleccionar la primera fila de datos en un DataFrame, podemos usar lo siguiente:

In [None]:
reviews.iloc[0]

Tanto `loc` como `iloc` son primero-fila, segundo-columna. Esto es lo opuesto de lo que hacemos en Python nativo, que es primero-columna, segundo-fila.

Esto significa que es marginalmente más fácil recuperar filas, y marginalmente más difícil obtener columnas. Para obtener una columna con `iloc`, podemos hacer lo siguiente:

In [None]:
reviews.iloc[:, 0]

Por sí solo, el operador `:`, que también proviene de Python nativo, significa "todo". Cuando se combina con otros selectores, sin embargo, puede usarse para indicar un rango de valores. Por ejemplo, para seleccionar la columna `country` de solo la primera, segunda y tercera fila, haríamos:

In [None]:
reviews.iloc[:3, 0]

O, para seleccionar solo la segunda y tercera entrada, haríamos:

In [None]:
reviews.iloc[1:3, 0]

También es posible pasar una lista:

In [None]:
reviews.iloc[[0, 1, 2], 0]

Finalmente, vale la pena saber que se pueden usar números negativos en la selección. Esto comenzará a contar hacia adelante desde el final de los valores. Así que, por ejemplo, aquí están los últimos cinco elementos del dataset:

In [None]:
reviews.iloc[-5:]

## Selección basada en etiquetas

El segundo paradigma para la selección de atributos es el que sigue el operador `loc`: **selección basada en etiquetas**. En este paradigma, es el valor del índice de datos, no su posición, lo que importa.

Por ejemplo, para obtener la primera entrada en `reviews`, ahora haríamos lo siguiente:

In [None]:
reviews.loc[0, 'country']

`iloc` es conceptualmente más simple que `loc` porque ignora los índices del dataset. Cuando usamos `iloc` tratamos el dataset como una gran matriz (una lista de listas), una que tenemos que indexar por posición. `loc`, por el contrario, usa la información en los índices para hacer su trabajo. Dado que tu dataset generalmente tiene índices significativos, usualmente es más fácil hacer cosas usando `loc`. Por ejemplo, aquí hay una operación que es mucho más fácil usando `loc`:

In [None]:
reviews.loc[:, ['variety', 'points', 'price']]

## Elegir entre loc e iloc

Al elegir o hacer la transición entre `loc` e `iloc`, hay una "trampa" que vale la pena tener en cuenta, que es que los dos métodos usan esquemas de indexación ligeramente diferentes.

`iloc` usa el esquema de indexación de la biblioteca estándar de Python, donde el primer elemento del rango está incluido y el último excluido. Así que `0:10` seleccionará las entradas 0,...,9. `loc`, mientras tanto, indexa inclusivamente. Así que `0:10` seleccionará las entradas 0,...,10.

¿Por qué el cambio? Recuerda que `loc` puede indexar cualquier tipo de la biblioteca estándar: cadenas, por ejemplo. Si tenemos un DataFrame con valores de índice `Apples`, ..., `Potatoes`, ..., y queremos seleccionar "todas las opciones de frutas alfabéticas entre Apples y Potatoes", entonces es mucho más conveniente indexar `df.loc['Apples':'Potatoes']` que indexar algo como `df.loc['Apples':'Potatoet']` (t viene después de s en el alfabeto).

Esto es particularmente confuso cuando el índice del DataFrame es una simple lista numérica, por ejemplo 0,...,1000. En este caso `df.iloc[0:1000]` devolverá 1000 entradas, ¡mientras que `df.loc[0:1000]` devolverá 1001 de ellas! Para obtener 1000 elementos usando `loc`, necesitarás ir uno más bajo y pedir `df.loc[0:999]`.

Por lo demás, la semántica de usar `loc` es la misma que la de `iloc`.

## Manipulando el índice

La selección basada en etiquetas deriva su poder de las etiquetas en el índice. Críticamente, el índice que usamos no es inmutable. Podemos manipular el índice de cualquier manera que consideremos apropiada.

El método `set_index()` puede usarse para hacer el trabajo. Aquí está lo que sucede cuando hacemos `set_index` al campo `winery`:

In [None]:
reviews.set_index('winery')

Esto es útil si puedes idear un índice para el dataset que sea mejor que el actual.

# Selección condicional

Hasta ahora hemos estado indexando varios tramos de datos, usando propiedades estructurales del DataFrame mismo. Sin embargo, para hacer cosas interesantes con los datos, a menudo necesitamos hacer preguntas basadas en condiciones.

Por ejemplo, supongamos que estamos interesados específicamente en vinos mejores que el promedio producidos en Italia.

Podemos comenzar verificando si cada vino es italiano o no:

In [None]:
reviews.country == 'Italy'

Esta operación produjo una Series de booleanos True/False basada en el país de cada registro. Este resultado puede entonces usarse dentro de `loc` para seleccionar los datos relevantes:

In [None]:
reviews.loc[reviews.country == 'Italy']

Este DataFrame tiene ~9 filas. El original tenía 30. Eso significa que alrededor del 30% de los vinos se originan en Italia.

También queríamos saber cuáles son mejores que el promedio. Los vinos se revisan en una escala de 80 a 100 puntos, así que esto podría significar vinos que acumularon al menos 90 puntos.

Podemos usar el ampersand (`&`) para unir las dos preguntas:

In [None]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Supongamos que compraremos cualquier vino que esté hecho en Italia o que esté calificado por encima del promedio. Para esto usamos un pipe (`|`):

In [None]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

Pandas viene con algunos selectores condicionales incorporados, dos de los cuales destacaremos aquí.

El primero es `isin`. `isin` te permite seleccionar datos cuyo valor "está en" una lista de valores. Por ejemplo, aquí está cómo podemos usarlo para seleccionar vinos solo de Italia o Francia:

In [None]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

El segundo es `isnull` (y su compañero `notnull`). Estos métodos te permiten resaltar valores que están (o no están) vacíos (NaN). Por ejemplo, para filtrar vinos que carecen de una etiqueta de precio en el dataset, aquí está lo que haríamos:

In [None]:
reviews.loc[reviews.price.notnull()]

# Asignando datos

Yendo en la otra dirección, asignar datos a un DataFrame es fácil. Puedes asignar ya sea un valor constante:

In [None]:
reviews['critic'] = 'everyone'
reviews['critic']

O con un iterable de valores:

In [None]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

---

# Ejercicios (EL RESULTADO FINAL LO TIENES DEBAJO DE CADA EJERCICIO)

## Ejercicio 1: Seleccionar columna
Selecciona la columna `variety` del DataFrame `reviews`.

In [None]:
# Tu código aquí
variety = reviews['variety']
print(variety)


Unnamed: 0,variety
0,White Blend
1,Portuguese Red
2,Pinot Gris
3,Riesling
4,Pinot Noir
5,Tempranillo
6,Sangiovese
7,Chardonnay
8,Malbec
9,Sauvignon Blanc


## Ejercicio 2: Seleccionar con iloc

Selecciona la primera fila del DataFrame `reviews` usando `iloc`.

In [None]:
# Tu código aquí
first_row = reviews.iloc[0]
print(first_row)

Unnamed: 0,0
country,Italy
description,Aromas include tropical fruit...
points,87
price,
province,Sicily & Sardinia
variety,White Blend
winery,Nicosia
critic,everyone
index_backwards,30


## Ejercicio 3: Seleccionar primeros valores con iloc

Selecciona los primeros 5 valores de la columna `variety` usando `iloc`.

In [None]:
# Tu código aquí
variety_values = df['variety'].iloc[:5].values
print(variety_values)


Unnamed: 0,variety
0,White Blend
1,Portuguese Red
2,Pinot Gris
3,Riesling
4,Pinot Noir


## Ejercicio 4: Seleccionar filas específicas con iloc

Selecciona las filas con índice 1, 2, 3, 5 y 8 del DataFrame `reviews` usando `iloc`.

In [None]:
# Tu código aquí
selected_files = reviews.iloc[[1, 2, 3, 5, 8],:]
print(selected_files)

Unnamed: 0,country,description,points,price,province,variety,winery,critic,index_backwards
1,Portugal,Aromas include tropical fruit...,87,15.0,Douro,Portuguese Red,Quinta dos Avidagos,everyone,29
2,US,Aromas include tropical fruit...,87,14.0,Oregon,Pinot Gris,Rainstorm,everyone,28
3,US,Aromas include tropical fruit...,87,13.0,Michigan,Riesling,St. Julian,everyone,27
5,Spain,Aromas include tropical fruit...,90,15.0,Navarra,Tempranillo,Tandem,everyone,25
8,Argentina,Aromas include tropical fruit...,91,25.0,Mendoza,Malbec,Valentin Bianchi,everyone,22


## Ejercicio 5: Seleccionar columnas con loc

Selecciona las columnas `country`, `variety` y `points` para todas las filas usando `loc`.

In [None]:
# Tu código aquí
selected_data = data.loc[:, ['country', 'variety', 'points']]
print(selected_data)

Unnamed: 0,country,variety,points
0,Italy,White Blend,87
1,Portugal,Portuguese Red,87
2,US,Pinot Gris,87
3,US,Riesling,87
4,France,Pinot Noir,87
5,Spain,Tempranillo,90
6,Italy,Sangiovese,87
7,Chile,Chardonnay,88
8,Argentina,Malbec,91
9,Australia,Sauvignon Blanc,90


## Ejercicio 6: Selección condicional básica

Selecciona todos los vinos que son de Italia.

In [None]:
# Tu código aquí
vinos_italicos = df[df['country'] == 'Italia']
print(vinos_italicos)

Unnamed: 0,country,description,points,price,province,variety,winery,critic,index_backwards
0,Italy,Aromas include tropical fruit...,87,,Sicily & Sardinia,White Blend,Nicosia,everyone,30
6,Italy,Aromas include tropical fruit...,87,,Sicily,Sangiovese,Terre di Giurfo,everyone,24
10,Italy,Aromas include tropical fruit...,87,,Sicily & Sardinia,White Blend,Nicosia,everyone,20
16,Italy,Aromas include tropical fruit...,87,,Sicily,Sangiovese,Terre di Giurfo,everyone,14
20,Italy,Aromas include tropical fruit...,87,,Sicily & Sardinia,White Blend,Nicosia,everyone,10
26,Italy,Aromas include tropical fruit...,87,,Sicily,Sangiovese,Terre di Giurfo,everyone,4


## Ejercicio 7: Selección condicional con múltiples condiciones

Selecciona todos los vinos que son de Italia Y tienen una puntuación de 90 o más.

In [None]:
# Tu código aquí
vinos_italia_90_mas = df[df['country'] == 'Italia'][df['points'] >= 90]
print(vinos_italia_90_mas)


Unnamed: 0,country,description,points,price,province,variety,winery,critic,index_backwards


## Ejercicio 8: Usar isin()

Selecciona todos los vinos que son de Italia, Francia o España.

In [None]:
# Tu código aquí
vinos_seleccionados = df[df['country'].isin(['Italia', 'Francia', 'Espa a'])]
print(vinos_seleccionados)


Unnamed: 0,country,description,points,price,province,variety,winery,critic,index_backwards
0,Italy,Aromas include tropical fruit...,87,,Sicily & Sardinia,White Blend,Nicosia,everyone,30
4,France,Aromas include tropical fruit...,87,65.0,Oregon,Pinot Noir,Sweet Cheeks,everyone,26
5,Spain,Aromas include tropical fruit...,90,15.0,Navarra,Tempranillo,Tandem,everyone,25
6,Italy,Aromas include tropical fruit...,87,,Sicily,Sangiovese,Terre di Giurfo,everyone,24
10,Italy,Aromas include tropical fruit...,87,,Sicily & Sardinia,White Blend,Nicosia,everyone,20
14,France,Aromas include tropical fruit...,87,65.0,Oregon,Pinot Noir,Sweet Cheeks,everyone,16
15,Spain,Aromas include tropical fruit...,90,15.0,Navarra,Tempranillo,Tandem,everyone,15
16,Italy,Aromas include tropical fruit...,87,,Sicily,Sangiovese,Terre di Giurfo,everyone,14
20,Italy,Aromas include tropical fruit...,87,,Sicily & Sardinia,White Blend,Nicosia,everyone,10
24,France,Aromas include tropical fruit...,87,65.0,Oregon,Pinot Noir,Sweet Cheeks,everyone,6


## Ejercicio 9: Usar notnull()

Selecciona todos los vinos que tienen un precio (es decir, donde el precio NO es nulo).

In [None]:
# Tu código aquí
vinos_sin_precio = vinos[vinos['precio'].notnull]
print(vinos_sin_precio)

Unnamed: 0,country,description,points,price,province,variety,winery,critic,index_backwards
1,Portugal,Aromas include tropical fruit...,87,15.0,Douro,Portuguese Red,Quinta dos Avidagos,everyone,29
2,US,Aromas include tropical fruit...,87,14.0,Oregon,Pinot Gris,Rainstorm,everyone,28
3,US,Aromas include tropical fruit...,87,13.0,Michigan,Riesling,St. Julian,everyone,27
4,France,Aromas include tropical fruit...,87,65.0,Oregon,Pinot Noir,Sweet Cheeks,everyone,26
5,Spain,Aromas include tropical fruit...,90,15.0,Navarra,Tempranillo,Tandem,everyone,25
7,Chile,Aromas include tropical fruit...,88,16.0,Casablanca Valley,Chardonnay,Leyda,everyone,23
8,Argentina,Aromas include tropical fruit...,91,25.0,Mendoza,Malbec,Valentin Bianchi,everyone,22
9,Australia,Aromas include tropical fruit...,90,18.0,South Australia,Sauvignon Blanc,Richard Hamilton,everyone,21
11,Portugal,Aromas include tropical fruit...,87,15.0,Douro,Portuguese Red,Quinta dos Avidagos,everyone,19
12,US,Aromas include tropical fruit...,87,14.0,Oregon,Pinot Gris,Rainstorm,everyone,18


## Ejercicio 10: Asignar nueva columna

Crea una nueva columna llamada `high_score` que sea `True` si los puntos son 90 o más, y `False` en caso contrario.

In [None]:
# Tu código aquí
df['high_score'] = df['puntos'] >= 90
print(df['high_score'])

Unnamed: 0,variety,points,high_score
0,White Blend,87,False
1,Portuguese Red,87,False
2,Pinot Gris,87,False
3,Riesling,87,False
4,Pinot Noir,87,False
5,Tempranillo,90,True
6,Sangiovese,87,False
7,Chardonnay,88,False
8,Malbec,91,True
9,Sauvignon Blanc,90,True


# ¡Felicidades!

Has completado la lección sobre indexación, selección y asignación en pandas. Ahora entiendes:

- Cómo usar accesores nativos de Python (`.` y `[]`)
- La diferencia entre `iloc` (basado en posición) y `loc` (basado en etiquetas)
- Cómo usar `:` para seleccionar rangos
- Cómo usar índices negativos para contar desde el final
- Cómo manipular el índice con `set_index()`
- Cómo hacer selección condicional con operadores `&` y `|`
- Cómo usar `isin()`, `isnull()` y `notnull()`
- Cómo asignar valores a nuevas columnas

En la próxima lección, aprenderás sobre funciones de resumen y mapeo en pandas.