<a href="https://colab.research.google.com/github/LGLV-Ciencia-de-Datos/Curso_python_Ciencia_de_Datos/blob/main/3.%20Pandas/b)%20Indexing%2C%20Selecting%20%26%20Assigning/Indexing%2C%20Selecting%20%26%20Assigning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Indexing, Selecting & Assigning** (Indexación, Selección y Asignación)
Los científicos de datos profesionales hacen esto docenas de veces al día. ¡Tú también puedes!

# **Introducción**

Seleccionar valores específicos de un DataFrame o una Serie de pandas para trabajar es un paso implícito en casi cualquier operación de datos que vayas a ejecutar. Por lo tanto, una de las primeras cosas que necesitas aprender al trabajar con datos en Python es cómo seleccionar los puntos de datos relevantes para ti de manera rápida y efectiva.


### **Descriptores de acceso nativos** (Native accessors)

Los objetos nativos de Python ofrecen buenas formas de indexar datos. Pandas adopta todas estas formas, lo que hace que sea fácil empezar a trabajar.

Considera el siguiente DataFrame:

In [None]:
reviews = pd.read_csv('https://raw.githubusercontent.com/davestroud/Wine/refs/heads/master/winemag-data-130k-v2.csv', index_col = 0)
reviews.shape

In [None]:
reviews.head()

En Python, podemos acceder a la propiedad de un objeto accediendo a ella como un atributo. Por ejemplo, un objeto `book` podría tener una propiedad `title`, a la cual podemos acceder llamando a `book.title`. Las columnas en un DataFrame de pandas funcionan de manera muy similar.

Por lo tanto, para acceder a la propiedad `country` de **reviews**, podemos usar:

In [None]:
reviews.country

Si tenemos un diccionario de Python, podemos acceder a sus valores usando el operador de indexación ([]). Podemos hacer lo mismo con las columnas de un DataFrame:

In [None]:
reviews['country']

Para seleccionar una Series específica de un DataFrame, existen dos métodos. Ambos son sintácticamente válidos, pero el operador de indexación `[]` tiene una ventaja: puede manejar nombres de columnas que contienen caracteres especiales o espacios (por ejemplo, si la columna se llamara `country providence`, `reviews.country providence` no funcionaría).

¿Una Series de pandas no se parece un poco a un diccionario elegante? En esencia, lo es. Por eso, no es sorprendente que para acceder a un solo valor específico, solo necesitemos usar el operador de indexación [] una vez más.

In [None]:
reviews['country'][0]

## **La indexación en pandas** (Indexing)

El operador de indexación y la selección de atributos son convenientes porque funcionan de la misma manera que en el resto del ecosistema de Python. Como principiante, esto hace que sean fáciles de aprender y usar. Sin embargo, pandas tiene sus propios operadores de acceso, `loc` y `iloc`. Para operaciones más avanzadas, estos son los que se supone que debes usar.

### **Selección basada en índices** (Index-based selection)

El indexado en Pandas funciona bajo uno de dos paradigmas. El primero es la selección basada en índices (Index-based selection): seleccionar datos según su posición numérica en los datos. `iloc` sigue este paradigma.

Para seleccionar la primera fila de datos en un DataFrame, podemos usar lo siguiente:

In [None]:
reviews.iloc[0]

Tanto `loc` como `iloc` operan con el formato de **fila-primero**, **columna-segundo**. Esto es lo opuesto a lo que hacemos en Python nativo, que es columna-primero, fila-segundo.

Esto significa que es un poco más fácil recuperar filas y un poco más difícil recuperar columnas. Para obtener una columna con iloc, podemos hacer lo siguiente:

In [None]:
reviews.iloc[:,0]

El operador `:` (dos puntos), que también proviene de Python nativo, por sí solo significa "todo". Sin embargo, cuando se combina con otros selectores, se puede usar para indicar un rango de valores. Por ejemplo, para seleccionar la columna "country" solo de la primera, segunda y tercera fila, haríamos:

In [None]:
reviews.iloc[:3,0]

Para seleccionar solo la segunda y tercera entrada, haríamos:

In [None]:
reviews.iloc[1:3,0]

También es posible pasar una lista:

In [None]:
reviews.iloc[[10,11,12], 0]

Finalmente, vale la pena saber que los números negativos se pueden usar en la selección. Esto hará que la cuenta comience hacia adelante desde el final de los valores. Así, por ejemplo, aquí están los últimos cinco elementos del conjunto de datos.

In [None]:
reviews.iloc[-10:,0]

### **Selección basada en etiquetas** (label-based selection)

La segunda forma de selección de atributos es la que sigue el operador loc: la selección basada en etiquetas (label-based selection). En este enfoque, lo que importa es el valor del índice de los datos, no su posición.

Por ejemplo, para obtener la primera entrada en reviews, ahora haríamos lo siguiente:

In [None]:
reviews.loc[0,'country']

`iloc` es conceptualmente más simple que `loc` porque ignora los índices del conjunto de datos. Cuando usamos `iloc`, tratamos el conjunto de datos como una gran matriz (una lista de listas) a la que tenemos que acceder por su posición. Por el contrario, `loc` usa la información en los índices para funcionar. Dado que tu conjunto de datos generalmente tiene índices con significado, por lo general es más fácil hacer las cosas usando `loc`. Por ejemplo, aquí hay una operación que es mucho más sencilla usando `loc`:

In [None]:
reviews.columns


In [None]:
reviews.loc[:,['taster_name', 'taster_twitter_handle', 'points']]

In [None]:
reviews.iloc[:,[8,9,3]]

### Selección entre `loc` y `iloc`

Al elegir o hacer la transición entre `loc` e `iloc`, hay un "detalle" que vale la pena tener en cuenta: los dos métodos usan esquemas de indexación ligeramente diferentes.

`iloc` utiliza el esquema de indexación de la librería estándar de Python (stdlib), donde el primer elemento del rango está incluido y el último está excluido. Por lo tanto, 0:10 seleccionará las entradas 0,...,9. Por su parte, `loc` indexa de forma inclusiva. Así, 0:10 seleccionará las entradas 0,...,10.

¿Por qué el cambio? Recuerda que `loc` puede indexar cualquier tipo de la librería estándar, como por ejemplo, cadenas de texto. Si tenemos un DataFrame con valores de índice 'Apples', ..., 'Potatoes', ..., y queremos seleccionar "todas las frutas en orden alfabético entre 'Apples'y'Potatoes', es mucho más conveniente indexar `df.loc['Apples':'Potatoes']` que indexar algo como `df.loc['Apples', 'Potatoet']` (la 't' viene después de la 's' en el alfabeto).

Esto es particularmente confuso cuando el índice del DataFrame es una simple lista numérica, por ejemplo, 0,...,1000. En este caso, `df.iloc[0:1000]` devolverá 1000 entradas, mientras que `df.loc[0:1000]` devolverá 1001. Para obtener 1000 elementos usando `loc`, necesitarás bajar uno y pedir `df.loc[0:999]`.

Por lo demás, la semántica de uso de loc es la misma que la de iloc.

### **Manipulación del índice** (Manipulating the index)

La selección basada en etiquetas obtiene su poder de las etiquetas en el índice. Un punto clave es que el índice que usamos no es inmutable; podemos manipularlo de la forma que mejor nos parezca.

El método `set_index()` puede usarse para esta tarea. Esto es lo que sucede cuando establecemos el `set_index()` en el campo `title`:

In [None]:
reviews.set_index('title')

### **Selección Condicional** (Conditional selection)

Hasta ahora hemos estado indexando varios segmentos de datos, utilizando las propiedades estructurales del propio DataFrame. Sin embargo, para hacer cosas interesantes con los datos, a menudo necesitamos hacer preguntas basadas en condiciones.

Por ejemplo, supongamos que nos interesan específicamente los vinos italianos que son mejores que el promedio.

Podemos comenzar verificando si cada vino es italiano o no:

In [None]:
reviews.country == 'Italy'

In [None]:
reviews.loc[reviews.country == 'Italy']

Este DataFrame tiene ~20,000 filas. El original tenía ~130,000. Eso significa que alrededor del 15% de los vinos provienen de Italia.

También queríamos saber cuáles son mejores que el promedio. Los vinos son calificados en una escala de 80 a 100 puntos, por lo que esto podría significar vinos que obtuvieron al menos 90 puntos.

Podemos usar el símbolo de `ampersand (&)` para combinar las dos preguntas:

In [None]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Supongamos que compraremos cualquier vino que se produzca en Italia `o` que tenga una calificación por encima del promedio. Para esto, usamos una barra vertical (`|`):

In [None]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

Pandas viene con algunos selectores condicionales incorporados, dos de los cuales destacaremos aquí.

El primero es `isin`. `isin` te permite seleccionar datos cuyo valor "está en" una lista de valores. Por ejemplo, así es como podemos usarlo para seleccionar vinos solo de Italia o Francia:

In [None]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

La segunda es `isnull` (y su compañera `notnull`). Estos métodos te permiten resaltar valores que están (o no están) vacíos (NaN). Por ejemplo, para filtrar los vinos que carecen de una etiqueta de precio en el conjunto de datos, esto es lo que haríamos:

In [None]:
reviews.loc[reviews.price.notnull()]

In [None]:
reviews.loc[reviews.points.notnull()]

### **Asignación de datos** (Assigning data)

Yendo en la dirección opuesta, asignar datos a un DataFrame es fácil. Puedes asignar tanto un valor constante:

In [None]:
reviews.columns

In [None]:
reviews['cytric'] = 'everyone'

In [None]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']