# **Introducción a la manipulación de datos con Pandas**

1. Acceso nativo a dataframes

2. Indexado en pandas

3. Manipulación de índices

4. Selección condicional de datos

5. Asignación de datos

<img src="../imgs/foto-dia-02.png" width="450px" height="300px">

Seleccionar valores específicos de un pandas **DataFrame** o **Series** para trabajar sobre ellos es un paso implícito en casi cualquier operación de datos que se vaya a ejecutar, por lo que una de las primeras cosas que se necesita aprender al trabajar con datos en Python es cómo ir seleccionando los puntos de datos relevantes para nuestro trabajo de forma rápida y efectiva.

### **1. Acceso nativo a los dataframes**

Los objetos nativos de Python proporcionan buenas formas de indexar datos. Pandas integra todos estos, lo que ayuda a que sea fácil empezar con él.

Empezamos con este DataFrame:

En Python, podemos acceder a la propiedad de un objeto accediendo a ella como un atributo. Un objeto libro, por ejemplo, puede tener un atributo título, a la que podemos acceder llamando a **libro.título**. Las columnas de un DataFrame de pandas funcionan de forma muy parecida.

Así, para acceder a los datos de la columna país del dataframe de reseñas podemos utilizar:

Si tenemos un diccionario Python, podemos acceder a sus valores utilizando el operador de indexación ([]). Podemos hacer lo mismo con las columnas de un DataFrame:

Estas son las dos formas de seleccionar una Serie concreta de un DataFrame. Ninguna de ellas es más o menos válida sintácticamente que la otra, pero el operador de indexación [] tiene la ventaja de que puede manejar nombres de columnas con caracteres reservados (por ejemplo, si tuviéramos una columna ciudad país, reviews.ciudadpaís no funcionaría).

¿No se parece una serie de pandas a una lista? Lo es, así que no es de extrañar que, para profundizar en un valor específico, sólo tengamos que utilizar el operador de indexación [] una vez más:

### **2. Indexado en pandas**

El operador de indexación y la selección de atributos son agradables porque funcionan igual que en el resto del ecosistema Python. Como principiante, esto hace que sean fáciles de aprender y usar. Sin embargo, pandas tiene sus propios operadores de acceso, loc e iloc. Para operaciones más avanzadas, estos son los que se supone que debes usar.

##### **2.1 Selección basada en posiciones**

La indexación en Pandas funciona en uno de dos paradigmas. El primero es la selección basada en índices: seleccionar datos basándose en su posición numérica en los datos. iloc sigue este paradigma.

Para seleccionar la primera fila de datos en un DataFrame, podemos usar lo siguiente:

En el ejemplo anterior el tipo de datos que nos devuelve es una serie de pandas si queremos que nos devuelva en formato dataframe podemos hacer lo siguiente:

La indexación se realiza primero por filas y luego por columnas, en este siguiente ejemplo se seleccionan todas los valores de todas las filas pero sólo de la primera columna.

Por sí solo, el operador :, que procede del Python nativo, significa "todo". Sin embargo, cuando se combina con otros selectores, puede utilizarse para indicar un rango de valores. Por ejemplo, para seleccionar las tres primeras columnas sólo de la primera, segunda y tercera fila, haríamos:

También podemos hacer algo muy potente que es el indexado basado en funciones lambda, por ejemplo, si sólo queremos las filas que tienen el índice par podemos hacerlo de la siguiente manera:

Una forma muy útil es el indexado con listas, como en el siguiente ejemplo:

Por último, conviene saber que se pueden utilizar números negativos en la selección. Esto comenzará a contar hacia adelante desde el final de los valores. Así, por ejemplo, aquí están los últimos cinco elementos del conjunto de datos.

##### **2.2 Selección basada en índices/etiquetas**

El segundo paradigma para la selección de atributos es el que sigue el operador loc: la selección basada en etiquetas. En este paradigma, lo que importa es el valor del índice del dato, no su posición.

Por ejemplo, para obtener el valor del primer índice para la columna country, ahora haríamos lo siguiente:

iloc es conceptualmente más sencillo que loc porque ignora los índices del conjunto de datos. Cuando usamos iloc tratamos el conjunto de datos como una gran matriz (una lista de listas), en la que tenemos que indexar por posición. loc, por el contrario, usa la información de los índices para hacer su trabajo. Dado que el conjunto de datos suele tener índices significativos, suele ser más fácil hacer las cosas con loc. Por ejemplo, aquí hay una operación que es mucho más fácil usando loc, ya que podemos especificar el nombre de las columnas.

A la hora de elegir entre loc e iloc, hay que tener en cuenta que ambos métodos utilizan esquemas de indexación ligeramente diferentes.

iloc utiliza el esquema de indexación de Python, donde se incluye el primer elemento del rango y se excluye el último. Así, 0:10 seleccionará las entradas 0,...,9. loc, por su parte, indexa de forma inclusiva. Así, 0:10 seleccionará las entradas 0,...,10.

Esto es especialmente confuso cuando el índice del DataFrame es una simple lista numérica, por ejemplo 0,...,1000. En este caso df.iloc[0:1000] devolverá 1000 entradas, ¡mientras que df.loc[0:1000] devolverá 1001 de ellas! Para obtener 1000 elementos utilizando loc, tendrá que ir un poco más abajo y pedir df.loc[0:999].

Por lo demás, la semántica del uso de loc es la misma que la de iloc.

### **3. Manipulación de índices**

La selección basada en etiquetas deriva su potencia de las etiquetas del índice. El índice que utilizamos no es inmutable. Podemos manipular el índice de la forma que creamos conveniente.

El método set_index() puede ser utilizado para hacer el trabajo. Esto es lo que ocurre cuando establecemos_index en el campo country:

Esto resulta útil si se puede establecer un índice para el conjunto de datos que sea mejor que el actual.

### **4. Selección condicional de datos**

Hasta ahora hemos estado indexando varios tramos de datos, utilizando propiedades estructurales del propio DataFrame. Sin embargo, para hacer cosas interesantes con los datos, a menudo necesitamos hacer preguntas basadas en condiciones.

Por ejemplo, supongamos que estamos interesados específicamente en los vinos mejores que la media producidos en Italia.

Podemos empezar comprobando si cada vino es italiano o no:

Esta operación produce una serie de booleanos Verdadero/Falso en función del país de cada registro. Este resultado puede utilizarse dentro de loc para seleccionar los datos pertinentes

Este DataFrame tiene ~20.000 filas. El original tenía ~130.000. Eso significa que alrededor del 15% de los vinos proceden de Italia.

También queríamos saber cuáles son mejores que la media. Los vinos se evalúan en una escala de 80 a 100 puntos, por lo que podríamos referirnos a los vinos que obtuvieron al menos 90 puntos.

Podemos utilizar el símbolo ampersand (&) para unir las dos preguntas:

Supongamos que queremos comprar cualquier vino elaborado en Italia o que tenga una calificación superior a 90. Para ello utilizamos el carácter de tubería (|):

Pandas viene con unos cuantos selectores condicionales incorporados, dos de los cuales destacaremos aquí.

El primero es isin. isin permite seleccionar datos cuyo valor "está en" una lista de valores. Por ejemplo, así es como podemos usarlo para seleccionar vinos sólo de Italia o Francia:

El segundo es isnull (y su compañero notnull). Estos métodos permiten resaltar los valores que están (o no) vacíos (NaN). Por ejemplo, para filtrar los vinos que carecen de etiqueta de precio en el conjunto de datos, esto es lo que haríamos:

### **5. Asignación de datos**

Por otro lado, asignar datos a un DataFrame es fácil. Puede asignar un valor constante:

O con valores iterables:

También podemos utilizar el loc junto con condicionales para hacer asignaciones de valores: