# **Introducción a la manipulación de datos con Pandas**

1. Acceso nativo a dataframes

2. Indexado en pandas

3. Manipulación de índices

4. Selección condicional de datos

5. Asignación de datos

<img src="../imgs/foto-dia-02.png" width="450px" height="300px">

Seleccionar valores específicos de un pandas **DataFrame** o **Series** para trabajar sobre ellos es un paso implícito en casi cualquier operación de datos que se vaya a ejecutar, por lo que una de las primeras cosas que se necesita aprender al trabajar con datos en Python es cómo ir seleccionando los puntos de datos relevantes para nuestro trabajo de forma rápida y efectiva.

In [216]:
import pandas as pd
reviews = pd.read_csv("datasets/winemag-data-130k-v2.csv", index_col=0)
pd.set_option('display.max_rows', 5)

### **1. Acceso nativo a los dataframes**

Los objetos nativos de Python proporcionan buenas formas de indexar datos. Pandas integra todos estos, lo que ayuda a que sea fácil empezar con él.

Empezamos con este DataFrame:

In [217]:
reviews

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


En Python, podemos acceder a la propiedad de un objeto accediendo a ella como un atributo. Un objeto libro, por ejemplo, puede tener un atributo título, a la que podemos acceder llamando a **libro.título**. Las columnas de un DataFrame de pandas funcionan de forma muy parecida.

Así, para acceder a los datos de la columna país del dataframe de reseñas podemos utilizar:

In [218]:
reviews.country

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Si tenemos un diccionario Python, podemos acceder a sus valores utilizando el operador de indexación ([]). Podemos hacer lo mismo con las columnas de un DataFrame:

In [219]:
reviews['country']

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Estas son las dos formas de seleccionar una Serie concreta de un DataFrame. Ninguna de ellas es más o menos válida sintácticamente que la otra, pero el operador de indexación [] tiene la ventaja de que puede manejar nombres de columnas con caracteres reservados (por ejemplo, si tuviéramos una columna ciudad país, reviews.ciudadpaís no funcionaría).

¿No se parece una serie de pandas a un diccionario? Lo es, así que no es de extrañar que, para profundizar en un valor específico, sólo tengamos que utilizar el operador de indexación [] una vez más:

In [220]:
reviews['country'][0]

'Italy'

### **2. Indexado en pandas**

El operador de indexación y la selección de atributos son agradables porque funcionan igual que en el resto del ecosistema Python. Como principiante, esto hace que sean fáciles de aprender y usar. Sin embargo, pandas tiene sus propios operadores de acceso, loc e iloc. Para operaciones más avanzadas, estos son los que se supone que debes usar.

##### **2.1 Selección basada en índices**

La indexación en Pandas funciona en uno de dos paradigmas. El primero es la selección basada en índices: seleccionar datos basándose en su posición numérica en los datos. iloc sigue este paradigma.

Para seleccionar la primera fila de datos en un DataFrame, podemos usar lo siguiente:

In [221]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

En el ejemplo anterior el tipo de datos que nos devuelve es una serie de pandas si queremos que nos devuelva en formato dataframe podemos hacer lo siguiente:

In [222]:
reviews.iloc[[0]]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia


La indexación se realiza primero por filas y luego por columnas, en este siguiente ejemplo se seleccionan todas los valores de todas las filas pero sólo de la primera columna.

In [223]:
reviews.iloc[:, 0]

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Por sí solo, el operador :, que procede del Python nativo, significa "todo". Sin embargo, cuando se combina con otros selectores, puede utilizarse para indicar un rango de valores. Por ejemplo, para seleccionar las tres primeras columnas sólo de la primera, segunda y tercera fila, haríamos:

In [224]:
reviews.iloc[:3, :3]

Unnamed: 0,country,description,designation
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",


También podemos hacer algo muy potente que es el indexado basado en funciones lambda, por ejemplo, si sólo queremos las filas que tienen el índice par podemos hacerlo de la siguiente manera:

In [225]:
reviews.iloc[lambda fila: fila.index % 2 == 0]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Una forma muy útil es el indexado con listas, como en el siguiente ejemplo:

In [226]:
reviews.iloc[[0, 2], [1, 3]]

Unnamed: 0,description,points
0,"Aromas include tropical fruit, broom, brimston...",87
2,"Tart and snappy, the flavors of lime flesh and...",87


Por último, conviene saber que se pueden utilizar números negativos en la selección. Esto comenzará a contar hacia adelante desde el final de los valores. Así, por ejemplo, aquí están los últimos cinco elementos del conjunto de datos.

In [227]:
reviews.iloc[-5:]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


##### **2.2 Selección basada en etiquetas**

El segundo paradigma para la selección de atributos es el que sigue el operador loc: la selección basada en etiquetas. En este paradigma, lo que importa es el valor del índice del dato, no su posición.

Por ejemplo, para obtener el valor del primer índice para la columna country, ahora haríamos lo siguiente:

In [228]:
reviews.loc[0, 'country'] 

'Italy'

iloc es conceptualmente más sencillo que loc porque ignora los índices del conjunto de datos. Cuando usamos iloc tratamos el conjunto de datos como una gran matriz (una lista de listas), en la que tenemos que indexar por posición. loc, por el contrario, usa la información de los índices para hacer su trabajo. Dado que el conjunto de datos suele tener índices significativos, suele ser más fácil hacer las cosas con loc. Por ejemplo, aquí hay una operación que es mucho más fácil usando loc, ya que podemos especificar el nombre de las columnas.

In [229]:
reviews.loc[0:99, ['taster_name', 'taster_twitter_handle', 'points']]

Unnamed: 0,taster_name,taster_twitter_handle,points
0,Kerin O’Keefe,@kerinokeefe,87
1,Roger Voss,@vossroger,87
...,...,...,...
98,Kerin O’Keefe,@kerinokeefe,88
99,Virginie Boone,@vboone,88


A la hora de elegir entre loc e iloc, hay que tener en cuenta que ambos métodos utilizan esquemas de indexación ligeramente diferentes.

iloc utiliza el esquema de indexación de Python, donde se incluye el primer elemento del rango y se excluye el último. Así, 0:10 seleccionará las entradas 0,...,9. loc, por su parte, indexa de forma inclusiva. Así, 0:10 seleccionará las entradas 0,...,10.

Esto es especialmente confuso cuando el índice del DataFrame es una simple lista numérica, por ejemplo 0,...,1000. En este caso df.iloc[0:1000] devolverá 1000 entradas, ¡mientras que df.loc[0:1000] devolverá 1001 de ellas! Para obtener 1000 elementos utilizando loc, tendrá que ir un poco más abajo y pedir df.loc[0:999].

Por lo demás, la semántica del uso de loc es la misma que la de iloc.

### **3. Manipulación de índices**

La selección basada en etiquetas deriva su potencia de las etiquetas del índice. El índice que utilizamos no es inmutable. Podemos manipular el índice de la forma que creamos conveniente.

El método set_index() puede ser utilizado para hacer el trabajo. Esto es lo que ocurre cuando establecemos_index en el campo country:

In [230]:
reviews = reviews.set_index("country").sort_index()

reviews.loc['Argentina': 'France', 'title']

reviews = reviews.reset_index()

Esto resulta útil si se puede establecer un índice para el conjunto de datos que sea mejor que el actual.

### **4. Selección condicional de datos**

Hasta ahora hemos estado indexando varios tramos de datos, utilizando propiedades estructurales del propio DataFrame. Sin embargo, para hacer cosas interesantes con los datos, a menudo necesitamos hacer preguntas basadas en condiciones.

Por ejemplo, supongamos que estamos interesados específicamente en los vinos mejores que la media producidos en Italia.

Podemos empezar comprobando si cada vino es italiano o no:

In [231]:
reviews.country == 'Italy'

0         False
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

Esta operación produce una serie de booleanos Verdadero/Falso en función del país de cada registro. Este resultado puede utilizarse dentro de loc para seleccionar los datos pertinentes

In [232]:
reviews.loc[reviews.country == 'Italy']

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
40042,Italy,"A blend of Cabernet Sauvignon, Merlot and Cabe...",Giusto di Notri,93,100.0,Tuscany,Toscana,,Kerin O’Keefe,@kerinokeefe,Tua Rita 2013 Giusto di Notri Red (Toscana),Red Blend,Tua Rita
40043,Italy,Bold prune and ripe blackberry notes are follo...,Aquilae,87,,Sicily & Sardinia,Sicilia,,,,Viticultori Associati Canicatti 2009 Aquilae S...,Syrah,Viticultori Associati Canicatti
...,...,...,...,...,...,...,...,...,...,...,...,...,...
59580,Italy,Peach and passion fruit aromas lead the way on...,Villa Luigia Extra Dry,87,,Veneto,Valdobbiadene Prosecco Superiore,,Kerin O’Keefe,@kerinokeefe,Il Follo 2014 Villa Luigia Extra Dry (Valdobb...,Glera,Il Follo
59581,Italy,"Toasted oak, espresso, new leather and steeped...",Riserva,88,33.0,Tuscany,Vino Nobile di Montepulciano,,Kerin O’Keefe,@kerinokeefe,Gracciano della Seta 2012 Riserva (Vino Nobil...,Red Blend,Gracciano della Seta


Este DataFrame tiene ~20.000 filas. El original tenía ~130.000. Eso significa que alrededor del 15% de los vinos proceden de Italia.

También queríamos saber cuáles son mejores que la media. Los vinos se evalúan en una escala de 80 a 100 puntos, por lo que podríamos referirnos a los vinos que obtuvieron al menos 90 puntos.

Podemos utilizar el símbolo ampersand (&) para unir las dos preguntas:

In [233]:
reviews.loc[(reviews.country == 'Italy') & (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
40042,Italy,"A blend of Cabernet Sauvignon, Merlot and Cabe...",Giusto di Notri,93,100.0,Tuscany,Toscana,,Kerin O’Keefe,@kerinokeefe,Tua Rita 2013 Giusto di Notri Red (Toscana),Red Blend,Tua Rita
40046,Italy,"Smooth and delicious, this boasts enticing sce...",Il Grigio Gran Selezione,95,55.0,Tuscany,Chianti Classico,,Kerin O’Keefe,@kerinokeefe,San Felice 2013 Il Grigio Gran Selezione (Chi...,Red Blend,San Felice
...,...,...,...,...,...,...,...,...,...,...,...,...,...
59577,Italy,"New leather, menthol, crushed mint, red berry ...",,92,40.0,Piedmont,Barbaresco,,Kerin O’Keefe,@kerinokeefe,La Ca' Nova 2014 Barbaresco,Nebbiolo,La Ca' Nova
59579,Italy,"Dried rose petal, underbrush, leather, and a b...",Sorano,93,60.0,Piedmont,Barolo,,Kerin O’Keefe,@kerinokeefe,Ascheri 2011 Sorano (Barolo),Nebbiolo,Ascheri


Supongamos que queremos comprar cualquier vino elaborado en Italia o que tenga una calificación superior a 90. Para ello utilizamos el carácter de tubería (|):

In [234]:
reviews.loc[(reviews.country == 'Italy') | (reviews.points >= 90)]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
15,Argentina,"Licorice, cardamom, blueberry and cassis aroma...",Red Blend,90,95.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,TeHo 2011 Red Blend Malbec-Cabernet Sauvignon ...,Malbec-Cabernet Sauvignon,TeHo
34,Argentina,"Intense, fiery aromas of licorice, blackberry ...",Kinien de Don Raúl,91,75.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,Ruca Malen 2011 Kinien de Don Raúl Red (Mendoza),Red Blend,Ruca Malen
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",Shah,90,30.0,,,,Mike DeSimone,@worldwineguys,Büyülübağ 2012 Shah Red,Red Blend,Büyülübağ
129970,,This wine offers a delightful bouquet of black...,,91,32.0,,,,Mike DeSimone,@worldwineguys,Psagot 2014 Merlot,Merlot,Psagot


Pandas viene con unos cuantos selectores condicionales incorporados, dos de los cuales destacaremos aquí.

El primero es isin. isin permite seleccionar datos cuyo valor "está en" una lista de valores. Por ejemplo, así es como podemos usarlo para seleccionar vinos sólo de Italia o Francia:

In [235]:
reviews.loc[reviews.country.isin(['Italy', 'France'])]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
14572,France,Named after the sector in the Morgon cru where...,Douby,88,21.0,Beaujolais,Morgon,,Roger Voss,@vossroger,Domaine de Gry-Sablon 2015 Douby (Morgon),Gamay,Domaine de Gry-Sablon
14573,France,"This is a rich wine, full bodied and packed wi...",Aurélia,91,25.0,Provence,Côtes de Provence,,Roger Voss,@vossroger,Domaine du Grand Cros 2015 Aurélia Rosé (Côtes...,Rosé,Domaine du Grand Cros
...,...,...,...,...,...,...,...,...,...,...,...,...,...
59580,Italy,Peach and passion fruit aromas lead the way on...,Villa Luigia Extra Dry,87,,Veneto,Valdobbiadene Prosecco Superiore,,Kerin O’Keefe,@kerinokeefe,Il Follo 2014 Villa Luigia Extra Dry (Valdobb...,Glera,Il Follo
59581,Italy,"Toasted oak, espresso, new leather and steeped...",Riserva,88,33.0,Tuscany,Vino Nobile di Montepulciano,,Kerin O’Keefe,@kerinokeefe,Gracciano della Seta 2012 Riserva (Vino Nobil...,Red Blend,Gracciano della Seta


El segundo es isnull (y su compañero notnull). Estos métodos permiten resaltar los valores que están (o no) vacíos (NaN). Por ejemplo, para filtrar los vinos que carecen de etiqueta de precio en el conjunto de datos, esto es lo que haríamos:

In [236]:
reviews.loc[reviews.price.notnull()]

reviews.loc[reviews.price.isnull()]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
22,Argentina,"Berry aromas come with a hint of cheesy oak, s...",Killka Collection,87,,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,Salentein 2011 Killka Collection Malbec (Mendoza),Malbec,Salentein
69,Argentina,Sulfur and match stick are the early aromas on...,Piedra Negra Reserve,85,,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,François Lurton 2012 Piedra Negra Reserve Char...,Chardonnay,François Lurton
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129917,,Winemaker: Bartho Eksteen. This wooded Sauvy s...,Cape Winemakers Guild Vloekskoot Wooded,91,,,,,Lauren Buzzeo,@laurbuzz,Bartho Eksteen 2016 Cape Winemakers Guild Vloe...,Sauvignon Blanc,Bartho Eksteen
129937,,Winemaker: Gordon Newton Johnson. This is such...,Cape Winemakers Guild Windansea,92,,,,,Lauren Buzzeo,@laurbuzz,Newton Johnson 2016 Cape Winemakers Guild Wind...,Pinot Noir,Newton Johnson


### **5. Asignación de datos**

Por otro lado, asignar datos a un DataFrame es fácil. Puede asignar un valor constante:

In [237]:
reviews['critica'] = 'me gusta'
reviews['critica']

0         me gusta
1         me gusta
            ...   
129969    me gusta
129970    me gusta
Name: critica, Length: 129971, dtype: object

O con valores iterables:

In [238]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int64

También podemos utilizar el loc junto con condicionales para hacer asignaciones de valores:

In [240]:
reviews.loc[reviews.price.isnull()] = 0
reviews.loc[reviews.price == 0]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critica,index_backwards
22,0,0,0,0,0.0,0,0,0,0,0,0,0,0,0,0
69,0,0,0,0,0.0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129917,0,0,0,0,0.0,0,0,0,0,0,0,0,0,0,0
129937,0,0,0,0,0.0,0,0,0,0,0,0,0,0,0,0
