# **Introducción a la manipulación de datos con Pandas**

1. Acceso nativo a dataframes

2. Indexado en pandas

3. Manipulación de índices

4. Selección condicional de datos

5. Asignación de datos

<img src="../imgs/foto-dia-02.png" width="450px" height="300px">

Seleccionar valores específicos de un pandas **DataFrame** o **Series** para trabajar sobre ellos es un paso implícito en casi cualquier operación de datos que se vaya a ejecutar, por lo que una de las primeras cosas que se necesita aprender al trabajar con datos en Python es cómo ir seleccionando los puntos de datos relevantes para nuestro trabajo de forma rápida y efectiva.

In [17]:
import pandas as pd

reviews = pd.read_csv('datasets/reviews-vinos.csv', index_col=0)
pd.set_option('display.max_rows', 5)  # Show all rows in the output  

### **1. Acceso nativo a los dataframes**

Los objetos nativos de Python proporcionan buenas formas de indexar datos. Pandas integra todos estos, lo que ayuda a que sea fácil empezar con él.

Empezamos con este DataFrame:

In [56]:
reviews


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


En Python, podemos acceder a la propiedad de un objeto accediendo a ella como un atributo. Un objeto libro, por ejemplo, puede tener un atributo título, a la que podemos acceder llamando a **libro.título**. Las columnas de un DataFrame de pandas funcionan de forma muy parecida.

Así, para acceder a los datos de la columna país del dataframe de reseñas podemos utilizar:

In [57]:
reviews.country


0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Si tenemos un diccionario Python, podemos acceder a sus valores utilizando el operador de indexación ([]). Podemos hacer lo mismo con las columnas de un DataFrame:

In [58]:
reviews['country']

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Estas son las dos formas de seleccionar una Serie concreta de un DataFrame. Ninguna de ellas es más o menos válida sintácticamente que la otra, pero el operador de indexación [] tiene la ventaja de que puede manejar nombres de columnas con caracteres reservados (por ejemplo, si tuviéramos una columna ciudad país, reviews.ciudadpaís no funcionaría).

¿No se parece una serie de pandas a una lista? Lo es, así que no es de extrañar que, para profundizar en un valor específico, sólo tengamos que utilizar el operador de indexación [] una vez más:

In [59]:
reviews['country'][0:2]
reviews['country'][-3:]

129968    France
129969    France
129970    France
Name: country, dtype: object

### **2. Indexado en pandas**

El operador de indexación y la selección de atributos son agradables porque funcionan igual que en el resto del ecosistema Python. Como principiante, esto hace que sean fáciles de aprender y usar. Sin embargo, pandas tiene sus propios operadores de acceso, loc e iloc. Para operaciones más avanzadas, estos son los que se supone que debes usar.

##### **2.1 Selección basada en posiciones**

La indexación en Pandas funciona en uno de dos paradigmas. El primero es la selección basada en índices: seleccionar datos basándose en su posición numérica en los datos. iloc sigue este paradigma.

Para seleccionar la primera fila de datos en un DataFrame, podemos usar lo siguiente:

In [60]:
reviews.iloc[0]

country                                                    Italy
description    Aromas include tropical fruit, broom, brimston...
                                     ...                        
variety                                              White Blend
winery                                                   Nicosia
Name: 0, Length: 13, dtype: object

En el ejemplo anterior el tipo de datos que nos devuelve es una serie de pandas si queremos que nos devuelva en formato dataframe podemos hacer lo siguiente:

In [61]:
reviews.iloc[[0]]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia


La indexación se realiza primero por filas y luego por columnas, en este siguiente ejemplo se seleccionan todas los valores de todas las filas pero sólo de la primera columna.

In [62]:
reviews.iloc[:, 0]  # Primero indexamos por filas y despues por columnas en iloc    

0            Italy
1         Portugal
            ...   
129969      France
129970      France
Name: country, Length: 129971, dtype: object

Por sí solo, el operador :, que procede del Python nativo, significa "todo". Sin embargo, cuando se combina con otros selectores, puede utilizarse para indicar un rango de valores. Por ejemplo, para seleccionar las tres primeras columnas sólo de la primera, segunda y tercera fila, haríamos:

In [63]:
reviews.iloc[:3, :3]

Unnamed: 0,country,description,designation
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",


También podemos hacer algo muy potente que es el indexado basado en funciones lambda, por ejemplo, si sólo queremos las filas que tienen el índice par podemos hacerlo de la siguiente manera:

In [64]:
reviews.iloc[lambda fila: fila.index % 2 == 0]  


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Una forma muy útil es el indexado con listas, como en el siguiente ejemplo:

In [65]:
reviews.iloc[[0, 2], [1, 3]]  # Seleccionamos filas y columnas especificas

Unnamed: 0,description,points
0,"Aromas include tropical fruit, broom, brimston...",87
2,"Tart and snappy, the flavors of lime flesh and...",87


Por último, conviene saber que se pueden utilizar números negativos en la selección. Esto comenzará a contar hacia adelante desde el final de los valores. Así, por ejemplo, aquí están los últimos cinco elementos del conjunto de datos.

In [66]:
reviews.iloc[-5: ] # Seleccionamos las ultimas 5 filas

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


##### **2.2 Selección basada en índices/etiquetas**

El segundo paradigma para la selección de atributos es el que sigue el operador loc: la selección basada en etiquetas. En este paradigma, lo que importa es el valor del índice del dato, no su posición.

Por ejemplo, para obtener el valor del primer índice para la columna country, ahora haríamos lo siguiente:

In [67]:
reviews.loc[0, 'country']  # Primero eindexamos por el indice/etiqueta y segund por el nombre de la columna


'Italy'

In [68]:
reviews = reviews.set_index('country')  # Cambiamos el indice a country
reviews.loc['Italy', 'description'] 

country
Italy    Aromas include tropical fruit, broom, brimston...
Italy    Here's a bright, informal red that opens with ...
                               ...                        
Italy    Intense aromas of wild cherry, baking spice, t...
Italy    Blackberry, cassis, grilled herb and toasted a...
Name: description, Length: 19540, dtype: object

iloc es conceptualmente más sencillo que loc porque ignora los índices del conjunto de datos. Cuando usamos iloc tratamos el conjunto de datos como una gran matriz (una lista de listas), en la que tenemos que indexar por posición. loc, por el contrario, usa la información de los índices para hacer su trabajo. Dado que el conjunto de datos suele tener índices significativos, suele ser más fácil hacer las cosas con loc. Por ejemplo, aquí hay una operación que es mucho más fácil usando loc, ya que podemos especificar el nombre de las columnas.

In [69]:
reviews.loc['Italy', ['taster_name', 'taster_twitter_handle', 'points']]  # Seleccionamos todas las columnas de la fila con el indice 'Italy'

Unnamed: 0_level_0,taster_name,taster_twitter_handle,points
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Italy,Kerin O’Keefe,@kerinokeefe,87
Italy,Kerin O’Keefe,@kerinokeefe,87
...,...,...,...
Italy,Kerin O’Keefe,@kerinokeefe,90
Italy,Kerin O’Keefe,@kerinokeefe,90


A la hora de elegir entre loc e iloc, hay que tener en cuenta que ambos métodos utilizan esquemas de indexación ligeramente diferentes.

iloc utiliza el esquema de indexación de Python, donde se incluye el primer elemento del rango y se excluye el último. Así, 0:10 seleccionará las entradas 0,...,9. loc, por su parte, indexa de forma inclusiva. Así, 0:10 seleccionará las entradas 0,...,10.

Esto es especialmente confuso cuando el índice del DataFrame es una simple lista numérica, por ejemplo 0,...,1000. En este caso df.iloc[0:1000] devolverá 1000 entradas, ¡mientras que df.loc[0:1000] devolverá 1001 de ellas! Para obtener 1000 elementos utilizando loc, tendrá que ir un poco más abajo y pedir df.loc[0:999].

Por lo demás, la semántica del uso de loc es la misma que la de iloc.

### **3. Manipulación de índices**

La selección basada en etiquetas deriva su potencia de las etiquetas del índice. El índice que utilizamos no es inmutable. Podemos manipular el índice de la forma que creamos conveniente.

El método set_index() puede ser utilizado para hacer el trabajo. Esto es lo que ocurre cuando establecemos_index en el campo country:

In [2]:
reviews = reviews.set_index('country')  # Cambiamos el indice a country 
reviews


Unnamed: 0_level_0,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...
France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


In [None]:
reviews = reviews.sort_index()  # Muestra la documentacion de la funcion sort_index
reviews

Unnamed: 0_level_0,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Argentina,Odd aromas of bath soap and tropical fruits ar...,Valle Las Acequias Clase A,81,9.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,Luis Segundo Correas 2015 Valle Las Acequias C...,Chardonnay,Luis Segundo Correas
Argentina,"Malty, earthy aromas of cassis and prune are t...",,86,15.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,Bodega Familia Barberis 2010 Cabernet Sauvigno...,Cabernet Sauvignon,Bodega Familia Barberis
...,...,...,...,...,...,...,...,...,...,...,...,...
,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",Shah,90,30.0,,,,Mike DeSimone,@worldwineguys,Büyülübağ 2012 Shah Red,Red Blend,Büyülübağ
,This wine offers a delightful bouquet of black...,,91,32.0,,,,Mike DeSimone,@worldwineguys,Psagot 2014 Merlot,Merlot,Psagot


In [None]:
reviews = reviews.sort_index()
reviews

Unnamed: 0_level_0,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Argentina,Odd aromas of bath soap and tropical fruits ar...,Valle Las Acequias Clase A,81,9.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,Luis Segundo Correas 2015 Valle Las Acequias C...,Chardonnay,Luis Segundo Correas
Argentina,"Lactic aromas of creamy oak, latex and plastic...",Red Blend,89,65.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,ZaHa 2011 Red Blend Malbec-Cabernet Sauvignon ...,Malbec-Cabernet Sauvignon,ZaHa
...,...,...,...,...,...,...,...,...,...,...,...,...
,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",Shah,90,30.0,,,,Mike DeSimone,@worldwineguys,Büyülübağ 2012 Shah Red,Red Blend,Büyülübağ
,This wine offers a delightful bouquet of black...,,91,32.0,,,,Mike DeSimone,@worldwineguys,Psagot 2014 Merlot,Merlot,Psagot


In [None]:
reviews = reviews.loc['Argentina':'France', 'title']

In [40]:
set(reviews.index.to_list())  # Convertimos el indice a una lista y luego a un set para eliminar duplicados

{'Argentina',
 'Armenia',
 'Australia',
 'Austria',
 'Bosnia and Herzegovina',
 'Brazil',
 'Bulgaria',
 'Canada',
 'Chile',
 'China',
 'Croatia',
 'Cyprus',
 'Czech Republic',
 'Egypt',
 'England',
 'France',
 'Georgia',
 'Germany',
 'Greece',
 'Hungary',
 'India',
 'Israel',
 'Italy',
 'Lebanon',
 'Luxembourg',
 'Macedonia',
 'Mexico',
 'Moldova',
 'Morocco',
 'New Zealand',
 'Peru',
 'Portugal',
 'Romania',
 'Serbia',
 'Slovakia',
 'Slovenia',
 'South Africa',
 'Spain',
 'Switzerland',
 'Turkey',
 'US',
 'Ukraine',
 'Uruguay',
 nan}

In [4]:
reviews.reset_index()  # Cambiamos el indice a un rango numerico

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


Esto resulta útil si se puede establecer un índice para el conjunto de datos que sea mejor que el actual.

### **4. Selección condicional de datos**

Hasta ahora hemos estado indexando varios tramos de datos, utilizando propiedades estructurales del propio DataFrame. Sin embargo, para hacer cosas interesantes con los datos, a menudo necesitamos hacer preguntas basadas en condiciones.

Por ejemplo, supongamos que estamos interesados específicamente en los vinos mejores que la media producidos en Italia.

Podemos empezar comprobando si cada vino es italiano o no:

In [4]:
reviews.country == 'Italy'

0          True
1         False
          ...  
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

Esta operación produce una serie de booleanos Verdadero/Falso en función del país de cada registro. Este resultado puede utilizarse dentro de loc para seleccionar los datos pertinentes

In [9]:
reviews_italy = reviews.loc[reviews['country'] == 'Italy']
reviews_italy


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


Este DataFrame tiene ~20.000 filas. El original tenía ~130.000. Eso significa que alrededor del 15% de los vinos proceden de Italia.

También queríamos saber cuáles son mejores que la media. Los vinos se evalúan en una escala de 80 a 100 puntos, por lo que podríamos referirnos a los vinos que obtuvieron al menos 90 puntos.

Podemos utilizar el símbolo ampersand (&) para unir las dos preguntas:

In [12]:
good_reviews_italy = reviews.loc[(reviews['country'] == 'Italy') & (reviews['points'] > 90)]
good_reviews_italy


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
120,Italy,"Slightly backward, particularly given the vint...",Bricco Rocche Prapó,92,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Prapó (Barolo),Nebbiolo,Ceretto
130,Italy,"At the first it was quite muted and subdued, b...",Bricco Rocche Brunate,91,70.0,Piedmont,Barolo,,,,Ceretto 2003 Bricco Rocche Brunate (Barolo),Nebbiolo,Ceretto
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129893,Italy,"Aromas of passion fruit, hay and a vegetal not...",Corte Menini,91,,Veneto,Soave Classico,,Kerin O’Keefe,@kerinokeefe,Le Mandolare 2015 Corte Menini (Soave Classico),Garganega,Le Mandolare
129929,Italy,"This luminous sparkler has a sweet, fruit-forw...",,91,38.0,Veneto,Prosecco Superiore di Cartizze,,,,Col Vetoraz Spumanti NV Prosecco Superiore di...,Prosecco,Col Vetoraz Spumanti


Supongamos que queremos comprar cualquier vino elaborado en Italia o que tenga una calificación superior a 90. Para ello utilizamos el carácter de tubería (|):

In [19]:
reviews_italy_or_good_wines = reviews.loc[(reviews['country'] == 'Italy') | (reviews['points'] > 90)]
reviews_italy_or_good_wines


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129961,Italy,"Intense aromas of wild cherry, baking spice, t...",,90,30.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,COS 2013 Frappato (Sicilia),Frappato,COS
129962,Italy,"Blackberry, cassis, grilled herb and toasted a...",Sàgana Tenuta San Giacomo,90,40.0,Sicily & Sardinia,Sicilia,,Kerin O’Keefe,@kerinokeefe,Cusumano 2012 Sàgana Tenuta San Giacomo Nero d...,Nero d'Avola,Cusumano


Pandas viene con unos cuantos selectores condicionales incorporados, dos de los cuales destacaremos aquí.

El primero es isin. isin permite seleccionar datos cuyo valor "está en" una lista de valores. Por ejemplo, así es como podemos usarlo para seleccionar vinos sólo de Italia o Francia:

In [None]:
reviews.loc[reviews['country'].isin(['Italy', 'France'])]  # Seleccionamos filas donde el pais es Italia o Francia
reviews.loc[reviews['country'].isin(['Italy', 'France']), ['country', 'points']]  # Seleccionamos filas donde el pais es Italia o Francia y las columnas country y points   

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit


El segundo es isnull (y su compañero notnull). Estos métodos permiten resaltar los valores que están (o no) vacíos (NaN). Por ejemplo, para filtrar los vinos que carecen de etiqueta de precio en el conjunto de datos, esto es lo que haríamos:

In [23]:
reviews.loc[reviews['price'].notnull()]  # Seleccionamos filas donde el precio no es nulo
reviews.loc[reviews['price'].isnull()]  # Seleccionamos filas donde el precio no es nulo


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
13,Italy,This is dominated by oak and oak-driven aromas...,Rosso,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Masseria Setteporte 2012 Rosso (Etna),Nerello Mascalese,Masseria Setteporte
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129893,Italy,"Aromas of passion fruit, hay and a vegetal not...",Corte Menini,91,,Veneto,Soave Classico,,Kerin O’Keefe,@kerinokeefe,Le Mandolare 2015 Corte Menini (Soave Classico),Garganega,Le Mandolare
129964,France,"Initially quite muted, this wine slowly develo...",Domaine Saint-Rémy Herrenweg,90,,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Ehrhart 2013 Domaine Saint-Rémy Herren...,Gewürztraminer,Domaine Ehrhart


### **5. Asignación de datos**

Por otro lado, asignar datos a un DataFrame es fácil. Puede asignar un valor constante:

In [24]:
reviews['critica'] = 'me gusta'
reviews


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critica
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia,me gusta
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,me gusta
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss,me gusta
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit,me gusta


O con valores iterables:

In [26]:
reviews['index_backwards'] = range(len(reviews), 0, -1)  # Creamos una nueva columna con un rango de numeros de forma decreciente
reviews['index_backwards']


0         129971
1         129970
           ...  
129969         2
129970         1
Name: index_backwards, Length: 129971, dtype: int64

También podemos utilizar el loc junto con condicionales para hacer asignaciones de valores:

In [30]:
reviews.loc[reviews['price'].isnull()] = 0
reviews# Cambiamos los valores nulos de la columna price a 0

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critica,index_backwards
0,0,0,0,0,0.0,0,0,0,0,0,0,0,0,0,0
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos,me gusta,129970
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss,me gusta,2
129970,France,"Big, rich and off-dry, this is powered by inte...",Lieu-dit Harth Cuvée Caroline,90,21.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Schoffit 2012 Lieu-dit Harth Cuvée Car...,Gewürztraminer,Domaine Schoffit,me gusta,1


In [37]:
reviews.loc[reviews['points'] < 90, 'calidad'] = 'Mala'
reviews.loc[(reviews['points'] >= 90) & (reviews['points'] < 95), 'calidad'] = 'Buena'
reviews.loc[reviews['points'] >= 95, 'calidad'] = 'Excelente'

reviews.loc[reviews['calidad'] == 'Excelente']


Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery,critica,index_backwards,calidad
345,Australia,This wine contains some material over 100 year...,Rare,100,350.0,Victoria,Rutherglen,,Joe Czerwinski,@JoeCz,Chambers Rosewood Vineyards NV Rare Muscat (Ru...,Muscat,Chambers Rosewood Vineyards,me gusta,129626,Excelente
346,Australia,"This deep brown wine smells like a damp, mossy...",Rare,98,350.0,Victoria,Rutherglen,,Joe Czerwinski,@JoeCz,Chambers Rosewood Vineyards NV Rare Muscadelle...,Muscadelle,Chambers Rosewood Vineyards,me gusta,129625,Excelente
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128683,US,"Big, powerful, soft, rich and ageable. In othe...",Heirloom Estate Grown,95,90.0,California,Carneros,Napa-Sonoma,,,Etude 2006 Heirloom Estate Grown Pinot Noir (C...,Pinot Noir,Etude,me gusta,1288,Excelente
128684,US,Cabernet doesn't get bigger than this. It's an...,,95,100.0,California,Oakville,Napa,,,Etude 2005 Cabernet Sauvignon (Oakville),Cabernet Sauvignon,Etude,me gusta,1287,Excelente
