<a href="https://colab.research.google.com/github/jjAguil/Tareas-Simulacion/blob/main/Pandas_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dataset Wine Reviews
En las siguientes sesiones, trabajaremos con el banco de datos
[Wine Reviews](https://www.kaggle.com/datasets/zynicide/wine-reviews) de Kaggle.
Este es un dataset que contiene 12 columnas o variables, y 130 mil filas o
instancias de reseñas a diferentes vinos.

Las columnas son:
- Country
- Description
- Designation
- Points
- Price
- Province
- Region_1
- Region_2
- Taster Name
- Taster Twitter Handle
- Variety
- Winery


In [None]:
import pandas as pd
import numpy as np

# Importando el dataset

In [None]:
df = pd.read_csv('./wine_reviews_kaggle.csv', index_col=0)

In [None]:
df.shape

(129971, 13)

In [None]:
df.head(5)

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


# Funciones por grupos
Como ya vimos, podemos hacer transformaciones de nuestros datos mediante las
funciones optimizadas de Pandas, o aplicando algún método mediante `apply` o
`map`. Sin embargo, en muchas ocasiones queremos organizar nuestros datos por
grupos en una primera instancia, para luego modificarlos o analizarlos de
acuerdo al grupo al que pertenecen.

Estas operaciones de agrupación se hacen mediante la función `groupby()`.
Antes de comenzar con esta función, revisemos el método `value_counts()`, que
nos dice, para cada valor presente en una columna del DataFrame, cuántas veces
ocurre

In [None]:
df['points'].value_counts()

88     17207
87     16933
90     15410
86     12600
89     12226
91     11359
92      9613
85      9530
93      6489
84      6480
94      3758
83      3025
82      1836
95      1535
81       692
96       523
80       397
97       229
98        77
99        33
100       19
Name: points, dtype: int64

Esta función es un *alias* para una serie de comandos, en los que se encuentra
`groupby()`; podemos obtener un resultado similar de la siguiente manera:

In [None]:
df.groupby('points')['points'].count()

points
80       397
81       692
82      1836
83      3025
84      6480
85      9530
86     12600
87     16933
88     17207
89     12226
90     15410
91     11359
92      9613
93      6489
94      3758
95      1535
96       523
97       229
98        77
99        33
100       19
Name: points, dtype: int64

`Groupby` entonces, es una función que permite hacer *particiones* de un
DataFrame o una Series, aplicarles una función y combinar los resultados.

Es importante recalcar que `groupby` no regresa un DataFrame *per se*, sino un
objeto con la información de dichos grupos, por lo que, para visualizar algún
resultado, debemos de aplicar alguna función (optimizada por pandas, map o
apply).

In [None]:
df.groupby('points')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fd5d4d80940>

No es hasta que ejecutamos alguna operación que ya podemos visualizar datos,
por ejemplo, podemos encontrar el precio más barato en cada nivel de puntos del
dataset:

In [None]:
df.groupby('points')['price'].min()

points
80      5.0
81      5.0
82      4.0
83      4.0
84      4.0
85      4.0
86      4.0
87      5.0
88      6.0
89      7.0
90      8.0
91      7.0
92     11.0
93     12.0
94     13.0
95     20.0
96     20.0
97     35.0
98     50.0
99     44.0
100    80.0
Name: price, dtype: float64

Si quisieramos, a partir de esta operación, saber el nombre de dicho vino,
podemos hacer lo siguiente:

In [None]:
"""
obtener los indices que corresponden al precio minimo en cada puntaje
idx min, como su nombre lo indica, regresa el índice del elemento cuyo valor
es el mínimo
"""
idx = df.groupby('points')['price'].idxmin()
idx.head()

points
80     23437
81     33381
82    117303
83     59507
84     29553
Name: price, dtype: int64

In [None]:
# obtener los nombres
df.loc[idx, ['title', 'points', 'price']]

Unnamed: 0,title,points,price
23437,Terrenal 2013 Estate Bottled Malbec (Mendoza),80,5.0
33381,Viña Decana 2010 Crianza Tempranillo (Utiel-Re...,81,5.0
117303,Felix Solis 2012 Flirty Bird White (Vino de la...,82,4.0
59507,Pam's Cuties NV Unoaked Chardonnay (California),83,4.0
29553,Broke Ass 2009 Red Malbec-Syrah (Mendoza),84,4.0
1987,Felix Solis 2013 Flirty Bird Syrah (Vino de la...,85,4.0
64590,Bandit NV Merlot (California),86,4.0
24592,In Situ 2008 Reserva Sauvignon Blanc (Aconcagu...,87,5.0
44054,Ste. Chapelle 2001 Johannisberg Riesling (Idaho),88,6.0
42891,Borsao 2008 Monte Oton Garnacha (Campo de Borja),89,7.0


Incluso podemos hacer agrupaciones más específicas, lo que nos llevaría a tener
un DataFrame con `MultiIndex`, que no es otra cosa que índices con diferentes
niveles, por ejemplo: podemos agrupar los vinos por país y por provincia, de
acuerdo a las columnas de nuestro DataFrame, y visualizar aquellos con mejor
puntuación:

In [None]:
"""
la función lambda recibe un dataframe (porque estamos trabajando con GroupBy),
y nos regresa aquellas filas en las cuales el puntaje es máximo.

Al aplicarla sobre un objeto Groupby, estamos aplicando dicha función en cada
uno de los grupos, que para este caso son países y provincias.
"""
df.groupby(['country', 'province']).apply(lambda df: df.loc[df['points'].idxmax(), :])

Unnamed: 0_level_0,Unnamed: 1_level_0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
country,province,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Argentina,Mendoza Province,Argentina,"If the color doesn't tell the full story, the ...",Nicasia Vineyard,97,120.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,Bodega Catena Zapata 2006 Nicasia Vineyard Mal...,Malbec,Bodega Catena Zapata
Argentina,Other,Argentina,"Take note, this could be the best wine Colomé ...",Reserva,95,90.0,Other,Salta,,Michael Schachner,@wineschach,Colomé 2010 Reserva Malbec (Salta),Malbec,Colomé
Armenia,Armenia,Armenia,"Deep salmon in color, this wine offers a bouqu...",Estate Bottled,88,15.0,Armenia,,,Mike DeSimone,@worldwineguys,Van Ardi 2015 Estate Bottled Rosé (Armenia),Rosé,Van Ardi
Australia,Australia Other,Australia,Writes the book on how to make a wine filled w...,Sarah's Blend,93,15.0,Australia Other,South Eastern Australia,,,,Marquis Philips 2000 Sarah's Blend Red (South ...,Red Blend,Marquis Philips
Australia,New South Wales,Australia,De Bortoli's Noble One is as good as ever in 2...,Noble One Bortytis,94,32.0,New South Wales,New South Wales,,Joe Czerwinski,@JoeCz,De Bortoli 2007 Noble One Bortytis Semillon (N...,Sémillon,De Bortoli
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
Uruguay,Juanico,Uruguay,This mature Bordeaux-style blend is earthy on ...,Preludio Barrel Select Lote N 77,90,45.0,Juanico,,,Michael Schachner,@wineschach,Familia Deicas 2004 Preludio Barrel Select Lot...,Red Blend,Familia Deicas
Uruguay,Montevideo,Uruguay,"A rich, heady bouquet offers aromas of blackbe...",Monte Vide Eu Tannat-Merlot-Tempranillo,91,60.0,Montevideo,,,Michael Schachner,@wineschach,Bouza 2015 Monte Vide Eu Tannat-Merlot-Tempran...,Red Blend,Bouza
Uruguay,Progreso,Uruguay,"Rusty in color but deep and complex in nature,...",Etxe Oneko Fortified Sweet Red,90,46.0,Progreso,,,Michael Schachner,@wineschach,Pisano 2007 Etxe Oneko Fortified Sweet Red Tan...,Tannat,Pisano
Uruguay,San Jose,Uruguay,"Baked, sweet, heavy aromas turn earthy with ti...",El Preciado Gran Reserva,87,50.0,San Jose,,,Michael Schachner,@wineschach,Castillo Viejo 2005 El Preciado Gran Reserva R...,Red Blend,Castillo Viejo


Otro método importante es `agg` (*aggregate*), que nos permite aplicar varias
funciones a nuestros datos en una misma operación, por ejemplo:

In [None]:
"""
mean (media) no es una función nativa de Python, por lo que pandas no la
reconocería, es por ello que debemos de pasar el nombre completo de la
implementación de pandas.

En el caso de las otras funciones, al ser nativas, pandas está utilizando `apply`
sobre ellas.
"""
df.groupby('country')['price'].agg([max, min, pd.DataFrame.mean, len])

Unnamed: 0_level_0,max,min,mean,len
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Argentina,230.0,4.0,24.510117,3800
Armenia,15.0,14.0,14.5,2
Australia,850.0,5.0,35.437663,2329
Austria,1100.0,7.0,30.762772,3345
Bosnia and Herzegovina,13.0,12.0,12.5,2
Brazil,60.0,10.0,23.765957,52
Bulgaria,100.0,8.0,14.64539,141
Canada,120.0,12.0,35.712598,257
Chile,400.0,5.0,20.786458,4472
China,18.0,18.0,18.0,1


# Ordenamiento (Sorting)
En los ejemplos anteriores, pandas nos ha estado regresando diferentes
agrupaciones sin ningún orden en específico. Si, para nuestro análisis, deseamos
presentar nuestros resultados ordenándolos con respecto a alguna columna,
debemos utilizar el método `sort_values()`. Esta función puede ser utilizada
tanto con DataFrames, como con objetos `groupby`.

Por ejemplo, podemos ordenar nuestro dataset `df` con respecto a la columna de
puntos:

In [None]:
df.sort_values(by='points')

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
118056,US,This wine has very little going on aromaticall...,Reserve,80,26.0,California,Livermore Valley,Central Coast,Virginie Boone,@vboone,3 Steves Winery 2008 Reserve Cabernet Sauvigno...,Cabernet Sauvignon,3 Steves Winery
35516,US,"This Merlot has not fully ripened, with aromas...",,80,20.0,Washington,Horse Heaven Hills,Columbia Valley,Sean P. Sullivan,@wawinereport,James Wyatt 2013 Merlot (Horse Heaven Hills),Merlot,James Wyatt
11086,France,Picture grandma standing over a pot of stewed ...,,80,11.0,Languedoc-Roussillon,Fitou,,Joe Czerwinski,@JoeCz,Mont Tauch 1998 Red (Fitou),Red Blend,Mont Tauch
11085,France,A white this age should be fresh and crisp; th...,,80,8.0,Southwest France,Bergerac,,Joe Czerwinski,@JoeCz,Seigneurs de Bergerac 1999 White (Bergerac),White Blend,Seigneurs de Bergerac
102482,US,"This wine is a medium cherry-red color, with s...",Cabernet Franc,80,18.0,Washington,Columbia Valley (WA),Columbia Valley,Sean P. Sullivan,@wawinereport,Tucannon 2014 Cabernet Franc Rosé (Columbia Va...,Rosé,Tucannon
...,...,...,...,...,...,...,...,...,...,...,...,...,...
111756,France,"A hugely powerful wine, full of dark, brooding...",,100,359.0,Bordeaux,Saint-Julien,,Roger Voss,@vossroger,Château Léoville Las Cases 2010 Saint-Julien,Bordeaux-style Red Blend,Château Léoville Las Cases
89728,France,This latest incarnation of the famous brand is...,Cristal Vintage Brut,100,250.0,Champagne,Champagne,,Roger Voss,@vossroger,Louis Roederer 2008 Cristal Vintage Brut (Cha...,Champagne Blend,Louis Roederer
89729,France,This new release from a great vintage for Char...,Le Mesnil Blanc de Blancs Brut,100,617.0,Champagne,Champagne,,Roger Voss,@vossroger,Salon 2006 Le Mesnil Blanc de Blancs Brut Char...,Chardonnay,Salon
118058,US,This wine dazzles with perfection. Sourced fro...,La Muse,100,450.0,California,Sonoma County,Sonoma,,,Verité 2007 La Muse Red (Sonoma County),Bordeaux-style Red Blend,Verité


Observemos, además, que `sort_values` trabaja por default con orden ascendente
---de menor a mayor---, si queremos modificar este comportamiento debemos
cambiar el parámetro `ascending` a `False`.

In [None]:
df.sort_values(by='points', ascending=False)

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
114972,Portugal,"A powerful and ripe wine, strongly influenced ...",Nacional Vintage,100,650.0,Port,,,Roger Voss,@vossroger,Quinta do Noval 2011 Nacional Vintage (Port),Port,Quinta do Noval
89729,France,This new release from a great vintage for Char...,Le Mesnil Blanc de Blancs Brut,100,617.0,Champagne,Champagne,,Roger Voss,@vossroger,Salon 2006 Le Mesnil Blanc de Blancs Brut Char...,Chardonnay,Salon
113929,US,In 2005 Charles Smith introduced three high-en...,Royal City,100,80.0,Washington,Columbia Valley (WA),Columbia Valley,Paul Gregutt,@paulgwine,Charles Smith 2006 Royal City Syrah (Columbia ...,Syrah,Charles Smith
45781,Italy,"This gorgeous, fragrant wine opens with classi...",Riserva,100,550.0,Tuscany,Brunello di Montalcino,,Kerin O’Keefe,@kerinokeefe,Biondi Santi 2010 Riserva (Brunello di Montal...,Sangiovese,Biondi Santi
123545,US,Initially a rather subdued Frog; as if it has ...,Bionic Frog,100,80.0,Washington,Walla Walla Valley (WA),Columbia Valley,Paul Gregutt,@paulgwine,Cayuse 2008 Bionic Frog Syrah (Walla Walla Val...,Syrah,Cayuse
...,...,...,...,...,...,...,...,...,...,...,...,...,...
128255,Argentina,"Severely compromised by green, minty, weedy ar...",,80,13.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,Viniterra 2007 Malbec (Mendoza),Malbec,Viniterra
128254,Argentina,Disappointing considering the source. The nose...,Gran Lurton,80,20.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,François Lurton 2006 Gran Lurton Cabernet Sauv...,Cabernet Sauvignon,François Lurton
93686,Peru,"Best on the nose, where apple and lemony aroma...",Brut,80,15.0,Ica,,,Michael Schachner,@wineschach,Tacama 2010 Brut Sparkling (Ica),Sparkling Blend,Tacama
73865,Chile,There's not much point in making a reserve-sty...,Prima Reserva,80,13.0,Maipo Valley,,,Joe Czerwinski,@JoeCz,De Martino 1999 Prima Reserva Merlot (Maipo Va...,Merlot,De Martino


Además, como ya comentamos, esto no solo funciona con DataFrames, sino que es
una operación que podemos aplicar sobre objetos resultantes de un `groupby`.

En el siguiente ejemplo primero agrupamos los reviews de los vinos por país y
luego trabajamos directamente con la columna `points`, sobre esta calculamos:
- el puntaje máximo de ese país
- el puntaje mínimo
- el promedio de puntos de sus vinos, y
- el número de vinos que tiene cada país

posteriormente ordenamos con respecto a dos parámetros:
1. El puntaje máximo
2. El promedio de puntos por país
**Nota**: `sort_values` puede ordenar con base en diversas columnas del
DataFrame, para ello debemos pasar los nombres de dichas columnas en una lista.
**El orden de los elementos de la lista es el orden de preferencia de las
columnas**; es decir, si pasamos la lista `[max, mean]`, pandas primero ordenara
con respecto a la variable `max`, y algún desempate lo realizará con la variable
`mean`.

In [None]:
df.groupby('country')['points'].agg([max, min, pd.DataFrame.mean, len])\
    .sort_values(by=['max', 'mean'], ascending=False)

Unnamed: 0_level_0,max,min,mean,len
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
France,100,80,88.845109,22093
Australia,100,80,88.580507,2329
US,100,80,88.56372,54504
Italy,100,80,88.562231,19540
Portugal,100,80,88.25022,5691
Austria,98,82,90.101345,3345
Germany,98,81,89.851732,2165
Spain,98,80,87.288337,6645
Hungary,97,81,89.191781,146
Argentina,97,80,86.710263,3800


# Ejercicios
- Quienes son los revisores más frecuentes? Hints:
    - obtener una serie en la que el index sea `taster_twitter_handle`; los
    valores deben ser cuántos reviews hizo cada uno.
    - Método [`size`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.size.html)
    - o método `value_counts`

- Ordena de manera descendente y ascendente la Serie del ejercicio anterior

- Para cada precio existente en el dataset, encontrar cuál es el mejor vino que
se puede comprar. Hints:
    - Obtener una Serie cuyo index sea `price`, cuyos valores sean el puntaje
    máximo que se puede comprar a dicho precio.
    - **Avanzado**: Obten un DataFrame con las columnas `[price, title, points]`
    de dichos vinos

- Cuál es el puntaje máximo y mínimo para cada variedad de vino? Hints:
    - Obtener un DataFrame (qué implica que sea un DataFrame y no una Serie?),
    cuyo índice sea la variable `variety`, y que sus valores sean los precios
    máximos y mínimos
    - Método [`agg`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html)
    - Ordenalos de manera descendente con base en los precios máximos, para
    saber qué variedades son las más caras

- Lo mismo del ejercicio anterior, pero con el puntaje en lugar de los precios

- Revisores exigentes? Crea una Serie cuyo index sea `taster_name`, y sus
valores sean la media (promedio) de los puntajes que han dado. Hints:
    - Columnas: `taster_name` y `points`
    - ordenalos de menor a mayor
- Checa cuál es la puntuación mínima que dió cada revisor



In [None]:
df.groupby('taster_name')['points'].agg(min).sort_values(ascending=True)

# Tipos de Datos
Cada Serie o columna de un DataFrame tiene asociado un tipo de dato: `float64`,
`int64`, entre otros. En la *jerga* de pandas y numpy, a esta propiedad se le
conoce como `dtype`.

Podemos inspeccionar el tipo de datos de una columna en específico de la
siguiente manera:

In [None]:
df['points'].dtype, df['taster_twitter_handle'].dtype

(dtype('int64'), dtype('O'))

Si queremos observar los tipos de datos de todo un DataFrame, podemos utilizar
la propiedad `dtypes`

In [None]:
df.dtypes

country                   object
description               object
designation               object
points                     int64
price                    float64
province                  object
region_1                  object
region_2                  object
taster_name               object
taster_twitter_handle     object
title                     object
variety                   object
winery                    object
dtype: object

Si queremos tratar una columna o Serie como un tipo de dato diferente, podemos
utilizar el método `astype`

In [None]:
df['points'].astype('float32')

0         87.0
1         87.0
2         87.0
3         87.0
4         87.0
          ... 
129966    90.0
129967    90.0
129968    90.0
129969    90.0
129970    90.0
Name: points, Length: 129971, dtype: float32

Observa cómo el método `astype` no modifica el tipo de dato en el DataFrame
original, sino que solo nos da una representación distinta de los mismos datos;
es una `view` nueva, pero los datos se mantienen intactos.

In [None]:
df['points']

0         87
1         87
2         87
3         87
4         87
          ..
129966    90
129967    90
129968    90
129969    90
129970    90
Name: points, Length: 129971, dtype: int64

También los `index` tienen un tipo de dato asociado, para ello, creemos nuevos
DataFrames mediante `groupby` (recuerda que este metodo crea un dataframe donde
el index es la variable con respecto a la cual se agrupó).

In [None]:
a = df.groupby('points')['price'].agg([max, min, pd.DataFrame.mean])

In [None]:
a

Unnamed: 0_level_0,max,min,mean
points,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
80,69.0,5.0,16.372152
81,130.0,5.0,17.182353
82,150.0,4.0,18.870767
83,225.0,4.0,18.237353
84,225.0,4.0,19.310215
85,320.0,4.0,19.949562
86,170.0,4.0,22.133759
87,800.0,5.0,24.901884
88,3300.0,6.0,28.687523
89,500.0,7.0,32.16964


In [None]:
a.index

Int64Index([ 80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,  92,
             93,  94,  95,  96,  97,  98,  99, 100],
           dtype='int64', name='points')

In [None]:
a.index.dtype

dtype('int64')

In [None]:
b = df.groupby('country')['price'].mean()
b.index

Index(['Argentina', 'Armenia', 'Australia', 'Austria',
       'Bosnia and Herzegovina', 'Brazil', 'Bulgaria', 'Canada', 'Chile',
       'China', 'Croatia', 'Cyprus', 'Czech Republic', 'Egypt', 'England',
       'France', 'Georgia', 'Germany', 'Greece', 'Hungary', 'India', 'Israel',
       'Italy', 'Lebanon', 'Luxembourg', 'Macedonia', 'Mexico', 'Moldova',
       'Morocco', 'New Zealand', 'Peru', 'Portugal', 'Romania', 'Serbia',
       'Slovakia', 'Slovenia', 'South Africa', 'Spain', 'Switzerland',
       'Turkey', 'US', 'Ukraine', 'Uruguay'],
      dtype='object', name='country')

In [None]:
b.index.dtype

dtype('O')

# Valores Perdidos
Normalmente, Pandas asigna el valor `NaN` (Not a Number) a los valores perdidos;
por convención, los valores `NaN` son interpretados como tipo `float64`. Para
generar máscaras que nos indiquen si un valor es perdido o no, Pandas provee los
correspondientes métodos:
- `pd.isnull()`
- `pd.notnull()`

In [None]:
df['country'].isnull()

0         False
1         False
2         False
3         False
4         False
          ...  
129966    False
129967    False
129968    False
129969    False
129970    False
Name: country, Length: 129971, dtype: bool

In [None]:
# checar si hay vinos para los cuáles no se cuenta con el país de origen
df['country'].isnull().sum()

63

Para ubicar los vinos que no tienen país, podemos utilizar la máscara de la
siguiente manera:

In [None]:
mask = df['country'].isnull()
df.loc[mask]

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
913,,"Amber in color, this wine has aromas of peach ...",Asureti Valley,87,30.0,,,,Mike DeSimone,@worldwineguys,Gotsa Family Wines 2014 Asureti Valley Chinuri,Chinuri,Gotsa Family Wines
3131,,"Soft, fruity and juicy, this is a pleasant, si...",Partager,83,,,,,Roger Voss,@vossroger,Barton & Guestier NV Partager Red,Red Blend,Barton & Guestier
4243,,"Violet-red in color, this semisweet wine has a...",Red Naturally Semi-Sweet,88,18.0,,,,Mike DeSimone,@worldwineguys,Kakhetia Traditional Winemaking 2012 Red Natur...,Ojaleshi,Kakhetia Traditional Winemaking
9509,,This mouthwatering blend starts with a nose of...,Theopetra Malagouzia-Assyrtiko,92,28.0,,,,Susan Kostrzewa,@suskostrzewa,Tsililis 2015 Theopetra Malagouzia-Assyrtiko W...,White Blend,Tsililis
9750,,This orange-style wine has a cloudy yellow-gol...,Orange Nikolaevo Vineyard,89,28.0,,,,Jeff Jenssen,@worldwineguys,Ross-idi 2015 Orange Nikolaevo Vineyard Chardo...,Chardonnay,Ross-idi
...,...,...,...,...,...,...,...,...,...,...,...,...,...
124176,,This Swiss red blend is composed of four varie...,Les Romaines,90,30.0,,,,Jeff Jenssen,@worldwineguys,Les Frères Dutruy 2014 Les Romaines Red,Red Blend,Les Frères Dutruy
129407,,Dry spicy aromas of dusty plum and tomato add ...,Reserve,89,22.0,,,,Michael Schachner,@wineschach,El Capricho 2015 Reserve Cabernet Sauvignon,Cabernet Sauvignon,El Capricho
129408,,El Capricho is one of Uruguay's more consisten...,Reserve,89,22.0,,,,Michael Schachner,@wineschach,El Capricho 2015 Reserve Tempranillo,Tempranillo,El Capricho
129590,,"A blend of 60% Syrah, 30% Cabernet Sauvignon a...",Shah,90,30.0,,,,Mike DeSimone,@worldwineguys,Büyülübağ 2012 Shah Red,Red Blend,Büyülübağ


Para reemplazar valores perdidos, pandas proporciona el método
[`fillna()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html),
que provee diversas formas de cambiar un valor perdido (NaN) por algo más
significativo para nuestro análisis:

In [None]:
df['country'].fillna('Sin país')
(df['country'].fillna('Sin país') == 'Sin país').sum()

63

También podemos utilizar el método `replace`:

In [None]:
df['country'].replace(np.nan, 'Sin país')

(df['country'].replace(np.nan, 'Sin país') == 'Sin país').sum()

63

El método `replace` no solo sirve para valores perdidos o no definidos, sino
que puede ser utilizado para cualquier valor

In [None]:
df['country'].replace('Italy', 'iTALY')

0            iTALY
1         Portugal
2               US
3               US
4               US
            ...   
129966     Germany
129967          US
129968      France
129969      France
129970      France
Name: country, Length: 129971, dtype: object

In [None]:
df['country'].replace('France', 'fRANCE')

0            Italy
1         Portugal
2               US
3               US
4               US
            ...   
129966     Germany
129967          US
129968      fRANCE
129969      fRANCE
129970      fRANCE
Name: country, Length: 129971, dtype: object

In [None]:
df['points']

0         87
1         87
2         87
3         87
4         87
          ..
129966    90
129967    90
129968    90
129969    90
129970    90
Name: points, Length: 129971, dtype: int64

In [None]:
df['points'].replace(87, np.inf)

0          inf
1          inf
2          inf
3          inf
4          inf
          ... 
129966    90.0
129967    90.0
129968    90.0
129969    90.0
129970    90.0
Name: points, Length: 129971, dtype: float64

El método `replace` es importante porque no siempre los datos perdidos vienen en
la forma de `NaN`, sino que tienen una denominación diferente, por ejemplo: `?`,
`Unknown`, `Invalid`, entre otros

# Más Ejercicios
- Qué tipo de datos tienen las columnas `price`, `taster_name` y  `winery`. **Hint**: `dtypes`
- Crea una serie con los valores de la columna `points`, pero que sean
interpretados como `string`. Hint: `str` es el nombre de las strings en Python.
- Cuántos vinos no tienen precio? Hint: cuántos vinos tienen un valor `NaN` en
la columna `price`?
- La columna `region_1` tiene muchos valores perdidos, reemplázalos con
`Unknown`. Luego agrupa el DataFrame de acuerdo a esa columna, y muestra cuántos
vinos pertenecen a cada región (incluída Unkown); además, ordénalos de mayor a
menor. Hint:
    - puedes crear un nuevo DataFrame, una nueva columna con los valores
    reemplazados, o reemplazar la misma columna (piensa en las implicaciones de
    cada opción)


In [None]:

df['region_1_rep'] = df['region_1'].replace(np.nan, "Unknown")

In [None]:
df.groupby('region_1_rep').size().sort_values(ascending=False)

region_1_rep
Unknown                           21247
Napa Valley                        4480
Columbia Valley (WA)               4124
Russian River Valley               3091
California                         2629
                                  ...  
Saint-Chinian-Roquebrun               1
Paso Robles Highlands District        1
Trentino Superiore                    1
Frascati                              1
Dolcetto d'Alba Superiore             1
Length: 1230, dtype: int64

# Renombrar
En cualquier momento Pandas nos permite cambiar el nombre de las columnas o del index de una fila. Por ejemplo,
podemos cambiar el nombre de la columna `points` a `score`

In [None]:
df.rename(columns={'points': 'score'})

También podemos cambiar el index de cualquier fila, mediante el parámetro `index`

In [None]:
df.rename(index={0: 'HOLA MUNDO', 1: 'segunda entrada'}).head()

# Duplicados
Pandas provee una manera de encontrar filas duplicadas mediante el método
`duplicated`, el cual regresa una `Serie` con valores booleanos (una máscara)
en la cual nos indicará con `True` qué filas son aquellas que son duplicados
de otras.

In [None]:
df.duplicated().sum(), df.shape[0]

(9983, 129971)

Podemos observar que el banco de datos cuenta con casi 10 mil filas duplicadas,
de 130 mil (aprox) observaciones del dataset.

Ahora, el método `duplicated` tiene dos parámetros para modificar su
comportamiento:
- `subset`
- `keep`

`subset` nos permite indicar una o varias columnas específicas, sobre las cuales
pandas realizará la comparación para determinar si una fila es duplicado de
otra o no.

Por ejemplo, podemos observar cuántas columnas tienen la misma descripción y al
mismo revisor:

In [None]:
df.duplicated(subset=['description', 'taster_name']).sum()

10015

Podemos comparar este resultado con cuántas columnas tienen la misma descripción,
mismo revisor y mismo vino:

In [None]:
df.duplicated(subset=['description', 'taster_name', 'title']).sum()

9983

In [None]:
df.duplicated().sum()

9983

Observamos que hay una diferencia de aproximadamente 30 vinos, lo que implica
que en 30 ocasiones (aprox) un revisor repitió la descripción que utilizó ya
para otros vinos. Además, observamos que el resultado de verificar duplicados
únicamente con 3 columnas, basta para encontrar el mismo número de duplicados
que si se analiza el dataset en la totalidad de sus columnas. Esto tiene que
ver con que, en muchos casos, los valores de el resto de columnas son una
función (dependen) de los valores proporcionados por estas columnas

Por su parte, el parámetro `keep` nos permite modificar qué filas vamos a marcar
con `True`, es decir, cuáles son consideradas duplicadas. El término `keep`
surge a partir de que, normalmente, vamos a querer eliminar los duplicados, por
lo que este parámetro nos permite indicar qué fila conservar. Los valores que
podemos asignar a `keep` son:
- `first`: Conservaremos la primer aparición de la fila, es decir que ésta no es
considerada un duplicado y la marcamos como `False`, mientras que la segunda y
demás apariciones son consideradas duplicados y se marcan como `True` para
posteriormente, si así lo queremos, eliminarlas. **Nota**: este es el
comportamiento por default de pandas
- `last` Conservaremos la última aparición de la fila (la marcamos como `False`),
mientras que de la primera a la penúltima se consideran duplicados y se marcan
como `True`, para posteriormente ser eliminadas.
- `False`: Marca todos los duplicados como `True`, es decir, se incluyen tanto
la primera como la última aparición de las filas.

In [None]:
df.duplicated(keep=False).sum()

19966

In [None]:
df.duplicated(keep='last').sum()

9983

In [None]:
df.duplicated(keep='first').sum()

9983

También existe la función `drop_duplicates`, que nos permite, en un solo paso,
eliminar del dataframe todas aquellos valores duplicados. Al igual que
`duplicated`, acepta los mismos parámetros:
- `subset`
- `keep`
- `inplace`
- `ignore_index`

In [None]:
df.drop_duplicates(keep='last')

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,90,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,90,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,90,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,90,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss
