# Pandas

Sigamos con Pandas.

## Valores faltantes

Vimos que por lo general en los datasets tienen datos faltantes. Datos faltantes puede haber por muchas razones (errores, no tenemos el dato, perdimos el dato, etc).

Muchas veces, necesitamos completar estos valores faltantes con alguna aproximación que no altere nuestros resultados.

Existen muchas formas de imputar valores a datos faltantes:

- Podemos usar la media o mediana (imputación univariante)
- Podemos usar un valor fijo (imputación univariante)
- Podemos descartar la fila con datos faltantes (observar que descartar sin ningún criterio puede hacer que perdamos muchos datos)
- Podemos completar el valor faltante en función de los valores de otras columnas (imputación multivariante)

Tenemos que tener en cuenta que siempre es importante entender el problema. En datascience vamos a ver que muchas decisiones que tomemos DEPENDEN DEL PROBLEMA y son muy importantes ya que pueden alterar nuestros resultados finales.

En esta clase, vamos a trabajar con un dataset de review de vinos.

Lo podemos descargar en: https://www.kaggle.com/zynicide/wine-reviews/ (nos tenemos que registrar)

Si usan colab, recuerden subir el csv a drive y montar drive para poder leerlo con pandas.

In [2]:
import pandas as pd

In [14]:
wine_reviews_df = pd.read_csv('drive/MyDrive/ICARO/Curso_DS/Clases/Clase_5/winemag.csv')

Exploremos un poco el dataset.

Imprimimos las primeras 5 filas:

In [15]:
wine_reviews_df.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
2,2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley
3,3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi
4,4,France,"This is the top wine from La Bégude, named aft...",La Brûlade,95,66.0,Provence,Bandol,,Provence red blend,Domaine de la Bégude


¿ Cuántas filas tiene el dataset? ¿ Y cuántas columnas ?

Esta pregunta, podemos responderla utilizando `shape`



In [16]:
wine_reviews_df.shape

(150930, 11)

Vemos que el dataset tiene 150930 filas y 11 columnas.

¿ Cuántos valores faltantes tiene el dataset en cada columna ?

In [17]:
wine_reviews_df.#COMPLETAR

SyntaxError: ignored

Ahora, ¿Qué hacemos con los faltantes?

Pandas tiene el método .fillna() para imputar valores faltantes y el método .dropna() para eliminar filas con valores faltantes.

Veamos un poco de documentación:

In [18]:
help(pd.DataFrame.dropna)

Help on function dropna in module pandas.core.frame:

dropna(self, axis=0, how='any', thresh=None, subset=None, inplace=False)
    Remove missing values.
    
    See the :ref:`User Guide <missing_data>` for more on which values are
    considered missing, and how to work with missing data.
    
    Parameters
    ----------
    axis : {0 or 'index', 1 or 'columns'}, default 0
        Determine if rows or columns which contain missing values are
        removed.
    
        * 0, or 'index' : Drop rows which contain missing values.
        * 1, or 'columns' : Drop columns which contain missing value.
    
        .. versionchanged:: 1.0.0
    
           Pass tuple or list to drop on multiple axes.
           Only a single axis is allowed.
    
    how : {'any', 'all'}, default 'any'
        Determine if row or column is removed from DataFrame, when we have
        at least one NA or all NA.
    
        * 'any' : If any NA values are present, drop that row or column.
        * 'all' :

In [19]:
help(pd.DataFrame.fillna)

Help on function fillna in module pandas.core.frame:

fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None) -> Union[ForwardRef('DataFrame'), NoneType]
    Fill NA/NaN values using the specified method.
    
    Parameters
    ----------
    value : scalar, dict, Series, or DataFrame
        Value to use to fill holes (e.g. 0), alternately a
        dict/Series/DataFrame of values specifying which value to use for
        each index (for a Series) or column (for a DataFrame).  Values not
        in the dict/Series/DataFrame will not be filled. This value cannot
        be a list.
    method : {'backfill', 'bfill', 'pad', 'ffill', None}, default None
        Method to use for filling holes in reindexed Series
        pad / ffill: propagate last valid observation forward to next valid
        backfill / bfill: use next valid observation to fill gap.
    axis : {0 or 'index', 1 or 'columns'}
        Axis along which to fill missing values.
    inplace 

Ahora, para no modificar nuestro dataset original, lo vamos a clonar

In [20]:
df = wine_reviews_df.copy()

Ahora vamos a trabajar sobre df.

In [21]:
df.isna().sum()

Unnamed: 0         0
country            5
description        0
designation    45735
points             0
price          13695
province           5
region_1       25060
region_2       89977
variety            0
winery             0
dtype: int64

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150930 entries, 0 to 150929
Data columns (total 11 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Unnamed: 0   150930 non-null  int64  
 1   country      150925 non-null  object 
 2   description  150930 non-null  object 
 3   designation  105195 non-null  object 
 4   points       150930 non-null  int64  
 5   price        137235 non-null  float64
 6   province     150925 non-null  object 
 7   region_1     125870 non-null  object 
 8   region_2     60953 non-null   object 
 9   variety      150930 non-null  object 
 10  winery       150930 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 12.7+ MB


Vemos que las columnas que tienen datos faltantes son designation, price, region_1 y region_2.

Por ahora, como solo estamos aprendiendo Pandas, no vamos a explorar mucho los datos para tomar decisiones. Simplemente vamos a aprender como se usa pandas. En próximas clases vamos a empezar a explorar los datos con mas detalle para tomar buenas decisiones.

Empecemos con el método fillna:

Vamos a imputar los valores faltantes de la columna "price" con la media de la columna.

In [23]:
mean_price = df['price'].mean()
df['price'] = df['price'].fillna(mean_price)

Verificamos que no haya más nulos

In [24]:
df.isna().sum()

Unnamed: 0         0
country            5
description        0
designation    45735
points             0
price              0
province           5
region_1       25060
region_2       89977
variety            0
winery             0
dtype: int64

Vemos que ahora hay 0 null values en la columna price

Ahora, completemos las columnas "designation", "region_1" y "region_2" con el valor por defecto: "dato faltante".

Podemos hacerlo pasandole un diccionario como parametro:

In [25]:
default_value = "dato faltante"
df = df.fillna(value={'designation': default_value, "region_1": default_value, "region_2": default_value})

In [26]:
df.isna().sum()

Unnamed: 0     0
country        5
description    0
designation    0
points         0
price          0
province       5
region_1       0
region_2       0
variety        0
winery         0
dtype: int64

Ahora nos queda la columna country. En este caso, lo que vamos a hacer es descartar las filas que tengan valores faltantes en esta columna.

Para esto, vamos a usar el método dropna() y vamos a pasarle el parámetro axis=0

Veamos cuantas filas tiene el dataset antes de borrar nulos:

In [27]:
df.shape[0]

150930

Borramos nulos:

In [28]:
df = df.dropna(axis=0)

Y ahora debería haber 5 filas menos:

In [29]:
df.shape[0]

150925

## Filtro por máscara

Vimos que en numpy podemos utilizar filtros. En pandas también podemos hacerlo y es algo que vamos utilizar mucho asique es importante aprender a usarlo bien!

Los filtros se utilizan igual que en numpy.

Seleccionemos todas las filas en las que country sea = 'US'

In [30]:
df[df['country'] == 'US']

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
2,2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley
3,3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi
8,8,US,This re-named vineyard was formerly bottled as...,Silice,95,65.0,Oregon,Chehalem Mountains,Willamette Valley,Pinot Noir,Bergström
9,9,US,The producer sources from two blocks of the vi...,Gap's Crown Vineyard,95,60.0,California,Sonoma Coast,Sonoma,Pinot Noir,Blue Farm
...,...,...,...,...,...,...,...,...,...,...,...
150892,150892,US,"A light, earthy wine, with violet, berry and t...",Coastal,82,10.0,California,California,California Other,Merlot,Callaway
150896,150896,US,"Some raspberry fruit in the aroma, but things ...",dato faltante,82,10.0,California,California,California Other,Pinot Noir,Camelot
150914,150914,US,"Old-gold in color, and thick and syrupy. The a...",Late Harvest Cluster Select,94,25.0,California,Anderson Valley,Mendocino/Lake Counties,White Riesling,Navarro
150915,150915,US,"Decades ago, Beringer’s then-winemaker Myron N...",Nightingale,93,30.0,California,North Coast,North Coast,White Blend,Beringer


## Correlación

Pandas nos provee una función para medir la correlación entre variables numéricas

In [31]:
df[['points', 'price']].corr()

Unnamed: 0,points,price
points,1.0,0.43841
price,0.43841,1.0


#### Ejercicio

Investigar las funciones:
- value_counts
- unique
- nunique
- max
- min
- sort_values

Responder las siguientes preguntas utilizando lo que sabemos de pandas + lo que investigamos de las funciones de arriba (con la menor cantidad de funciones posibles):

a) ¿ Qúe valores distintos (únicos) hay en la columna country ?

b) ¿ Cuántos valores distintos hay en la columna country ?

c) ¿ Con qué frecuencia (cuantas veces) aparece cada uno de los paises ?

d) ¿ Cuál es el valor máximo de la columna price ?

e) ¿ Cuál es el valor mínimo de la columna price ?

f) ¿ Cuál es el vino más caro ?

g) ¿ Cuántos vinos tienen un precio por encima de la media ?


# Apply

El método apply de los dataframes de pandas, nos permite realizar una acción sobre cada fila o columna (sobre un "axis") del dataset.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html

Por ejemplo, queremos crear una nueva columna que se llame "description_len" y contenga la cantidad de caracteres que hay en cada fila de la columna "description".

Primero: Definamos una función que cuente los caracteres de un string:

In [35]:
def count_string_len(string:str) -> int:
  """
  La función tiene que retornar un número entero con la cantidad de caracteres del string.
  """
  # COMPLETAR

In [36]:
df['description_len'] = df['description'].apply(count_string_len)

In [37]:
df.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery,description_len
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz,355
1,1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,dato faltante,Tinta de Toro,Bodega Carmen Rodríguez,318
2,2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley,280
3,3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi,386
4,4,France,"This is the top wine from La Bégude, named aft...",La Brûlade,95,66.0,Provence,Bandol,dato faltante,Provence red blend,Domaine de la Bégude,376


Para utilizar apply, no hace falta definir una función aparte. También podemos hacerlo directamente utilizando funciónes "lambda":

In [38]:
df['description_len'] = df['description'].apply(lambda x: len(x))

In [39]:
df.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery,description_len
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz,355
1,1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,dato faltante,Tinta de Toro,Bodega Carmen Rodríguez,318
2,2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley,280
3,3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi,386
4,4,France,"This is the top wine from La Bégude, named aft...",La Brûlade,95,66.0,Provence,Bandol,dato faltante,Provence red blend,Domaine de la Bégude,376


#### Ejercicio: Utilizar una función lambda para crear una nueva columna que se llame float_point y contenga los mismos datos que la columna "points" pero en formato float

In [40]:
# Completar

# Group by


La función group by de pandas, nos permite agrupar dataframes a partir de una o más columnas y mediante funciones de agregación obtener insights de cada grupo.

Veamos ejemplos:

In [44]:
group_by_country = df.groupby('country')
group_by_country

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f5e8f764110>

Vemos que groupby nos devuelve un objeto pandas.core.groupby.generic.DataFrameGroupBy.

Sobre este objeto, podemos aplicar directamente funciones de agregación como .count(), .sum(), .mean(), etcétera:

In [46]:
group_by_country.count().head()

Unnamed: 0_level_0,Unnamed: 0,description,designation,points,price,province,region_1,region_2,variety,winery,description_len
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Albania,2,2,2,2,2,2,2,2,2,2,2
Argentina,5631,5631,5631,5631,5631,5631,5631,5631,5631,5631,5631
Australia,4957,4957,4957,4957,4957,4957,4957,4957,4957,4957,4957
Austria,3057,3057,3057,3057,3057,3057,3057,3057,3057,3057,3057
Bosnia and Herzegovina,4,4,4,4,4,4,4,4,4,4,4


In [47]:
group_by_country.mean().head()

Unnamed: 0_level_0,Unnamed: 0,points,price,description_len
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Albania,4753.0,88.0,20.0,221.0
Argentina,80834.275617,85.996093,20.891278,259.176878
Australia,90585.526932,87.892475,31.282284,259.649788
Austria,70144.829899,89.276742,31.556255,218.728819
Bosnia and Herzegovina,56937.75,84.75,12.75,204.25


¿ Por qué cuando aplicamos la función mean solo nos trae 4 columnas y el indice ?

También podemos agrupar por múltiples columnas:

In [49]:
group_by_country_prov = df.groupby(['country', 'province'])
group_by_country_prov.mean().head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0,points,price,description_len
country,province,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Albania,Mirditë,4753.0,88.0,20.0,221.0
Argentina,Mendoza Province,80158.115141,86.108182,20.951441,260.281527
Argentina,Other,84440.971879,85.3982,20.570362,253.284589
Australia,Australia Other,92211.954792,84.813743,11.770819,216.40868
Australia,New South Wales,96444.069106,87.04878,22.13928,262.414634


Y si no queremos que las variables por las que agrupamos se conviertan en indices y sean una columna más, podemos especificarlo en la función:

In [50]:
group_by_country_prov = df.groupby(['country', 'province'], as_index=False)
group_by_country_prov.mean().head()

Unnamed: 0.1,country,province,Unnamed: 0,points,price,description_len
0,Albania,Mirditë,4753.0,88.0,20.0,221.0
1,Argentina,Mendoza Province,80158.115141,86.108182,20.951441,260.281527
2,Argentina,Other,84440.971879,85.3982,20.570362,253.284589
3,Australia,Australia Other,92211.954792,84.813743,11.770819,216.40868
4,Australia,New South Wales,96444.069106,87.04878,22.13928,262.414634


Finalmente, también podemos aplicar distintas funciones de agregación a cada columna.

EJERCICIO: Averiguar como podemos aplicar una función de agregación distinta a cada columna y:

1) Agrupar el dataset por pais
2) Obtener una columna que tenga el precio medio por país y otra que contenga la sumatoria de puntos. (.mean() y .sum() ).

In [51]:
# COMPLETAR

# Sort values

Para ordenar un dataframe de pandas, podemos utilizar la función sort_values()

EJERCICIO:

Ordenar el dataset por "points" de manera descendente.

In [52]:
# Completar