# Pandas

Sigamos con Pandas.

## Valores faltantes

Vimos que por lo general en los datasets tienen datos faltantes. Datos faltantes puede haber por muchas razones (errores, no tenemos el dato, perdimos el dato, etc).

Muchas veces, necesitamos completar estos valores faltantes con alguna aproximación que no altere nuestros resultados.

Existen muchas formas de imputar valores a datos faltantes:

- Podemos usar la media o mediana (imputación univariante)
- Podemos usar un valor fijo (imputación univariante)
- Podemos descartar la fila con datos faltantes (observar que descartar sin ningún criterio puede hacer que perdamos muchos datos)
- Podemos completar el valor faltante en función de los valores de otras columnas (imputación multivariante)

Tenemos que tener en cuenta que siempre es importante entender el problema. En datascience vamos a ver que muchas decisiones que tomemos DEPENDEN DEL PROBLEMA y son muy importantes ya que pueden alterar nuestros resultados finales.

En esta clase, vamos a trabajar con un dataset de review de vinos.

Lo podemos descargar en: https://www.kaggle.com/zynicide/wine-reviews/ (nos tenemos que registrar)

Si usan colab, recuerden subir el csv a drive y montar drive para poder leerlo con pandas.

In [1]:
!pip install pandas




[notice] A new release of pip is available: 23.2.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd

In [17]:
wine_reviews_df = pd.read_csv('winemag-data_first150k.csv', encoding="utf-8", delimiter=',')

In [None]:
# from google.colab import drive
# drive.mount('/content/drive')

In [None]:
# wine_reviews_df = pd.read_csv('/content/drive/MyDrive/Curso DS/datasets/winemag-data_first150k.csv')

Exploremos un poco el dataset.

Imprimimos las primeras 5 filas:

In [15]:
wine_reviews_df.head()

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
1,1,Spain,"Ripe aromas of fig, blackberry and cassis are ...",Carodorum Selección Especial Reserva,96,110.0,Northern Spain,Toro,,Tinta de Toro,Bodega Carmen Rodríguez
2,2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley
3,3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi
4,4,France,"This is the top wine from La Bégude, named aft...",La Brûlade,95,66.0,Provence,Bandol,,Provence red blend,Domaine de la Bégude


¿ Cuántas filas tiene el dataset? ¿ Y cuántas columnas ?

Esta pregunta, podemos responderla utilizando `shape`



In [18]:
wine_reviews_df.shape

(121449, 11)


¿ Cuántos valores faltantes tiene el dataset en cada columna ?

In [19]:
wine_reviews_df.isna().sum()

Unnamed: 0         0
country            4
description        0
designation    36182
points             0
price          11546
province           4
region_1       19756
region_2       72442
variety            0
winery             0
dtype: int64

Ahora, ¿Qué hacemos con los faltantes?

Pandas tiene el método .fillna() para imputar valores faltantes y el método .dropna() para eliminar filas con valores faltantes.

Veamos un poco de documentación:

In [20]:
help(pd.DataFrame.dropna)

Help on function dropna in module pandas.core.frame:

dropna(self, *, axis: 'Axis' = 0, how: 'str | NoDefault' = <no_default>, thresh: 'int | NoDefault' = <no_default>, subset: 'IndexLabel' = None, inplace: 'bool' = False) -> 'DataFrame | None'
    Remove missing values.
    
    See the :ref:`User Guide <missing_data>` for more on which values are
    considered missing, and how to work with missing data.
    
    Parameters
    ----------
    axis : {0 or 'index', 1 or 'columns'}, default 0
        Determine if rows or columns which contain missing values are
        removed.
    
        * 0, or 'index' : Drop rows which contain missing values.
        * 1, or 'columns' : Drop columns which contain missing value.
    
        .. versionchanged:: 1.0.0
    
           Pass tuple or list to drop on multiple axes.
           Only a single axis is allowed.
    
    how : {'any', 'all'}, default 'any'
        Determine if row or column is removed from DataFrame, when we have
        at l

In [21]:
help(pd.DataFrame.fillna)

Help on function fillna in module pandas.core.frame:

fillna(self, value: 'Hashable | Mapping | Series | DataFrame' = None, *, method: 'FillnaOptions | None' = None, axis: 'Axis | None' = None, inplace: 'bool' = False, limit: 'int | None' = None, downcast: 'dict | None' = None) -> 'DataFrame | None'
    Fill NA/NaN values using the specified method.
    
    Parameters
    ----------
    value : scalar, dict, Series, or DataFrame
        Value to use to fill holes (e.g. 0), alternately a
        dict/Series/DataFrame of values specifying which value to use for
        each index (for a Series) or column (for a DataFrame).  Values not
        in the dict/Series/DataFrame will not be filled. This value cannot
        be a list.
    method : {'backfill', 'bfill', 'pad', 'ffill', None}, default None
        Method to use for filling holes in reindexed Series
        pad / ffill: propagate last valid observation forward to next valid
        backfill / bfill: use next valid observation to f

Ahora, para no modificar nuestro dataset original, lo vamos a clonar

In [22]:
df = wine_reviews_df.copy()

Ahora vamos a trabajar sobre df.

In [23]:
df.isna().sum()

Unnamed: 0         0
country            4
description        0
designation    36182
points             0
price          11546
province           4
region_1       19756
region_2       72442
variety            0
winery             0
dtype: int64

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 121449 entries, 0 to 121448
Data columns (total 11 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   Unnamed: 0   121449 non-null  int64  
 1   country      121445 non-null  object 
 2   description  121449 non-null  object 
 3   designation  85267 non-null   object 
 4   points       121449 non-null  int64  
 5   price        109903 non-null  float64
 6   province     121445 non-null  object 
 7   region_1     101693 non-null  object 
 8   region_2     49007 non-null   object 
 9   variety      121449 non-null  object 
 10  winery       121449 non-null  object 
dtypes: float64(1), int64(2), object(8)
memory usage: 10.2+ MB


Vemos que las columnas que tienen datos faltantes son designation, price, region_1 y region_2.

Por ahora, como solo estamos aprendiendo Pandas, no vamos a explorar mucho los datos para tomar decisiones. Simplemente vamos a aprender como se usa pandas. En próximas clases vamos a empezar a explorar los datos con mas detalle para tomar buenas decisiones.

Empecemos con el método fillna:

Vamos a imputar los valores faltantes de la columna "price" con la media de la columna.

In [25]:
mean_price = df['price'].mean()
df['price'] = df['price'].fillna(mean_price)

Verificamos que no haya más nulos

In [26]:
df.isna().sum()

Unnamed: 0         0
country            4
description        0
designation    36182
points             0
price              0
province           4
region_1       19756
region_2       72442
variety            0
winery             0
dtype: int64

Vemos que ahora hay 0 null values en la columna price

Ahora, completemos las columnas "designation", "region_1" y "region_2" con el valor por defecto: "dato faltante".

Podemos hacerlo pasandole un diccionario como parametro:

In [27]:
default_value = "dato faltante"
df = df.fillna(value={'designation': default_value, "region_1": default_value, "region_2": default_value})

In [28]:
df.isna().sum()

Unnamed: 0     0
country        4
description    0
designation    0
points         0
price          0
province       4
region_1       0
region_2       0
variety        0
winery         0
dtype: int64

Ahora nos queda la columna country. En este caso, lo que vamos a hacer es descartar las filas que tengan valores faltantes en esta columna.

Para esto, vamos a usar el método dropna() y vamos a pasarle el parámetro axis=0

Veamos cuantas filas tiene el dataset antes de borrar nulos:

In [29]:
df.shape[0]

121449

Borramos nulos:

In [30]:
df = df.dropna(axis=0)

Y ahora debería haber 5 filas menos:

In [31]:
df.shape[0]

121445

In [32]:
df.isna().sum()

Unnamed: 0     0
country        0
description    0
designation    0
points         0
price          0
province       0
region_1       0
region_2       0
variety        0
winery         0
dtype: int64

## Filtro por máscara

Vimos que en numpy podemos utilizar filtros. En pandas también podemos hacerlo y es algo que vamos utilizar mucho asique es importante aprender a usarlo bien!

Los filtros se utilizan igual que en numpy.

Seleccionemos todas las filas en las que country sea = 'US'

In [33]:
df[df['country'] == 'US']

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,variety,winery
0,0,US,This tremendous 100% varietal wine hails from ...,Martha's Vineyard,96,235.0,California,Napa Valley,Napa,Cabernet Sauvignon,Heitz
2,2,US,Mac Watson honors the memory of a wine once ma...,Special Selected Late Harvest,96,90.0,California,Knights Valley,Sonoma,Sauvignon Blanc,Macauley
3,3,US,"This spent 20 months in 30% new French oak, an...",Reserve,96,65.0,Oregon,Willamette Valley,Willamette Valley,Pinot Noir,Ponzi
8,8,US,This re-named vineyard was formerly bottled as...,Silice,95,65.0,Oregon,Chehalem Mountains,Willamette Valley,Pinot Noir,Bergström
9,9,US,The producer sources from two blocks of the vi...,Gap's Crown Vineyard,95,60.0,California,Sonoma Coast,Sonoma,Pinot Noir,Blue Farm
...,...,...,...,...,...,...,...,...,...,...,...
121429,121429,US,Soft and gentle in the way of Paso Robles Rhôn...,Estate,86,45.0,California,Paso Robles,Central Coast,Syrah,Venteux
121433,121433,US,"Soft and direct, this Pinot Noir offers easy f...",dato faltante,86,30.0,California,Sonoma Coast,Sonoma,Pinot Noir,Siduri
121434,121434,US,"Made in a German style, this Riesling is off-d...",dato faltante,86,15.0,California,California,California Other,Riesling,Spellbound
121435,121435,US,"At eight-plus years, this wine is a little ove...",Claret Prestige,86,50.0,California,Sierra Foothills,Sierra Foothills,Red Blend,Renaissance


## Correlación

Pandas nos provee una función para medir la correlación entre variables numéricas

In [34]:
df[['points', 'price']].corr()

Unnamed: 0,points,price
points,1.0,0.434723
price,0.434723,1.0


#### Ejercicio

Investigar las funciones:
- value_counts
- unique
- nunique
- max
- min
- sort_values

Responder las siguientes preguntas utilizando lo que sabemos de pandas + lo que investigamos de las funciones de arriba (con la menor cantidad de funciones posibles):

a) ¿ Qúe valores distintos (únicos) hay en la columna country ?

b) ¿ Cuántos valores distintos hay en la columna country ?

c) ¿ Con qué frecuencia (cuantas veces) aparece cada uno de los paises ?

d) ¿ Cuál es el valor máximo de la columna price ?

e) ¿ Cuál es el valor mínimo de la columna price ?

f) ¿ Cuál es el vino más caro ?

g) ¿ Cuántos vinos tienen un precio por encima de la media ?


# Apply

El método apply de los dataframes de pandas, nos permite realizar una acción sobre cada fila o columna (sobre un "axis") del dataset.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html

Por ejemplo, queremos crear una nueva columna que se llame "description_len" y contenga la cantidad de caracteres que hay en cada fila de la columna "description".

Primero: Definamos una función que cuente los caracteres de un string:

In [None]:
def count_string_len(string:str) -> int:

    """
    La función retorna un número entero con la cantidad de caracteres del string.
    """
  # COMPLETAR

In [None]:
df['description_len'] = df['description'].apply(count_string_len)

In [None]:
df.head()

Para utilizar apply, no hace falta definir una función aparte. También podemos hacerlo directamente utilizando funciónes "lambda":

In [None]:
df['description_len'] = df['description'].apply(lambda x: len(x))

In [None]:
df.head()

#### Ejercicio: Utilizar una función lambda para crear una nueva columna que se llame float_point y contenga los mismos datos que la columna "points" pero en formato float

# Group by


La función group by de pandas, nos permite agrupar dataframes a partir de una o más columnas y mediante funciones de agregación obtener insights de cada grupo.

Veamos ejemplos:

In [36]:
group_by_country = df.groupby('country')

In [37]:
group_by_country

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x783542596dd0>

Vemos que groupby nos devuelve un objeto pandas.core.groupby.generic.DataFrameGroupBy.

Sobre este objeto, podemos aplicar directamente funciones de agregación como .count(), .sum(), .mean(), etcétera:

In [38]:
group_by_country.count().head()

Unnamed: 0_level_0,Unnamed: 0,description,designation,points,price,province,region_1,region_2,variety,winery
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Albania,2,2,2,2,2,2,2,2,2,2
Argentina,4460,4460,4460,4460,4460,4460,4460,4460,4460,4460
Australia,3384,3384,3384,3384,3384,3384,3384,3384,3384,3384
Austria,2488,2488,2488,2488,2488,2488,2488,2488,2488,2488
Bosnia and Herzegovina,4,4,4,4,4,4,4,4,4,4


In [39]:
group_by_country.mean()

  group_by_country.mean()


Unnamed: 0_level_0,Unnamed: 0,points,price
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Albania,4753.0,88.0,20.0
Argentina,66730.36704,86.045964,21.524247
Australia,68480.160461,87.990839,32.642063
Austria,55747.048232,89.36254,31.395114
Bosnia and Herzegovina,56937.75,84.75,12.75
Brazil,79499.875,83.208333,20.208333
Bulgaria,48944.881356,85.745763,12.338983
Canada,49201.633136,88.402367,33.784318
Chile,64776.462094,86.478565,20.37572
China,44904.0,82.0,27.0


¿ Por qué cuando aplicamos la función mean solo nos trae 4 columnas y el indice ?

También podemos agrupar por múltiples columnas:

In [40]:
group_by_country_prov = df.groupby(['country', 'province'])
group_by_country_prov.mean().head()

  group_by_country_prov.mean().head()


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0,points,price
country,province,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Albania,Mirditë,4753.0,88.0,20.0
Argentina,Mendoza Province,66188.037656,86.174755,21.632417
Argentina,Other,69698.616836,85.341074,20.932219
Australia,Australia Other,68611.892761,84.697051,11.901071
Australia,New South Wales,72424.459119,87.031447,22.346538


Y si no queremos que las variables por las que agrupamos se conviertan en indices y sean una columna más, podemos especificarlo en la función:

In [41]:
group_by_country_prov = df.groupby(['country', 'province'], as_index=False)
group_by_country_prov.sum().head()

  group_by_country_prov.sum().head()


Unnamed: 0.1,country,province,Unnamed: 0,points,price
0,Albania,Mirditë,9506,176,40.0
1,Argentina,Mendoza Province,249595090,324965,81575.84419
2,Argentina,Other,48022347,58800,14422.298709
3,Australia,Australia Other,25592236,31592,4439.09957
4,Australia,New South Wales,11515489,13838,3553.09957


Finalmente, también podemos aplicar distintas funciones de agregación a cada columna.

EJERCICIO: Averiguar como podemos aplicar una función de agregación distinta a cada columna y:

1) Agrupar el dataset por pais
2) Obtener una columna que tenga el precio medio por país y otra que contenga la sumatoria de puntos. (.mean() y .sum() ).

# Sort values

Para ordenar un dataframe de pandas, podemos utilizar la función sort_values()

EJERCICIO:

Ordenar el dataset por "points" de manera descendente.

In [None]:
help(pd.DataFrame.sort_values)