# Pandas

Sigamos con Pandas.

## Valores faltantes

Vimos que por lo general en los datasets tienen datos faltantes. Datos faltantes puede haber por muchas razones (errores, no tenemos el dato, perdimos el dato, etc).

Muchas veces, necesitamos completar estos valores faltantes con alguna aproximación que no altere nuestros resultados.

Existen muchas formas de imputar valores a datos faltantes:

- Podemos usar la media o mediana (imputación univariante)
- Podemos usar un valor fijo (imputación univariante)
- Podemos descartar la fila con datos faltantes (observar que descartar sin ningún criterio puede hacer que perdamos muchos datos)
- Podemos completar el valor faltante en función de los valores de otras columnas (imputación multivariante)

Tenemos que tener en cuenta que siempre es importante entender el problema. En datascience vamos a ver que muchas decisiones que tomemos DEPENDEN DEL PROBLEMA y son muy importantes ya que pueden alterar nuestros resultados finales.

En esta clase, vamos a trabajar con un dataset de review de vinos.

Lo podemos descargar en: https://www.kaggle.com/zynicide/wine-reviews/ (nos tenemos que registrar)

Si usan colab, recuerden subir el csv a drive y montar drive para poder leerlo con pandas.

In [1]:
import pandas as pd

In [None]:
wine_reviews_df = pd.read_csv('winemag-data_first150k.csv')

In [None]:
# from google.colab import drive
# drive.mount('/content/drive')

In [6]:
# wine_reviews_df = pd.read_csv('/content/drive/MyDrive/Curso DS/datasets/winemag-data_first150k.csv')

Exploremos un poco el dataset.

Imprimimos las primeras 5 filas:

In [None]:
wine_reviews_df.head()

¿ Cuántas filas tiene el dataset? ¿ Y cuántas columnas ?

Esta pregunta, podemos responderla utilizando `shape`



In [None]:
wine_reviews_df.shape

Vemos que el dataset tiene 150930 filas y 11 columnas.

¿ Cuántos valores faltantes tiene el dataset en cada columna ?

In [None]:
wine_reviews_df.isna().sum()

Ahora, ¿Qué hacemos con los faltantes?

Pandas tiene el método .fillna() para imputar valores faltantes y el método .dropna() para eliminar filas con valores faltantes.

Veamos un poco de documentación:

In [None]:
help(pd.DataFrame.dropna)

In [None]:
help(pd.DataFrame.fillna)

Ahora, para no modificar nuestro dataset original, lo vamos a clonar

In [None]:
df = wine_reviews_df.copy()

Ahora vamos a trabajar sobre df.

In [None]:
df.isna().sum()

In [None]:
df.info()

Vemos que las columnas que tienen datos faltantes son designation, price, region_1 y region_2.

Por ahora, como solo estamos aprendiendo Pandas, no vamos a explorar mucho los datos para tomar decisiones. Simplemente vamos a aprender como se usa pandas. En próximas clases vamos a empezar a explorar los datos con mas detalle para tomar buenas decisiones.

Empecemos con el método fillna:

Vamos a imputar los valores faltantes de la columna "price" con la media de la columna.

In [None]:
mean_price = df['price'].mean()
df['price'] = df['price'].fillna(mean_price)

Verificamos que no haya más nulos

In [None]:
df.isna().sum()

Vemos que ahora hay 0 null values en la columna price

Ahora, completemos las columnas "designation", "region_1" y "region_2" con el valor por defecto: "dato faltante".

Podemos hacerlo pasandole un diccionario como parametro:

In [None]:
default_value = "dato faltante"
df = df.fillna(value={'designation': default_value, "region_1": default_value, "region_2": default_value})

In [None]:
df.isna().sum()

Ahora nos queda la columna country. En este caso, lo que vamos a hacer es descartar las filas que tengan valores faltantes en esta columna.

Para esto, vamos a usar el método dropna() y vamos a pasarle el parámetro axis=0

Veamos cuantas filas tiene el dataset antes de borrar nulos:

In [None]:
df.shape[0]

Borramos nulos:

In [None]:
df = df.dropna(axis=0)

Y ahora debería haber 5 filas menos:

In [None]:
df.shape[0]

In [None]:
df.isna().sum()

## Filtro por máscara

Vimos que en numpy podemos utilizar filtros. En pandas también podemos hacerlo y es algo que vamos utilizar mucho asique es importante aprender a usarlo bien!

Los filtros se utilizan igual que en numpy.

Seleccionemos todas las filas en las que country sea = 'US'

In [None]:
df[df['country'] == 'US']

## Correlación

Pandas nos provee una función para medir la correlación entre variables numéricas

In [None]:
df[['points', 'price']].corr()

#### Ejercicio

Investigar las funciones:
- value_counts
- unique
- nunique
- max
- min
- sort_values

Responder las siguientes preguntas utilizando lo que sabemos de pandas + lo que investigamos de las funciones de arriba (con la menor cantidad de funciones posibles):

a) ¿ Qúe valores distintos (únicos) hay en la columna country ?

b) ¿ Cuántos valores distintos hay en la columna country ?

c) ¿ Con qué frecuencia (cuantas veces) aparece cada uno de los paises ?

d) ¿ Cuál es el valor máximo de la columna price ?

e) ¿ Cuál es el valor mínimo de la columna price ?

f) ¿ Cuál es el vino más caro ?

g) ¿ Cuántos vinos tienen un precio por encima de la media ?


# Apply

El método apply de los dataframes de pandas, nos permite realizar una acción sobre cada fila o columna (sobre un "axis") del dataset.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html

Por ejemplo, queremos crear una nueva columna que se llame "description_len" y contenga la cantidad de caracteres que hay en cada fila de la columna "description".

Primero: Definamos una función que cuente los caracteres de un string:

In [None]:
def count_string_len(string:str) -> int:

    """
    La función retorna un número entero con la cantidad de caracteres del string.
    """
  # COMPLETAR

In [None]:
df['description_len'] = df['description'].apply(count_string_len)

In [None]:
df.head()

Para utilizar apply, no hace falta definir una función aparte. También podemos hacerlo directamente utilizando funciónes "lambda":

In [None]:
df['description_len'] = df['description'].apply(lambda x: len(x))

In [None]:
df.head()

#### Ejercicio: Utilizar una función lambda para crear una nueva columna que se llame float_point y contenga los mismos datos que la columna "points" pero en formato float

# Group by


La función group by de pandas, nos permite agrupar dataframes a partir de una o más columnas y mediante funciones de agregación obtener insights de cada grupo.

Veamos ejemplos:

In [None]:
group_by_country = df.groupby('country')

In [None]:
group_by_country

Vemos que groupby nos devuelve un objeto pandas.core.groupby.generic.DataFrameGroupBy.

Sobre este objeto, podemos aplicar directamente funciones de agregación como .count(), .sum(), .mean(), etcétera:

In [None]:
group_by_country.count().head()

In [None]:
group_by_country.mean()

¿ Por qué cuando aplicamos la función mean solo nos trae 4 columnas y el indice ?

También podemos agrupar por múltiples columnas:

In [None]:
group_by_country_prov = df.groupby(['country', 'province'])
group_by_country_prov.mean().head()

Y si no queremos que las variables por las que agrupamos se conviertan en indices y sean una columna más, podemos especificarlo en la función:

In [None]:
group_by_country_prov = df.groupby(['country', 'province'], as_index=False)
group_by_country_prov.sum().head()

Finalmente, también podemos aplicar distintas funciones de agregación a cada columna.

EJERCICIO: Averiguar como podemos aplicar una función de agregación distinta a cada columna y:

1) Agrupar el dataset por pais
2) Obtener una columna que tenga el precio medio por país y otra que contenga la sumatoria de puntos. (.mean() y .sum() ).

# Sort values

Para ordenar un dataframe de pandas, podemos utilizar la función sort_values()

EJERCICIO:

Ordenar el dataset por "points" de manera descendente.

In [None]:
help(pd.DataFrame.sort_values)