<a href="https://colab.research.google.com/github/jjAguil/Tareas-Simulacion/blob/main/Pandas_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dataset Wine Reviews
En las siguientes sesiones, trabajaremos con el banco de datos
[Wine Reviews](https://www.kaggle.com/datasets/zynicide/wine-reviews) de Kaggle.
Este es un dataset que contiene 12 columnas o variables, y 130 mil filas o
instancias de reseñas a diferentes vinos.

Las columnas son:
- Country
- Description
- Designation
- Points
- Price
- Province
- Region_1
- Region_2
- Taster Name
- Taster Twitter Handle
- Variety
- Winery


In [None]:
import time

import pandas as pd
import numpy as np

# Conociendo nuestro dataset

In [None]:
df = pd.read_csv('../data/wine_reviews_kaggle.csv', index_col=0)

In [None]:
df.shape

In [None]:
df.head()

# Acceder a columnas
En la sesión pasada vimos que podemos acceder a diferentes porciones de nuestro
DataFrame mediante los métodos `iloc` y `loc`. Sin embargo, habrá veces en las
cuales quéramos trabajar únicamente con una columna, para ello podemos acceder a
dicha columna tratándola como un atributo del DataFrame

In [None]:
df.country

In [None]:
df.points

Esta notación es útil cuando nuestras columnas tienen nombres *sencillos*, sin
caracteres especiales ni espacios en blanco.

A veces, los datasets vienen con nombres *complejos* en sus columnas, para los
cuales podemos hacer uso de los corchetes: `DataFrame['nombre de la columna']`

In [None]:
df['variety']

# Ejercicios
- Crea una variable `tmp` que almacene las 10 primeras filas de `df` y la
columna `description`
- Selecciona las entradas con index `1`, `2`, `3`, `5`, y `8`, asignalo a la
variable `tmp`
- sobreescribe `tmp` para que ahora guarde las columnas: `country`, `province`,
`region_1`, y `region_2` y las filas `0`, `1`, `10`, y `100`.
- Guarga en `tmp` que contenga las primeras 100 filas, y las columnas `country`
y `variety`
- Crea un DataFrame que contenga todas las reseñas sobre vinos italianos. Pista:
`df['country]`
- Crea un DataFrame que contenga la reseñas de todos los vinos italianos y
argentinos, que además tengan un puntaje mayor a 90. Pista: `df['country']` y
`df['points']`

In [None]:
df.columns

In [None]:
tmp, type(tmp)

In [None]:
df.loc[mask, 'title']

# Index
Como ya vimos, Pandas es una librería *label-based*, es decir, que podemos
acceder a nuestros datos mediante etiquetas, en vez de índices numéricos.
Esto ya lo observamos con las columnas, pero también lo hemos estado haciendo
con las filas, indirectamente.

La etiqueta que recibe cada una de las filas se conoce como `index`. Si al
momento de crear un DataFrame no indicamos que una columna en específico debe
fungir como `index`, pandas en automático genera una primera columna con valores
numéricos, un `range` que va de cero al número de filas - 1.

In [None]:
data = {
    'Nombre': pd.Series(['Tania', 'Cesar', 'Miguel']),
    'Edad': pd.Series([25, 29, 28]),
    'Ciudad': pd.Series(['CDMX', 'Tula', 'Tulancingo'])
}

df_ = pd.DataFrame(data)

In [None]:
df_.head()

Veamos cuál es el index de nuestro nuevo DataFrame `df_`:

In [None]:
df_.index

Sin embargo, también podemos escoger en todo momento una de las columnas de
nuestro dataframe como la columna index, esto se hace mediante el método
[`set_index`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html).
En nuestro ejemplo, utilizaremos la columna `Nombre` como index, lo cual tiene
sentido pues cada persona representa una instancia o entrada de nuestro banco
de datos

In [None]:
df_ = df_.set_index('Nombre')

In [None]:
df_.head()

In [None]:
df_.index

In [None]:
del(df_)

Podemos hacer lo mismo con nuestro dataframe de vinos, haciendo la columna
`title` como index

In [None]:
df = df.set_index('title')

In [None]:
df.head()

In [None]:
df.index

Ahora podemos acceder a las reseñas de acuerdo a la columna título, mediante el
método `loc`.

In [None]:
# sobre los primeros 500 elementos, guardar uno cada 5
idx = list(df.index)[:500:5]

In [None]:
idx[5]

In [None]:
df.loc['Castello di Amorosa 2011 King Ridge Vineyard Pinot Noir (Sonoma Coast)', ['points', 'price']]

In [None]:
df.loc[idx[:5], ['points', 'price']]

In [None]:
# nos permite saber la posicion numerica de cierta etiqueta
# df.index.get_loc(idx[2])

# nos da un arreglo con las posiciones
np.where(df.index.get_loc(idx[2]))

# Funciones de *resumen*
Pandas nos permite utilizar varias funciones que nos presentan un *resúmen* de
los datos, de forma que podamos comenzar a obtener nuestros primeros *insights*.

La función más básica es `describe()`

In [None]:
df.describe()

También podemos pedir la descripción no del DataFrame en su totalidad, sino por
columnas:

In [None]:
df['price'].describe()

In [None]:
df['points'].describe()

Observamos que obtenemos los mismos datos, pero de manera separada.

Como hemos visto, Pandas es lo suficientemente listo para entender cuando una
columna contiene datos numéricos y, de hecho, este es el comportamiento
*deafult* de la librería; si no se especifican columnas, Pandas nos dará un
resúmen de las columnas numéricas.

Sin embargo, también es capaz de trabajar con datos numéricos:

In [None]:
df['country'].describe()

Aquí podemos ver que la variable `top` es `US`, de lo que inferimos que Estados
Unidos es el país con más vinos en esta base de datos. Por otro lado, la variable
`unique` nos indica que tenemos datos de vinos de 43 países diferentes.

La variable `unique` también tiene su propio método, que nos va a decir, para
la columna deseada, la lista de valores que existen, sin repeticiones:

In [None]:
df['taster_name'].unique()

In [None]:
df['designation'].unique()

Incluso, si quisieramos obtener resultados más específicos, podemos ver cuántas
apariciones tiene cada uno de los valores en `unique` mediante el método
`value_counts()`:

In [None]:
df['taster_name'].value_counts()

de donde podemos inferir que `Roger Voss` es quién más reseñas ha realizado.

Podemos observar que pandas nos ordenó los datos de modo descendente (de mayor a
menor) de forma automática, sin embargo, con el parámetro `ascending`, podemos
pedir un ordenamiento ascendente

In [None]:
df['taster_name'].value_counts(ascending=True)

Incluso podemos prescindir de cualquier tipo de ordenamiento, mediante el
parámetro `sort`

In [None]:
df['taster_name'].value_counts(sort=False)

También podemos obtener los *percentiles*, que son una medida estadística que
divide una serie de datos ordenados de menor a mayor en cien partes iguales. Se
trata de un indicador que busca mostrar la proporción de la serie de datos que
queda por debajo de su valor.

Análogos a estos, revisamos los *cuartiles* que parte a los datos en 4 partes
iguales (en incrementos de 25%), por lo tanto:
- el cuartil 1 (Q1) se corresponde con el percentil 25;
- el cuartil 2 (mediana, Q2) con el percentil 50
- el cuartil 3 (Q3) con el percentil 75.

Estos podemos obtenerlos mediante el método `quantile` que, si es llamada sin
argumentos, regresa la mediana. Se puede pasar, además, un flotante entre cero
y uno que especifique el percentil deseado o, incluso, una lista de varios
percentiles.

In [None]:
df['price'].quantile()  # regresa la mediana

In [None]:
df['price'].quantile(0.02)

In [None]:
df['price'].quantile([0, 0.25, 0.5, 0.75, 1])  # min, q1, mediana, q3 y max

Es importante ver que el método quntile regresa una `serie`, cuyos índice es
cada uno de los percentiles solicitados.

In [None]:
quants =  df['price'].quantile([0, 0.25, 0.5, 0.75, 1])
quants[0.25]

# Map y Apply
La función `map` trabaja sobre `Series`. *Mapean* (transforman) los datos de una
serie a través de una función de mapeo. Esta función regresa una nueva serie,
con los valores de la serie original modificados. Cuando se trabaja sobre una
`Serie`, es preferible trabajar con `map` (y no con `apply`) dado que suele
ejecutarse de manera más rápida.

En general, `apply` se utiliza para trabajar con DataFrames y `map` para
trabajar con Series. A partir de esto surge una vital diferencia:
- `apply` recibe como argumento una función, que trabaja con una columna
completa
- `map` recibe una función, pero ésta trabajará sobre cada elemento de la
columna

In [None]:
# Variables para medir el tiempo
REPS = 1000

In [None]:
# restar la media de los puntos a toda la columna puntos
start = time.perf_counter()
points_mean = df['points'].mean()

for _ in range(REPS):
    _df_ = df.points.map(lambda p: p - points_mean)
end = time.perf_counter()
time_map_lambda = end - start

_df_

Noten como usamos una función `lambda` (anónima), para definir la operación que
realizaremos punto por punto. Sin embargo, también podríamos definir una función
como tradicionalmente se hace, y obtener el mismo resultado:

In [None]:
def remean(point):
    return point - points_mean

start = time.perf_counter()
for _ in range(REPS):
    _df_ = df['points'].map(remean)
end = time.perf_counter()
time_map_function = end - start

_df_

`Apply` aplica una función a lo largo de un eje (axis) de un DataFrame: filas
o columnas.

In [None]:
start = time.perf_counter()
for _ in range(REPS):
    _df_ = df['points'].apply(remean)
end = time.perf_counter()
time_apply_function = end - start

_df_

En el ejemplo anterior, utilizamos `apply` para realizar la misma operación:
restar la media de los puntos a todas las entradas del DataFrame. En este caso,
la función `apply` trabajó sobre las columnas, pero podemos trabajar también
sobre las filas, en cuyo caso, tendremos que diseñar una función que modifique
todas las columnas de cada fila:

In [None]:
def modify_all_columns(column):
    if column.dtype == 'object':
        return column.str.upper()
    elif pd.api.types.is_numeric_dtype(column):
        return 0

    return column

df.apply(modify_all_columns, axis='index').head()

También podemos utilizar funciones ya programadas por otras librerías, por
ejemplo, la función `np.cos` (coseno):

In [None]:
df[['price', 'points']].apply(np.cos, axis='columns')

E incluso funciones lambda:

In [None]:
df[['price', 'points']].apply(lambda p: p**2, axis='columns')

# Operaciones
Pandas tiene implementadas diferentes funciones que podemos aplicar a nuestros
datos, por ejemplo, la media:

In [None]:
# media de puntos y precio
df.loc[:, ['points', 'price']].mean()

la mediana:

In [None]:
# mediana de puntos y precio
df.loc[:, ['points', 'price']].median()

O los percentiles, que son una medida estadística la cual divide una serie de
datos ordenados de menor a mayor en cien partes iguales. Se trata de un
indicador que busca mostrar la proporción de la serie de datos que queda por
debajo de su valor.

Así, el percentil 33 nos indica un valor para el cual, el 33% de nuestros datos
se encuentran debajo de éste.

Los percentiles son análogos a los cuartiles, y se corresponden de la siguiente
forma:
- `Q1 == 25%`
- `Q2 == 50% (mediana)`
- `Q3 == 75%`

In [None]:
df[['price', 'points']].quantile([0, 0.25, 0.5, 0.75, 1])

Pandas, al igual que numpy, nos permite realizar operaciones elemento a elemento
entre los arreglos, por ejemplo, podemos sumar dos columnas:


In [None]:
(df['points'] + df['price']).head(), df['points'].head(), df['price'].head()

Estos operadores no están limitados a columnas numéricas, sino que Python puede
(y pandas lo respeta) definir ciertas operaciones con datos de tipo texto,
por ejemplo, la suma de dos strings resulta en una simple concatenación
```python
'hola ' + 'mundo'
```
que resulta en la string
```python
'hola mundo'
```

Por lo tanto, podemos hacer lo mismo con las columnas de los DataFrames:

In [None]:
# sumando dos columnas de texto y haciendo broadcasting para el guión que las
# une
(df['country'] + ' - ' + df['province']).head(10)

**Nota**: Aunque las funciones `map` y `apply` pueden aplicar cualquier función
sobre nuestros datos, Pandas cuenta con una vasta cantidad de funciones
optimizadas para la mayoría de transformaciones que queramos hacer a nuestros
datos. Por lo tanto, `map` y `apply` deben de utilizarse únicamente en casos
muy específicos, pues normalmente tendrán un peor desempeño que las funciones
nativas de pandas.


In [None]:
start = time.perf_counter()
for _ in range(REPS):
    _df_ = df['points'] - points_mean
end = time.perf_counter()

time_native = end - start

In [None]:
print("Tiempo de ejecución de diversos métodos para restar la media de una columna")
print()
print(f"Usando el método map y una función lambda: {time_map_lambda:.4f}")
print(f"Usando el método map y una función clásica: {time_map_function:.4f}")
print(f"Usando el método apply y una función clásica: {time_apply_function:.4f}")
print(f"Usando las operaciones nativas de pandas: {time_native:.4f}")


# Más ejercicios
- Calcula la mediana de las columnas `price` y `points`; en una sola operación
- ¿Qué países están representados en el dataset?
- ¿Cuántos vinos tiene cada país?
- Crea una nueva variable, llamada `precio_normalizado`, que contenga los precios
originales menos la media de todos los precios. *Pista*: pandas, al igual que
numpy, permite hacer *broadcasting* sobre un DataFrame, sobre una columna o
sobre una Series
- Guarda en la varible `mejor_oferta` el nombre del vino con mayor relación
`points` a `price`, es decir, aquel vino para el cual el resultado de dividir
su puntaje entre su precio, de el mayor valor. *Pistas*:
  - pandas, al igual que numpy, realiza operaciones *elemento a elemento* entre
  `Series` del mismo tamaño
  - busca la documentación del método `idxmax`
- Convierte la variable `points` a un sistema de 3 estrellas, que guardarás en
`estrellas`. La conversión debe hacerse de acuerdo a los siguientes criterios:
  - Un puntaje de 95 o más puntos corresponde a 3 estrellas
  - Un puntaje de al menos 85, pero menor de 95 corresponde a 2 estrellas
  - Cualquier puntaje debajo de 85 corresponde a 1 estrella
- Crea una función que se llame `min_max`, que aplique dicha normalización a
todos los datos de una columna. La normalización `min_max` mapea el valor máximo
de los datos con 1, y el valor mínimo con 0 (cero), mediante la siguiente
fórmula: $x_{norm} = (x - min) / (max - min)$. Aplica dicha función a las columnas
`price` y `points`, mediante los métodos `apply` o `map`.

In [None]:
def min_max(col):
    min = col.min()
    max = col.max()
    return (col - min) / (max - min)

df['price'].map(min_max(df['price']))