# Agrupamiento y Sorteo

En este JNB se revisará el tema de Agrupamiento y Sorteo en Pandas.

In [None]:
#El agrupamiento jerárquico es un algoritmo de agrupamiento que construye una jerarquía de grupos.
#Este algoritmo es particularmente interesante porque genera un árbol de clústeres que puede ser útil para entender la estructura de los datos.
#Para ello, utilizaremos la distancia euclidiana y el método de enlace completo.
#El método de enlace completo es un método de agrupamiento jerárquico que se basa en la distancia máxima entre los elementos de dos clústeres.

#El sorteo es un algoritmo de agrupamiento que asigna cada punto a un clúster de acuerdo con la probabilidad de que pertenezca a ese clúster.
#Para ello, utilizaremos la distancia euclidiana y la función de densidad de probabilidad gaussiana.
#La función de densidad de probabilidad gaussiana es una función que describe la probabilidad de que una variable aleatoria tenga un valor en un rango específico.
#En este caso, utilizaremos la distancia euclidiana entre los puntos y los centroides de los clústeres como la variable aleatoria.

Hello World!


Groupwise analysis

In [None]:
reviews.groupby('points').points.count()
#El método groupby de pandas se utiliza para agrupar los datos en función de una o más columnas.
#En este caso, agruparemos los datos por la columna 'points' y contaremos el número de elementos en cada grupo.
#Esto nos dará una idea de la distribución de las puntuaciones de los vinos en el conjunto de datos.

reviews.groupby('points').price.min()
#En este caso, agruparemos los datos por la columna 'points' y calcularemos el precio mínimo en cada grupo.
#Esto nos dará una idea de los precios mínimos de los vinos en función de su puntuación.
#La función min se utiliza para calcular el valor mínimo en una serie de datos.

reviews.groupby('winery').apply(lambda df: df.title.iloc[0])
#El método apply de pandas se utiliza para aplicar una función a cada grupo de datos.
#En este caso, aplicaremos una función lambda que selecciona el primer título de vino en cada grupo.
#Esto nos dará una idea de los vinos producidos por cada bodega en el conjunto de datos.

reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()])
#En este caso, agruparemos los datos por las columnas 'country' y 'province' y 
# seleccionaremos el vino con la puntuación máxima en cada grupo.
#Para ello, utilizaremos la función idxmax para obtener el índice del vino con la puntuación máxima en cada grupo.
#Esto nos dará una idea de los vinos mejor puntuados en cada país y provincia.

reviews.groupby(['country']).price.agg([len, min, max])
#En este caso, agruparemos los datos por la columna 'country' y calcularemos el número de elementos, 
# el precio mínimo y el precio máximo en cada grupo.
#Esto nos dará una idea de la distribución de los precios de los vinos en cada país.
#La función agg se utiliza para aplicar múltiples funciones a una serie de datos.
#Su sintaixs es agg([funcion1, funcion2, ...]).

MultiIndexamiento

In [None]:
#El multi-índice es una estructura de datos que permite tener más de un índice en un DataFrame de pandas.
#En sql, sería equivalente a tener una tabla con una clave primaria compuesta por más de una columna. que se usa con el método groupby.
#Para crear un multi-índice, se puede utilizar el método set_index de un DataFrame de pandas.

countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
countries_reviewed
#En este caso, agruparemos los datos por las columnas 'country' y 'province' y calcularemos el número de descripciones en cada grupo.
#Esto nos dará una idea de la cantidad de vinos revisados en cada país y provincia.

mi = countries_reviewed.index
type(mi)
#En este caso, accederemos al índice del DataFrame countries_reviewed y comprobaremos su tipo.
#El tipo de datos de un multi-índice es pandas.core.indexes.multi.MultiIndex.

countries_reviewed.reset_index()
#En este caso, resetearemos el índice del DataFrame countries_reviewed.
#Esto convertirá el multi-índice en columnas normales del DataFrame.

Sorting

In [None]:
#El sorteo es un algoritmo de agrupamiento que asigna cada punto a un clúster de acuerdo con la probabilidad de que pertenezca a ese clúster.
#Para ello, utilizaremos la distancia euclidiana y la función de densidad de probabilidad gaussiana.
#La función de densidad de probabilidad gaussiana es una función que describe la probabilidad de que una variable aleatoria tenga un valor en un rango específico.
#En este caso, utilizaremos la distancia euclidiana entre los puntos y los centroides de los clústeres como la variable aleatoria.

countries_reviewed = countries_reviewed.reset_index()
countries_reviewed.sort_values(by='len')
#En este caso, ordenaremos el DataFrame countries_reviewed por la columna 'len'.
#Esto nos dará una idea de los países y provincias con menos vinos revisados.

#Sort values es un método de pandas que se utiliza para ordenar un DataFrame por los valores de una o más columnas.
#Por defecto, el método ordena los valores de forma ascendente, pero se puede especificar el parámetro ascending=False para ordenar de forma descendente.

countries_reviewed.sort_values(by='len', ascending=False)
#En este caso, ordenaremos el DataFrame countries_reviewed por la columna 'len' de forma descendente.
#Esto nos dará una idea de los países y provincias con más vinos revisados.

countries_reviewed.sort_index()
#En este caso, ordenaremos el DataFrame countries_reviewed por el índice.
#Esto restaurará el orden original del DataFrame.

countries_reviewed.sort_values(by=['country', 'len'])
#En este caso, ordenaremos el DataFrame countries_reviewed por las columnas 'country' y 'len'.
#Esto nos dará una idea de los países con menos vinos revisados en primer lugar.

EJERCICIOS EN KAGGLE

1. Who are the most common wine reviewers in the dataset? Create a Series whose index is the taster_twitter_handle category from the dataset, and whose values count how many reviews each person wrote.

In [None]:
reviews_written = reviews.groupby('taster_twitter_handle').taster_twitter_handle.count()
reviews_written
#En este caso, agruparemos los datos por la columna 'taster_twitter_handle' y contaremos el número de vinos revisados por cada crítico.
#Esto nos dará una idea de la cantidad de vinos revisados por cada crítico.

In [None]:
reviews_written = reviews.groupby('taster_twitter_handle').size()
reviews_written
#En este caso, utilizaremos el método size en lugar de count para contar el número de vinos revisados por cada crítico.
#El método size cuenta el número de elementos en cada grupo, incluidos los valores nulos.

2. What is the best wine I can buy for a given amount of money? Create a Series whose index is wine prices and whose values is the maximum number of points a wine costing that much was given in a review. Sort the values by price, ascending (so that 4.0 dollars is at the top and 3300.0 dollars is at the bottom).

In [None]:
best_rating_per_price = reviews.groupby('price')['points'].max().sort_index()
best_rating_per_price
#En este caso, agruparemos los datos por la columna 'price' y seleccionaremos la puntuación máxima en cada grupo.
#Luego, ordenaremos los resultados por el precio.
#Esto nos dará una idea de la puntuación máxima para cada precio de vino.

3. What are the minimum and maximum prices for each variety of wine? Create a DataFrame whose index is the variety category from the dataset and whose values are the min and max values thereof.

In [None]:
price_extremes = reviews.groupby('variety').price.agg([min, max])
price_extremes
#En este caso, agruparemos los datos por la columna 'variety' y calcularemos el precio mínimo y máximo en cada grupo.  
#Esto nos dará una idea de los precios extremos de cada variedad de vino.

4. What are the most expensive wine varieties? Create a variable sorted_varieties containing a copy of the dataframe from the previous question where varieties are sorted in descending order based on minimum price, then on maximum price (to break ties).

In [None]:
sorted_varieties = price_extremes.sort_values(by=['min', 'max'], ascending=False)
sorted_varieties
#En este caso, ordenaremos el DataFrame price_extremes por los precios mínimo y máximo de forma descendente. 
#Esto nos dará una idea de las variedades de vino con los precios más altos.

5. Create a Series whose index is reviewers and whose values is the average review score given out by that reviewer. Hint: you will need the taster_name and points columns.

In [None]:
reviewer_mean_ratings = reviews.groupby('taster_name').points.mean()
reviewer_mean_ratings
#En este caso, agruparemos los datos por la columna 'taster_name' y calcularemos la puntuación media de los vinos revisados por cada crítico.
#Esto nos dará una idea de la puntuación media de los vinos revisados por cada crítico.

reviewer_mean_ratings.describe()
#En este caso, utilizaremos el método describe para obtener estadísticas descriptivas de la puntuación media de los vinos revisados por cada crítico.
#Esto nos dará una idea de la distribución de las puntuaciones medias.

6. What combination of countries and varieties are most common? Create a Series whose index is a MultiIndexof {country, variety} pairs. For example, a pinot noir produced in the US should map to {"US", "Pinot Noir"}. Sort the values in the Series in descending order based on wine count.

In [None]:
country_variety_counts = reviews.groupby(['country', 'variety']).size().sort_values(ascending=False)
country_variety_counts
#En este caso, agruparemos los datos por las columnas 'country' y 'variety' y contaremos el número de vinos revisados en cada grupo.
#Luego, ordenaremos los resultados de forma descendente.
#Esto nos dará una idea de las variedades de vino más comunes en cada país.