![imagen](https://cdn.foodbeast.com/content/wp-content/uploads/2012/03/beer-print-01-selectism.jpg)

# Ejercicio pandas estadística
Para este ejercicio se ha utilizado [un dataset de un concurso de kaggle](https://www.kaggle.com/nickhould/craft-cans), cuyo reto consiste en predecir el tipo de cerveza en función de sus características (nivel de alcohol, amargura, tamaño...).

# Ejercicio 1
Importa las librerias que consideres

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## Ejercicio 2
1. Importa el dataset "datasets_beer.csv"
2. Imprime por pantalla los primeros registros.
3. ¿Cuáles son sus columnas?
4. ¿Qué dimensiones tiene el DataFrame?

In [None]:
beer = pd.read_csv(("data/datasets_beers.csv"))

beer

In [None]:
beer.head()

In [None]:
beer.info()

In [None]:
beer.describe()

## Ejercicio 3
[Elimina la columna "Unnamed: 0"](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html)

In [None]:
beer = beer.drop("Unnamed: 0", axis=1)

beer

## Ejercicio 4
¿Cuántas filas y columnas tiene el dataset?

In [None]:
beer.shape

## Ejercicio 5
¿De qué tipo son los datos?

In [None]:
beer.dtypes

## Ejercicio 6
Obtén en un nuevo DataFrame un resumen con las principales estadísticas de las columnas numéricas: mean, max, count, cuartiles...

In [None]:
new_beer = beer.describe()

new_beer

## Ejercicio 7
¿Cuántas birras hay de cada estilo en este dataset? [Investiga en la documentación de Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) si puedes hacer un conteo de valores.

In [None]:
beer

In [None]:
estilos_birras = beer["style"].value_counts(ascending=False)

estilos_birras

## Ejercicio 8
1. Imprime por pantalla los registros desde el décimo hasta el vigésimo
2. De esos registros, imprime por pantalla desde la columna `name` a `ounces`, ambas incluidas
3. Quédate con las columnas `abv`, `ibu` y `ounces`, y además quédate sólo con los registros 10 al 20.
4. Convierte el resultado del apartado 3 en un array de `numpy`

In [None]:
beer_8 = beer.loc[10:21]

beer_8

In [None]:
beer_8.loc[: , "name":"ounces"]

In [None]:
beer_8.loc[: , ["abv", "ibu", "ounces"]]

In [None]:
np.array(beer_8.loc[: , ["abv", "ibu", "ounces"]])

## Ejercicio 9
¿Cuántas onzas pesan todas las birras del dataset?

In [None]:
beer["ounces"].sum()

## Ejercicio 10
El amargor de las cervezas se mide por su nivel de IBUs.
1. ¿Cuál es el amargor medio de las cervezas?
2. ¿El máximo? ¿Y el mínimo?
3. ¿Qué cerveza es la que tiene el amargor máximo? ¿Cuál es la de amargor mínimo?

In [None]:
beer["ibu"].mean()

In [None]:
beer["ibu"].min()

In [None]:
beer["ibu"].max()

In [None]:
beer.loc[beer["ibu"].idxmax()]

In [None]:
beer.loc[beer["ibu"].idxmin()]

## Ejercicio 11
No queda muy claro cuánto de dispar, de dispersa, es la medida de IBU. Mediante estadística descriptiva (una o dos métricas, sin gráficas), razona la dispersión de la variable IBU.

In [None]:
q1 = beer["ibu"].quantile(0.25)

q3 = beer["ibu"].quantile(0.75)

IQR = q3 - q1
print(IQR)


In [None]:
std = beer["ibu"].std()

std

**La desviación estándar indica cuánto se alejan, en promedio, los valores de IBU respecto a la media. En este caso, un valor de 25.95 sugiere una dispersión considerable: muchas cervezas se alejan bastante del valor medio de amargor, lo que implica una buena diversidad de perfiles.**

**El IQR, con un valor de 43, refuerza esa conclusión. Esto significa que el 50% central de las cervezas tiene niveles de amargor repartidos en un rango bastante amplio. Además, como el IQR no se ve afectado por valores extremos, nos confirma que incluso dejando fuera los valores más suaves y más amargos, la dispersión sigue siendo alta.**

**Tanto la desviación estándar como el IQR muestran que el nivel de amargor entre las cervezas es muy variable. Esto indica que el conjunto de datos incluye tanto cervezas suaves como otras muy intensas en sabor, lo cual puede ser interesante para distintos perfiles de consumidor.**

## Ejercicio 12
¿Existe alguna relación lineal entre las variables numéricas del dataset? Intenta pintar este razonamiento mediante un gráfico

In [None]:
beer_numerico = beer.select_dtypes(exclude="object")

In [None]:
plt.figure(figsize=(6,4))
sns.heatmap(beer_numerico.corr(), vmin=-1, vmax=1, cmap="Blues" ,center=0, square=True, linewidths=.5, annot=True)

In [None]:
sns.scatterplot(x = beer["abv"], y = beer["ibu"])

***Vemos como efectivamente hay una correlación lineal, en la gran mayoria de casos, si sube uno, sube otro.***

## Ejercicio 13
Representa el nivel de alcohol (columna `abv`) en un histograma. ¿Se trata de una distribución simétrica o asimétrica?

In [None]:
sns.histplot(beer["abv"], bins = 20, color= "skyblue")

plt.title("Distribución del nivel de alcohol (ABV)")
plt.xlabel("Nivel de alcohol (ABV)")
plt.ylabel("Número de cervezas")
plt.tight_layout()
plt.show()

**Vemos que tiene una clara asimetria positiva, dado que tiene una cola alargada a la derecha**

**Existen muchas cervezas con bajo o moderado contenido alcohólico, pero también algunas con valores significativamente más altos que alargan la cola hacia la derecha**

## Ejercicio 14
Representa mediante un *boxplot* de `seaborn` la variable `abv`

In [None]:
sns.boxenplot(beer["abv"])

## Ejercicio 15
1. ¿Qué estilos son los que tienen en media más alcohol?
2. ¿Y los estilos que son en media más amargos?

In [None]:
beer

In [None]:
estilo_mas_alcohol = beer.groupby("style")["abv"].mean().sort_values(ascending=False)

estilo_mas_alcohol.head(10)

In [None]:
estilo_min_alcohol = beer.groupby("style")["abv"].mean().sort_values(ascending=True)

estilo_min_alcohol.head(10)

## Ejercicio 16
Carga el datasets de cervecerias `datasets_breweries.csv`

In [None]:
beer2 = pd.read_csv(("data/datasets_breweries.csv"))

beer2

## Ejercicio 17
1. Renombra la columna `Unnamed: 0` como `brewery_id`
2. Renombra también la columna `name` por `brewery_name`. ¿Puedes hacer ambos apartados en una sola sentencia?

In [None]:
beer2 = beer2.rename(columns={"Unnamed: 0" : "brewery_id"})

beer2

In [None]:
beer2 = beer2.rename(columns={"name" : "brewery_name"})

beer2

## Ejercicio 18
Junta los dos datasets que tienes

In [None]:
beer3 = pd.merge(beer, beer2)
beer3

## Ejercicio 19
1. ¿Cuántos estados diferentes hay?
2. ¿Y ciudades diferentes?
3. ¿Cuántas cervecerías hay?

In [None]:
beer3["state"].nunique()

In [None]:
beer3["city"].nunique()

In [None]:
beer3["brewery_id"].nunique()

## Ejercicio 20
Agrupa por estado y ciudad, la media, mediana y máximo nivel de alcohol

In [None]:
beer3.groupby(['state', 'city'])[['abv']].agg(['mean', "median", "max"])

## Ejercicio 21
¿Cuáles son las cervezas más amargas que se consumen en Indiana, estado = `IN`?

In [None]:
beer_in = beer3[beer3["state"] == " IN"]


In [None]:
cervezas_mas_amargas = beer_in.sort_values(by="ibu", ascending=False)

In [None]:

cervezas_mas_amargas[["name", "style", "ibu"]].head(5)


## Ejercicio 22
Obtén una tabla con los principales estadísticos del campo `ibu`,  a nivel ciudad

## Ejercicio 23
Consigue en un DataFrame de todas las cervezas en cuyas cervecerías al menos haya una cerveza con un `abv` mínimo 0.07.

In [None]:
# todas las cervezas, que venda una cervecería, donde al menos una de ellas sea de 0.07 para arriba

## Ejercicio 24
Teniendo en cuenta la media de amargor de todas las cervezas, obtén una tabla con las cervezas cuyos estados tengan una media de amargor en cerveza por encima de la media

In [None]:
# Las cervezas que se encuentran en aquellos estados, cuya media de amargor, sea superior a la media de amargor total

media_amargura_total = beer3["ibu"].mean()

media_amargura_total

In [None]:
media_amargura_estados = beer3.groupby("state")["ibu"].mean()

media_amargura_estados

In [None]:
# NO FUNCIONA, PREGUNTO DEBAJO A LA IA
tabla_amargura = beer3[[media_amargura_estados]> media_amargura_total]

tabla_amargura

In [115]:
estados_mas_amargos = media_amargura_estados[media_amargura_estados > media_amargura_total].index

estados_mas_amargos

Index([' AL', ' CA', ' CO', ' DC', ' DE', ' FL', ' GA', ' ID', ' IN', ' ME',
       ' MN', ' MS', ' NC', ' NH', ' NJ', ' NM', ' NV', ' NY', ' OH', ' OR',
       ' UT', ' VA', ' WA', ' WV'],
      dtype='object', name='state')

In [117]:
tabla_amargura = beer3[beer3["state"].isin(estados_mas_amargos)]

tabla_amargura

Unnamed: 0,abv,ibu,id,name,style,brewery_id,ounces,brewery_name,city,state
0,0.050,,1436,Pub Beer,American Pale Lager,408,12.0,10 Barrel Brewing Company,Bend,OR
1,0.066,,2265,Devil's Cup,American Pale Ale (APA),177,12.0,18th Street Brewery,Gary,IN
2,0.071,,2264,Rise of the Phoenix,American IPA,177,12.0,18th Street Brewery,Gary,IN
3,0.090,,2263,Sinister,American Double / Imperial IPA,177,12.0,18th Street Brewery,Gary,IN
4,0.075,,2262,Sex and Candy,American IPA,177,12.0,18th Street Brewery,Gary,IN
...,...,...,...,...,...,...,...,...,...,...
2405,0.067,45.0,928,Belgorado,Belgian IPA,424,12.0,Wynkoop Brewing Company,Denver,CO
2406,0.052,,807,Rail Yard Ale,American Amber / Red Ale,424,12.0,Wynkoop Brewing Company,Denver,CO
2407,0.055,,620,B3K Black Lager,Schwarzbier,424,12.0,Wynkoop Brewing Company,Denver,CO
2408,0.055,40.0,145,Silverback Pale Ale,American Pale Ale (APA),424,12.0,Wynkoop Brewing Company,Denver,CO


In [118]:
tabla_amargura.dropna(subset=["ibu"])

Unnamed: 0,abv,ibu,id,name,style,brewery_id,ounces,brewery_name,city,state
14,0.061,60.0,1979,Bitter Bitch,American Pale Ale (APA),177,12.0,18th Street Brewery,Gary,IN
21,0.099,92.0,1036,Lower De Boom,American Barleywine,368,8.4,21st Amendment Brewery,San Francisco,CA
22,0.079,45.0,1024,Fireside Chat,Winter Warmer,368,12.0,21st Amendment Brewery,San Francisco,CA
24,0.044,42.0,876,Bitter American,American Pale Ale (APA),368,12.0,21st Amendment Brewery,San Francisco,CA
25,0.049,17.0,802,Hell or High Watermelon Wheat (2009),Fruit / Vegetable Beer,368,12.0,21st Amendment Brewery,San Francisco,CA
...,...,...,...,...,...,...,...,...,...,...
2398,0.077,30.0,1513,Lights Out Vanilla Cream Extra Stout,American Double / Imperial IPA,199,12.0,Worthy Brewing Company,Bend,OR
2399,0.069,69.0,1512,Worthy IPA (2013),American IPA,199,12.0,Worthy Brewing Company,Bend,OR
2400,0.060,50.0,1511,Worthy Pale,American Pale Ale (APA),199,12.0,Worthy Brewing Company,Bend,OR
2405,0.067,45.0,928,Belgorado,Belgian IPA,424,12.0,Wynkoop Brewing Company,Denver,CO
