In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


In [None]:
df_tabla = pd.read_csv('https://raw.githubusercontent.com/fivethirtyeight/data/master/alcohol-consumption/drinks.csv')

In [None]:
# Mostrar las primeras filas del DataFrame
print(df_tabla.head())

# Mostrar información general del DataFrame
print(df_tabla.info())

# Resumen estadístico del DataFrame
print(df_tabla.describe())

In [None]:
# Análisis de los países con mayor y menor consumo total de alcohol
max_consumo = df_tabla.loc[df_tabla['total_litres_of_pure_alcohol'].idxmax()]
print(f"País con mayor consumo total de alcohol: {max_consumo['country']}")

min_consumo = df_tabla.loc[df_tabla["total_litres_of_pure_alcohol"].idxmin()]
print(f"País con menor consumo total de alcohol: {min_consumo['country']}")

In [None]:
# Promedio de consumo de cada tipo de bebida por pais 
df_promedio_consumo_pais = df_tabla.groupby('country').mean()
print(df_promedio_consumo_pais)

In [None]:
# Análisis de correlación entre el consumo de diferentes tipos de bebidas
correlation_matrix = df_tabla[['beer_servings', 'spirit_servings', 'wine_servings', 'total_litres_of_pure_alcohol']].corr()
print(correlation_matrix)
# visualización de la matriz de correlación con seaborn
sns.heatmap(correlation_matrix,annot=True,cmap="coolwarm") #annot true agrega los valores dentro de cada celda del grafico 
plt.show()

In [None]:
# ¿Cuántos países están incluidos en el dataset?
num_paises = df_tabla['country'].nunique()

print(f'El dataset incluye {num_paises} países.')
# ¿Cuáles son los nombres de las columnas del DataFrame?
print(df_tabla.columns)

In [None]:
# Genera un resumen estadístico de las columnas numéricas del DataFrame
df_resumen = df_tabla[["beer_servings", "spirit_servings", "wine_servings", "total_litres_of_pure_alcohol"]].describe()
print(df_resumen)

In [None]:
# Filtrar el DataFrame para mostrar solo los países con más de 200 beer_servings
df_filtrado = df_tabla.loc[df_tabla["beer_servings"] > 200]

# Mostrar los países filtrados
print(f"Los países con más de 200 beer_servings son {df_filtrado['country'].tolist()}")

In [None]:
# Selecciona las columnas country y wine_servings para los países que tienen más de 150 wine_servings.
df_filtrado = df_tabla.loc[df_tabla['wine_servings'] > 150, ['country','wine_servings']]
print(df_filtrado)

In [None]:
# Agrupa los datos por la cantidad de beer_servings y calcula la media de total_litres_of_pure_alcohol para cada grupo.
df_agrupado = df_tabla.groupby('beer_servings')['total_litres_of_pure_alcohol'].mean()
print(df_agrupado)

In [None]:
# Crea un gráfico de cajas (box plot) para comparar las distribuciones de beer_servings, spirit_servings y wine_servings.
df_grafico = df_tabla[['beer_servings', 'spirit_servings', 'wine_servings']]
plt.figure(figsize=(10,6))
sns.barplot(data=df_grafico)
plt.title('Distribuciones de Beer Servings, Spirit Servings y Wine Servings')
plt.xlabel("Tipo de Bebida")
plt.ylabel("Cantidad")
plt.tight_layout()
plt.show()