# Ex - GroupBy

### Introduction:

GroupBy can be summarized as Split-Apply-Combine.

Special thanks to: https://github.com/justmarkham for sharing the dataset and materials.

Check out this [Diagram](http://i.imgur.com/yjNkiwL.png)  
### Step 1. Import the necessary libraries

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Step 2. Import the dataset from this [address](https://github.com/thieu1995/csv-files/blob/main/data/pandas/drinks.csv).

### Step 3. Assign it to a variable called drinks.

In [6]:
url = "https://raw.githubusercontent.com/thieu1995/csv-files/main/data/pandas/drinks.csv"

# Nhập dữ liệu vào DataFrame
drinks = pd.read_csv(url)
print(drinks)

         country  beer_servings  spirit_servings  wine_servings  \
0    Afghanistan              0                0              0   
1        Albania             89              132             54   
2        Algeria             25                0             14   
3        Andorra            245              138            312   
4         Angola            217               57             45   
..           ...            ...              ...            ...   
188    Venezuela            333              100              3   
189      Vietnam            111                2              1   
190        Yemen              6                0              0   
191       Zambia             32               19              4   
192     Zimbabwe             64               18              4   

     total_litres_of_pure_alcohol continent  
0                             0.0        AS  
1                             4.9        EU  
2                             0.7        AF  
3          

### Step 4. Which continent drinks more beer on average?

In [7]:
# Nhóm theo continent và tính trung bình beer_servings
avg_beer_by_continent = drinks.groupby('continent')['beer_servings'].mean()

# Tìm châu lục có lượng bia uống trung bình cao nhất
continent_max_beer = avg_beer_by_continent.idxmax()
max_beer_value = avg_beer_by_continent.max()

print(f"Châu lục uống bia nhiều nhất trung bình là: {continent_max_beer} với {max_beer_value} servings.")


Châu lục uống bia nhiều nhất trung bình là: EU với 193.77777777777777 servings.


### Step 5. For each continent print the statistics for wine consumption.

In [8]:
# Nhóm theo continent và tính các thống kê cho wine_servings
wine_stats_by_continent = drinks.groupby('continent')['wine_servings'].describe()

# In ra thống kê cho mỗi châu lục
print(wine_stats_by_continent)


           count        mean        std  min   25%    50%     75%    max
continent                                                               
AF          53.0   16.264151  38.846419  0.0   1.0    2.0   13.00  233.0
AS          44.0    9.068182  21.667034  0.0   0.0    1.0    8.00  123.0
EU          45.0  142.222222  97.421738  0.0  59.0  128.0  195.00  370.0
OC          16.0   35.625000  64.555790  0.0   1.0    8.5   23.25  212.0
SA          12.0   62.416667  88.620189  1.0   3.0   12.0   98.50  221.0


### Step 6. Print the mean alcohol consumption per continent for every column

In [12]:
# Lọc chỉ các cột số trước khi tính trung bình
numeric_columns = drinks.select_dtypes(include=['float64', 'int64']).columns

# Nhóm theo continent và tính trung bình cho các cột số
mean_alcohol_consumption = drinks.groupby('continent')[numeric_columns].mean()

# In ra kết quả
print(mean_alcohol_consumption)


           beer_servings  spirit_servings  wine_servings  \
continent                                                  
AF             61.471698        16.339623      16.264151   
AS             37.045455        60.840909       9.068182   
EU            193.777778       132.555556     142.222222   
OC             89.687500        58.437500      35.625000   
SA            175.083333       114.750000      62.416667   

           total_litres_of_pure_alcohol  
continent                                
AF                             3.007547  
AS                             2.170455  
EU                             8.617778  
OC                             3.381250  
SA                             6.308333  


### Step 7. Print the median alcohol consumption per continent for every column

In [13]:
# Lọc các cột số
numeric_columns = drinks.select_dtypes(include=['float64', 'int64']).columns

# Nhóm theo continent và tính trung vị cho mỗi cột số
median_alcohol_consumption = drinks.groupby('continent')[numeric_columns].median()

# In ra kết quả
print(median_alcohol_consumption)



           beer_servings  spirit_servings  wine_servings  \
continent                                                  
AF                  32.0              3.0            2.0   
AS                  17.5             16.0            1.0   
EU                 219.0            122.0          128.0   
OC                  52.5             37.0            8.5   
SA                 162.5            108.5           12.0   

           total_litres_of_pure_alcohol  
continent                                
AF                                 2.30  
AS                                 1.20  
EU                                10.00  
OC                                 1.75  
SA                                 6.85  


### Step 8. Print the mean, min and max values for spirit consumption.
#### This time output a DataFrame

In [14]:
# Tính mean, min và max cho cột spirit_servings
spirit_stats = drinks.groupby('continent')['spirit_servings'].agg(['mean', 'min', 'max'])

# In ra kết quả dưới dạng DataFrame
print(spirit_stats)


                 mean  min  max
continent                      
AF          16.339623    0  152
AS          60.840909    0  326
EU         132.555556    0  373
OC          58.437500    0  254
SA         114.750000   25  302
