In [1]:
import pandas as pd

# Đọc dữ liệu từ file CSV, sử dụng cột đầu tiên làm index
drink = pd.read_csv('drinks.csv', index_col=0)

# In type, shape, tên các cột, 5 dòng đầu và 5 dòng cuối
print("DataFrame Type:", type(drink))
print("Shape:", drink.shape)
print("Columns:", drink.columns)
print("5 dòng đầu tiên (head):")
print(drink.head())
print("5 dòng cuối cùng (tail):")
print(drink.tail())


DataFrame Type: <class 'pandas.core.frame.DataFrame'>
Shape: (193, 6)
Columns: Index(['country', 'beer_servings', 'spirit_servings', 'wine_servings',
       'total_litres_of_pure_alcohol', 'continent'],
      dtype='object')
5 dòng đầu tiên (head):
       country  beer_servings  spirit_servings  wine_servings  \
0  Afghanistan              0                0              0   
1      Albania             89              132             54   
2      Algeria             25                0             14   
3      Andorra            245              138            312   
4       Angola            217               57             45   

   total_litres_of_pure_alcohol continent  
0                           0.0        AS  
1                           4.9        EU  
2                           0.7        AF  
3                          12.4        EU  
4                           5.9        AF  
5 dòng cuối cùng (tail):
       country  beer_servings  spirit_servings  wine_servings  \
188  V

In [2]:
# Giả sử cột 'continent' lưu thông tin châu lục và 'beer_servings' là lượng bia tiêu thụ
avg_beer_by_continent = drink.groupby('continent')['beer_servings'].mean()
print(avg_beer_by_continent)


continent
AF     61.471698
AS     37.045455
EU    193.777778
OC     89.687500
SA    175.083333
Name: beer_servings, dtype: float64


In [3]:
# Giả sử cột 'wine_servings' là lượng rượu vang tiêu thụ
wine_description = drink.groupby('continent')['wine_servings'].describe()
print(wine_description)


           count        mean        std  min   25%    50%     75%    max
continent                                                               
AF          53.0   16.264151  38.846419  0.0   1.0    2.0   13.00  233.0
AS          44.0    9.068182  21.667034  0.0   0.0    1.0    8.00  123.0
EU          45.0  142.222222  97.421738  0.0  59.0  128.0  195.00  370.0
OC          16.0   35.625000  64.555790  0.0   1.0    8.5   23.25  212.0
SA          12.0   62.416667  88.620189  1.0   3.0   12.0   98.50  221.0


In [4]:
# Tính trung bình cho bia và rượu vang, rượu mạnh
avg_consumption_by_continent = drink.groupby('continent')[['beer_servings', 'wine_servings', 'spirit_servings']].mean()
print(avg_consumption_by_continent)


           beer_servings  wine_servings  spirit_servings
continent                                               
AF             61.471698      16.264151        16.339623
AS             37.045455       9.068182        60.840909
EU            193.777778     142.222222       132.555556
OC             89.687500      35.625000        58.437500
SA            175.083333      62.416667       114.750000


In [5]:
# Tính trung vị cho bia, rượu vang và rượu mạnh
median_consumption_by_continent = drink.groupby('continent')[['beer_servings', 'wine_servings', 'spirit_servings']].median()
print(median_consumption_by_continent)


           beer_servings  wine_servings  spirit_servings
continent                                               
AF                  32.0            2.0              3.0
AS                  17.5            1.0             16.0
EU                 219.0          128.0            122.0
OC                  52.5            8.5             37.0
SA                 162.5           12.0            108.5


In [6]:
# Tính giá trị trung bình, lớn nhất và nhỏ nhất cho rượu mạnh
spirit_stats_by_continent = drink.groupby('continent')['spirit_servings'].agg(['mean', 'max', 'min'])
print(spirit_stats_by_continent)


                 mean  max  min
continent                      
AF          16.339623  152    0
AS          60.840909  326    0
EU         132.555556  373    0
OC          58.437500  254    0
SA         114.750000  302   25


In [7]:
# Sắp xếp dữ liệu theo 'beer_servings' (số lượng bia tiêu thụ) tăng dần
sorted_drink = drink.sort_values(by='beer_servings', ascending=False)

# In 5 quốc gia tiêu thụ bia nhiều nhất và ít nhất
print("5 quốc gia tiêu thụ bia nhiều nhất:")
print(sorted_drink.head(5))

print("5 quốc gia tiêu thụ bia ít nhất:")
print(sorted_drink.tail(5))


5 quốc gia tiêu thụ bia nhiều nhất:
            country  beer_servings  spirit_servings  wine_servings  \
117         Namibia            376                3              1   
45   Czech Republic            361              170            134   
62            Gabon            347               98             59   
65          Germany            346              117            175   
98        Lithuania            343              244             56   

     total_litres_of_pure_alcohol continent  
117                           6.8        AF  
45                           11.8        EU  
62                            8.9        AF  
65                           11.3        EU  
98                           12.9        EU  
5 quốc gia tiêu thụ bia ít nhất:
         country  beer_servings  spirit_servings  wine_servings  \
107   Mauritania              0                0              0   
158      Somalia              0                0              0   
111       Monaco              0  