In [102]:
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns 
import plotly.graph_objs as go
import plotly.figure_factory as ff
from plotly import tools
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot
import plotly.express as px
init_notebook_mode(connected=True)
import warnings
warnings.filterwarnings("ignore")

In [103]:
data_df = pd.read_csv("D:\\Kì 1 năm 4\\Nhập môn Khoa học dữ liệu\\BTL_Dự đoán covid\\country_vaccinations.csv")

In [104]:
country_vaccine = data_df.groupby(["country", "iso_code", "vaccines"])[['total_vaccinations', 
                                                                         'total_vaccinations_per_hundred',
                                                                         'daily_vaccinations',
                                                                         'daily_vaccinations_per_million',
                                                                         'people_vaccinated',
                                                                         'people_vaccinated_per_hundred',
                                                                         'people_fully_vaccinated', 
                                                                         'people_fully_vaccinated_per_hundred'
                                                                        ]].max().reset_index()
country_vaccine.columns = ["Country", "iso_code", "Vaccines", "Total vaccinations", "Percent", "Daily vaccinations", 
                                "Daily vaccinations per million", "People vaccinated", "People vaccinated per hundred",
                                'People fully vaccinated', 'People fully vaccinated percent']

In [105]:
vaccines = country_vaccine.Vaccines.unique()
for v in vaccines:
    countries = country_vaccine.loc[country_vaccine.Vaccines==v, 'Country'].values
    print(f"Vaccines: {v}: \nCountries: {list(countries)}\n")

Vaccines: BBIBP-CorV, Oxford/AstraZeneca, Pfizer/BioNTech: 
Countries: ['Afghanistan']

Vaccines: Oxford/AstraZeneca, Pfizer/BioNTech, Sinovac, Sputnik V: 
Countries: ['Albania', 'Bosnia and Herzegovina', 'Philippines', 'Tunisia']

Vaccines: Oxford/AstraZeneca, Sputnik V: 
Countries: ['Algeria', 'Ghana', 'Guyana', 'Kenya', 'Nicaragua']

Vaccines: Oxford/AstraZeneca, Pfizer/BioNTech: 
Countries: ['Andorra', 'Australia', 'Cape Verde', 'Cayman Islands', 'Costa Rica', 'Isle of Man', 'Oman', 'Panama', 'Saudi Arabia', 'Slovenia', 'Sweden']

Vaccines: Oxford/AstraZeneca: 
Countries: ['Angola', 'Anguilla', 'Antigua and Barbuda', 'Bahamas', 'Bangladesh', 'Barbados', 'Bhutan', 'Botswana', 'British Virgin Islands', 'Burkina Faso', 'Cook Islands', "Cote d'Ivoire", 'Democratic Republic of Congo', 'Dominica', 'Eswatini', 'Ethiopia', 'Falkland Islands', 'Fiji', 'French Polynesia', 'Georgia', 'Grenada', 'Jamaica', 'Kosovo', 'Lesotho', 'Liberia', 'Madagascar', 'Malawi', 'Mali', 'Montserrat', 'Myanmar',

In [106]:
fig = px.choropleth(locations=country_vaccine['Country'], 
                    locationmode="country names",
                    color=country_vaccine['Vaccines'],
                    title="Các quốc gia sử dụng từng loại vắc xin (màu sắc khác nhau cho từng loại vắc xin)",
                    height = 800
                   )
fig.update_layout({'legend_orientation':'v'})
fig.update_layout({'legend_title':'Vaccine scheme'})
fig.show()

In [107]:
vaccine = data_df.groupby(["vaccines"])[['total_vaccinations', 'total_vaccinations_per_hundred',
                                           'daily_vaccinations', 'daily_vaccinations_per_million']].max().reset_index()
vaccine.columns = ["Vaccines", "Total vaccinations", "Percent", "Daily vaccinations", 
                           "Daily vaccinations per million"]
def draw_trace_bar_vaccine(data, feature, title, xlab, ylab,color='Blue'):
    data = data.sort_values(feature, ascending=False)
    trace = go.Bar(
            x = data['Vaccines'],
            y = data[feature],
            marker=dict(color=color),
            text=data['Vaccines']
        )
    data = [trace]

    layout = dict(title = title,
              xaxis = dict(title = xlab, showticklabels=True, tickangle=45, 
                           zeroline=True, zerolinewidth=1, zerolinecolor='grey',
                           showline=True, linewidth=2, linecolor='black', mirror=True,
                          tickfont=dict(
                            size=10,
                            color='black'),), 
              yaxis = dict(title = ylab, gridcolor='lightgrey', zeroline=True, zerolinewidth=1, zerolinecolor='grey',
                          showline=True, linewidth=2, linecolor='black', mirror=True),
              plot_bgcolor = 'rgba(0, 0, 0, 0)', paper_bgcolor = 'rgba(0, 0, 0, 0)',
              hovermode = 'closest',
              height = 800
             )
    fig = dict(data = data, layout = layout)
    iplot(fig, filename='draw_trace')

In [108]:
draw_trace_bar_vaccine(vaccine, 'Total vaccinations', 'Total per vaccine scheme', 'Vaccine', 'Vaccination total', "darkmagenta" )

In [109]:
fig = px.treemap(country_vaccine, path = ['Vaccines', 'Country'], values = 'Total vaccinations',
                title="Tổng số tiêm chủng mỗi quốc gia, được nhóm theo chương trình vắc xin")
fig.show()

In [110]:
fig = px.treemap(country_vaccine, path = ['Vaccines', 'Country'], values = 'Daily vaccinations',
                title="Số lượng tiêm chủng hàng ngày ở mỗi quốc gia, được nhóm theo chương trình vắc xin")
fig.show()

In [111]:
fig = px.treemap(country_vaccine, path = ['Vaccines', 'Country'], values = 'People vaccinated',
                title="People vaccinated per country, grouped by vaccine scheme")
fig.show()

In [112]:
def draw_trace_bar(data, feature, title, xlab, ylab,color='Blue'):
    data = data.sort_values(feature, ascending=False)
    trace = go.Bar(
            x = data['Country'],
            y = data[feature],
            marker=dict(color=color),
            text=data['Country']
        )
    data = [trace]

    layout = dict(title = title,
              xaxis = dict(title = xlab, showticklabels=True, tickangle=45, 
                           zeroline=True, zerolinewidth=1, zerolinecolor='grey',
                           showline=True, linewidth=2, linecolor='black', mirror=True,
                          tickfont=dict(
                            size=10,
                            color='black'),), 
              yaxis = dict(title = ylab, gridcolor='lightgrey', zeroline=True, zerolinewidth=1, zerolinecolor='grey',
                          showline=True, linewidth=2, linecolor='black', mirror=True),
              plot_bgcolor = 'rgba(0, 0, 0, 0)', paper_bgcolor = 'rgba(0, 0, 0, 0)',
              hovermode = 'closest'
             )
    fig = dict(data = data, layout = layout)
    iplot(fig, filename='draw_trace')


In [113]:
draw_trace_bar(country_vaccine, 'Total vaccinations', 'Vaccination total per country', 'Country', 'Vaccination total', "Darkgreen" )

In [114]:
draw_trace_bar(country_vaccine, 'Percent', 'Vaccination percent per country', 'Country', 'Vaccination percent' )

In [115]:
draw_trace_bar(country_vaccine, 'Daily vaccinations', 'Daily vaccinations per country', 'Country', 'Daily vaccinations', "red" )

In [116]:
draw_trace_bar(country_vaccine, 'Daily vaccinations per million', 'Daily vaccinations per million per country', 'Country',\
               'Daily vaccinations per million', "magenta" )

In [117]:
draw_trace_bar(country_vaccine, 'People vaccinated', 'People vaccinated per country', 'Country',\
               'People vaccinated', "lightblue" )

In [118]:
draw_trace_bar(country_vaccine, 'People vaccinated per hundred', 'People vaccinated per hundred per country', 'Country',\
               'People vaccinated per hundred', "orange" )

In [119]:
def plot_custom_scatter(df, x, y, size, color, hover_name, title):
    fig = px.scatter(df, x=x, y=y, size=size, color=color,
               hover_name=hover_name, size_max=80, title = title)
    fig.update_layout({'legend_orientation':'h'})
    fig.update_layout(legend=dict(yanchor="top", y=-0.2))
    fig.update_layout({'legend_title':'Vaccine scheme'})
    fig.update_layout({'plot_bgcolor': 'rgba(0, 0, 0, 0)','paper_bgcolor': 'rgba(0, 0, 0, 0)'})
    fig.update_xaxes(showline=True, linewidth=2, linecolor='black', mirror=True)
    fig.update_yaxes(showline=True, linewidth=2, linecolor='black', mirror=True)
    fig.update_xaxes(zeroline=True, zerolinewidth=1, zerolinecolor='grey')
    fig.update_yaxes(zeroline=True, zerolinewidth=1, zerolinecolor='grey')
    fig.update_xaxes(showgrid=True, gridwidth=1, gridcolor='lightgrey')
    fig.update_yaxes(showgrid=True, gridwidth=1, gridcolor='lightgrey')
    fig.show()    

In [120]:
plot_custom_scatter(country_vaccine, x="Total vaccinations", y="Percent", size="Total vaccinations", color="Vaccines",
           hover_name="Country", title = "Vaccinations (Percent vs. total), grouped per country and vaccines")

In [121]:
plot_custom_scatter(country_vaccine, x="Total vaccinations", y="Daily vaccinations", size="Total vaccinations", color="Vaccines",
           hover_name="Country", title = "Vaccinations (Total vs. Daily) grouped per country and vaccines")

In [122]:
plot_custom_scatter(country_vaccine, x="Percent", y="Daily vaccinations per million", size="Total vaccinations", color="Vaccines",
           hover_name="Country", title = "Vaccinations (Daily / million vs. Percent) grouped per country and vaccines")

In [123]:
trace = go.Choropleth(
            locations = country_vaccine['Country'],
            locationmode='country names',
            z = country_vaccine['Total vaccinations'],
            text = country_vaccine['Country'],
            autocolorscale =False,
            reversescale = True,
            colorscale = 'viridis',
            marker = dict(
                line = dict(
                    color = 'rgb(0,0,0)',
                    width = 0.5)
            ),
            colorbar = dict(
                title = 'Total vaccinations',
                tickprefix = '')
        )

data = [trace]
layout = go.Layout(
    title = 'Total vaccinations per country',
    geo = dict(
        showframe = True,
        showlakes = False,
        showcoastlines = True,
        projection = dict(
            type = 'natural earth'
        )
    )
)

fig = dict( data=data, layout=layout )
iplot(fig)

In [124]:
trace = go.Choropleth(
            locations = country_vaccine['Country'],
            locationmode='country names',
            z = country_vaccine['Percent'],
            text = country_vaccine['Country'],
            autocolorscale =False,
            reversescale = True,
            colorscale = 'viridis',
            marker = dict(
                line = dict(
                    color = 'rgb(0,0,0)',
                    width = 0.5)
            ),
            colorbar = dict(
                title = 'Percent',
                tickprefix = '')
        )

data = [trace]
layout = go.Layout(
    title = 'Total vaccinations per hundred per country',
    geo = dict(
        showframe = True,
        showlakes = False,
        showcoastlines = True,
        projection = dict(
            type = 'natural earth'
        )
    )
)

fig = dict( data=data, layout=layout )
iplot(fig)

In [125]:
trace = go.Choropleth(
            locations = country_vaccine['Country'],
            locationmode='country names',
            z = country_vaccine['Daily vaccinations'],
            text = country_vaccine['Country'],
            autocolorscale =False,
            reversescale = True,
            colorscale = 'viridis',
            marker = dict(
                line = dict(
                    color = 'rgb(0,0,0)',
                    width = 0.5)
            ),
            colorbar = dict(
                title = 'Daily vaccinations',
                tickprefix = '')
        )

data = [trace]
layout = go.Layout(
    title = 'Daily vaccinations per country',
    geo = dict(
        showframe = True,
        showlakes = False,
        showcoastlines = True,
        projection = dict(
            type = 'natural earth'
        )
    )
)

fig = dict( data=data, layout=layout )
iplot(fig)

In [126]:
trace = go.Choropleth(
            locations = country_vaccine['Country'],
            locationmode='country names',
            z = country_vaccine['Daily vaccinations per million'],
            text = country_vaccine['Country'],
            autocolorscale =False,
            reversescale = True,
            colorscale = 'viridis',
            marker = dict(
                line = dict(
                    color = 'rgb(0,0,0)',
                    width = 0.5)
            ),
            colorbar = dict(
                title = 'Daily vaccinations per million',
                tickprefix = '')
        )

data = [trace]
layout = go.Layout(
    title = 'Daily vaccinations per million per country',
    geo = dict(
        showframe = True,
        showlakes = False,
        showcoastlines = True,
        projection = dict(
            type = 'natural earth'
        )
    )
)

fig = dict( data=data, layout=layout )
iplot(fig)

In [127]:
trace = go.Choropleth(
            locations = country_vaccine['Country'],
            locationmode='country names',
            z = country_vaccine['People vaccinated'],
            text = country_vaccine['Country'],
            autocolorscale =False,
            reversescale = True,
            colorscale = 'viridis',
            marker = dict(
                line = dict(
                    color = 'rgb(0,0,0)',
                    width = 0.5)
            ),
            colorbar = dict(
                title = 'People vaccinated',
                tickprefix = '')
        )

data = [trace]
layout = go.Layout(
    title = 'People vaccinated per country',
    geo = dict(
        showframe = True,
        showlakes = False,
        showcoastlines = True,
        projection = dict(
            type = 'natural earth'
        )
    )
)

fig = dict( data=data, layout=layout )
iplot(fig)

In [128]:
trace = go.Choropleth(
            locations = country_vaccine['Country'],
            locationmode='country names',
            z = country_vaccine['People vaccinated per hundred'],
            text = country_vaccine['Country'],
            autocolorscale =False,
            reversescale = True,
            colorscale = 'viridis',
            marker = dict(
                line = dict(
                    color = 'rgb(0,0,0)',
                    width = 0.5)
            ),
            colorbar = dict(
                title = 'People vaccinated per hundred',
                tickprefix = '')
        )

data = [trace]
layout = go.Layout(
    title = 'People vaccinated per hundred per country',
    geo = dict(
        showframe = True,
        showlakes = False,
        showcoastlines = True,
        projection = dict(
            type = 'natural earth'
        )
    )
)

fig = dict( data=data, layout=layout )
iplot(fig)

In [129]:
country_vaccine_time = data_df[["country", "vaccines", "date", 'total_vaccinations', 
                                'total_vaccinations_per_hundred',  'people_vaccinated','people_vaccinated_per_hundred',
                               'daily_vaccinations','daily_vaccinations_per_million', 
                                'people_fully_vaccinated', 'people_fully_vaccinated_per_hundred'
                               ]].dropna()
country_vaccine_time.columns = ["Country", "Vaccines", "Date", 'Total vaccinations', 'Percent', 'People vaccinated', 'People percent',
                               "Daily vaccinations", "Daily vaccinations per million", 
                                'People fully vaccinated', 'People fully vaccinated percent']

In [130]:
countries = ['Austria', 'Belgium', 'Bulgaria','Croatia', 'Cyprus', 'Czechia', 'Denmark', 'Estonia', 'Finland', 'France', 'Germany',
             'Greece', 'Hungary', 'Ireland', 'Israel', 'Italy', 'Latvia','Lithuania', 'Luxembourg', 'Malta',
             'Netherlands', 'Norway','Poland', 'Portugal', 'Romania', 'Serbia', 'Slovakia', 'Spain', 'Sweden',
             'United Kingdom', 'United States', 'China']

In [131]:
def plot_time_variation_countries_group(data_df, feature, title, countries):
    data = []
    for country in countries:
        df = data_df.loc[data_df.Country==country]
        trace = go.Scatter(
            x = df['Date'],y = df[feature],
            name=country,
            mode = "markers+lines",
            marker_line_width = 1,
            marker_size = 8,
            marker_symbol = 'circle',
            text=df['Country'])
        data.append(trace)
    layout = dict(title = title,
          xaxis = dict(title = 'Date', showticklabels=True,zeroline=True, zerolinewidth=1, zerolinecolor='grey',
                       showline=True, linewidth=2, linecolor='black', mirror=True,
                       tickfont=dict(size=10,color='darkblue'),), 
          yaxis = dict(title = feature, gridcolor='lightgrey', zeroline=True, zerolinewidth=1, zerolinecolor='grey',
                       showline=True, linewidth=2, linecolor='black', mirror=True, type="log"),
                       plot_bgcolor = 'rgba(0, 0, 0, 0)', paper_bgcolor = 'rgba(0, 0, 0, 0)',
         hovermode = 'x', 
         height=800
         )
    fig = dict(data=data, layout=layout)
    iplot(fig, filename='all_countries')

In [132]:
plot_time_variation_countries_group(country_vaccine_time, 'Percent', 'Total vaccination percent evolution (selected countries, log scale)', countries)

In [133]:
plot_time_variation_countries_group(country_vaccine_time, 'Total vaccinations', 'Total vaccination evolution (selected countries, log scale)', countries)

In [134]:
plot_time_variation_countries_group(country_vaccine_time, 'People percent', 'People vaccinated percent evolution (selected countries, log scale)', countries)

In [135]:
plot_time_variation_countries_group(country_vaccine_time, 'People vaccinated', 'People vaccinated evolution (selected countries, log scale)', countries)

In [136]:
plot_time_variation_countries_group(country_vaccine_time, 'Daily vaccinations', 'Daily vaccinations evolution (selected countries, log scale)', countries)

In [137]:
plot_time_variation_countries_group(country_vaccine_time, 'Daily vaccinations per million', 'Daily vaccinations per million evolution (selected countries, log scale)', countries)

In [138]:
plot_time_variation_countries_group(country_vaccine_time, 'People fully vaccinated percent', 'People fully vaccinated percent evolution (selected countries, log scale)', countries)

In [139]:
plot_time_variation_countries_group(country_vaccine_time, 'People fully vaccinated', 'People fully vaccinated evolution (selected countries, log scale)', countries)

In [140]:
#Thuật toán rừng cây

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

# Đọc dữ liệu từ file CSV
data = pd.read_csv('country_vaccinations.csv')

# Chọn các cột quan trọng để dự đoán
selected_columns = ['date', 'country', 'vaccines', 'daily_vaccinations']

# Lọc dữ liệu
data = data[selected_columns]

# Xử lý dữ liệu ngày thành dạng số
data['date'] = pd.to_datetime(data['date'])
data['date'] = data['date'].dt.dayofyear

# Xử lý dữ liệu văn bản (loại vaccine và quốc gia) thành dạng số
le = LabelEncoder()
data['vaccines'] = le.fit_transform(data['vaccines'])
data['country'] = le.fit_transform(data['country'])

# Loại bỏ các dòng có giá trị thiếu
data = data.dropna()

# Tách dữ liệu thành features (X) và target (y)
X = data.drop('daily_vaccinations', axis=1)
y = data['daily_vaccinations']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Xây dựng pipeline cho việc xử lý dữ liệu và huấn luyện mô hình
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('regressor', RandomForestRegressor(n_estimators=100, random_state=42))
])

# Huấn luyện mô hình
pipeline.fit(X_train, y_train)

# Dự đoán số liều tiêm hàng ngày cho từng quốc gia
predictions = pipeline.predict(X_test)

# Đánh giá độ chính xác bằng hệ số xác định R^2
r2 = r2_score(y_test, predictions)
print(f'R-squared: {r2}')

# Tạo DataFrame mới với tên quốc gia và giá trị dự đoán
result_df = pd.DataFrame({'Country': le.inverse_transform(X_test['country']), 'Actual': y_test, 'Predicted': predictions})

# Làm tròn giá trị dự đoán và thực tế thành số nguyên
result_df['Predicted'] = result_df['Predicted'].round().astype(int)
result_df['Actual'] = result_df['Actual'].round().astype(int)

# Tính phần trăm chính xác và làm tròn cột mới về 4 chữ số thập phân
accuracy_percentage = r2 * 100
result_df['Accuracy (%)'] = round(accuracy_percentage, 4)

# Nhóm theo tên quốc gia và tính giá trị trung bình
result_df_grouped = result_df.groupby('Country').mean().reset_index()

# Ghi kết quả vào file CSV
result_df_grouped.to_csv('final_random_forest.csv', index=False)

# Làm tròn giá trị của 'Actual' và 'Predicted' trong DataFrame result_df_grouped
result_df_grouped[['Actual', 'Predicted']] = result_df_grouped[['Actual', 'Predicted']].round().astype(int)

# Hiển thị DataFrame mới
print(result_df_grouped)

R-squared: 0.9986518825046955
               Country  Actual  Predicted  Accuracy (%)
0          Afghanistan    6091       6087       99.8652
1              Albania    6134       6039       99.8652
2              Algeria   18798      18758       99.8652
3              Andorra     361        362       99.8652
4               Angola   13354      12934       99.8652
..                 ...     ...        ...           ...
208              Wales   22790      23375       99.8652
209  Wallis and Futuna      89         96       99.8652
210              Yemen    5143       5340       99.8652
211             Zambia    2623       2723       99.8652
212           Zimbabwe    9072       9264       99.8652

[213 rows x 4 columns]


In [141]:
#Thuật toán K láng giềng

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsRegressor  
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

# Đọc dữ liệu từ file CSV
data = pd.read_csv('country_vaccinations.csv')

# Chọn các cột quan trọng để dự đoán
selected_columns = ['date', 'country', 'vaccines', 'daily_vaccinations']

# Lọc dữ liệu
data = data[selected_columns]

# Xử lý dữ liệu ngày thành dạng số
data['date'] = pd.to_datetime(data['date'])
data['date'] = data['date'].dt.dayofyear

# Xử lý dữ liệu văn bản (loại vaccine và quốc gia) thành dạng số
le = LabelEncoder()
data['vaccines'] = le.fit_transform(data['vaccines'])
data['country'] = le.fit_transform(data['country'])

# Loại bỏ các dòng có giá trị thiếu
data = data.dropna()

# Tách dữ liệu thành features (X) và target (y)
X = data.drop('daily_vaccinations', axis=1)
y = data['daily_vaccinations']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Xây dựng pipeline cho việc xử lý dữ liệu và huấn luyện mô hình
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('regressor', KNeighborsRegressor(n_neighbors=5))  # Thay đổi số lân cận tại đây (n_neighbors)
])

# Huấn luyện mô hình
pipeline.fit(X_train, y_train)

# Dự đoán số liều tiêm hàng ngày cho từng quốc gia
predictions = pipeline.predict(X_test)

# Đánh giá độ chính xác bằng hệ số xác định R^2
r2 = r2_score(y_test, predictions)
print(f'R-squared: {r2}')

# Tạo DataFrame mới với tên quốc gia và giá trị dự đoán
result_df = pd.DataFrame({'Country': le.inverse_transform(X_test['country']), 'Actual': y_test, 'Predicted': predictions})

# Làm tròn giá trị dự đoán và thực tế thành số nguyên
result_df['Predicted'] = result_df['Predicted'].round().astype(int)
result_df['Actual'] = result_df['Actual'].round().astype(int)

# Tính phần trăm chính xác và làm tròn cột mới về 4 chữ số thập phân
accuracy_percentage = r2 * 100
result_df['Accuracy (%)'] = round(accuracy_percentage, 4)

# Nhóm theo tên quốc gia và tính giá trị trung bình
result_df_grouped = result_df.groupby('Country').mean().reset_index()

# Ghi kết quả vào file CSV
result_df_grouped.to_csv('final_knn.csv', index=False)

# Làm tròn giá trị của 'Actual' và 'Predicted' trong DataFrame result_df_grouped
result_df_grouped[['Actual', 'Predicted']] = result_df_grouped[['Actual', 'Predicted']].round().astype(int)

# Hiển thị DataFrame mới
print(result_df_grouped)


R-squared: 0.8203338712194677
               Country  Actual  Predicted  Accuracy (%)
0          Afghanistan    6091       6081       82.0334
1              Albania    6134       6014       82.0334
2              Algeria   18798      18820       82.0334
3              Andorra     361       4905       82.0334
4               Angola   13354       5198       82.0334
..                 ...     ...        ...           ...
208              Wales   22790      21364       82.0334
209  Wallis and Futuna      89       4899       82.0334
210              Yemen    5143       5647       82.0334
211             Zambia    2623       2727       82.0334
212           Zimbabwe    9072       9213       82.0334

[213 rows x 4 columns]


In [142]:
#Thuật toán cây quyết định

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor  
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

# Đọc dữ liệu từ file CSV
data = pd.read_csv('country_vaccinations.csv')

# Chọn các cột quan trọng để dự đoán
selected_columns = ['date', 'country', 'vaccines', 'daily_vaccinations']

# Lọc dữ liệu
data = data[selected_columns]

# Xử lý dữ liệu ngày thành dạng số
data['date'] = pd.to_datetime(data['date'])
data['date'] = data['date'].dt.dayofyear

# Xử lý dữ liệu văn bản (loại vaccine và quốc gia) thành dạng số
le = LabelEncoder()
data['vaccines'] = le.fit_transform(data['vaccines'])
data['country'] = le.fit_transform(data['country'])

# Loại bỏ các dòng có giá trị thiếu
data = data.dropna()

# Tách dữ liệu thành features (X) và target (y)
X = data.drop('daily_vaccinations', axis=1)
y = data['daily_vaccinations']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Xây dựng pipeline cho việc xử lý dữ liệu và huấn luyện mô hình
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('regressor', DecisionTreeRegressor())  # Thay đổi thành cây quyết định
])

# Huấn luyện mô hình
pipeline.fit(X_train, y_train)

# Dự đoán số liều tiêm hàng ngày cho từng quốc gia
predictions = pipeline.predict(X_test)

# Đánh giá độ chính xác bằng hệ số xác định R^2
r2 = r2_score(y_test, predictions)
print(f'R-squared: {r2}')

# Tạo DataFrame mới với tên quốc gia và giá trị dự đoán
result_df = pd.DataFrame({'Country': le.inverse_transform(X_test['country']), 'Actual': y_test, 'Predicted': predictions})

# Làm tròn giá trị dự đoán và thực tế thành số nguyên
result_df['Predicted'] = result_df['Predicted'].round().astype(int)
result_df['Actual'] = result_df['Actual'].round().astype(int)

# Tính phần trăm chính xác và làm tròn cột mới về 4 chữ số thập phân
accuracy_percentage = r2 * 100
result_df['Accuracy (%)'] = round(accuracy_percentage, 4)

# Nhóm theo tên quốc gia và tính giá trị trung bình
result_df_grouped = result_df.groupby('Country').mean().reset_index()

# Ghi kết quả vào file CSV
result_df_grouped.to_csv('final_decision_tree.csv', index=False)

# Làm tròn giá trị của 'Actual' và 'Predicted' trong DataFrame result_df_grouped
result_df_grouped[['Actual', 'Predicted']] = result_df_grouped[['Actual', 'Predicted']].round().astype(int)

# Hiển thị DataFrame mới
print(result_df_grouped)


R-squared: 0.9971759411679119
               Country  Actual  Predicted  Accuracy (%)
0          Afghanistan    6091       6104       99.7176
1              Albania    6134       6041       99.7176
2              Algeria   18798      18714       99.7176
3              Andorra     361        351       99.7176
4               Angola   13354      12752       99.7176
..                 ...     ...        ...           ...
208              Wales   22790      22527       99.7176
209  Wallis and Futuna      89         96       99.7176
210              Yemen    5143       5282       99.7176
211             Zambia    2623       2788       99.7176
212           Zimbabwe    9072       9296       99.7176

[213 rows x 4 columns]


In [1]:
#Hồi quy tuyến tính

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder

# Đọc dữ liệu từ file CSV
data = pd.read_csv('country_vaccinations.csv')

# Chọn các cột quan trọng để dự đoán
selected_columns = ['country', 'total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'daily_vaccinations_raw', 'daily_vaccinations', 'total_vaccinations_per_hundred', 'people_vaccinated_per_hundred', 'people_fully_vaccinated_per_hundred', 'daily_vaccinations_per_million']

# Lọc dữ liệu
data = data[selected_columns]

# Loại bỏ các dòng có giá trị thiếu trong các cột số
numeric_columns = ['total_vaccinations', 'people_vaccinated', 'people_fully_vaccinated', 'daily_vaccinations_raw', 'daily_vaccinations', 'total_vaccinations_per_hundred', 'people_vaccinated_per_hundred', 'people_fully_vaccinated_per_hundred', 'daily_vaccinations_per_million']
data[numeric_columns] = data[numeric_columns].apply(pd.to_numeric, errors='coerce')
data = data.dropna(subset=numeric_columns)

# Tách dữ liệu thành features (X) và target (y)
X = data.drop('daily_vaccinations', axis=1)
y = data['daily_vaccinations']

# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Xây dựng pipeline cho việc xử lý dữ liệu và huấn luyện mô hình
numeric_features = X.select_dtypes(include=['number']).columns
categorical_features = ['country']

numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean'))
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('regressor', LinearRegression())
])

# Huấn luyện mô hình
pipeline.fit(X_train, y_train)

# Dự đoán số liều tiêm hàng ngày
predictions = pipeline.predict(X_test)

# Đánh giá độ chính xác bằng hệ số xác định R^2
r2 = r2_score(y_test, predictions)
print(f'R-squared: {r2}')

# Tạo DataFrame mới với giá trị thực, giá trị dự đoán và tên quốc gia
result_df = pd.DataFrame({'Country': X_test['country'], 'Actual': y_test, 'Predicted': predictions})

# Làm tròn giá trị dự đoán và thực tế thành số nguyên
result_df['Predicted'] = result_df['Predicted'].round().astype(int)
result_df['Actual'] = result_df['Actual'].round().astype(int)

# Tính phần trăm chính xác và làm tròn cột mới về 4 chữ số thập phân
accuracy_percentage = r2 * 100
result_df['Accuracy (%)'] = round(accuracy_percentage, 4)

# Hiển thị DataFrame mới
print(result_df)
result_df.to_csv('final_LinearRegression.csv', index=False)

R-squared: 0.9134297719245007
            Country  Actual  Predicted  Accuracy (%)
21961  South Africa    2657       9467        91.343
12968        Latvia     806       4048        91.343
20672      Scotland   48033      58245        91.343
14224      Malaysia   25667      32382        91.343
18483          Peru   19985      20659        91.343
...             ...     ...        ...           ...
20496      Scotland    5265       7491        91.343
13221       Lebanon   17115      11364        91.343
12996        Latvia    3608       9422        91.343
13174       Lebanon    7101      14798        91.343
18681        Poland   59495      76397        91.343

[1901 rows x 4 columns]
