# Import required libraries

In [6]:
import numpy as np
import pandas as pd 
from sklearn.preprocessing import PolynomialFeatures,LabelEncoder,MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

# Introduction to the dataset

<p dir=rtl style="direction: rtl;text-align: justify;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
مجموعه‌داده‌ی آموزشی مسئله دارای ۲۸۴۸ سطر و ۱۸ ستون است.
    ۱۷ ستون مربوط به متغیرهای مستقل و ستون آخر هم نشانگر متغیر وابسته مسئله است.
    <br>
    در جدول زیر توضیح هر ستون را مشاهده می‌کنید. هر سطر مربوط به اطلاعات یک کشور است که در یک سال مشخص رکورد شده است.
</font>
</p>

<center>
<div dir=rtl style="direction: rtl;line-height:200%;font-family:vazir;font-size:medium">
<font face="vazir" size=3>
    
|ستون|توضیحات|
|:------:|:---:|
|<code>Country</code>|کشور مورد مطالعه|
|<code>Year</code>|سال|
|<code>Status</code>|وضعیت توسعه‌یافتگی کشور|
|<code>Population</code>|جمعیت کشور|
|<code>Hepatitis B</code>|درصد افراد نهایتاً یک ساله‌ای که در برابر هپاتیت ب ایمن شده‌اند|
|<code>Measles</code>|تعداد موارد مبتلا به سرخک گزارش شده در هر ۱۰۰۰ نفر|
|<code>Polio</code>|درصد افراد نهایتاً یک ساله‌ای که در برابر فلج اطفال ایمن شده‌اند|
|<code>Diphtheria</code>|درصد افراد نهایتاً یک ساله‌ای که در برابر دیفتری ایمن شده‌اند|
|<code>HIV/AIDS</code>|تعداد فوتی‌های ناشی از ایدز افراد نهایتاً ۴ ساله‌ای که زنده به دنیا آمده‌اند در هر ۱۰۰۰ نفر|
|<code>infant deaths</code>|تعداد فوتی‌های نوزادان در هر ۱۰۰۰ نفر|
|<code>under-five deaths</code>|تعداد فوتی‌های افراد نهایتاً ۵ ساله در هر ۱۰۰۰ نفر|
|<code>Total expenditure</code>|نسبت هزینه‌های درمانی-بهداشتی دولت به کل هزینه‌های دولت بر حسب درصد|
|<code>GDP</code>|تولید ناخالص ملی بر حسب دلار امریکا|
|<code>BMI</code>|میانگین شاخص توده بدنی کل جمعیت کشور|
|<code>thinness 1-19 years</code>|میزان شیوع لاغری میان افراد نهایتاً ۱۹ ساله بر حسب درصد|
|<code>Alcohol</code>|میزان لیتر مصرف الکل بین افراد بیشتر از ۱۵ سال|
|<code>Schooling</code>|تعداد سالی که افراد تحصیل می‌کنند|
|<code>Life expectancy</code>|امید به زندگی یا متوسط طول عمر|
    
</font>
</div>
</center>


# Reading the dataset

In [7]:
train_data = pd.read_csv('../data/train.csv')
train_data

Unnamed: 0,Country,Year,Status,Population,Hepatitis B,Measles,Polio,Diphtheria,HIV/AIDS,infant deaths,under-five deaths,Total expenditure,GDP,BMI,thinness 1-19 years,Alcohol,Schooling,Life expectancy
0,Afghanistan,2015,Developing,33736494.0,65.0,1154,6.0,65.0,0.1,62,83,8.16,584.259210,19.1,17.2,0.01,10.1,65.0
1,Afghanistan,2014,Developing,327582.0,62.0,492,58.0,62.0,0.1,64,86,8.18,612.696514,18.6,17.5,0.01,10.0,59.9
2,Afghanistan,2013,Developing,31731688.0,64.0,430,62.0,64.0,0.1,66,89,8.13,631.744976,18.1,17.7,0.01,9.9,59.9
3,Afghanistan,2012,Developing,3696958.0,67.0,2787,67.0,67.0,0.1,69,93,8.52,669.959000,17.6,17.9,0.01,9.8,59.5
4,Afghanistan,2011,Developing,2978599.0,68.0,3013,68.0,68.0,0.1,71,97,7.87,63.537231,17.2,18.2,0.01,9.5,59.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2843,Zimbabwe,2004,Developing,12777511.0,68.0,31,67.0,65.0,33.6,27,42,7.13,454.366654,27.1,9.4,4.36,9.2,44.3
2844,Zimbabwe,2003,Developing,12633897.0,7.0,998,7.0,68.0,36.7,26,41,6.52,453.351155,26.7,9.8,4.06,9.5,44.5
2845,Zimbabwe,2002,Developing,125525.0,73.0,304,73.0,71.0,39.8,25,40,6.53,57.348340,26.3,1.2,4.43,10.0,44.8
2846,Zimbabwe,2001,Developing,12366165.0,76.0,529,76.0,75.0,42.1,25,39,6.16,548.587312,25.9,1.6,1.72,9.8,45.3


# Preprocessing

In [8]:
train_data.drop('Country', axis=1, inplace=True)
# Fill nan values with mean and median
col_means = train_data.mean()
col_medians = train_data.median()
for col in train_data.columns:
    if train_data[col].isnull().sum() > 0:
        train_data[col].fillna(col_means[col], inplace=True)
        train_data[col].fillna(col_medians[col], inplace=True)

# Map 'Status' column to 0 and 1
enc = LabelEncoder()
train_data['Status'] = enc.fit_transform(train_data['Status'])

# Normalize the data
scaler = MinMaxScaler()
X_train = scaler.fit_transform(train_data.drop('Life expectancy', axis=1))
y_train = train_data['Life expectancy']

  col_means = train_data.mean()
  col_medians = train_data.median()


# Modeling

In [10]:
poly_transformer = PolynomialFeatures(degree=2)
X_train_poly = poly_transformer.fit_transform(X_train)

In [11]:
model = LinearRegression(n_jobs=-1)
model.fit(X_train_poly, y_train)

# Evaluate model

In [12]:
y_pred = model.predict(X_train_poly)
r2_score(y_train, y_pred)

0.8851295065444407