# Data Preprocessing

## Importing the libraries

In [3]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [3]:
#%pip install matplotlib

## Importing Dataset

In [5]:
data_set = pd.read_csv('Covid_data.csv')
X = data_set.iloc[: , :-1].values
y = data_set.iloc[: , -1].values

In [5]:
X

array([[10.0, 'Normal', 'no', 'no', 97.0],
       [12.0, 'Normal', 'no', 'no', 97.0],
       [15.0, 'Normal', 'no', 'no', 94.0],
       [10.0, 'Normal', 'no', 'no', 97.0],
       [13.0, 'Moderate', 'no', 'no', 94.0],
       [12.0, 'Moderate', 'no', 'no', 97.0],
       [13.0, 'Moderate', 'no', 'no', 93.0],
       [15.0, 'Moderate', 'no', 'no', 92.0],
       [18.0, 'Moderate', 'no', 'no', 66.0],
       [19.0, 'Normal', 'no', 'no', 92.0],
       [20.0, 'Normal', 'no', 'no', 93.0],
       [17.0, 'Normal', 'no', 'no', 93.0],
       [16.0, 'Normal', 'no', 'no', 92.0],
       [18.0, 'Normal', 'no', 'no', 93.0],
       [20.0, 'Normal', 'no', 'no', 92.0],
       [25.0, 'Moderate', 'no', 'no', 93.0],
       [24.0, 'Moderate', 'no', 'no', 92.0],
       [26.0, 'High', 'no', 'no', 94.0],
       [28.0, 'Normal', 'no', 'no', 99.0],
       [29.0, 'Normal', 'no', 'no', 93.0],
       [30.0, 'Moderate', 'no', 'no', 62.0],
       [19.0, 'Normal', 'no', 'no', 89.0],
       [25.0, 'Normal', 'no', 'yes', 86.




## Handling Missing Data

In [1]:
#%pip install scikit-learn

In [6]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X[: ,0:1])
X[: ,0:1] = imputer.transform(X[: ,0:1])

In [9]:
imputer.fit(X[: , 4:5])
X[: , 4:5] = imputer.transform(X[: , 4:5])

In [10]:
X

array([[10.0, 'Normal', 'no', 'no', 97.0],
       [12.0, 'Normal', 'no', 'no', 97.0],
       [15.0, 'Normal', 'no', 'no', 94.0],
       [10.0, 'Normal', 'no', 'no', 97.0],
       [13.0, 'Moderate', 'no', 'no', 94.0],
       [12.0, 'Moderate', 'no', 'no', 97.0],
       [13.0, 'Moderate', 'no', 'no', 93.0],
       [15.0, 'Moderate', 'no', 'no', 92.0],
       [18.0, 'Moderate', 'no', 'no', 66.0],
       [19.0, 'Normal', 'no', 'no', 92.0],
       [20.0, 'Normal', 'no', 'no', 93.0],
       [17.0, 'Normal', 'no', 'no', 93.0],
       [16.0, 'Normal', 'no', 'no', 92.0],
       [18.0, 'Normal', 'no', 'no', 93.0],
       [20.0, 'Normal', 'no', 'no', 92.0],
       [25.0, 'Moderate', 'no', 'no', 93.0],
       [24.0, 'Moderate', 'no', 'no', 92.0],
       [26.0, 'High', 'no', 'no', 94.0],
       [28.0, 'Normal', 'no', 'no', 99.0],
       [29.0, 'Normal', 'no', 'no', 93.0],
       [30.0, 'Moderate', 'no', 'no', 62.0],
       [19.0, 'Normal', 'no', 'no', 89.0],
       [25.0, 'Normal', 'no', 'yes', 86.

## Encoding Categorical Data

### Encoding independent variables

In [11]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

In [14]:
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

In [15]:
X

array([[0.0, 0.0, 1.0, 10.0, 'no', 'no', 97.0],
       [0.0, 0.0, 1.0, 12.0, 'no', 'no', 97.0],
       [0.0, 0.0, 1.0, 15.0, 'no', 'no', 94.0],
       [0.0, 0.0, 1.0, 10.0, 'no', 'no', 97.0],
       [0.0, 1.0, 0.0, 13.0, 'no', 'no', 94.0],
       [0.0, 1.0, 0.0, 12.0, 'no', 'no', 97.0],
       [0.0, 1.0, 0.0, 13.0, 'no', 'no', 93.0],
       [0.0, 1.0, 0.0, 15.0, 'no', 'no', 92.0],
       [0.0, 1.0, 0.0, 18.0, 'no', 'no', 66.0],
       [0.0, 0.0, 1.0, 19.0, 'no', 'no', 92.0],
       [0.0, 0.0, 1.0, 20.0, 'no', 'no', 93.0],
       [0.0, 0.0, 1.0, 17.0, 'no', 'no', 93.0],
       [0.0, 0.0, 1.0, 16.0, 'no', 'no', 92.0],
       [0.0, 0.0, 1.0, 18.0, 'no', 'no', 93.0],
       [0.0, 0.0, 1.0, 20.0, 'no', 'no', 92.0],
       [0.0, 1.0, 0.0, 25.0, 'no', 'no', 93.0],
       [0.0, 1.0, 0.0, 24.0, 'no', 'no', 92.0],
       [1.0, 0.0, 0.0, 26.0, 'no', 'no', 94.0],
       [0.0, 0.0, 1.0, 28.0, 'no', 'no', 99.0],
       [0.0, 0.0, 1.0, 29.0, 'no', 'no', 93.0],
       [0.0, 1.0, 0.0, 30.0, 'no', 'no',

### Encoding dependent variables

## Splitting data into Test set & Training Set


## Feature Scaling