# Data Preprocessing

## Importing the libraries

In [6]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Importing Dataset

In [7]:
data_set = pd.read_csv('Covid.csv')
X = data_set.iloc[:, :-1].values
y = data_set.iloc[:, -1].values

In [8]:
print(X)

[[10.0 'Normal' 'no' ... nan nan nan]
 [12.0 'Normal' 'no' ... nan nan nan]
 [15.0 'Normal' 'no' ... nan nan nan]
 ...
 [nan nan nan ... nan nan nan]
 [nan nan nan ... nan nan nan]
 [nan nan nan ... nan nan nan]]


In [9]:
print(y)

[nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan nan
 nan nan nan nan nan nan nan nan nan nan nan nan na




## Handling Missing Data

In [10]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values = np.nan, strategy = 'mean')

imputer.fit(X[:, 0:1])
X[: , 0:1] = imputer.transform(X[:, 0:1])

In [26]:
print(X)

[[10.0 'Normal' 'no' 'no' 97.0]
 [12.0 'Normal' 'no' 'no' 97.0]
 [15.0 'Normal' 'no' 'no' 94.0]
 [10.0 'Normal' 'no' 'no' 97.0]
 [13.0 'Moderate' 'no' 'no' 94.0]
 [12.0 'Moderate' 'no' 'no' 97.0]
 [13.0 'Moderate' 'no' 'no' 93.0]
 [15.0 'Moderate' 'no' 'no' 92.0]
 [18.0 'Moderate' 'no' 'no' 66.0]
 [19.0 'Normal' 'no' 'no' 92.0]
 [20.0 'Normal' 'no' 'no' 93.0]
 [17.0 'Normal' 'no' 'no' 93.0]
 [16.0 'Normal' 'no' 'no' 92.0]
 [18.0 'Normal' 'no' 'no' 93.0]
 [20.0 'Normal' 'no' 'no' 92.0]
 [25.0 'Moderate' 'no' 'no' 93.0]
 [24.0 'Moderate' 'no' 'no' 92.0]
 [26.0 'High' 'no' 'no' 94.0]
 [28.0 'Normal' 'no' 'no' 99.0]
 [29.0 'Normal' 'no' 'no' 93.0]
 [30.0 'Moderate' 'no' 'no' 62.0]
 [19.0 'Normal' 'no' 'no' 89.0]
 [25.0 'Normal' 'no' 'yes' 86.0]
 [26.0 'Normal' 'no' 'no' nan]
 [28.0 'Normal' 'no' 'no' 89.0]
 [30.0 'Moderate' 'yes' 'no' 86.0]
 [35.0 'Moderate' 'no' 'no' 89.0]
 [32.0 'Moderate' 'no' 'yes' 84.0]
 [45.130434782608695 'Moderate' 'yes' 'no' 90.0]
 [32.0 'Moderate' 'no' 'no' 89.0]

In [11]:
imputer.fit(X[:, 4:5])
X[: , 4:5] = imputer.transform(X[:, 4:5])

In [12]:
print(X)

[[10.0 'Normal' 'no' ... nan nan nan]
 [12.0 'Normal' 'no' ... nan nan nan]
 [15.0 'Normal' 'no' ... nan nan nan]
 ...
 [45.130434782608695 nan nan ... nan nan nan]
 [45.130434782608695 nan nan ... nan nan nan]
 [45.130434782608695 nan nan ... nan nan nan]]


## Encoding Categorical Data

### Encoding independent variables

In [13]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

In [14]:
ct = ColumnTransformer(transformers=[('encoder',OneHotEncoder(), [1])], remainder= 'passthrough')
X = np.array(ct.fit_transform(X))

In [46]:
print(X)

[[0.0 0.0 1.0 10.0 'no' 'no' 97.0]
 [0.0 0.0 1.0 12.0 'no' 'no' 97.0]
 [0.0 0.0 1.0 15.0 'no' 'no' 94.0]
 [0.0 0.0 1.0 10.0 'no' 'no' 97.0]
 [0.0 1.0 0.0 13.0 'no' 'no' 94.0]
 [0.0 1.0 0.0 12.0 'no' 'no' 97.0]
 [0.0 1.0 0.0 13.0 'no' 'no' 93.0]
 [0.0 1.0 0.0 15.0 'no' 'no' 92.0]
 [0.0 1.0 0.0 18.0 'no' 'no' 66.0]
 [0.0 0.0 1.0 19.0 'no' 'no' 92.0]
 [0.0 0.0 1.0 20.0 'no' 'no' 93.0]
 [0.0 0.0 1.0 17.0 'no' 'no' 93.0]
 [0.0 0.0 1.0 16.0 'no' 'no' 92.0]
 [0.0 0.0 1.0 18.0 'no' 'no' 93.0]
 [0.0 0.0 1.0 20.0 'no' 'no' 92.0]
 [0.0 1.0 0.0 25.0 'no' 'no' 93.0]
 [0.0 1.0 0.0 24.0 'no' 'no' 92.0]
 [1.0 0.0 0.0 26.0 'no' 'no' 94.0]
 [0.0 0.0 1.0 28.0 'no' 'no' 99.0]
 [0.0 0.0 1.0 29.0 'no' 'no' 93.0]
 [0.0 1.0 0.0 30.0 'no' 'no' 62.0]
 [0.0 0.0 1.0 19.0 'no' 'no' 89.0]
 [0.0 0.0 1.0 25.0 'no' 'yes' 86.0]
 [0.0 0.0 1.0 26.0 'no' 'no' 82.07246376811594]
 [0.0 0.0 1.0 28.0 'no' 'no' 89.0]
 [0.0 1.0 0.0 30.0 'yes' 'no' 86.0]
 [0.0 1.0 0.0 35.0 'no' 'no' 89.0]
 [0.0 1.0 0.0 32.0 'no' 'yes' 84.0]
 [0.

### Encoding dependent variables

In [15]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

In [16]:
print(y)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 

## Splitting data into Test set & Training Set


In [17]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [53]:
print(X_train)

[[1.0 0.0 0.0 86.0 'yes' 'yes' 71.0]
 [0.0 1.0 0.0 35.0 'no' 'yes' 92.0]
 [1.0 0.0 0.0 75.0 'no' 'yes' 72.0]
 [1.0 0.0 0.0 42.0 'no' 'no' 92.0]
 [1.0 0.0 0.0 74.0 'yes' 'yes' 75.0]
 [1.0 0.0 0.0 62.0 'yes' 'yes' 68.0]
 [0.0 1.0 0.0 24.0 'no' 'no' 92.0]
 [0.0 1.0 0.0 48.0 'no' 'yes' 93.0]
 [1.0 0.0 0.0 58.0 'no' 'no' 70.0]
 [0.0 1.0 0.0 45.130434782608695 'yes' 'no' 90.0]
 [0.0 1.0 0.0 15.0 'no' 'no' 92.0]
 [0.0 0.0 1.0 70.0 'no' 'yes' 88.0]
 [1.0 0.0 0.0 52.0 'yes' 'yes' 80.0]
 [1.0 0.0 0.0 60.0 'yes' 'yes' 68.0]
 [1.0 0.0 0.0 54.0 'yes' 'yes' 70.0]
 [0.0 0.0 1.0 29.0 'no' 'no' 93.0]
 [1.0 0.0 0.0 78.0 'yes' 'yes' 71.0]
 [1.0 0.0 0.0 36.0 'yes' 'no' 90.0]
 [0.0 1.0 0.0 30.0 'yes' 'no' 86.0]
 [1.0 0.0 0.0 50.0 'yes' 'yes' 77.0]
 [0.0 0.0 1.0 18.0 'no' 'no' 93.0]
 [1.0 0.0 0.0 69.0 'no' 'yes' 53.0]
 [0.0 0.0 1.0 10.0 'no' 'no' 97.0]
 [1.0 0.0 0.0 26.0 'no' 'no' 94.0]
 [0.0 1.0 0.0 18.0 'no' 'no' 66.0]
 [1.0 0.0 0.0 62.0 'yes' 'yes' 69.0]
 [0.0 1.0 0.0 13.0 'no' 'no' 93.0]
 [1.0 0.0 0.0 4

In [26]:
print(X_test)

[[0.0 0.0 0.0 ... nan nan nan]
 [0.0 0.0 0.0 ... nan nan nan]
 [0.0 0.0 0.0 ... nan nan nan]
 ...
 [0.0 0.0 0.0 ... nan nan nan]
 [0.0 0.0 0.0 ... nan nan nan]
 [0.0 0.0 0.0 ... nan nan nan]]


In [55]:
print(y_train)

[1 0 1 0 1 1 0 0 1 0 0 0 1 1 1 0 1 0 0 1 0 1 0 0 1 1 0 0 1 1 1 0 0 1 0 1 0
 1 1 0 0 0 1 1 0 1 1 0 1 0 0 0 1 0 0 1]


In [25]:
print(y_test)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]


## Feature Scaling

In [24]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train[:, 6:] = sc.fit_transform(X_train[:, 6:])
X_test[:, 6:] = sc.fit_transform(X_test[:, 6:])

ValueError: could not convert string to float: 'yes'

In [23]:
print(X_train)

[[0.0 0.0 0.0 ... nan nan nan]
 [0.0 0.0 0.0 ... nan nan nan]
 [0.0 0.0 0.0 ... nan nan nan]
 ...
 [0.0 0.0 0.0 ... nan nan nan]
 [0.0 0.0 0.0 ... nan nan nan]
 [0.0 0.0 0.0 ... nan nan nan]]
