In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

In [None]:
# Read dataset to pandas dataframe
dataset = pd.read_csv("../datasets/dados_normalizados_modelo-test-float.csv",
                      converters={'totalCases_per_100k_inhabitants': lambda x: pd.to_numeric(x, errors='coerce')},
                     )

dataset.head(150)

In [None]:
dataset.describe()

In [None]:
X = dataset.drop(['totalCases_per_100k_inhabitants', 
                  'city', 
                  'ibgeID', 
                  'População alfabetizada', 
                  'População não alfabetizada', 
                  'zona ignorada porcentagem agrupado', 
                  'sexo fiminino porcentagem agrupado', 
                  'raca preta porcentagem agrupado',
                  'raca amarela porcentagem agrupado',
                  'raca parda porcentagem agrupado',
                  'raca indigena porcentagem agrupado',
                  'raca ignorada porcentagem agrupado',
                  'sem escolaridade porcentagem agrupado',
                  'escolaridade fundamental 1 porcentagem agrupado',
                  'escolaridade fundamental 2 porcentagem agrupado',
                  'escolaridade nao aplicado porcentagem agrupado',
                  'paciente com down porcentagem agrupado',
                  'paciente sem down porcentagem agrupado',
                  'zona urbana porcentagem agrupado',
                  'zona rural porcentagem agrupado',
                  'zona periurbana porcentagem agrupado',
                  'escolaridade medio porcentagem agrupado',
                  'tosse nao porcentagem agrupado',
                  'contato nao ave/suino porcentagem agrupado',
                  'vacinado gripe nao porcentagem agrupado',
                  'escolaridade ignorado porcentagem agrupado',
                  'idade media agrupado',
                  'escolaridade superior porcentagem agrupado',
                  'historico viagem 14 dias nao porcentagem agrupado',
                  'sexo masculino porcentagem agrupado',
                  'raca branca porcentagem agrupado',
                  'contato sim ave/suino porcentagem agrupado'
                 ],axis=1)

In [None]:
y = dataset['totalCases_per_100k_inhabitants']

In [None]:
X.head(15)

In [None]:
dataset.plot(x='idade media agrupado', y='totalCases_per_100k_inhabitants', style='o')
plt.title('idade media agrupado vs totalCases_per_100k_inhabitants')
plt.xlabel('idade media agrupado')
plt.ylabel('totalCases_per_100k_inhabitants')
plt.show()

In [None]:
dataset.plot(x='vacinado gripe sim porcentagem agrupado', y='totalCases_per_100k_inhabitants', style='o')
plt.title('vacinado gripe sim porcentagem agrupado vs totalCases_per_100k_inhabitants')
plt.xlabel('vacinado gripe sim porcentagem agrupado')
plt.ylabel('totalCases_per_100k_inhabitants')
plt.show()

In [None]:
#divide em treino e teste
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)

In [None]:
##ver coeficientes de correlação - lembrando que y = wx - e estamos vendo w
coeff_df = pd.DataFrame(model.coef_, X.columns, columns=['Coefficient'])
coeff_df

In [None]:
#realiza predições
y_pred = model.predict(X_test)
#mostra predições x valores reais
df = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
df

In [None]:
#verifica diferentes métricas de avaliação
from sklearn import metrics
print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
print('Determination Coefficient (R^2)', metrics.r2_score(y_test, y_pred))