In [1]:
import pandas as pd
import seaborn as sns
import numpy as np
import warnings
from datetime import datetime
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.feature_selection import RFE
from sklearn.svm import SVR
warnings.filterwarnings("ignore")

pd.set_option('display.max_columns', None)

In [2]:
#link do repositorio do dataset
url = "/datacov.csv"

#leitura do dataset
data = pd.read_csv(url,sep=',', na_filter = True)
data.info()
print(f"Read in {len(data)} rows")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 554328 entries, 0 to 554327
Data columns (total 1 columns):
 #   Column                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               

In [None]:
#Remoção das colunas que são inuteis ou redundantes
data.drop(['DT_NASC', 'TP_IDADE','CS_ESCOL_N', 'CO_PAIS', 'DT_DIGITA', 'FNT_IN_COV', 'ID_PAIS','LOTE_2_COV','FAB_COV_1',
        'AVE_SUINO', 'POS_PCRFLU', 'POS_PCROUT', 'HISTO_VGM', 'PCR_SARS2', 'ID_REGIONA','ID_MUNICIP','FAB_COV_2','LAB_PR_COV',
        'ID_UNIDADE', 'ID_RG_RESI', 'ID_MN_RESI', 'ID_RG_INTE', 'ID_MN_INTE', 'COD_IDADE', 'LOTE_1_COV',
          ], axis=1, inplace=True)
data.shape

In [None]:
#remove as linhas onde o valor da coluna EVOLUCAO é 3 ou 9
aux = data[(data['EVOLUCAO'] == 3) | (data['EVOLUCAO'] == 9)].index
data.drop(aux, inplace=True)
data.shape

In [None]:
#só muda o dataset de uma variavel para outra
x = data
x.head()

In [None]:
#mantem somente os dados relacionas ao estado do paraná, e depois faz a remoção das colunas com relação a localização do estado
aux = x[(x['SG_UF_NOT'] != 'PR')].index
x.drop(aux , inplace=True)
x.drop(['SG_UF_NOT','SG_UF','SG_UF_INTE'], axis=1, inplace=True)
x.shape

In [None]:
#mantém somente as linhas aonde os casos são COVID19
aux = x[(x['CLASSI_FIN'] != 5)].index
x.drop(aux , inplace=True)
x.drop(['CLASSI_FIN'], axis=1, inplace=True)
x.shape

In [None]:
#Faz a separação das colunas em que o 9 representa algo, e depois substitui nas colunas restantes os valores 9 por NaN
number_columns = x[['SEM_NOT','SEM_PRI','NU_IDADE_N','CS_GESTANT','OBES_IMC']]
x.drop(['SEM_NOT','SEM_PRI','NU_IDADE_N','CS_GESTANT','OBES_IMC'], axis=1, inplace=True)
x = x.replace(9, np.nan)
x = pd.concat([x, number_columns], axis=1)

In [None]:
#remoção das colunas com 50% de dados faltantes
x.dropna(axis=1, thresh=9111, subset=None, inplace=True)
x.shape

In [None]:
#Remoção das linhas com 50% de dados faltantes
x.dropna(axis=0, thresh=38, subset=None, inplace=True)
x.shape

In [None]:
#transformação da data de notificação e encerramento, depois faz uma subtração para saber o total de dias que o paciente ficou acometido
x['DT_NOTIFIC'] = pd.to_datetime(x['DT_NOTIFIC'])
x['DT_ENCERRA'] = pd.to_datetime(x['DT_ENCERRA'])
x['TEMP_T'] = (x['DT_ENCERRA'] - x['DT_NOTIFIC']).dt.days
x = x.drop(['DT_NOTIFIC', 'DT_ENCERRA'],axis=1)

In [None]:
#Transformação das outras datas e da coluna sexo
dates = ['DT_SIN_PRI', 'DT_INTERNA', 'DT_COLETA', 'DT_PCR', 'DT_EVOLUCA', 'DOSE_1_COV', 'DOSE_2_COV']
for column in dates:
  x[column] = pd.to_datetime(x[column],infer_datetime_format=True, errors='coerce' ).apply(datetime.toordinal)
x["CS_SEXO"] = x["CS_SEXO"].replace({"F": 0, "M": 1})
x["EVOLUCAO"] = x["EVOLUCAO"].replace({1 : 0, 2 : 1})

In [None]:
x.head()

In [None]:
#separação dos dados numericos do restante do dataset
dadosnumericos = x[['SEM_NOT', 'SEM_PRI', 'NU_IDADE_N', 'CS_GESTANT', 'DT_SIN_PRI1', 'DT_INTERNA1', 'DT_COLETA1',
                   'DT_PCR1', 'DT_EVOLUCA1', 'TEMP_T', 'DOSE_1_COV1', 'DOSE_2_COV1']]

x.drop(columns=['SEM_NOT', 'SEM_PRI', 'NU_IDADE_N', 'CS_GESTANT', 'DT_SIN_PRI1', 'DT_INTERNA1', 'DT_COLETA1', 'DT_PCR1', 'DT_EVOLUCA1', 'DOSE_1_COV1', 'DOSE_2_COV1'], inplace=True)

#aplica no conjunto de dados numericos, o método de preenchimento automatico pela mediana
imputer = SimpleImputer(missing_values=np.nan, strategy='median')
nome = dadosnumericos.columns
imputer = imputer.fit(dadosnumericos)
dadosnumericos = imputer.transform(dadosnumericos)
dadosnumericos = pd.DataFrame(dadosnumericos)
dadosnumericos.columns = nome

scaler = MinMaxScaler()
dadosnumericosminmax = scaler.fit_transform(dadosnumericos)
dadosnumericosminmax = pd.DataFrame(dadosnumericos)
dadosnumericosminmax.columns = nome

scaler = StandardScaler()
dadosnumericosscaler = scaler.fit_transform(dadosnumericos)
dadosnumericosscaler = pd.DataFrame(dadosnumericos)
dadosnumericosscaler.columns = nome

#aplica pro restante do dataset o método de preenchimento automatico pelo most_frequent
imputer = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
nomes = x.columns
imputer = imputer.fit(x)
x = imputer.transform(x)
x = pd.DataFrame(x)
x.columns = nomes


x_minmax = pd.concat([x, dadosnumericosminmax], axis=1)
x_minmax.loc[x_minmax['VACINA_COV'] == 2.0, ['DOSE_1_COV1', 'DOSE_2_COV1']] = 0

x_scaler = pd.concat([x, dadosnumericosscaler], axis=1)
x_scaler.loc[x_scaler['VACINA_COV'] == 2.0, ['DOSE_1_COV1', 'DOSE_2_COV1']] = 0

#volta a juntar os conjuntos para formar o dataset principal
x = pd.concat([x, dadosnumericos], axis=1)
x.loc[x['VACINA_COV'] == 2.0, ['DOSE_1_COV1', 'DOSE_2_COV1']] = 0

In [None]:
#separa a coluna de resposta do dataset
y = x['EVOLUCAO']
x = x.drop(columns= 'EVOLUCAO')
x_minmax = x_minmax.drop(columns='EVOLUCAO')
x_scaler = x_scaler.drop(columns='EVOLUCAO')
pd.set_option('display.max_rows', None)
#x.iloc[0:20, :]

In [None]:
x.shape

In [None]:
#implementação do seletor de caracteristicas

#selector = SelectKBest(score_func=f_classif, k=40)
#selector.fit_transform(x, y)
#importances = selector.scores_
#for feature_name, score in zip(x.columns.tolist(), importances):
    #print(f"A coluna {feature_name} tem um nível de importância de {score}")

#estimator = SVR(kernel="linear")
#selector = RFE(estimator, n_features_to_select=40, step=10)
#selector = selector.fit(x, y)
x.head()

In [None]:
#aqui acontece a classificação
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(max_depth=5, random_state=43)

score = cross_val_score(clf, x, y, cv=10)
print(f"Accuracy of floresta aleátoria sem normalização:{score}")
print('Média: {:.2} | Desvio: {:.2}'.format(np.mean(score), np.std(score)))

score = cross_val_score(clf, x_minmax, y, cv=10)
print(f"Accuracy of floresta aleátoria com minmax:{score}")
print('Média: {:.2} | Desvio: {:.2}'.format(np.mean(score), np.std(score)))

score = cross_val_score(clf, x_scaler, y, cv=10)
print(f"Accuracy of floresta aleátoria com scaler:{score}")
print('Média: {:.2} | Desvio: {:.2}'.format(np.mean(score), np.std(score)))