In [15]:
# Importações necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB, CategoricalNB
from sklearn.linear_model import LinearRegression, Perceptron
from sklearn.impute import SimpleImputer

In [16]:
# Carregar o dataset
df = pd.read_csv("Covid Data.csv")

In [17]:
# Usei para não errar o nome das colunas no pré-processamento
print(df.columns)

Index(['USMER', 'MEDICAL_UNIT', 'SEX', 'PATIENT_TYPE', 'DATE_DIED', 'INTUBED',
       'PNEUMONIA', 'AGE', 'PREGNANT', 'DIABETES', 'COPD', 'ASTHMA', 'INMSUPR',
       'HIPERTENSION', 'OTHER_DISEASE', 'CARDIOVASCULAR', 'OBESITY',
       'RENAL_CHRONIC', 'TOBACCO', 'CLASIFFICATION_FINAL', 'ICU'],
      dtype='object')


# Pré-processamento

In [20]:
# Substituir valores específicos por NaN
df.replace({97: None, 99: None, '9999-99-99': None}, inplace=True)

# Verificar e imputar valores faltantes
imputer = SimpleImputer(strategy='most_frequent')
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)

In [21]:
# Seleção de atributos e target
X = df_imputed.drop(columns=['DATE_DIED', 'CLASIFFICATION_FINAL'])
y = df_imputed['CLASIFFICATION_FINAL'].apply(lambda x: 1 if x < 4 else 0)  # 1: risco alto, 0: risco baixo

In [22]:
# Divisão em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [29]:
# Imputation of missing values before scaling
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='mean') # You can choose a different strategy if needed
X_train = imputer.fit_transform(X_train)
X_test = imputer.transform(X_test)

In [30]:
# Normalização
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [31]:
# Verificar se há valores faltantes após a imputação
print("Verificação de valores faltantes:")
print("Valores faltantes em X_train:", pd.isnull(X_train).sum().sum())
print("Valores faltantes em X_test:", pd.isnull(X_test).sum().sum())

Verificação de valores faltantes:
Valores faltantes em X_train: 0
Valores faltantes em X_test: 0


# Árvore de Decisão CART (padrão)

In [32]:
# Treinamento
cart = DecisionTreeClassifier()
cart.fit(X_train, y_train) # Use the fit method to train the model

# Avaliação
y_pred = cart.predict(X_test)
print("Árvore de Decisão CART")
print(classification_report(y_test, y_pred))


Árvore de Decisão CART
              precision    recall  f1-score   support

           0       0.67      0.89      0.76    131424
           1       0.58      0.25      0.35     78291

    accuracy                           0.65    209715
   macro avg       0.62      0.57      0.56    209715
weighted avg       0.64      0.65      0.61    209715



# Support Vector Machine (padrão)

In [None]:
# Treinamento
svm = SVC()
svm.fit(X_train, y_train)

# Avaliação
y_pred = svm.predict(X_test)
print("Support Vector Machine (padrão)")
print(classification_report(y_test, y_pred))