In [28]:
# Importando bibliotecas

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import pickle

In [29]:
# Carregando os dados

df = pd.read_csv('../Covid Dataset.csv')
df

Unnamed: 0,Breathing Problem,Fever,Dry Cough,Sore throat,Running Nose,Asthma,Chronic Lung Disease,Headache,Heart Disease,Diabetes,...,Fatigue,Gastrointestinal,Abroad travel,Contact with COVID Patient,Attended Large Gathering,Visited Public Exposed Places,Family working in Public Exposed Places,Wearing Masks,Sanitization from Market,COVID-19
0,Yes,Yes,Yes,Yes,Yes,No,No,No,No,Yes,...,Yes,Yes,No,Yes,No,Yes,Yes,No,No,Yes
1,Yes,Yes,Yes,Yes,No,Yes,Yes,Yes,No,No,...,Yes,No,No,No,Yes,Yes,No,No,No,Yes
2,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,No,Yes,...,Yes,Yes,Yes,No,No,No,No,No,No,Yes
3,Yes,Yes,Yes,No,No,Yes,No,No,Yes,Yes,...,No,No,Yes,No,Yes,Yes,No,No,No,Yes
4,Yes,Yes,Yes,Yes,Yes,No,Yes,Yes,Yes,Yes,...,No,Yes,No,Yes,No,Yes,No,No,No,Yes
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5429,Yes,Yes,No,Yes,Yes,Yes,Yes,No,No,No,...,Yes,Yes,No,No,No,No,No,No,No,Yes
5430,Yes,Yes,Yes,No,Yes,Yes,No,Yes,No,Yes,...,Yes,No,No,No,No,No,No,No,No,Yes
5431,Yes,Yes,Yes,No,No,No,No,No,Yes,No,...,No,No,No,No,No,No,No,No,No,No
5432,Yes,Yes,Yes,No,Yes,No,No,Yes,Yes,No,...,No,No,No,No,No,No,No,No,No,No


In [30]:
# Remove espaços extras
df.columns = df.columns.str.strip()
df = df.apply(lambda x: x.str.strip() if x.dtype == 'object' else x)


In [31]:
# Dicionário para traduzir colunas
colunas_traduzidas = {
    "Breathing Problem": "Problema Respiratório",
    "Fever": "Febre",
    "Dry Cough": "Tosse Seca",
    "Sore throat": "Dor de Garganta",
    "Running Nose": "Coriza",
    "Asthma": "Asma",
    "Chronic Lung Disease": "Doença Pulmonar Crônica",
    "Headache": "Dor de Cabeça",
    "Heart Disease": "Doença Cardíaca",
    "Diabetes": "Diabetes",
    "Hyper Tension": "Hipertensão",
    "Fatigue": "Fadiga",
    "Gastrointestinal": "Problemas Gastrointestinais",
    "Abroad travel": "Viagem ao Exterior",
    "Contact with COVID Patient": "Contato com Paciente COVID",
    "Attended Large Gathering": "Participou de Multidão",
    "Visited Public Exposed Places": "Visitou Locais Públicos",
    "Family working in Public Exposed Places": "Familiar em Local Público",
    "Wearing Masks": "Uso de Máscaras",
    "Sanitization from Market": "Higienização do Local de Trabalho"
}

# Aplicar a tradução nas colunas e linhas
df.rename(columns=colunas_traduzidas, inplace=True)
df.replace({"Yes": "Sim", "No": "Não"}, inplace=True)

df

Unnamed: 0,Problema Respiratório,Febre,Tosse Seca,Dor de Garganta,Coriza,Asma,Doença Pulmonar Crônica,Dor de Cabeça,Doença Cardíaca,Diabetes,...,Fadiga,Problemas Gastrointestinais,Viagem ao Exterior,Contato com Paciente COVID,Participou de Multidão,Visitou Locais Públicos,Familiar em Local Público,Uso de Máscaras,Higienização do Local de Trabalho,COVID-19
0,Sim,Sim,Sim,Sim,Sim,Não,Não,Não,Não,Sim,...,Sim,Sim,Não,Sim,Não,Sim,Sim,Não,Não,Sim
1,Sim,Sim,Sim,Sim,Não,Sim,Sim,Sim,Não,Não,...,Sim,Não,Não,Não,Sim,Sim,Não,Não,Não,Sim
2,Sim,Sim,Sim,Sim,Sim,Sim,Sim,Sim,Não,Sim,...,Sim,Sim,Sim,Não,Não,Não,Não,Não,Não,Sim
3,Sim,Sim,Sim,Não,Não,Sim,Não,Não,Sim,Sim,...,Não,Não,Sim,Não,Sim,Sim,Não,Não,Não,Sim
4,Sim,Sim,Sim,Sim,Sim,Não,Sim,Sim,Sim,Sim,...,Não,Sim,Não,Sim,Não,Sim,Não,Não,Não,Sim
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5429,Sim,Sim,Não,Sim,Sim,Sim,Sim,Não,Não,Não,...,Sim,Sim,Não,Não,Não,Não,Não,Não,Não,Sim
5430,Sim,Sim,Sim,Não,Sim,Sim,Não,Sim,Não,Sim,...,Sim,Não,Não,Não,Não,Não,Não,Não,Não,Sim
5431,Sim,Sim,Sim,Não,Não,Não,Não,Não,Sim,Não,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Não
5432,Sim,Sim,Sim,Não,Sim,Não,Não,Sim,Sim,Não,...,Não,Não,Não,Não,Não,Não,Não,Não,Não,Não


In [32]:
# Remover colunas não preditivas
df = df.drop(['Uso de Máscaras', 'Higienização do Local de Trabalho'], axis=1)

In [33]:
# Colunas que serão as features
features = [
    "Problema Respiratório", "Febre", "Tosse Seca", "Dor de Garganta", "Coriza", "Asma",
    "Doença Pulmonar Crônica", "Dor de Cabeça", "Doença Cardíaca", "Diabetes", "Hipertensão",
    "Fadiga", "Problemas Gastrointestinais", "Viagem ao Exterior", "Contato com Paciente COVID",
    "Participou de Multidão", "Visitou Locais Públicos", "Familiar em Local Público"
]

# Definindo X e y
X = df[features]
y = df["COVID-19"]

In [34]:
# Dividindo dados pra treino e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [35]:
# Binarizando o sim e não

encoder = OneHotEncoder()
X_train_encoded = encoder.fit_transform(X_train)
X_test_encoded = encoder.transform(X_test)

In [36]:
# Treino do modelo

model = DecisionTreeClassifier(random_state=42)
model.fit(X_train_encoded, y_train)

In [37]:
# testando a acurácia

y_pred = model.predict(X_test_encoded)

acc = accuracy_score(y_test, y_pred)
print(f'Acurácia: {acc * 100:.0f}%')

Acurácia: 98%


In [38]:
# Salvar modelo no pickle

with open('covid_model.pkl', 'wb') as f:
    pickle.dump((model, encoder), f)
