## Analise Preditiva dos dados dos pacientes para prever possiveis problemas bucais no futuro.

In [None]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Carregar os dados (exemplo: 'dados_odontologicos.csv')
dados = pd.read_csv('dados_odontologicos.csv')

# Visualizar os primeiros registros
print(dados.head())

In [None]:
# Exemplo de transformação categórica e substituição de valores nulos
dados['escovacao_frequencia'] = dados['escovacao_frequencia'].fillna(dados['escovacao_frequencia'].mode()[0])

# Preenche valores ausentes (nulos) na coluna idade com a média dos valores existentes dessa coluna.
dados['idade'] = dados['idade'].fillna(dados['idade'].mean())

# Converter as colunas em variáveis numéricas
dados = pd.get_dummies(dados, columns=['genero', 'localizacao'], drop_first=True)

### Algumas possiveis analises exploratorias para entender melhor os números e os dados.

In [None]:
# Observar os hábitos de higiene bucal, especialmente a frequência de escovação.
plt.figure(figsize=(8, 5))
sns.countplot(x='escovacao_frequencia', data=dados)
plt.title('Frequência de Escovação')
plt.xlabel('Frequência de Escovação')
plt.ylabel('Número de Pacientes')
plt.show()


In [None]:
# Identificar correlações entre variáveis como idade, frequência de escovação (se for numérica)
plt.figure(figsize=(10, 8))
sns.heatmap(dados.corr(), annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Mapa de Correlação entre Variáveis')
plt.show()


In [None]:
# Identificar padrões entre frequência de escovação, uso de fio dental e ocorrência de problemas bucais.
plt.figure(figsize=(8, 5))
sns.barplot(x='escovacao_frequencia', y='problema_bucal', data=dados, ci=None)
plt.title('Frequência de Escovação vs Problemas Bucais')
plt.xlabel('Frequência de Escovação')
plt.ylabel('Proporção com Problema Bucal')
plt.show()

In [None]:
# Visualizar se a idade influencia a probabilidade de problemas bucais.
plt.figure(figsize=(8, 5))
sns.boxplot(x='problema_bucal', y='idade', data=dados)
plt.title('Distribuição de Idade por Ocorrência de Problemas Bucais')
plt.xlabel('Problema Bucal')
plt.ylabel('Idade')
plt.show()

## Inicio dos treinos e modelos preditivos

In [None]:
# Separação de variáveis independentes e dependentes
X = dados.drop(['problema_bucal'], axis=1)  # features
y = dados['problema_bucal']  # target

In [None]:
# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [None]:
# Treinamento do modelo Random Forest
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)

# Treinamento do modelo Decision Tree
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)


In [None]:
# Previsões
rf_pred = rf_model.predict(X_test)
dt_pred = dt_model.predict(X_test)

# Avaliação dos modelos
print("Random Forest Classifier:")
print(classification_report(y_test, rf_pred))

print("Decision Tree Classifier:")
print(classification_report(y_test, dt_pred))
