# **Exercícios: Não Comparecimento em Consultas**

Imagine que você trabalha na equipe de gestão de um hospital e recebeu um desafio importante: **reduzir o número de pacientes que marcam consultas, mas não comparecem**.

As ausências impactam diretamente o funcionamento da unidade de saúde, gerando desperdício de recursos, aumento no tempo de espera para outros pacientes e dificuldades no planejamento da equipe médica.

Agora, surge a pergunta: **é possível prever quais pacientes têm maior risco de faltar à consulta?**

O conjunto de dados **naocomparecimento.csv**, contém 110.527 registros de consultas médicas, com 14 variáveis associadas a cada paciente e sua consulta. A principal variável a ser analisada indica se o paciente compareceu ou não à consulta.


##**Base de dados**

A variável alvo é `No-show`, que indica se o paciente faltou à consulta (`Yes`) ou compareceu (`No`).


Existem 14 variáveis, incluindo:
- Data da consulta
- Local do atendimento
- Características do paciente (idade, gênero, presença de doenças crônicas)
- Se recebeu lembrete via SMS
- Se estava em um programa de assistência social (Bolsa Família - Scholarship)
- Quantos dias de antecedência a consulta foi marcada

## **Tradução das Variáveis**

| Inglês      | Português      |
|-------------------|---------------------|
| PatientId        | ID do Paciente       |
| AppointmentID    | ID da Consulta       |
| Gender          | Gênero               |
| ScheduledDay    | Data do Agendamento  |
| AppointmentDay  | Data da Consulta     |
| Age            | Idade                 |
| Neighbourhood  | Bairro                |
| Scholarship    | Bolsa Família         |
| Hipertension   | Hipertensão           |
| Diabetes       | Diabetes              |
| Alcoholism     | Alcoolismo            |
| Handcap        | Deficiência           |
| SMS_received   | SMS Recebido          |
| No-show       | Não Comparecimento    |



## Contexto

Essa base permite analisar fatores que influenciam a ausência dos pacientes, ajudando unidades de saúde a reduzir faltas e melhorar o atendimento.

### Possíveis hipóteses para investigação:
- Pacientes mais jovens ou mais velhos faltam mais?
- O tempo entre o agendamento e a consulta influencia na presença?
- Receber um lembrete por SMS reduz faltas?
- Pacientes com certas condições médicas faltam mais?

## Roteiro de Análise

- Realize a análise exploratória univariada de todas as variáveis no conjunto de dados, interpretando suas distribuições.
- Faça a análise bidimensional entre cada variável explicativa e a variável resposta. Quais variáveis parecem ter maior influência sobre a variável de interesse?
- Para as variáveis categóricas, converta-as para o tipo category do pandas.
- Para este estudo, exclua as variáveis ID, Neighbourhood, e data da análise.
- Construa um modelo de árvore de decisão usando o scikit-learn para prever a variável resposta.
- Obtenha as classificação para cada observação no conjunto de dados.
- Gere a tabela de classificação para avaliar o desempenho do modelo e encontre o melhor ponto de corte para classificar as probabilidades. - Qual é o percentual de classificações corretas? E quais são a precision e recall do modelo?

In [1]:
import pandas as pd

In [6]:
#Carregar base de dados
db_nao_comparecimento = pd.read_csv('https://raw.githubusercontent.com/andfranca/proadi-sus-ciencia-de-dados-ia/refs/heads/main/bases/naocomparecimento.csv')


In [7]:
#Visualizar estrutura dos dados
db_nao_comparecimento.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 110527 entries, 0 to 110526
Data columns (total 14 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   PatientId       110527 non-null  float64
 1   AppointmentID   110527 non-null  int64  
 2   Gender          110527 non-null  object 
 3   ScheduledDay    110527 non-null  object 
 4   AppointmentDay  110527 non-null  object 
 5   Age             110527 non-null  int64  
 6   Neighbourhood   110527 non-null  object 
 7   Scholarship     110527 non-null  int64  
 8   Hipertension    110527 non-null  int64  
 9   Diabetes        110527 non-null  int64  
 10  Alcoholism      110527 non-null  int64  
 11  Handcap         110527 non-null  int64  
 12  SMS_received    110527 non-null  int64  
 13  No-show         110527 non-null  object 
dtypes: float64(1), int64(8), object(5)
memory usage: 11.8+ MB
