In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configura√ß√£o do estilo dos gr√°ficos
sns.set(style="whitegrid")



# üßπ **Tratamento Completo dos Dados de Diagn√≥stico de C√¢ncer**
üîç *Garantindo qualidade antes da an√°lise*

---

## **üìå Introdu√ß√£o**
Antes de realizarmos qualquer an√°lise, precisamos garantir que os dados est√£o **limpos e confi√°veis**. Dados mal estruturados podem levar a conclus√µes erradas, afetando pesquisas e decis√µes de sa√∫de p√∫blica.

Neste notebook, vamos tratar os dados da **base de diagn√≥sticos de c√¢ncer** do **Registro de C√¢ncer de Base Populacional (RCBP) de Po√ßos de Caldas**.  

**Etapas do tratamento de dados:**  

‚úÖ Verifica√ß√£o e remo√ß√£o de **valores ausentes** em colunas essenciais.  
‚úÖ Tratamento de **datas inv√°lidas ou inconsistentes**.  
‚úÖ Identifica√ß√£o e corre√ß√£o de **outliers temporais**.  
‚úÖ Remo√ß√£o ou ajuste de **anos incompletos** para evitar distor√ß√µes na an√°lise.  

Ap√≥s o tratamento, reanalisaremos a **taxa de crescimento anual de diagn√≥sticos** de forma mais confi√°vel. üöÄ  


In [None]:

# Carregar o arquivo
file_path = "/mnt/data/base_nao_identificada_3702.csv"

# Ler o dataset
df = pd.read_csv(file_path, encoding="ISO-8859-1", delimiter=";")

# Exibir informa√ß√µes iniciais
df.info()
df.head()



## üìä **Valores Ausentes**
Vamos verificar se existem valores ausentes nas colunas essenciais, como **data de diagn√≥stico**.


In [None]:

# Contagem de valores ausentes
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]
missing_values



### üîß **Tratando valores ausentes**
Para evitar distor√ß√µes na an√°lise, vamos:

1. **Remover registros sem data de diagn√≥stico**, pois n√£o conseguimos analis√°-los.  
2. **Manter outros valores ausentes**, pois podem ser irrelevantes para esta an√°lise.  


In [None]:

# Removendo registros sem data de diagn√≥stico
df = df.dropna(subset=["Data de Diagnostico"])

# Verificando novamente
df.isnull().sum()



## üóì **Verificando Datas Inv√°lidas**
Datas erradas podem prejudicar a an√°lise. Vamos garantir que:

‚úÖ Todas as datas estejam no formato correto.  
‚úÖ N√£o existam diagn√≥sticos em **anos futuros**.  
‚úÖ N√£o existam diagn√≥sticos em **anos muito antigos** que n√£o fazem sentido no contexto do estudo.  


In [None]:

# Converter a coluna de Data de Diagn√≥stico para formato de data
df["Data de Diagnostico"] = pd.to_datetime(df["Data de Diagnostico"], format="%d/%m/%Y", errors="coerce")

# Criar a coluna do ano de diagn√≥stico
df["Ano do Diagnostico"] = df["Data de Diagnostico"].dt.year

# Verificar valores m√≠nimos e m√°ximos de ano
print("Ano mais antigo registrado:", df["Ano do Diagnostico"].min())
print("Ano mais recente registrado:", df["Ano do Diagnostico"].max())



### üö® **Corrigindo Datas Futuras ou Erradas**
Se houver registros em anos futuros ou muito antigos, vamos remov√™-los.


In [None]:

# Remover anos que n√£o fazem sentido (exemplo: acima do ano atual)
ano_atual = pd.Timestamp.today().year
df = df[(df["Ano do Diagnostico"] <= ano_atual) & (df["Ano do Diagnostico"] >= 1900)]

# Verificar novamente
df["Ano do Diagnostico"].describe()



## üìâ **Verificando Anos com Poucos Registros**
Se houver anos com poucos registros, pode ser um problema de coleta de dados e devemos decidir se os inclu√≠mos na an√°lise.


In [None]:

# Contar diagn√≥sticos por ano
diagnosticos_por_ano = df["Ano do Diagnostico"].value_counts().sort_index()

# Visualizar a distribui√ß√£o
plt.figure(figsize=(10,5))
sns.barplot(x=diagnosticos_por_ano.index, y=diagnosticos_por_ano.values, palette="Blues_r")
plt.xticks(rotation=45)
plt.title("N√∫mero de Diagn√≥sticos por Ano", fontsize=14)
plt.xlabel("Ano", fontsize=12)
plt.ylabel("N√∫mero de Diagn√≥sticos", fontsize=12)
plt.show()



### ‚úÇÔ∏è **Removendo Anos com Registros Insuficientes**
Se houver anos com **poucos diagn√≥sticos**, podemos remov√™-los para evitar distor√ß√µes.


In [None]:

# Definir um limite m√≠nimo (exemplo: anos com menos de 10 casos podem ser removidos)
limite_minimo = 10
anos_validos = diagnosticos_por_ano[diagnosticos_por_ano >= limite_minimo].index

# Filtrar apenas os anos v√°lidos
df = df[df["Ano do Diagnostico"].isin(anos_validos)]

# Verificar novamente
df["Ano do Diagnostico"].value_counts().sort_index()



## ‚úÖ **Conclus√£o do Tratamento de Dados**
Ap√≥s a limpeza, nossos dados est√£o prontos para an√°lise! üöÄ

**Modifica√ß√µes realizadas:**  
‚úî Removemos registros **sem data de diagn√≥stico**.  
‚úî Eliminamos **datas inv√°lidas e diagn√≥sticos em anos futuros**.  
‚úî Identificamos e **removemos anos com registros insuficientes**.  

Agora podemos seguir para a an√°lise da **taxa de crescimento anual de diagn√≥sticos de c√¢ncer** com mais confian√ßa!  
