In [None]:

import pandas as pd
import chardet
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Configurações para visualização
sns.set(style="whitegrid")



# 📊 **Exploração de Dados sobre Pacientes com Câncer**
🔍 *Uma jornada para entender os perfis clínicos e demográficos dos pacientes*

---

## **📌 Introdução**
O câncer é uma das doenças mais estudadas no mundo devido ao seu impacto significativo na saúde pública. Este dataset contém informações de pacientes registrados no **Registro de Câncer de Base Populacional (RCBP) de Poços de Caldas**, permitindo uma análise detalhada de fatores demográficos, diagnósticos e evoluções clínicas.

Neste notebook, vamos explorar o dataset de forma intuitiva, respondendo a perguntas importantes por meio de **visualizações e estatísticas descritivas**.

**Questões que queremos responder:**  
✅ Qual a faixa etária predominante dos pacientes?  
✅ Existem mais homens ou mulheres no conjunto de dados?  
✅ Como está distribuída a raça/cor dos pacientes?  
✅ Quantos pacientes foram diagnosticados com casos raros?  
✅ Como está a sobrevida dos pacientes? Quantos ainda estão vivos?  
✅ Qual a frequência de metástase à distância?  

Vamos explorar esses dados juntos! 🚀  


In [None]:

# Carregar o arquivo
file_path = "/mnt/data/base_nao_identificada_3702.csv"

# Detectar a codificação do arquivo
with open(file_path, "rb") as f:
    rawdata = f.read(10000)
encoding_detected = chardet.detect(rawdata)['encoding']

# Ler o arquivo com a codificação correta
df = pd.read_csv(file_path, encoding=encoding_detected, delimiter=';')

# Exibir informações básicas do dataset
df.info()
df.head()


In [None]:

# Contagem de valores ausentes
missing_values = df.isnull().sum()
missing_values[missing_values > 0]



## 🎂 **Distribuição de Idade dos Pacientes**
A idade é um fator importante na incidência de câncer. Vamos analisar a faixa etária predominante dos pacientes.


In [None]:

# Distribuição das idades
plt.figure(figsize=(10,5))
sns.histplot(df['Idade'], bins=30, kde=True, color="royalblue")
plt.title("Distribuição das Idades dos Pacientes", fontsize=14)
plt.xlabel("Idade", fontsize=12)
plt.ylabel("Frequência", fontsize=12)
plt.show()



## 👫 **Distribuição por Sexo**
Será que há mais pacientes do sexo masculino ou feminino? Vamos visualizar!


In [None]:

# Contagem de pacientes por sexo
plt.figure(figsize=(6,4))
sns.countplot(x=df['Sexo'], palette="pastel")
plt.title("Distribuição de Pacientes por Sexo", fontsize=14)
plt.xlabel("Sexo", fontsize=12)
plt.ylabel("Contagem", fontsize=12)
plt.show()



## 🌍 **Distribuição por Raça/Cor**
O câncer pode ter fatores genéticos e ambientais associados. Vamos explorar a distribuição por raça/cor.


In [None]:

# Distribuição dos pacientes por raça/cor
plt.figure(figsize=(8,5))
sns.countplot(y=df['Raca/Cor'], order=df['Raca/Cor'].value_counts().index, palette="coolwarm")
plt.title("Distribuição de Pacientes por Raça/Cor", fontsize=14)
plt.xlabel("Contagem", fontsize=12)
plt.ylabel("Raça/Cor", fontsize=12)
plt.show()



## ⚰️ **Status Vital dos Pacientes**
Quantos pacientes ainda estão vivos? Quantos faleceram? Vamos visualizar esses números.


In [None]:

# Contagem de pacientes vivos/mortos
plt.figure(figsize=(6,4))
sns.countplot(x=df['Status Vital'], palette="Set2")
plt.title("Distribuição do Status Vital dos Pacientes", fontsize=14)
plt.xlabel("Status Vital", fontsize=12)
plt.ylabel("Contagem", fontsize=12)
plt.show()



## 🔬 **Metástase à Distância**
A presença de metástase à distância pode indicar um prognóstico mais agressivo. Vamos explorar esses casos.


In [None]:

# Contagem de pacientes com metástase à distância
plt.figure(figsize=(8,5))
sns.countplot(y=df['Metástase à distância'].dropna(), order=df['Metástase à distância'].value_counts().index, palette="viridis")
plt.title("Distribuição de Metástase à Distância", fontsize=14)
plt.xlabel("Contagem", fontsize=12)
plt.ylabel("Metástase à Distância", fontsize=12)
plt.show()



# 📌 **Conclusões**
Após a análise exploratória, conseguimos tirar alguns insights importantes:

✅ A maioria dos pacientes está na faixa etária **acima dos 60 anos**, confirmando que a idade é um fator de risco para o câncer.  
✅ O número de **pacientes do sexo feminino é ligeiramente superior ao do sexo masculino**.  
✅ A grande maioria dos pacientes **se identifica como branco**, refletindo a demografia da região do estudo.  
✅ A proporção de pacientes ainda vivos e falecidos pode indicar **taxas de sobrevida e efetividade dos tratamentos**.  
✅ Há uma **presença significativa de casos raros e metástases**, o que pode indicar padrões de diagnósticos avançados.

Essa exploração nos dá um ponto de partida para futuras análises, como **modelagem preditiva e estudos de fatores de risco**.  
Se tiver sugestões de novas análises, deixe nos comentários! 🚀  
