In [None]:

import pandas as pd
import chardet
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Configura√ß√µes para visualiza√ß√£o
sns.set(style="whitegrid")



# üìä **Explora√ß√£o de Dados sobre Pacientes com C√¢ncer**
üîç *Uma jornada para entender os perfis cl√≠nicos e demogr√°ficos dos pacientes*

---

## **üìå Introdu√ß√£o**
O c√¢ncer √© uma das doen√ßas mais estudadas no mundo devido ao seu impacto significativo na sa√∫de p√∫blica. Este dataset cont√©m informa√ß√µes de pacientes registrados no **Registro de C√¢ncer de Base Populacional (RCBP) de Po√ßos de Caldas**, permitindo uma an√°lise detalhada de fatores demogr√°ficos, diagn√≥sticos e evolu√ß√µes cl√≠nicas.

Neste notebook, vamos explorar o dataset de forma intuitiva, respondendo a perguntas importantes por meio de **visualiza√ß√µes e estat√≠sticas descritivas**.

**Quest√µes que queremos responder:**  
‚úÖ Qual a faixa et√°ria predominante dos pacientes?  
‚úÖ Existem mais homens ou mulheres no conjunto de dados?  
‚úÖ Como est√° distribu√≠da a ra√ßa/cor dos pacientes?  
‚úÖ Quantos pacientes foram diagnosticados com casos raros?  
‚úÖ Como est√° a sobrevida dos pacientes? Quantos ainda est√£o vivos?  
‚úÖ Qual a frequ√™ncia de met√°stase √† dist√¢ncia?  

Vamos explorar esses dados juntos! üöÄ  


In [None]:

# Carregar o arquivo
file_path = "/mnt/data/base_nao_identificada_3702.csv"

# Detectar a codifica√ß√£o do arquivo
with open(file_path, "rb") as f:
    rawdata = f.read(10000)
encoding_detected = chardet.detect(rawdata)['encoding']

# Ler o arquivo com a codifica√ß√£o correta
df = pd.read_csv(file_path, encoding=encoding_detected, delimiter=';')

# Exibir informa√ß√µes b√°sicas do dataset
df.info()
df.head()


In [None]:

# Contagem de valores ausentes
missing_values = df.isnull().sum()
missing_values[missing_values > 0]



## üéÇ **Distribui√ß√£o de Idade dos Pacientes**
A idade √© um fator importante na incid√™ncia de c√¢ncer. Vamos analisar a faixa et√°ria predominante dos pacientes.


In [None]:

# Distribui√ß√£o das idades
plt.figure(figsize=(10,5))
sns.histplot(df['Idade'], bins=30, kde=True, color="royalblue")
plt.title("Distribui√ß√£o das Idades dos Pacientes", fontsize=14)
plt.xlabel("Idade", fontsize=12)
plt.ylabel("Frequ√™ncia", fontsize=12)
plt.show()



## üë´ **Distribui√ß√£o por Sexo**
Ser√° que h√° mais pacientes do sexo masculino ou feminino? Vamos visualizar!


In [None]:

# Contagem de pacientes por sexo
plt.figure(figsize=(6,4))
sns.countplot(x=df['Sexo'], palette="pastel")
plt.title("Distribui√ß√£o de Pacientes por Sexo", fontsize=14)
plt.xlabel("Sexo", fontsize=12)
plt.ylabel("Contagem", fontsize=12)
plt.show()



## üåç **Distribui√ß√£o por Ra√ßa/Cor**
O c√¢ncer pode ter fatores gen√©ticos e ambientais associados. Vamos explorar a distribui√ß√£o por ra√ßa/cor.


In [None]:

# Distribui√ß√£o dos pacientes por ra√ßa/cor
plt.figure(figsize=(8,5))
sns.countplot(y=df['Raca/Cor'], order=df['Raca/Cor'].value_counts().index, palette="coolwarm")
plt.title("Distribui√ß√£o de Pacientes por Ra√ßa/Cor", fontsize=14)
plt.xlabel("Contagem", fontsize=12)
plt.ylabel("Ra√ßa/Cor", fontsize=12)
plt.show()



## ‚ö∞Ô∏è **Status Vital dos Pacientes**
Quantos pacientes ainda est√£o vivos? Quantos faleceram? Vamos visualizar esses n√∫meros.


In [None]:

# Contagem de pacientes vivos/mortos
plt.figure(figsize=(6,4))
sns.countplot(x=df['Status Vital'], palette="Set2")
plt.title("Distribui√ß√£o do Status Vital dos Pacientes", fontsize=14)
plt.xlabel("Status Vital", fontsize=12)
plt.ylabel("Contagem", fontsize=12)
plt.show()



## üî¨ **Met√°stase √† Dist√¢ncia**
A presen√ßa de met√°stase √† dist√¢ncia pode indicar um progn√≥stico mais agressivo. Vamos explorar esses casos.


In [None]:

# Contagem de pacientes com met√°stase √† dist√¢ncia
plt.figure(figsize=(8,5))
sns.countplot(y=df['Met√°stase √† dist√¢ncia'].dropna(), order=df['Met√°stase √† dist√¢ncia'].value_counts().index, palette="viridis")
plt.title("Distribui√ß√£o de Met√°stase √† Dist√¢ncia", fontsize=14)
plt.xlabel("Contagem", fontsize=12)
plt.ylabel("Met√°stase √† Dist√¢ncia", fontsize=12)
plt.show()



# üìå **Conclus√µes**
Ap√≥s a an√°lise explorat√≥ria, conseguimos tirar alguns insights importantes:

‚úÖ A maioria dos pacientes est√° na faixa et√°ria **acima dos 60 anos**, confirmando que a idade √© um fator de risco para o c√¢ncer.  
‚úÖ O n√∫mero de **pacientes do sexo feminino √© ligeiramente superior ao do sexo masculino**.  
‚úÖ A grande maioria dos pacientes **se identifica como branco**, refletindo a demografia da regi√£o do estudo.  
‚úÖ A propor√ß√£o de pacientes ainda vivos e falecidos pode indicar **taxas de sobrevida e efetividade dos tratamentos**.  
‚úÖ H√° uma **presen√ßa significativa de casos raros e met√°stases**, o que pode indicar padr√µes de diagn√≥sticos avan√ßados.

Essa explora√ß√£o nos d√° um ponto de partida para futuras an√°lises, como **modelagem preditiva e estudos de fatores de risco**.  
Se tiver sugest√µes de novas an√°lises, deixe nos coment√°rios! üöÄ  
