# Análise exploratória: diagnóstico de câncer coloretal

### Ingestão inicial dos dados

O formato original dos dados pode ser observado na tabela a seguir com as colunas "Mês/Ano do diagnóstico", "1 Região Norte", "2 Região Nordeste", "3 Região Sudeste", "4 Região Sul", "5 Região Centro-Oeste" e "Total".

In [4]:
from plotly.offline import init_notebook_mode
init_notebook_mode(connected=True)
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from functions import mes_para_numero, categorize_period

csv_file = '../csv_files/ccr_diagnostico.csv'
origin_df = pd.read_csv(csv_file, sep=';')
origin_df.tail()

Unnamed: 0,Mês/Ano do diagnóstico,1 Região Norte,2 Região Nordeste,3 Região Sudeste,4 Região Sul,5 Região Centro-Oeste,Total
136,Mai/2024,100,384,1314,749,176,2723
137,Jun/2024,81,271,1166,647,137,2302
138,Jul/2024,60,259,1003,615,114,2051
139,Ago/2024,64,179,779,429,138,1589
140,Set/2024,23,84,388,311,33,839


### Tratamento dos dados

Para facilitar as análises, substitui-se a coluna "Mês/Ano do diagnóstico" por outras 4 tabelas: "Data", "Ano", "Mês" e "Período".
A coluna "Período" identifica a data em "pre_pand" como os anos 

In [5]:
columns = list(origin_df.columns)

formated_df = pd.DataFrame()
formated_df["Data"] = origin_df[columns[0]].apply(lambda x: x.split("/")[1]+'/'+str(mes_para_numero(x.split("/")[0])))
formated_df["Data"] = pd.to_datetime(formated_df["Data"], format='%Y/%m')
formated_df["Ano"] = formated_df["Data"].apply(lambda x: x.year)
formated_df["Mês"] = formated_df["Data"].apply(lambda x: x.month)
formated_df["Período"] = formated_df["Ano"].apply(categorize_period)
for column in columns[1:]:
    formated_df[column] = origin_df[column]

formated_df.head()

Unnamed: 0,Data,Ano,Mês,Período,1 Região Norte,2 Região Nordeste,3 Região Sudeste,4 Região Sul,5 Região Centro-Oeste,Total
0,2013-01-01,2013,1,pre_pand,1,6,12,9,3,31
1,2013-02-01,2013,2,pre_pand,0,4,12,5,0,21
2,2013-03-01,2013,3,pre_pand,0,6,16,5,0,27
3,2013-04-01,2013,4,pre_pand,0,5,15,6,0,26
4,2013-05-01,2013,5,pre_pand,1,3,11,6,2,23


In [6]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=formated_df["Data"], y=formated_df["1 Região Norte"], mode='lines', name='1 Região Norte'))
fig.add_trace(go.Scatter(x=formated_df["Data"], y=formated_df["2 Região Nordeste"], mode='lines', name='2 Região Nordeste'))
fig.add_trace(go.Scatter(x=formated_df["Data"], y=formated_df["3 Região Sudeste"], mode='lines', name='3 Região Sudeste'))
fig.add_trace(go.Scatter(x=formated_df["Data"], y=formated_df["4 Região Sul"], mode='lines', name='4 Região Sul'))
fig.add_trace(go.Scatter(x=formated_df["Data"], y=formated_df["5 Região Centro-Oeste"], mode='lines', name='5 Região Centro-Oeste'))
fig.add_trace(go.Scatter(x=formated_df["Data"], y=formated_df[" Total"], mode='lines', name='Total'))
fig.update_layout(title=dict(text="DIAGNOSTICOS DE CÂNCER COLORRETAL"))
fig.show()

In [7]:
for column in columns[1:]:
    fig = px.line(formated_df, x='Data', y=column, color='Período', markers=True, title=f"Diagnósticos de câncer colorretal por período <br>{column}")
    fig.show()