# Exercício Semana 11 - Igea Martins

Neste exercício realizo tratamentos e análises básicas utilizando a lib Pandas e o dataset 'Cancer/COVID-19 - São Paulo Metropolitan Area' do Kaggle.

## Introdução

O dataset busca fundamentar estudos a respeito da possível correlação entre a COVID-19 e alguns tipos de câncer de pulmão e do sangue, trazendo dados coletados na cidade de São Paulo.

O estudo que levantou os dados visou o auxílio na tomada de decisões de profissionais de saúde no contexto pandêmico recente, e busca entender como a COVID pode ser um fator importante no tratamento e prevenção destes tipos de câncer.

O dataset apresenta dados da frequência de ocorrência de 4 tipos específicos de câncer e da COVID-19 em São Paulo, de janeiro de 2018 a março de 2023, janela de tempo interessante que mostra a variação na frequência de diagnósticos antes e depois da pandemia e evidencia o aumento marcante de diagnósticos de câncer durante a pandemia.

O dataset possui apenas valores numéricos ou a ausência deles no que diz respeito aos diagnósticos de COVID entre 2018 e 2019, quando o Brasil ainda encontrava dificuldades em sistematizar protocolos de diagnóstico e tratamento para casos de SARS relacionados ao COVID-19.

## Processamento

### Função de processamento - Avaliação e tratamento de dados


In [2]:
#Importando o pandas como pd
import pandas as pd

#Carregando o dataset em um dataframe Pandas
df = pd.read_csv("cancer_covid_sao_paulo.csv")

#Mostrando as 3 primeiras linhas
df.head(3)

Unnamed: 0,month_year,C34,C91,C92,U07.1
0,01-2018,31,9,13,-
1,02-2018,21,9,19,-
2,03-2018,29,13,15,-


In [3]:
#Checando as dimensões, dados e colunas do dataframe
df

Unnamed: 0,month_year,C34,C91,C92,U07.1
0,01-2018,31,9,13,-
1,02-2018,21,9,19,-
2,03-2018,29,13,15,-
3,04-2018,24,6,17,-
4,05-2018,66,21,18,-
...,...,...,...,...,...
58,11-2022,27,5,15,6999
59,12-2022,41,9,15,6757
60,01-2023,14,16,17,4180
61,02-2023,26,8,10,6352


In [4]:
#Avaliando a presença de nulos por colunas
df.isnull().sum()

month_year    0
C34           0
C91           0
C92           0
U07.1         0
dtype: int64

In [5]:
#Trocando - por 0 na coluna U07.1 (Diagnósticos de COVID)
df['U07.1'] = df['U07.1'].replace({'-': 0})
df

Unnamed: 0,month_year,C34,C91,C92,U07.1
0,01-2018,31,9,13,0
1,02-2018,21,9,19,0
2,03-2018,29,13,15,0
3,04-2018,24,6,17,0
4,05-2018,66,21,18,0
...,...,...,...,...,...
58,11-2022,27,5,15,6999
59,12-2022,41,9,15,6757
60,01-2023,14,16,17,4180
61,02-2023,26,8,10,6352


In [6]:
#Criando um subDF correlacionando apenas diagnósticos de Câncer de pulmão e COVID-19
subDF = df.drop(['C91','C92'], axis=1)
subDF


Unnamed: 0,month_year,C34,U07.1
0,01-2018,31,0
1,02-2018,21,0
2,03-2018,29,0
3,04-2018,24,0
4,05-2018,66,0
...,...,...,...
58,11-2022,27,6999
59,12-2022,41,6757
60,01-2023,14,4180
61,02-2023,26,6352


In [10]:
#Buscando um padrão de correlação entre COVID e câncer de pulmão usando sort
subDF.sort_values(by='C34', ascending= False)

Unnamed: 0,month_year,C34,U071
9,10-2018,69,0
5,06-2018,68,0
4,05-2018,66,0
7,08-2018,64,0
15,04-2019,63,0
...,...,...,...
3,04-2018,24,0
42,07-2021,23,48920
1,02-2018,21,0
62,03-2023,21,7705


### Insights

A relação entre a prevalência dos diagnósticos no período enquadrado foi multifatorialmente afetada, tendo provavelmente sido influenciada pelas limitações logísticas impostas pela pandemia em um período político crítico.

Seriam necessárias dados e métricas adicionais para compreender em que medida os diagnósticos de cäncer de pulmão foram influenciados pela pandemia e estabelecer uma correlação mais específica entre as duas enfermidades.

Dados sobre quantas pessoas sofreram de ambas as enfermidades no enquadramento de tempo avaliado também   podem ser esclarecedores quanto a taxa de sobrevivência e impactos de COVID longa em pacientes de câncer, 