#PUC-Rio
##Sprint 3: Relatório

###Objetivo
Problema: relação entre cor de pele e infecções/mortes por covid-19 no estado de São Paulo, durante a pandemia

###Perguntas:

1. O covid-19 acometeu mais pessoas afrodescendentes ou pessoas brancas?
2. Dentre as pessoas afrodescendentes, qual gênero foi mais acometido?
3. Dentre as pessoas brancas, qual gênero foi mais acometido?

###Detalhamento

Este trabalho foi realizado com o auxílio do Databricks, no qual este notebook também foi gerado.

1. Busca pelos dados

Os dados utilizados foram os da Fundação SEADE, disponíveis em: https://github.com/seade-R/dados-covid-sp#casos-%C3%B3bitos-por-ra%C3%A7acor-e-munic%C3%ADpio O dicionário dos dados está disponível em: https://github.com/seade-R/dados-covid-sp#casos-%C3%B3bitos-por-ra%C3%A7acor-e-munic%C3%ADpio-1

2. Coleta

Os dados da Fundação SEADE estão disponibilizados em arquivos com formato .csv. Assim, foi necessário ler o arquivo .csv e enviar o conteúdo do arquivo para a nuvem.

In [0]:
# File location and type
file_location = "/FileStore/tables/casos_obitos_raca_cor.csv"
file_type = "csv"

# CSV options
infer_schema = "false"
first_row_is_header = "true"
delimiter = ";"

# The applied options are for CSV files. For other file types, these will be ignored.
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

codigo_ibge,nome_munic,nome_drs,obito,raca_cor,idade,cs_sexo,diagnostico_covid19,asma,cardiopatia,diabetes,doenca_hematologica,doenca_hepatica,doenca_neurologica,doenca_renal,imunodepressao,obesidade,pneumopatia,puerpera,sindrome_de_down
3504008,Assis,Marília,False,IGNORADO,69.0,MASCULINO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,
3550308,São Paulo,Município de São Paulo,False,IGNORADO,60.0,FEMININO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,
3503208,Araraquara,Araraquara,False,PARDA,58.0,MASCULINO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,
3550308,São Paulo,Município de São Paulo,False,IGNORADO,45.0,FEMININO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,
3550308,São Paulo,Município de São Paulo,False,IGNORADO,42.0,FEMININO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,
3550308,São Paulo,Município de São Paulo,False,IGNORADO,33.0,FEMININO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,
3509502,Campinas,Campinas,False,IGNORADO,32.0,MASCULINO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,
3550308,São Paulo,Município de São Paulo,False,IGNORADO,27.0,FEMININO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,
3509502,Campinas,Campinas,False,PRETA,1.0,MASCULINO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,
3529401,Mauá,Grande SP Sudeste,False,IGNORADO,35.0,MASCULINO,CONFIRMADO,,9.0,9.0,,,,9.0,9.0,,,,


3. Extração, transformação e carga de dados (ETL)

Inicialmente, todos os dados serão armazenados na tabela "casos":

In [0]:
permanent_table_name = "casos"

df.write.format("parquet").saveAsTable(permanent_table_name)

3.1 Colunas

3.1.1. codigo_ibge: coluna qualitativa da qual foi decidido remover os registros com valores desconhecidos

In [0]:
%sql
select codigo_ibge, count(*) from casos group by codigo_ibge;

codigo_ibge,count(1)
3507803.0,4949
3502507.0,3004
3545506.0,824
3503158.0,277
3501400.0,357
3520301.0,5807
3503604.0,2387
3503950.0,635
3525201.0,3516
3548708.0,78211


In [0]:
%sql

INSERT INTO
  etl_casos
SELECT
  *
FROM
  casos
WHERE 
  codigo_ibge <> "NA";

num_affected_rows,num_inserted_rows
6684250,6684250


3.1.2. nome_munic: coluna qualitativa da qual foi decidido remover os registros com valores desconhecidos

In [0]:
%sql

DELETE FROM
  etl_casos
WHERE 
  nome_munic = "NA" OR nome_munic IS NULL;

num_affected_rows
0


3.1.3. nome_drs: coluna qualitativa da qual não é necessário remover nenhum valor, pois todos os valores são válidos

In [0]:
%sql
select nome_drs, count(*) from etl_casos group by nome_drs;

nome_drs,count(1)
São João da Boa Vista,200133
Presidente Prudente,146364
Araraquara,223579
São José do Rio Preto,485420
Bauru,412760
Registro,59218
Grande SP Norte,62130
Araçatuba,187107
Franca,84404
Piracicaba,297278


3.1.4. obito: coluna qualitativa da qual não é necessário remover nenhum valor, pois todos os valores são válidos

In [0]:
%sql
select obito, count(*) from etl_casos group by obito;

obito,count(1)
False,6502957
True,181293


3.1.5. raca_cor: coluna qualitativa da qual foi decidido agregar os campos correspondentes à categoria "afrodescendente", além de remover valores desconhecidos ou inválidos

In [0]:
%sql
select raca_cor, count(*) from etl_casos group by raca_cor;

raca_cor,count(1)
BRANCA,3451279
AMARELA,115293
INDIGENA,2545
AFRODESCENDENTE,1414967


In [0]:
%sql
DELETE FROM
  etl_casos
WHERE 
  raca_cor IN ("NA", "IGNORADO", "NONE") OR raca_cor IS NULL;


UPDATE 
  etl_casos 
SET
  raca_cor = "BRANCA"
WHERE 
  raca_cor = "BRANCO";


UPDATE 
  etl_casos 
SET
  raca_cor = "AFRODESCENDENTE"
WHERE 
  raca_cor = "PRETA" or raca_cor = "PARDA";



num_affected_rows
1414967


3.1.6. idade: coluna quantitativa da qual foi decidido remover valores desconhecidos ou inválidos

In [0]:
%sql
select idade, count(*) from etl_casos group by idade;

idade,count(1)
51.0,77135
7.0,17465
54.0,72522
15.0,31254
11.0,22815
101.0,221
29.0,92023
69.0,34304
42.0,99730
112.0,9


In [0]:
%sql
DELETE FROM
  etl_casos
WHERE 
  idade < 0 or idade > 120;

num_affected_rows
44


3.1.7. cs_sexo: coluna qualitativa da qual foi decidido remover valores desconhecidos ou inválidos

In [0]:
%sql
select cs_sexo, count(*) from etl_casos group by cs_sexo;

cs_sexo,count(1)
INDEFINIDO,569
MASCULINO,2234758
IGNORADO,1
FEMININO,2748712


In [0]:
%sql
DELETE FROM
  etl_casos
WHERE 
  cs_sexo IN ("INDEFINIDO", "IGNORADO") OR cs_sexo IS NULL;

num_affected_rows
570


3.1.8. diagnostico_covid19: coluna qualitativa que não necessita de tratamento, já que a única opção existente ("CONFIRMADO") é válida 

In [0]:
%sql
select diagnostico_covid19, count(*) from etl_casos group by diagnostico_covid19;

diagnostico_covid19,count(1)
CONFIRMADO,4983470


3.1.9. Colunas restantes: 
Foram desconsideradas as colunas "asma", "cardiopatia", "diabetes", "doenca_hematologica", "doenca_hepatica", "doenca_neurologica", "doenca_renal", "imunodepressao", "obesidade", "pneumopatia", "puerpera", "sindrome_de_down", pois elas não contribuem significativamente para as respostas às perguntas contidas na seção "Perguntas" deste trabalho. 

### Solução

Relembrando as perguntas a serem respondidas neste trabalho:

1. O covid-19 acometeu mais pessoas afrodescendentes ou pessoas brancas?
2. Dentre as pessoas afrodescendentes, qual gênero foi mais acometido?
3. Dentre as pessoas brancas, qual gênero foi mais acometido?


#### O covid-19 acometeu mais pessoas afrodescendentes ou pessoas brancas?

Considerando o resultado a seguir, observa-se que, com base nos dados coletados e tratados, a população branca foi mais acometida pelo COVID-19. Entretanto, deve-se considerar que, na época da pandemia, houve muita subnotificação, além do fato de que, devido à desigualdade racial no Brasil, pessoas brancas têm mais acesso a recursos de saúde, o que pode ter contribuído para a quantidade de casos obtida entre as pessoas brancas. 

#### Notas:
1. https://www1.folha.uol.com.br/equilibrioesaude/2022/11/negros-tem-mais-acesso-a-saude-basica-enquanto-brancos-tem-facilidade-com-alta-complexidade.shtml
2. https://www.estadao.com.br/politica/brancos-tem-duas-vezes-mais-acesso-a-planos-de-saude-no-brasil-que-negros/
3. https://portal.fiocruz.br/noticia/semana-da-consciencia-negra-desigualdade-entre-negros-e-brancos-na-saude-em-debate
4. https://www.bbc.com/portuguese/noticias/2011/11/111116_saude_negros_brasil_mm

In [0]:
%sql
SELECT raca_cor, COUNT(*) FROM etl_casos GROUP BY raca_cor;

raca_cor,count(1)
BRANCA,3450901
AMARELA,115288
INDIGENA,2545
AFRODESCENDENTE,1414736


#### Dentre as pessoas afrodescendentes, qual gênero foi mais acometido?

Com base nos dados abaixo, verifica-se que, dentre as pessoas afrodescendentes, as mulheres foram mais acometidas do que os homens. Entretanto, assim como na pergunta anterior, é importante considerar as subnotificações e que, estatisticamente, mulheres vão mais ao médico do que os homens, além do fato de que as mulheres afrodescendentes brasileiras, quanto à situação socioeconômica, são geralmente mais vulneráveis do que os homens afrodescendtes brasileiros.

#### Notas:
1. https://www.cnnbrasil.com.br/saude/novembro-azul-homens-vao-menos-ao-medico-que-mulheres-campanha-incentiva-cuidados/
2. https://www.estadao.com.br/saude/mulheres-vao-mais-ao-medico-que-homens--mostra-ibge/
3. https://www.ipea.gov.br/retrato/pdf/primeiraedicao.pdf
4. https://direitoshumanos.dpu.def.br/raiz-estrutural-da-exclusao-feminina-negra-vem-dos-primordios-do-voto-diz-defensora/

In [0]:
%sql
SELECT cs_sexo, COUNT(*) FROM etl_casos WHERE raca_cor = "AFRODESCENDENTE" GROUP BY cs_sexo;

cs_sexo,count(1)
MASCULINO,657745
FEMININO,756991


#### Dentre as pessoas brancas, qual gênero foi mais acometido?

Com base nos dados abaixo, verifica-se que, dentre as pessoas brancas, as mulheres foram mais acometidas do que os homens. Entretanto, assim como na pergunta anterior, é importante considerar as subnotificações e que, estatisticamente, mulheres vão mais ao médico do que os homens.

#### Notas

1. https://www.cnnbrasil.com.br/saude/novembro-azul-homens-vao-menos-ao-medico-que-mulheres-campanha-incentiva-cuidados/
2. https://www.estadao.com.br/saude/mulheres-vao-mais-ao-medico-que-homens--mostra-ibge/
3. https://www.ipea.gov.br/retrato/pdf/primeiraedicao.pdf


In [0]:
%sql
SELECT cs_sexo, COUNT(*) FROM etl_casos WHERE raca_cor = "BRANCA" GROUP BY cs_sexo;

cs_sexo,count(1)
MASCULINO,1520908
FEMININO,1929993


### Autoavaliação

Considerando as seções anteriores, conclui-se que foi possível responder às perguntas propostas neste trabalho e que, com base no livro "How to Lie With Statistics", se tirados de contexto, realmente é possível obter conclusões precipitadas em relação a alguns resultados deste trabalho.

Primeiramente, em relação ao número de casos entre pessoas brancas e negras, é possível dizer que os brancos "sofrem" mais do que os negros, o que seria válido se não fosse considerado o contexto racial e socioeconômico no Brasil. Assim, os dados são essenciais para responder a perguntas, mas é importante que isso seja feito com parcimônia, para uma conclusão mais realista. A mesma coisa pode ser dita em relação ao número de casos entre homens e mulheres, mesmo considerando a cor da pele.

Para trabalhos futuros, é interessante fazer as mesmas análises para um conjunto mais abrangente de dados, incluindo registros de pessoas de outros estados brasileiros e de outras identidades de gênero.

No início da esquematização deste trabalho, eu não sabia como e por onde começar, mas, com o auxílio do roteiro do enunciado do MVP e do conselho de um colega canadense, que disse para mim "Just do it", foi possível começar o trabalho de algum lugar.

#### Nota
1. Livro "How to Lie With Statistics": https://www.amazon.com/How-Lie-Statistics-Darrell-Huff/dp/0393310728