Etapas avaliadas serão:

    1. Webscrapping de dados de saúde (Processo utilizando alguma das bibliotecas ministradas no curso). OK

    2. Projeto no GitHub (Com documentação e README).

    3. Desenvolvimento de um pipeline, detalhando as etapas envolvidas desde o webscrapping até a entrega de uma 
    base pronta para análise (ferramentas, sistema, linguagem utilizados). Pode ser em formato de texto usando fluxo de tarefas, com imagens usando um fluxograma e texto para complementar com descrição de cada tarefa.

    4. Manipulação de dados e transformação (avaliados através de scripts de manipulação usando técnicas similares as ministradas em aula).

    5. Agregação de dados e junção (merge) de bases de dados (também avaliado através dos scripts).

    6. Descritiva simples de pelo menos 10 variáveis da base final (se for numérica, avaliar média, 
    mediana e fazer um boxplot, se for categórica mostrar percentuais de preenchimento em cada categoria, se for data, avaliar mínimo e máximo).
    
    7. Entregar um dicionário das principais variáveis na base de dados (entre 10-15 variáveis), 
    contendo o nome da variável, uma descrição breve, o tipo, e a completude na base de dados.

As problemáticas disponíveis para seleção, e, portanto, o problema no qual vocês irão trabalhar estarão dispostas abaixo. 
Além disso, na etapa de webscrapping, precisaremos de dados das bases de saúde de pelo menos 5 anos (os 5 mais atuais disponíveis), e para os dados socioeconômicos se possível também dos últimos 5 anos (se for um índice único, utilizar apenas o que está disponível).


O pesquisador quer avaliar as condições de óbitos usando alguns dados socioeconômicos, observando se existe alguma relação entre municípios com maior IVS (Índice de Vulnerabilidade Social) ou pior IED (Índice de Equidade e Dimensionamento) em relação à quantidade de óbitos.

Para isso ele precisará das informações:

    Sobre óbito;

    Se o evento está relacionado ao processo de trabalho;

    Se houve correção ou alteração da causa do óbito após investigação;

    O(s) CID(s) informados no atestado de óbito, a causa básica da declaração do óbito (CID 10);

    O código do município de residência, a data de nascimento e data de óbito;

    Também tem interesse em saber o nível de escolaridade do indivíduo e escolaridade da mãe (se disponível);
    
    E informações sobre raça/cor do indivíduo.

    E para informações socioeconômicas queremos os valores de IED e IVS, além do número de habitantes e a faixa de porte populacional segundo o IBGE.
    Dados:

-
SIM: https://dados.gov.br/dados/conjuntos-dados/sim-1979-2019
-
IED e IVS - https://www.in.gov.br/en/web/dou/-/portaria-gm/ms-n-3.493-de-10-de-abril-de-2024-553573811

In [2]:
from bs4 import BeautifulSoup
import pandas as pd
import ssl
import requests
import glob

In [3]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from time import sleep
from random import randint
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import os
import shutil
import re


In [4]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

In [4]:
ssl._create_default_https_context = ssl._create_unverified_context

In [5]:
# Webscraping acessando a página do gov.br IVS e IED, extraindo as tabelas com as informações necessariás para a realizar a relação de óbitos.
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36'}

url = 'https://www.in.gov.br/en/web/dou/-/portaria-gm/ms-n-3.493-de-10-de-abril-de-2024-553573811'

request = requests.get(url, headers=header)

tabelas = pd.read_html(request.text)

tabelas_filtradas = tabelas[5:23]

df_final = pd.concat(tabelas_filtradas, ignore_index=True)

df_final.to_csv("tabelas_filtradas.csv", index=False, encoding="utf-8")

print("Arquivo 'tabelas_filtradas.csv' salvo com sucesso!")

  tabelas = pd.read_html(request.text)


Arquivo 'tabelas_filtradas.csv' salvo com sucesso!


In [6]:
indices_ied_ivs = pd.read_csv('tabelas_filtradas.csv')

indices_ied_ivs.columns = indices_ied_ivs.iloc[0]  # Define a segunda linha como cabeçalho

indices_ied_ivs = indices_ied_ivs[1:].reset_index(drop=True)  # Remove a primeira linha e reseta o índice

# display(indices_ied_ivs)

In [7]:
indices_ied_ivs.tail(10)

Unnamed: 0,UF,IBGE,Nome do Município,Índice de Vulnerabilidade Social,Número de habitantes segundo o IBGE 2022,Faixa de Porte Populacional segundo o IBGE 2022,Índice de Equidade e Dimensionamento (IED),NaN,NaN.1
5563,TO,172100,PALMAS,4,302.692,4-Acima de 100mil hab.,4,,
5564,TO,172110,TOCANTÍNIA,2,7.459,1-Até 20mil hab.,2,,
5565,TO,172120,TOCANTINÓPOLIS,3,22.615,2-Acima de 20mil até 50mil hab.,3,,
5566,TO,172125,TUPIRAMA,4,1.909,1-Até 20mil hab.,3,,
5567,TO,172130,TUPIRATINS,2,1.874,1-Até 20mil hab.,2,,
5568,TO,172208,WANDERLÂNDIA,3,10.522,1-Até 20mil hab.,3,,
5569,TO,172210,XAMBIOÁ,2,10.517,1-Até 20mil hab.,2,,
5570,Total,Total,5.570 municípios,5.570 municípios,5.570 municípios,5.570 municípios,5.570 municípios,,
5571,,,,,,,,Páginas vistas,null null null
5572,,,,,,,,Visitantes únicos,null null null


In [8]:
indices_ied_ivs.shape
print(f"Total de registros: {indices_ied_ivs.shape[0]}")
print(f"Total de variáveis: {indices_ied_ivs.shape[1]}")

Total de registros: 5573
Total de variáveis: 9


In [9]:
indices_ied_ivs.columns

Index([                                             'UF',
                                                  'IBGE',
                                     'Nome do Município',
                      'Índice de Vulnerabilidade Social',
              'Número de habitantes segundo o IBGE 2022',
       'Faixa de Porte Populacional segundo o IBGE 2022',
            'Índice de Equidade e Dimensionamento (IED)',
                                                     nan,
                                                     nan],
      dtype='object', name=0)

In [10]:
indices_ied_ivs.isnull().sum()

0
UF                                                    2
IBGE                                                  2
Nome do Município                                     2
Índice de Vulnerabilidade Social                      2
Número de habitantes segundo o IBGE 2022              2
Faixa de Porte Populacional segundo o IBGE 2022       2
Índice de Equidade e Dimensionamento (IED)            2
NaN                                                5571
NaN                                                5571
dtype: int64

In [None]:
import time
navegador = webdriver.Chrome()

navegador.get('https://dados.gov.br/dados/conjuntos-dados/sim-1979-2019')

navegador.maximize_window()

time.sleep(5)

# selecionar um elemento Recursos na tela
recursos = navegador.find_element(By.XPATH, '/html/body/div/section/div/div[3]/div[2]/div[3]/div[2]/header')
# clicar em um elemento
recursos.click()

time.sleep(5)

# Clicar no elementos Mortalidade Geral 2018-2023
acessar_o_recurso_2018 = navegador.find_element(By.XPATH, '/html/body/div/section/div/div[3]/div[2]/div[3]/div[2]/div/div[41]/div[2]/div[2]/div/button[1]')

acessar_o_recurso_2018.click()

time.sleep(5)

# Lista de anos
anos = [2018, 2019, 2020, 2021, 2022, 2023]

# Loop para acessar os recursos de cada ano
for ano in anos:
    xpath = f'/html/body/div/section/div/div[3]/div[2]/div[3]/div[2]/div/div[{40 + (ano - 2018)}]/div[2]/div[2]/div/button[1]'
    acesso_0s_recurso = navegador.find_element(By.XPATH, xpath)
    acesso_0s_recurso.click()
    
    # Espera de 5 segundos
    time.sleep(5)

# Fechar o navegador após a execução
#navegador.quit(30)

In [None]:
# Caminho da pasta Downloads (isso pode variar dependendo do sistema operacional)
# No Windows
download_folder = os.path.join(os.path.expanduser('~'), 'Downloads')

# Lista de arquivos que você quer capturar (exemplo de nomes de arquivos)
arquivos_para_capturar = ['Mortalidade_Geral_2018.csv', 'Mortalidade_Geral_2019.csv', 'Mortalidade_Geral_2020.csv', 'Mortalidade_Geral_2021.csv', 'DO22OPEN.csv'] 

# Caminho onde você deseja mover os arquivos capturados
destino = "C:/Users/walter.macedo/Desktop/WalterMacedo/Modulo engenharia de dados/TRABALHO_FINAL_M5"

# Verificando se os arquivos existem na pasta Downloads
for arquivo in arquivos_para_capturar:
    arquivo_path = os.path.join(download_folder, arquivo)
    
    if os.path.exists(arquivo_path):
        print(f"Arquivo encontrado: {arquivo}")
        # Movendo o arquivo para o destino
        shutil.move(arquivo_path, os.path.join(destino, arquivo))
    else:
        print(f"Arquivo não encontrado: {arquivo}")


In [None]:
arquivos = ['corrigido_Mortalidade_Geral_2018.csv', 'corrigido_Mortalidade_Geral_2019.csv', 
            'corrigido_Mortalidade_Geral_2020.csv', 'corrigido_Mortalidade_Geral_2021.csv', 
            'corrigido_DO22OPEN.csv']
# Ler e armazenar os DataFrames em uma lista
dataframes = [pd.read_csv(arquivo) for arquivo in arquivos]

# Concatenar todos os DataFrames em um único
df_geral = pd.concat(dataframes, ignore_index=True)

# Filtrar apenas colunas que contêm "obito" no nome (ignorando maiúsculas e minúsculas)
colunas_obito = [col for col in df_geral.columns if 'obito' in col.lower()]
df_filtrado = df_geral[colunas_obito]

# Salvar o arquivo consolidado e filtrado
df_filtrado.to_csv("dados_obito_consolidado.csv", index=False)

print("Arquivo consolidado salvo como 'dados_obito_consolidado.csv")

In [20]:
df = pd.read_csv('dados_obito_consolidado.csv' , sep= ';', nrows=1000)

df.to_csv('dados_obito.csv') 

df.head(5)

Unnamed: 0,"ORIGEM;""TIPOBITO"";""DTOBITO"";""HORAOBITO"";""NATURAL"";""CODMUNNATU"";""DTNASC"";""IDADE"";""SEXO"";""RACACOR"";""ESTCIV"";""ESC"";""ESC2010"";""SERIESCFAL"";""OCUP"";""CODMUNRES"";""LOCOCOR"";""CODESTAB"";""ESTABDESCR"";""CODMUNOCOR"";""IDADEMAE"";""ESCMAE"";""ESCMAE2010"";""SERIESCMAE"";""OCUPMAE"";""QTDFILVIVO"";""QTDFILMORT"";""GRAVIDEZ"";""SEMAGESTAC"";""GESTACAO"";""PARTO"";""OBITOPARTO"";""PESO"";""TPMORTEOCO"";""OBITOGRAV"";""OBITOPUERP"";""ASSISTMED"";""EXAME"";""CIRURGIA"";""NECROPSIA"";""LINHAA"";""LINHAB"";""LINHAC"";""LINHAD"";""LINHAII"";""CAUSABAS"";""CB_PRE"";""COMUNSVOIM"";""DTATESTADO"";""CIRCOBITO"";""ACIDTRAB"";""FONTE"";""NUMEROLOTE"";""TPPOS"";""DTINVESTIG"";""CAUSABAS_O"";""DTCADASTRO"";""ATESTANTE"";""STCODIFICA"";""CODIFICADO"";""VERSAOSIST"";""VERSAOSCB"";""FONTEINV"";""DTRECEBIM"";""ATESTADO"";""DTRECORIGA"";""CAUSAMAT"";""ESCMAEAGR1"";""ESCFALAGR1"";""STDOEPIDEM"";""STDONOVA"";""DIFDATA"";""NUDIASOBCO"";""NUDIASOBIN"";""DTCADINV"";""TPOBITOCOR"";""DTCONINV"";""FONTES"";""TPRESGINFO"";""TPNIVELINV"";""NUDIASINF"";""DTCADINF"";""MORTEPARTO"";""DTCONCASO"";""FONTESINF"";""ALTCAUSA"";""CONTADOR"""
0,"1;""2"";""25042018"";""0315"";""016"";""03111965"";""452""..."
1,"1;""2"";""24052018"";""812"";""120032"";""20052018"";""20..."
2,"1;""2"";""14022018"";""1400"";""812"";""120030"";""020619..."
3,"1;""2"";""31072018"";""1600"";""812"";""120030"";""250819..."
4,"1;""2"";""21092018"";""1718"";""812"";""120010"";""040719..."


In [16]:
list(df)

['ORIGEM;"TIPOBITO";"DTOBITO";"HORAOBITO";"NATURAL";"CODMUNNATU";"DTNASC";"IDADE";"SEXO";"RACACOR";"ESTCIV";"ESC";"ESC2010";"SERIESCFAL";"OCUP";"CODMUNRES";"LOCOCOR";"CODESTAB";"ESTABDESCR";"CODMUNOCOR";"IDADEMAE";"ESCMAE";"ESCMAE2010";"SERIESCMAE";"OCUPMAE";"QTDFILVIVO";"QTDFILMORT";"GRAVIDEZ";"SEMAGESTAC";"GESTACAO";"PARTO";"OBITOPARTO";"PESO";"TPMORTEOCO";"OBITOGRAV";"OBITOPUERP";"ASSISTMED";"EXAME";"CIRURGIA";"NECROPSIA";"LINHAA";"LINHAB";"LINHAC";"LINHAD";"LINHAII";"CAUSABAS";"CB_PRE";"COMUNSVOIM";"DTATESTADO";"CIRCOBITO";"ACIDTRAB";"FONTE";"NUMEROLOTE";"TPPOS";"DTINVESTIG";"CAUSABAS_O";"DTCADASTRO";"ATESTANTE";"STCODIFICA";"CODIFICADO";"VERSAOSIST";"VERSAOSCB";"FONTEINV";"DTRECEBIM";"ATESTADO";"DTRECORIGA";"CAUSAMAT";"ESCMAEAGR1";"ESCFALAGR1";"STDOEPIDEM";"STDONOVA";"DIFDATA";"NUDIASOBCO";"NUDIASOBIN";"DTCADINV";"TPOBITOCOR";"DTCONINV";"FONTES";"TPRESGINFO";"TPNIVELINV";"NUDIASINF";"DTCADINF";"MORTEPARTO";"DTCONCASO";"FONTESINF";"ALTCAUSA";"CONTADOR"']

In [None]:
df.shape
print(f"Total de registros: {df.shape[0]}")
print(f"Total de variáveis: {df.shape[1]}")

In [6]:
df = pd.read_csv('Mortalidade_Geral_2018.csv', sep= ';', nrows=1000)

df.head(10)

Unnamed: 0,ORIGEM,TIPOBITO,DTOBITO,HORAOBITO,NATURAL,CODMUNNATU,DTNASC,IDADE,SEXO,RACACOR,...,FONTES,TPRESGINFO,TPNIVELINV,NUDIASINF,DTCADINF,MORTEPARTO,DTCONCASO,FONTESINF,ALTCAUSA,CONTADOR
0,1,2,25042018,315.0,16.0,,3111965.0,452,1,1.0,...,,,,,,,,,,18
1,1,2,24052018,,812.0,120032.0,20052018.0,204,2,5.0,...,,,,,,,,,,2120
2,1,2,14022018,1400.0,812.0,120030.0,2061925.0,492,1,5.0,...,,,,,,,,,,2121
3,1,2,31072018,1600.0,812.0,120030.0,25081928.0,489,2,5.0,...,,,,,,,,,,2122
4,1,2,21092018,1718.0,812.0,120010.0,4071941.0,477,1,4.0,...,,,,,,,,,,2691
5,1,2,4102018,900.0,812.0,120010.0,18041943.0,475,1,4.0,...,,,,,,,,,,2692
6,1,2,13072018,1300.0,812.0,120043.0,17031933.0,485,2,4.0,...,,,,,,,,,,2712
7,1,2,13052018,2200.0,812.0,120034.0,1031930.0,488,1,5.0,...,,,,,,,,,,2713
8,1,2,1072018,924.0,812.0,120050.0,8061935.0,483,2,4.0,...,,,,,,,,,,2714
9,1,2,21032018,1900.0,812.0,120043.0,22022018.0,228,2,5.0,...,SXXSXX,,,,9042018.0,3.0,5042018.0,,1.0,2715


In [7]:
df.columns
print(df.columns)

Index(['ORIGEM', 'TIPOBITO', 'DTOBITO', 'HORAOBITO', 'NATURAL', 'CODMUNNATU',
       'DTNASC', 'IDADE', 'SEXO', 'RACACOR', 'ESTCIV', 'ESC', 'ESC2010',
       'SERIESCFAL', 'OCUP', 'CODMUNRES', 'LOCOCOR', 'CODESTAB', 'ESTABDESCR',
       'CODMUNOCOR', 'IDADEMAE', 'ESCMAE', 'ESCMAE2010', 'SERIESCMAE',
       'OCUPMAE', 'QTDFILVIVO', 'QTDFILMORT', 'GRAVIDEZ', 'SEMAGESTAC',
       'GESTACAO', 'PARTO', 'OBITOPARTO', 'PESO', 'TPMORTEOCO', 'OBITOGRAV',
       'OBITOPUERP', 'ASSISTMED', 'EXAME', 'CIRURGIA', 'NECROPSIA', 'LINHAA',
       'LINHAB', 'LINHAC', 'LINHAD', 'LINHAII', 'CAUSABAS', 'CB_PRE',
       'COMUNSVOIM', 'DTATESTADO', 'CIRCOBITO', 'ACIDTRAB', 'FONTE',
       'NUMEROLOTE', 'TPPOS', 'DTINVESTIG', 'CAUSABAS_O', 'DTCADASTRO',
       'ATESTANTE', 'STCODIFICA', 'CODIFICADO', 'VERSAOSIST', 'VERSAOSCB',
       'FONTEINV', 'DTRECEBIM', 'ATESTADO', 'DTRECORIGA', 'CAUSAMAT',
       'ESCMAEAGR1', 'ESCFALAGR1', 'STDOEPIDEM', 'STDONOVA', 'DIFDATA',
       'NUDIASOBCO', 'NUDIASOBIN', 'DTCADINV