### Coleta de nomes frequentes 

In [21]:
# Imports
import pandas as pd
from bs4 import BeautifulSoup
import requests

repo = '/Users/USER/DS/3 - Projetos/cemit/'

# Cria lista para armazenar nomes coletados
nomes = []

# Fazer requisição da página
url = 'https://pt.wikipedia.org/wiki/Lista_de_prenomes_mais_comuns_no_Brasil'

# Fazendo uma requisição GET para obter o conteúdo da página
response = requests.get(url)

# Verifica se a requisição foi bem-sucedida
if response.status_code == 200:
    # Parseia o conteúdo HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Encontrando a tabela desejada pelo seu atributo 'class'
    tabela = soup.find('table', class_='wikitable')

    # Verificando se a tabela foi encontrada
    if tabela:
        # Itera sobre as linhas da tabela
        for linha in tabela.find_all('tr'):
            # Itera sobre as células de cada linha
            colunas = linha.find_all('td')
            if colunas:
                # insere nomes na lista
                registro = [coluna.text.strip() for coluna in colunas]
                nomes.append(registro[1])
                nomes.append(registro[6])             
    else:
        print("Tabela não encontrada.")
else:
    print("Falha ao acessar a página.")

# Cria DataFrame com nomes coletados
df = pd.DataFrame({'nome':nomes})

# Tratar informação coletada
df['abrev_nome'] = df['nome'].str.slice(0,3)

# Salvar dados em csv
df.to_csv(f'{repo}dados/nomes_frequentes.csv', sep=';', encoding='utf-8', index=False)

### Web Scraping do site existente

In [1]:
# Imports
from selenium                               import webdriver
from webdriver_manager.chrome               import ChromeDriverManager
from selenium.webdriver.chrome.service      import Service
from selenium.webdriver.common.by           import By
from selenium.webdriver.chrome.options      import Options
from selenium.common.exceptions import *
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

from time                                   import sleep
from datetime import date
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

repo = '/Users/USER/DS/3 - Projetos/cemit/'
SLEEP = 5

def driver_settings():
    # Set options
    options = Options()
    options.add_argument('start-maximized')
    options.add_argument('--disable-notifications')
    options.add_argument('--no-sandbox')
    options.add_argument('--verbose')

    # Run browser
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=options)
    
    return driver


def consulta_ano_nome(driver, ano, abrev):
    try:
        # confere se os campos renderizaram
        WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/section/div/table/thead/tr[3]/th/input[3]'))
        )

        # inputa os dados
        driver.find_element(By.XPATH, '/html/body/section/div/table/thead/tr[3]/th/input[3]').send_keys(ano)
        driver.find_element(By.XPATH, '/html/body/section/div/table/thead/tr[3]/th/input[4]').send_keys(abrev)
        driver.find_element(By.XPATH, '/html/body/section/div/table/thead/tr[3]/th/button').click()

    except:
        print('nao foi possivel fazer a consulta')


def verificar_numero_paginas(driver, numero_registros):
    # verifica quantos paginas existem na pesquisa
    # casos com mais de uma pagina
    try:
        #procurar primeira pagina renderizada
        WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, f'/html/body/div/table/tbody/tr[{numero_registros+1}]/th/a[1]'))
        )                                              

        presenca_paginas = True

        # procurar o maior numero de pagina
        if presenca_paginas == True:
            for i in range(1, 1000):
                try:
                    driver.find_element(By.XPATH, f'/html/body/div/table/tbody/tr[{numero_registros+1}]/th/a[{i}]')
                    numero_paginas = i
                except:        
                    numero_paginas = i - 1
                    break  
    except:
        # casos com uma pagina
        try:
            #procurar primeira pagina renderizada
            WebDriverWait(driver, SLEEP).until(
                EC.presence_of_element_located((By.XPATH, f'/html/body/div/table/tbody/tr[{numero_registros+1}]/th/a'))
            ) 
            numero_paginas = 1
        # casos com nenhuma pagina
        except:
            numero_paginas = 0 

    return numero_paginas


def verificar_numero_registros(driver, ano, nome):
    # verifica quantos registros existem na pagina
    # primeira faz uma verificacao minima para ver se vale a pena analisar a pagina
    try:
        # procurar pelo primeiro registro renderizado
        WebDriverWait(driver, SLEEP).until(             
            EC.presence_of_element_located((By.XPATH, '/html/body/div/table/tbody/tr[1]/td[2]'))
        )
        presenca_registro = True

        # procurar o maior numero de registros
        if presenca_registro == True:
            for i in range(1, 1000):
                try:
                    driver.find_element(By.XPATH, f'/html/body/div/table/tbody/tr[{i}]/td[2]')
                    numero_registros = i
                except:        
                    numero_registros = i - 1
                    break  
    except:
        print(f"Ano: {ano} / Nome: {nome} / registro nao encontrado ou tempo limite excedido.")
        numero_registros = 0

    return numero_registros


def coletar_dados_detalhados(driver, ano, nome):
    # coletar dados como lista
    novo_registro = []

    try:
        num_obtuario = WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/thead/tr/th/b'))
        ).text
        novo_registro.append(num_obtuario)

        cemiterio = WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/tbody[2]/tr[1]/td/b'))
        ).text
        novo_registro.append(cemiterio)

        falecido = WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/tbody[2]/tr[2]/td/b[1]'))
        ).text
        novo_registro.append(falecido)

        data_falecimento = WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/tbody[2]/tr[2]/td/b[2]'))
        ).text
        novo_registro.append(data_falecimento)

        sexo = WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/tbody[2]/tr[3]/td/b[1]'))
        ).text
        novo_registro.append(sexo)

        cor = WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/tbody[2]/tr[3]/td/b[2]'))
        ).text
        novo_registro.append(cor)

        data_nascimento = WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/tbody[2]/tr[3]/td/b[3]'))
        ).text
        novo_registro.append(data_nascimento)

        idade = WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/tbody[2]/tr[3]/td/b[4]'))
        ).text
        novo_registro.append(idade)

        try:
            localizacao = WebDriverWait(driver, SLEEP).until(
                EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/tbody[2]/tr[4]/th'))
            ).text
            novo_registro.append(localizacao)

            detalhes = WebDriverWait(driver, SLEEP).until(      
                EC.presence_of_element_located((By.XPATH, '/html/body/div/div/table/tbody[2]/tr[5]/td'))
            ).text
            novo_registro.append(detalhes)
        except:
            localizacao = ''
            novo_registro.append(localizacao)

            detalhes = ''
            novo_registro.append(detalhes)

    except:
        print(f"Ano: {ano} / Nome: {nome} / dados detalhados não encontrados ou tempo limite excedido.")

    return novo_registro


def coletar_linha(driver, df, registro, numero_registros, pagina, ano, nome):
    try:
        #procurar registro renderizado
        WebDriverWait(driver, SLEEP).until(
            EC.presence_of_element_located((By.XPATH, f'/html/body/div/table/tbody/tr[{registro}]/td[2]'))
        ).click()

        # coletar dados detalhados
        novo_registro = coletar_dados_detalhados(driver, ano, nome)
        df.loc[len(df)] = novo_registro

        # retornar para lsita de pesuqisa
        driver.find_element(By.XPATH, f'/html/body/section/div/table/thead/tr[3]/th/button').click()

        # verifica se encaminha para pagina correta na ordem de pesquisa
        try:
            # ir para proxima pagina
            WebDriverWait(driver, SLEEP).until(
                EC.presence_of_element_located((By.XPATH, f'/html/body/div/table/tbody/tr[{numero_registros+1}]/th/a[{pagina}]'))
            ).click()   

            # aguardar para evitar duplicidade
            sleep(SLEEP)
        except:
            pass
    except:
        pass

    return df


def web_scraping(df, driver, ano, abrev_nome):
    # fazer pesquisa por nome abreviado
    for nome in abrev_nome:
        # inicir pagina limpa
        url = 'https://funeraria.guarulhos.sp.gov.br/finados.php'
        driver.get(url)

        # inputar valores e pesquisar
        consulta_ano_nome(driver, ano, nome)

        # encontra numero de registros na pagina
        numero_registros = verificar_numero_registros(driver, ano, nome)

        if numero_registros > 0:
            # encontra numero de paginas na pesquisa
            numero_paginas = verificar_numero_paginas(driver, numero_registros)
        else:
            numero_paginas = 0

        if numero_paginas > 1:
            for pagina in range(1, numero_paginas+1):
                for registro in range(1, numero_registros+1):
                    df = coletar_linha(driver, df, registro, numero_registros, pagina, ano, nome)
        elif numero_paginas == 1:
            for registro in range(1, numero_registros+1):
                df = coletar_linha(driver, df, registro, numero_registros, 1, ano, nome)
        else:
            print(f'Ano: {ano} / Nome: {nome} / numero de paginas = 0')
            pass

    df = df.drop_duplicates()
    return df

In [3]:
# criar driver
driver = driver_settings()

# criar dataframe
df = pd.DataFrame(columns=[
    'num_obtuario',
    'cemiterio',
    'falecido',
    'data_falecimento',
    'sexo',
    'cor',
    'data_nascimento',
    'idade',
    'localizacao',
    'detalhes'
    ])

ano = 2014

nomes_frequentes = pd.read_csv(f'{repo}dados/nomes_frequentes.csv', sep=';', encoding='utf-8')
abrev_nome = list(nomes_frequentes['nome_abrev'])

print(f'numero de nomes abreviados para pesquisa: {len(abrev_nome)}')
print(f'Ano de pesquisa: {ano}')

df = web_scraping(df, driver, ano, abrev_nome)
df.to_csv(f'{repo}dados/df_{ano}.csv', sep=';', encoding='utf-8', index=False)

print(df.shape)
df.head()

numero de nomes abreviados para pesquisa: 85
Ano de pesquisa: 2014


NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: chrome=123.0.6312.86)
Stacktrace:
	GetHandleVerifier [0x011B4CC3+225091]
	(No symbol) [0x010E4E11]
	(No symbol) [0x00F89A7A]
	(No symbol) [0x00F6E312]
	(No symbol) [0x00FE517B]
	(No symbol) [0x00FF55A6]
	(No symbol) [0x00FDF2F6]
	(No symbol) [0x00FB79B9]
	(No symbol) [0x00FB879D]
	sqlite3_dbdata_init [0x01629A63+4064547]
	sqlite3_dbdata_init [0x0163106A+4094762]
	sqlite3_dbdata_init [0x0162B968+4072488]
	sqlite3_dbdata_init [0x0132C9C9+930953]
	(No symbol) [0x010F07E4]
	(No symbol) [0x010EAD08]
	(No symbol) [0x010EAE31]
	(No symbol) [0x010DCAA0]
	BaseThreadInitThunk [0x7748FCC9+25]
	RtlGetAppContainerNamedObjectPath [0x77E07C5E+286]
	RtlGetAppContainerNamedObjectPath [0x77E07C2E+238]


In [4]:
df.head()

Unnamed: 0,num_obtuario,falecido,data_falecimento,sexo,cor,data_nascimento,detalhes
0,151374,Adelson Jose Da Silva,2015-08-16,Masculino,Parda,1945-02-17,Data De Entrada: 30/07/2019 Observação: Exum...
1,152710,Adelson Jose De Araujo,2015-11-29,Masculino,Parda,1951-02-14,Data De Entrada: 04/10/2019 Observação: Exum...
2,150080,Agripino Jose De Souza,2015-05-21,Masculino,Parda,1935-11-09,Data De Entrada: 16/05/2019 Observação: Exum...
3,44635,Aguinaldo Jose Sobrinho,2015-09-21,Masculino,Branca,1969-10-05,Quadra: A Conjunto: 5 Sepultura: 6 Data D...
4,149337,Ailton Jose De Lima,2015-04-02,Masculino,Branca,1966-02-12,Data De Entrada: 08/02/2019 Observação: Exum...
