# Mapeamento de patentes

### Bibliotecas

In [None]:
from bs4 import BeautifulSoup
import pandas as pd
import os, requests, zipfile

### Download das revistas

Fonte de dados: http://revistas.inpi.gov.br/rpi/#

In [None]:
url2 = 2557
while url2 <= 2660:
    zip_url = 'http://revistas.inpi.gov.br/txt/P' + str(url2) + '.zip'
    # Nome do arquivo na pasta
    file_name = 'P' + str(url2) + '.zip'

    # Pasta onde você deseja salvar o arquivo ZIP
    output_folder = 'data_proj_map_patentes'

    # Caminho completo para o arquivo ZIP
    zip_path = os.path.join(output_folder, file_name)

    # Verifique se a pasta de saída existe e a crie se não existir
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Faça o download do arquivo ZIP diretamente na pasta de saída
    response = requests.get(zip_url)

    if response.status_code == 200:
        with open(zip_path, "wb") as zip_file:
            zip_file.write(response.content)
        
        print(f"Arquivo ZIP salvo em '{zip_path}'")

        # Abra o arquivo ZIP e extraia o arquivo .xml que começa com "patente"
        with zipfile.ZipFile(zip_path) as zipf:
            for filename in zipf.namelist():
                if filename.startswith("Patente_"):
                    # Extraia o arquivo correspondente
                    with zipf.open(filename) as xml_file:
                        xml_content = xml_file.read()
                        xml_filename = os.path.join(output_folder, filename)
                        with open(xml_filename, "wb") as output_file:
                            output_file.write(xml_content)
                    
                    print(f"Arquivo XML {filename} extraído com sucesso em '{xml_filename}'")
                    break  # Pare a iteração após encontrar o primeiro arquivo

        # Excluir o arquivo ZIP após a extração, se necessário
        os.remove(zip_path)

    else:
        print(f"O download do arquivo ZIP falhou com o código de status {response.status_code}")
    url2 += 1

### Raspagem dos dados

In [None]:
# Definir função para raspagem de um arquivo xml
def raspagem(soup):
    # Inicializar listas para armazenar os dados
    data_publicacao = []
    diretoria = []
    numero_revista = []
    codigo = []
    titulo = []
    numero = []
    data_deposito = []
    data_prioridade = []
    cod_prioridade = []
    classificacoes_internacionais = []
    classificacoes_nacionais = []
    titulo_inid = []
    titular_nome = []
    titular_uf = []
    titular_pais = []
    inventor_nome = []

    # Extrair os dados do xml
    for despacho in soup.find_all(lambda tag: tag.name == 'despacho' and '<codigo>3.1</codigo>' in str(tag)):
        data_publ = soup.revista['dataPublicacao']
        diret = soup.revista['diretoria']
        num_rev = soup.revista['numero']
        cod = despacho.find('codigo').text
        tit = despacho.find('titulo').text
        num = despacho.find('numero').text
        data = despacho.find('data-deposito').text
        data_prio = despacho.find('data-prioridade', inid="31").text if despacho.find('data-prioridade', inid="31") else None
        cod_prio1 = despacho.find('sigla-pais', inid="33").text if despacho.find('sigla-pais', inid="33") else None
        cod_prio2 = despacho.find('numero-prioridade', inid="32").text if despacho.find('numero-prioridade', inid="32") else None
        cod_prio = cod_prio1 + cod_prio2 if (cod_prio1 != None and cod_prio2 != None) else None
        internacionais = '; '.join(ci.text for ci in despacho.find_all('classificacao-internacional'))
        nacionais = '; '.join(cn.text for cn in despacho.find_all('classificacao-nacional'))
        tit_inid = despacho.find('titulo', inid="54").text if despacho.find('titulo', inid="54") else None
        titu_nome = despacho.find('nome-completo').text if despacho.find('nome-completo') else None
        titu_uf = despacho.find('uf').text if despacho.find('uf') else None
        titu_pais = despacho.find('sigla').text if despacho.find('sigla') else None
        invent_nome = despacho.find('inventor').text if despacho.find('inventor') else None
        # Incluir os dados na lista
        data_publicacao.append(data_publ)
        diretoria.append(diret)
        numero_revista.append(num_rev)
        codigo.append(cod)
        titulo.append(tit)
        numero.append(num)
        data_deposito.append(data)
        data_prioridade.append(data_prio)
        cod_prioridade.append(cod_prio)
        classificacoes_internacionais.append(internacionais)
        classificacoes_nacionais.append(nacionais)
        titulo_inid.append(tit_inid)
        titular_nome.append(titu_nome)
        titular_uf.append(titu_uf)
        titular_pais.append(titu_pais)
        inventor_nome.append(invent_nome)
        # Transformar listas em dataframe
        df = pd.DataFrame({
            'data_publicacao' : data_publicacao,
            'diretoria' : diretoria,
            'numero_revista' : numero_revista,
            'codigo' : codigo,
            'titulo' : titulo,
            'numero' : numero,
            'data_deposito' : data_deposito,
            'data_prioridade' : data_prioridade,
            'cod_prioridade' : cod_prioridade,
            'classif_internacion' : classificacoes_nacionais,
            'classif_nacion' : classificacoes_nacionais,
            'titulo_inid' : titulo_inid,
            'titular_nome' : titular_nome,
            'titular_uf' : titular_uf,
            'titular_pais' : titular_pais,
            'inventor_nome' : inventor_nome
            })
    return(df)

### Salvar dataframe completo

In [None]:
# Inicializar o dataframe
data = pd.DataFrame()
for file in os.listdir('data_proj_map_patentes'):
    filepath = os.path.join('data_proj_map_patentes', file)
    with open(filepath, encoding='utf-8') as arquivo_xml:
        conteudo = arquivo_xml.read()
    soup = BeautifulSoup(conteudo, 'xml')
    df = raspagem(soup)
    data = pd.concat([data, df], axis=0)

data.to_excel('data.xlsx', index=False)

### Verificar informações do dataframe completo

In [None]:
data.info()