<a href="https://colab.research.google.com/github/paulowiz/uff_engenharia_de_dados_com_python/blob/master/uff_engenharia_de_dados_com_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tutorial pratico ETL (Extraction,Transformation,Loading)

## PT - Extração,Transformação e Carregamento de dados 


### Problema a ser resolvido:

O escritório de inovação de uma empresa precisa de um engenheiro de dados para fazer uma nova "Pipeline de Dados" para que eles possam ter acesso aos novos arquivos sobre patentes do setor publico de patentes dos Estados Unidos da America(USPTO).Com esses dados eles poderão fazer o download com o link facilidade e verificar quantos arquivos são processados diariamente. 

# Extração de dados 

É o processo que analisa o provedor de dados, os tipos de dados que serão processados e faz a conexão com esse provedor através de REST API, Web Scrapping, SOAP etc. 

Em nosso caso, como nosso provider é o USPTO, não temos uma API deles para consumir esses dados.... então vamos utilizar a técnica de raspagem da web(Web Scrapping) que vamos pegar os dados direto do website. 

In [1]:
import requests
from bs4 import BeautifulSoup


class Uspto:
    """Classe que extrai os dados sobre arquivos de patentes do USPTO"""

    def __init__(self, year):
        """
        Construtor que pega o ano como referência para iniciar a extração.
        """
        try:
            self.year = int(year)
        except:
            print('Year must be a number')
            return False
        self.link = 'https://bulkdata.uspto.gov/data/patent/application/redbook/fulltext/' + str(year) + '/'

    def get_uspto_files_information(self):
        headers = {
            "User-Agent":
                "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582"
        }

        page = requests.get(self.link, headers=headers)

        soup = BeautifulSoup(page.text, 'html.parser')

        soup = soup.find_all('table')
        soup = soup[-1]
        arr_files =[]
        trs = soup.find_all('tr')
        for tr in trs:
            tds = tr.find_all('td')
            dict_temp = {}
            try:
                dict_temp = {'filename': tds[0].text, 'size': tds[1].text, 'publish_on': tds[2].text, 'url': self.link+tds[0].find('a')['href']}
                arr_files.append(dict_temp)
            except:
                continue

        return arr_files

pass

### Chamando a classe de extração que criamos acima 

In [2]:
uspto = Uspto(2022)
files = uspto.get_uspto_files_information()
print(files)

[{'filename': 'ipa220106.zip', 'size': '163074754', 'publish_on': '2022-01-06 08:22', 'url': 'https://bulkdata.uspto.gov/data/patent/application/redbook/fulltext/2022/ipa220106.zip'}, {'filename': 'ipa220113.zip', 'size': '159400377', 'publish_on': '2022-01-13 00:08', 'url': 'https://bulkdata.uspto.gov/data/patent/application/redbook/fulltext/2022/ipa220113.zip'}, {'filename': 'ipa220120.zip', 'size': '143972032', 'publish_on': '2022-01-20 00:17', 'url': 'https://bulkdata.uspto.gov/data/patent/application/redbook/fulltext/2022/ipa220120.zip'}, {'filename': 'ipa220127.zip', 'size': '172934663', 'publish_on': '2022-01-27 00:03', 'url': 'https://bulkdata.uspto.gov/data/patent/application/redbook/fulltext/2022/ipa220127.zip'}, {'filename': 'ipa220203.zip', 'size': '174222902', 'publish_on': '2022-02-03 06:14', 'url': 'https://bulkdata.uspto.gov/data/patent/application/redbook/fulltext/2022/ipa220203.zip'}, {'filename': 'ipa220210.zip', 'size': '162036524', 'publish_on': '2022-02-10 00:02',

In [3]:
import pandas as pd

In [12]:
df = pd.DataFrame(files)
df.head(50)

Unnamed: 0,filename,size,publish_on,url
0,ipa220106.zip,163074754,2022-01-06 08:22,https://bulkdata.uspto.gov/data/patent/applica...
1,ipa220113.zip,159400377,2022-01-13 00:08,https://bulkdata.uspto.gov/data/patent/applica...
2,ipa220120.zip,143972032,2022-01-20 00:17,https://bulkdata.uspto.gov/data/patent/applica...
3,ipa220127.zip,172934663,2022-01-27 00:03,https://bulkdata.uspto.gov/data/patent/applica...
4,ipa220203.zip,174222902,2022-02-03 06:14,https://bulkdata.uspto.gov/data/patent/applica...
5,ipa220210.zip,162036524,2022-02-10 00:02,https://bulkdata.uspto.gov/data/patent/applica...
6,ipa220217.zip,143576934,2022-02-17 00:02,https://bulkdata.uspto.gov/data/patent/applica...
7,ipa220224.zip,158906116,2022-02-24 00:03,https://bulkdata.uspto.gov/data/patent/applica...
8,ipa220303.zip,199151005,2022-03-03 00:03,https://bulkdata.uspto.gov/data/patent/applica...
9,ipa220310.zip,170954180,2022-03-10 00:02,https://bulkdata.uspto.gov/data/patent/applica...


In [10]:
from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('sqlite:///patent.db', echo=False)
df.to_sql('uspto_files', con=engine, if_exists='append')