# Web Scraping e SQLite

## Obtendo dados de páginas web e salvando em um banco de dados

<p>O objetivo deste projeto é obter dados de páginas web através de web scraping e salvá-los em um banco de dados SQLite.</p>
<p>Neste trabalho, especificamente, não há preocupação na relevância dos dados ou na exploração de insights. A finalidade é construir um workflow básico que faça a extração e estruturação dos dados para etapas seguintes.</p>

#### Definição do Problema
- Vamos obter dados de listas de repositórios no GitHub através de web scraping, e então salvá-los em um banco de dados.

## Mão na Massa

### Importação dos Pacotes

In [1]:
import requests
from lxml import html
import pandas as pd
import sqlite3

### Obtendo os Dados

In [2]:
# VARIÁVEIS
OVERWRITE = False

# Caso deseje acumular ou não as listas de reposiórios de diferentes usuários

In [3]:
# URL's
URL_LIST = []
URL_LIST.append('https://github.com/uallasleles?tab=repositories')
URL_LIST.append('https://github.com/vitorfs?tab=repositories')
URL_LIST.append('https://github.com/franklin390?tab=repositories')
URL_LIST.append('https://github.com/VictorSRocha?tab=repositories')

# Aqui colocamos a url da aba repositórios da página de cada usuário desejado

- Criando a função para extrair os dados

In [4]:
# Esta é a função que realiza a extração dos dados da página web.
def scraping_page(html):
    global user_repositories_list
    
    # Obtem um fragmento do html
    e = html.get_element_by_id("user-repositories-list")
    
    # Extraio os elementos
    for i in e.getchildren()[0]:
        for v in i.getchildren()[0:3]:

            try: repo_user = URL
            except: repo_user = ''

            try: repo_name = v.getchildren()[0].getchildren()[0].text_content().strip().replace('\n', '')
            except: repo_name = ''

            if len(repo_name) != 0:
                try: repo_fork = v.getchildren()[0].getchildren()[1].text_content().strip().replace('\n', '')
                except: repo_fork = ''

                try: repo_desc = v.getchildren()[1].getchildren()[0].text_content().strip().replace('\n', '')
                except: repo_desc = ''

                user_repositories_list = user_repositories_list.append(
                    {
                        'user': repo_user,
                        'name': repo_name,
                        'fork': repo_fork,
                        'desc': repo_desc
                    },
                    ignore_index = True)
                
    return user_repositories_list

- Extraindo os Dados

In [5]:
# Dicionário para receber os dados
user_repositories_list = pd.DataFrame(columns=['user', 'name', 'fork', 'desc'])

# Neste loop executamos o scraping para cada url da lista e acumulamos os resultados em um dataframe.
for URL in URL_LIST:
    global html
    
    r = requests.get(URL)
    assert r.status_code == 200, f"Falha no request."

    # Retorna document_fromstring ou fragment_fromstring, com base em se a string parece um documento completo ou apenas um fragmento.
    html = html.fromstring(r.text)
    
    # Chama a função para o scraping
    user_repositories_list = scraping_page(html)
    
print(user_repositories_list)

AttributeError: 'HtmlElement' object has no attribute 'fromstring'

## Armazenando em um Banco de Dados

Para salvar o resultado em um banco de dados, temos que criar uma conexão com o banco de dados, criar uma tabela com os campos necessários e realizar o insert para cada registro do dataframe.

- Criando uma conexão

In [None]:
# Criando um banco e uma conexão.
con = sqlite3.connect('proj_20210623.db')
# Criando um cursor para acessar os dados.
cur = con.cursor()

- Criando os scripts necessários

In [None]:
# Definindo as instruções sql necessárias
sql_delete_table = '''DELETE FROM user_repositories_list'''
sql_create_table = '''CREATE TABLE IF NOT EXISTS user_repositories_list (user text, name text, fork text, desc text)'''
sql_insert_table = '''INSERT INTO user_repositories_list (user, name, fork, desc) VALUES (?, ?, ?, ?)'''
sql_query = '''SELECT * FROM user_repositories_list'''

- Criando uma tabela

In [None]:
# Criando a tabela
if OVERWRITE:
    try:
        cur.execute(sql_delete_table)
        pass
    finally:
        cur.execute(sql_create_table)
    con.commit()

- Inserindo os Dados

In [None]:
# Inserindo os dados
for r in user_repositories_list.itertuples():
    cur.execute(sql_insert_table, r[1:5])
con.commit()

- Recuperando os dados

In [None]:
pd.read_sql_query(sql_query, con)

- Modificando os dados

In [None]:
# Não vou precisar modificar estes dados, mas caso queira saber, isso seria possível da seguinte forma:
sql_udt_desc = '''UPDATE user_repositories_list SET desc = "SEM DESCRIÇÃO" WHERE desc = ""'''
cur.execute(sql_udt_desc)
con.commit()

In [None]:
con.close()

## Fim