# CURSO PYTHON WEB SCRAPING

https://www.udemy.com/python-web-scraping/

## Lendo documentos

## Arquivos XLSX (Microsoft Excel)

Os arquivos XLSX (Microsoft Excel Open XML Spreadsheet) são criados usando o padrão Open XML, que foi introduzido no Microsoft Office 2007. Eles são armazenados como um arquivo compactado (similar ao arquivo DOCX apresentado na aula anterior), que contém uma coleção de arquivos individuais. O arquivo XLSX inclui o arquivo [Content_Types].xml, que descreve a planilha e um arquivo XML para cada pasta de trabalho na planilha.

Para trabalharmos com arquivos XLSX podemos utilizar a biblioteca OpenPyXL que pode ser instalada utilizando-se o pip.

$ pip install openpyxl

Vamos utilizar a biblioteca OpenPyXL para ler o arquivo “Precos.xlsx” que foi disponibilizado junto aos arquivos da aula.

O arquivo “Precos.xlxs” é uma pasta de trabalho, ou workbook.<br>
“Tabela de preços” é uma planinha, ou worksheet.

![img1](imagens\picture1.png)

Para abrir um arquivo XLSX temos que utilizar a função load_workbook do módulo openpyxl passando o caminho completo do arquivo como parâmetro.<br>
Esta função retorna um objeto do tipo workbook (pasta de trabalho).

Acima estou considerando que o arquivo está na mesma pasta do meu arquivo Python.

Após abrir o arquivo, podemos trabalhar com as planilhas que estão dentro deste arquivo.<br>
Podemos criar um objeto que receba uma planilha da pasta de trabalho da seguinte forma:<br>
planilha = wb.active<br>
Desta forma estamos considerando a planilha ativa.<br><br>

Ou podemos informar o nome da planilha:<br>
planilha = wb[“Tabela de preços”]

![img2](imagens\picture2.png)

Para capturar o conteúdo de uma célula da planilha podemos informar o seu endereço, que é composto pela junção da coluna e linha de localização da célula.


![img3](imagens\picture3.png)

Podemos criar um objeto do tipo célula (Cell) informando a referência da célula desta forma:<br>
celula = planilha[‘A1’]<br>
Ou desta forma:<br>
celula = planilha.cell(linha=númerolinha, coluna=númerocoluna)<br>
Ficando assim:<br>
celula = planilha.cell(row=1, column=1) # equivale a “A1”.<br>
Para obter o valor da célula usamos celula.value.<br>

Veja agora o exemplo completo:

In [4]:
from openpyxl import load_workbook

wb = load_workbook('Precos.xlsx')

planilha = wb['Tabela de preços']

a1 = planilha['A1']print(a1.value)

a1 = planilha.cell(row=1, column=1)
print(a1.value)

Tabela de Preços Nov/2018
Tabela de Preços Nov/2018


![img4](imagens\picture4.png)

Foi impresso o conteúdo da célula “A1”:<br>
Tabela de Preços Nov/2018

Podemos também criar um objeto de célula contendo um intervalo de células. Vou por exemplo armazenar o conteúdo das células de A3 até D12 em uma variável e imprimir cada célula do intervalo.

![img5](imagens\picture5.png)

Veja o programa:

In [5]:
from openpyxl import load_workbook

wb = load_workbook('Precos.xlsx')

planilha = wb['Tabela de preços']

cells = planilha['A3:D12']

for c1, c2, c3, c4 in cells:
    print("{0:2} {1:90} {2:4} {3:10}".
          format(c1.value, c2.value, c3.value, c4.value))

 1 Notebook Ideapad 320 Intel Core i3 4GB 1TB Full HD 15.6'' Prata Windows 10 - Lenovo          25    1699.99
 2 Micro-ondas Consul CM020 20 Litros Cinza Espelhado                                          100     389.64
 3 Capa Para Notebook 15.6"                                                                    214       35.9
 4 Smartphone Samsung Galaxy J1 Mini Android 5.1 Tela 4" 8GB 3G Wi-Fi Câmera 5MP - Preto        30        389
 5 Teclado e Mouse Wireless MK220 sem Fio - Logitech                                            65      79.99
 6 Smart TV QLED 65" Samsung 2018 QN65Q6FNAGXZD Ultra HD 4k                                     10   11999.99
 7 Lavadora De Roupas Colormaq Tanquinho 2,7kg New Pionner 127v, Branca                         44      329.9
 8 Jogo de Panelas Panelux Premium Alumínio 10 peças Antiaderente Vermelha                       1     129.99
 9 iPhone Xs Max Prata 256GB IOS12 4G + Wi-fi Câmera 12MP - Apple                                0       8799
10 Secador

Estamos informando para o método format o argumento por posição (0,1,2,3) e definindo a largura que irá ocupar (2, 90, 4, 10).

Veja o resultado:

![img6](imagens\picture6.png)

Imprimindo as descrições de todos os produtos:

In [6]:
from openpyxl import load_workbook

wb = load_workbook('Precos.xlsx')

planilha = wb['Tabela de preços']

for linha in range(3, 13):
    descricao = planilha[f'B{linha}']
    print(descricao.value)

Notebook Ideapad 320 Intel Core i3 4GB 1TB Full HD 15.6'' Prata Windows 10 - Lenovo
Micro-ondas Consul CM020 20 Litros Cinza Espelhado
Capa Para Notebook 15.6"
Smartphone Samsung Galaxy J1 Mini Android 5.1 Tela 4" 8GB 3G Wi-Fi Câmera 5MP - Preto
Teclado e Mouse Wireless MK220 sem Fio - Logitech
Smart TV QLED 65" Samsung 2018 QN65Q6FNAGXZD Ultra HD 4k
Lavadora De Roupas Colormaq Tanquinho 2,7kg New Pionner 127v, Branca
Jogo de Panelas Panelux Premium Alumínio 10 peças Antiaderente Vermelha
iPhone Xs Max Prata 256GB IOS12 4G + Wi-fi Câmera 12MP - Apple
Secador Ph3600 Colors 127v - Philco


Somando a quantidade total em estoque (não pegando somente o conteúdo da célula C13 que já tem a soma).

In [7]:
from openpyxl import load_workbook

wb = load_workbook('Precos.xlsx')
planilha = wb['Tabela de preços']

qtd = 0

for linha in range(3, 13):
    qtd += planilha[f'C{linha}'].value

print(qtd)

853


Para adicionar uma nova planilha à nossa pasta de trabalho podemos utilizar a função create_sheet(‘nome’), onde ‘nome’ é o nome/título da planilha que será criada. Em seguida o arquivo deve ser salvo.

In [8]:
from openpyxl import load_workbook

arquivo = 'Precos.xlsx'
wb = load_workbook(arquivo)

wb.create_sheet('Planilha de carros')

wb.save(arquivo)

![img7](imagens\picture7.png)

Para remover uma planilha usamos o método remove do objeto workbook.

In [10]:
from openpyxl import load_workbook

arquivo = 'Precos.xlsx'
wb = load_workbook(arquivo)

wb.remove(wb['Planilha de carros'])

wb.save(arquivo)

Para copiar uma planilha usamos o método copy_worksheet do objeto workbook.

In [11]:
from openpyxl import load_workbook

arquivo = 'Precos.xlsx'
wb = load_workbook(arquivo)

origem = wb['Tabela de preços']
destino = wb.copy_worksheet(origem)
destino.title = 'Nova tabela de preços'

wb.save(arquivo)

Para alterar o conteúdo de uma célula devemos passar um valor usando o endereço da célula:

In [12]:
from openpyxl import load_workbook

arquivo = 'Precos.xlsx'
wb = load_workbook(arquivo)

planilha = wb['Nova tabela de preços']
planilha['A1'] = 'Tabela de Preços Dez/2018'

wb.save(arquivo)

![img8](imagens\picture8.png)

Para criar um arquivo temos que criar um objeto da classe Workbook e salvar informando o nome do arquivo.

In [13]:
from openpyxl import Workbook

wb = Workbook()
wb.save('MeusNumeros.xlsx')

Vamos agora criar este arquivo e adicionar conteúdo usando o método append do objeto Worksheet.

In [14]:
from openpyxl import Workbook

wb = Workbook()
planilha = wb.active

linhas = (
    (14, 11, 44, 48),
    (12, 21, 12, 136),
    (55, 22, 58, 125),
    (98, 66, 47, 66),
    (14, 18, 36, 84),
    (78, 18, 67, 75)
)

for linha in linhas:
    planilha.append(linha)

wb.save('MeusNumeros.xlsx')

![img9](imagens\picture9.png)

Vamos inserir uma linha e uma coluna em nossa planilha.<br>
Para inserir uma linha usamos o método insert_rows(x) e para inserir uma coluna o insert_cols(x).<br>
“x” é a posição da linha ou coluna.

![img10](imagens\picture10.png)

Vamos inserir uma linha e uma coluna para colocarmos cabeçalhos em nossa planilha de números.

In [17]:
from openpyxl import load_workbook

wb = load_workbook('MeusNumeros.xlsx')

planilha = wb['Sheet']

planilha.insert_rows(1)
planilha.insert_cols(1)

wb.save('MeusNumeros.xlsx')

![img11](imagens\picture11.png)

Agora vamos mesclar as células.

In [18]:
from openpyxl import load_workbook

wb = load_workbook('MeusNumeros.xlsx')

planilha = wb['Sheet']

planilha.merge_cells(start_row=1, start_column=2, end_row=1, end_column=5)
planilha.merge_cells("A2:A7")

wb.save('MeusNumeros.xlsx')

![img12](imagens\picture12.png)

Agora vamos separar as células mescladas da primeira coluna.<br>
Vamos alterar o alinhamento da célula onde ficará o título “NÚMEROS” para centralizado.

In [19]:
from openpyxl import load_workbook
from openpyxl.styles import Alignment
wb = load_workbook('MeusNumeros.xlsx')

planilha = wb['Sheet']

planilha.unmerge_cells("A2:A7")
planilha['B1'] = "NÚMEROS"
planilha['B1'].alignment = Alignment(horizontal='center')
wb.save('MeusNumeros.xlsx')

![img13](imagens\picture13.png)

Utilizando fórmulas do Excel.

In [20]:
from openpyxl import load_workbook

wb = load_workbook('MeusNumeros.xlsx')

planilha = wb['Sheet']

planilha['B8'] = "=SUM(B2:B7)"
planilha['C8'] = "=SUM(C2:C7)"
planilha['D8'] = "=SUM(D2:D7)"
planilha['E8'] = "=SUM(E2:E7)"

planilha['F2'] = "=AVERAGE(B2:E2)"
planilha['F3'] = "=AVERAGE(B3:E3)"
planilha['F4'] = "=AVERAGE(B4:E4)"
planilha['F5'] = "=AVERAGE(B5:E5)"
planilha['F6'] = "=AVERAGE(B6:E6)"
planilha['F7'] = "=AVERAGE(B7:E7)"

planilha['G2'] = '=IF(E1>50,"LIKE","DISLIKE")'
planilha['G3'] = '=IF(E2>50,"LIKE","DISLIKE")'
planilha['G4'] = '=IF(E3>50,"LIKE","DISLIKE")'
planilha['G5'] = '=IF(E4>50,"LIKE","DISLIKE")'
planilha['G6'] = '=IF(E5>50,"LIKE","DISLIKE")'
planilha['G7'] = '=IF(E6>50,"LIKE","DISLIKE")'

wb.save('MeusNumeros.xlsx')

![img14](imagens\picture14.png)

Formatando células

In [21]:
from openpyxl import load_workbook
from openpyxl.styles import Font
from openpyxl.styles.colors import BLUE, RED

wb = load_workbook('MeusNumeros.xlsx')

planilha = wb['Sheet']

fonte_titulo = Font(bold=True, size=12, color=RED)
fonte_total = Font(bold=True, color=BLUE)

planilha['B1'].font = fonte_titulo
planilha['B8'].font = fonte_total
planilha['C8'].font = fonte_total
planilha['D8'].font = fonte_total
planilha['E8'].font = fonte_total

wb.save('MeusNumeros.xlsx')

![img15](imagens\picture15.png)