# Aplicações com Python

### Sumário
  - Formatando documentos com `Regex`
  - Raspagem de dados web com `Selenium`
  - Built-in function `open`
  - Criando e salvando planilhas com `Pandas`
  - Manipulando dados de planilhas com `Pandas`
  - Lendo arquivos PDF com PyPDF2
  - Acessando API's com `requests`
  - Criando paleta de cores com a API do Colormind

## Formatando documentos com Regex

Devido ao grande número de golpes digitais, onde o bandido, de posse dos dados pessoais da pessoa cria contas ou se passar pela mesma em várias situações para cometer crimes, foi solicitado que todos os CPF's de todos documentos públicos tenham do 4º ao 9º dígitos (inclusive estes) repassados por *. Sua missão é fazer isso em todos documentos digitais públicos da empresa.

In [None]:
documento = """
  Lorem ipsum dolor sit amet, consectetur adipiscing elit.
  Donec laoreet magna at tortor imperdiet 385.749.880-30 porttitor.
  Curabitur eu metus vehicula lacus vestibulum tempor.
  Sed odio turpis, convallis et neque facilisis, malesuada luctus ex.
  Class aptent taciti sociosqu 994.59160.73-6 ad litora torquent
  per conubia nostra, per 475.85417.87-0 inceptos himenaeos.
  Pellentesque lacinia purus id leo consectetur, nec dignissim metus imperdiet.
  Maecenas ac leo imperdiet, porttitor 531.130.990-30 neque sed, dictum augue.
  Ut ac augue orci.
"""

import re

padrao = re.compile("\d{3}\.\d{3}\.\d{3}\-\d{2}")
# para aprender e testar padrões https://regexr.com/

cpfs = re.findall(padrao, documento)
print(cpfs)

In [None]:
# use parênteses para agrupar padrões
padrao = re.compile("(\d{3}\.)(\d{3}\.\d{3})(\-\d{2})")

cpfs = re.findall(padrao, documento)
print(cpfs)

In [None]:
padrao = re.compile("(\d{3}\.)(\d{3}\.\d{3})(\-\d{2})")

novo_documento = re.sub(padrao, "\g<1>***.***\g<3>", documento)
print(novo_documento)

# Raspagem de dados na Web

### Configuração do Selenium para Google Colab

In [None]:
%%shell
# Ubuntu no longer distributes chromium-browser outside of snap
#
# Proposed solution: https://askubuntu.com/questions/1204571/how-to-install-chromium-without-snap

# Add debian buster
cat > /etc/apt/sources.list.d/debian.list <<'EOF'
deb [arch=amd64 signed-by=/usr/share/keyrings/debian-buster.gpg] http://deb.debian.org/debian buster main
deb [arch=amd64 signed-by=/usr/share/keyrings/debian-buster-updates.gpg] http://deb.debian.org/debian buster-updates main
deb [arch=amd64 signed-by=/usr/share/keyrings/debian-security-buster.gpg] http://deb.debian.org/debian-security buster/updates main
EOF

# Add keys
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys DCC9EFBF77E11517
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 648ACFD622F3D138
apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 112695A0E562B32A

apt-key export 77E11517 | gpg --dearmour -o /usr/share/keyrings/debian-buster.gpg
apt-key export 22F3D138 | gpg --dearmour -o /usr/share/keyrings/debian-buster-updates.gpg
apt-key export E562B32A | gpg --dearmour -o /usr/share/keyrings/debian-security-buster.gpg

# Prefer debian repo for chromium* packages only
# Note the double-blank lines between entries
cat > /etc/apt/preferences.d/chromium.pref << 'EOF'
Package: *
Pin: release a=eoan
Pin-Priority: 500


Package: *
Pin: origin "deb.debian.org"
Pin-Priority: 300


Package: chromium*
Pin: origin "deb.debian.org"
Pin-Priority: 700
EOF

### Instalação

In [None]:
#!apt-get update
#!apt-get install chromium chromium-driver
#!pip3 install selenium

Você está fazendo um orçamento de um eletrodoméstico para uma escola pública. Faça um código em Python que faça uma pesquisa de preços.

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
import time

In [None]:
url = "<DIGITE O SITE AQUI>"
service = Service(executable_path=r'/usr/bin/chromedriver')
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(service=service, options=options)
driver.get(url)

time.sleep(1) # esperar a página carregar

# Exemplo 1: (imprimir o conteúdo da tag title da página)
print(driver.title)
driver.quit()

In [None]:
url = "<DIGITE O SITE AQUI>"
service = Service(executable_path=r'/usr/bin/chromedriver')
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(service=service, options=options)
driver.get(url)

time.sleep(6) # esperar a página carregar

# el = driver.find_element("xpath", '/html/body/...')
el = driver.find_element("xpath", '//span[@atributo="valor"]') # substitua atributo e valor
print(el.text)

driver.quit()

In [None]:
url = "<DIGITE O SITE AQUI>"
service = Service(executable_path=r'/usr/bin/chromedriver')
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(service=service, options=options)
driver.get(url)

time.sleep(6) # esperar a página carregar

els = driver.find_elements("xpath", '//span[@atributo="valor"]')
prods = []
for el in els:
    print(el.text)
    prods.append(el.text)

driver.quit()

In [None]:
url = "<DIGITE O SITE AQUI>"
service = Service(executable_path=r'/usr/bin/chromedriver')
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome(service=service, options=options)
driver.get(url)

time.sleep(6) # esperar a página carregar

els = driver.find_elements("xpath", '//span[@atributo="valor"]')

prices = []
for el in els:
    print(el.text)
    prices.append(el.text)

driver.quit()

In [None]:
print(len(prices))
print(len(prods))

## Built-in function open

In [None]:
f = open("orcamento.txt", "w")
for prod, price in zip(prods, prices):
    f.write(prod + " " + price + "\n")
f.close()

## Criando  e salvando planilhas com Pandas

A escola prefere o arquivo em excel. Faça uma planilha com o orçamento levantado.

In [None]:
import pandas as pd

planilha = pd.DataFrame({
    "Item": prods,
    "Preço": prices
})

planilha.to_excel("output.xlsx")

## Manipulando dados de planilhas

A escola não esperava uma planilha tão grande e precisa agora saber qual produto é mais barato. Precisa novamente da sua ajuda.

In [None]:
planilha = pd.read_excel('output.xlsx', index_col=0)
planilha.head(5)

In [None]:
def convert_price_to_float(price): # by chatGPT
    # Remove the 'R$' from the price string
    price = re.sub(r'R\$ ', '', price)
    # Replace the thousands separator '.' with nothing
    price = re.sub(r'\.', '', price)
    # Replace the decimal separator ',' with '.'
    price = re.sub(r',', '.', price)

    return float(price)

planilha['Preço'] = planilha['Preço'].map(convert_price_to_float)

In [None]:
planilha.sort_values('Preço', ascending=True).head()

In [None]:
median = planilha['Preço'].median()
print("Preço mediano: ", median)

## Instalando novas bibliotecas

In [None]:
!pip install PyPDF2

## Lendo arquivos PDF's com PyPDF2

Você é novo no departamento jurídico da prefeitura de Uberlândia e precisa se informar sobre leis e decretos. Você pensou em começar a estudar os decretos mais comuns. Faça um programa em python que conte quantas vezes cada decreto é citado num diário oficial.

In [None]:
import PyPDF2

def convert_pdf_to_txt(pdf_file_path, txt_file_path):
    # Open the PDF file in binary mode
    with open(pdf_file_path, 'rb') as pdf_file:
        # Create a PDF file reader object
        pdf_reader = PyPDF2.PdfReader(pdf_file)

        # Initialize an empty string to hold the PDF content
        pdf_content = ''

        # Loop through each page in the PDF and extract the text
        for page_num in range(len(pdf_reader.pages)):
            page = pdf_reader.pages[page_num]
            pdf_content += page.extract_text()

    # Open the TXT file in write mode and write the PDF content
    with open(txt_file_path, 'w') as txt_file:
        txt_file.write(pdf_content)
    return pdf_content

# Usage
pdf_content = convert_pdf_to_txt('udia_dou.pdf', 'output.txt')

In [None]:
padrao = re.compile(r"Decreto\snº\s\d+\.+\d+")
decretos = re.findall(padrao, pdf_content)
print(decretos)

In [None]:
planilha = pd.DataFrame({
    "Decreto": decretos
})

In [None]:
def formata_decretos(decreto):
    return decreto.replace("Decreto nº ", "")

In [None]:
planilha['Decreto'] = planilha['Decreto'].map(formata_decretos)

In [None]:
planilha['Decreto'].value_counts()

## Usando uma API de cores

In [None]:
# https://curlconverter.com/
# http://colormind.io/api-access/

### GET

In [None]:
import requests

headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
}

data = '{"model":"default"}'

response = requests.post('http://colormind.io/api/', headers=headers, data=data)

In [None]:
import matplotlib.pyplot as plt

def mostrar_cores(response):
    cores = []
    for x in response.json()['result']:
    cores.append("#{:0>2}{:0>2}{:0>2}".format(
        str(hex(x[0])).replace("0x", ""),
        str(hex(x[1])).replace("0x", ""),
        str(hex(x[2])).replace("0x", "")
    ))
    print(response.json()['result'])
    print(cores)
    plt.figure(figsize=(2,2))
    plt.bar([1,2,3,4,5], height=[5,5,5,5,5], color=cores)
    plt.show()

In [None]:
mostrar_cores(response)

### POST

In [None]:
import requests

headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
}

data = '{"input":[[104, 60, 77],[202, 112, 105],"N","N","N"],"model":"default"}'

response = requests.post('http://colormind.io/api/', headers=headers, data=data)

In [None]:
mostrar_cores(response)

## Outro exemplo de API

In [None]:
import requests
import json

url = 'http://pokeapi.co/api/v1/pokemon/charizard/'
response = requests.get(url)

if response.status_code == 200:
    data = json.loads(response.text)
    print(data['name'])
else:
    print('An error occurred querying the API')

In [None]:
data.keys()

In [None]:
data['sprites']['front_default']