## Automação de Tarefas

### Scripts automatizados

Após um longo período de desenvolvimento trabalhando na identificação dos problemas, na coleta e no processamento dos dados e modelagem, chega um momento em que precisamos fazer o computador trabalhar por nós. Por isso, sempre que possível, criamos regras com scripts que automatizam nossos trabalho. 

Automatizar scripts tem várias vantagens e benefícios que podem melhorar a eficiência e a produtividade no desenvolvimento de software, coleta e estruturação de dados e em diversas tarefas que precisam ser repetidas diversas vezes. Ao criar processos de automação, temos diversos benefícios como:

- Economia de tempo
- Redução de erros
- Padronização e consistência
- Escalabilidade
- Otimização de recursos
- Liberação de recursos humanos

No geral, a automação oferece uma maneira eficiente de executar tarefas repetitivas, economizar tempo e melhorar a produtividade, uma vez que esse processo permite que os profissionais foquem em atividades mais 'pensantes', ao mesmo tempo que garantem a padronização, consistência e escalabilidade. 

### Manipulação de Arquivos e Diretórios

Antes de começar a automatizar toda e qualquer tarefa, é de suma importância saber manipular arquivos e diretórios. A manipulação de arquivos e diretórios é essencial para a automação, pois permite que os programas interajam com os dados armazenados em arquivos, organizem-os de forma adequada, realizem operações específicas e gerenciem sua estrutura. 

Esse conhecimento pode envolver várias operações, incluindo:

#### Criação de arquivos e Diretórios

In [1]:
import os
diretorio = 'caminho/do/novo/diretorio'

if not os.path.exists(diretorio):
    os.makedirs(diretorio)
    print(f"Diretório '{diretorio}' criado com sucesso.")
else:
    print(f"Diretório '{diretorio}' já existe.")

Diretório 'caminho/do/novo/diretorio' criado com sucesso.


#### Leitura e escrita de arquivos
Para ler arquivos, basta utilizar bibliotecas específicas para cada tipo de arquivo, como csv, json, pandas, entre outras. Todas essas bibliotecas possuem módulos tanto para leitura quanto para escrita de arquivos.

In [None]:
import csv
import json
import pandas

#### Movimentação e renomeação
Para renomear um arquivos em python de forma simples, basta usar a função _os.rename()_

In [None]:
import os

# Passo 1. Definir o caminho e nome atual do arquivo
caminho_antigo = 'caminho/do/arquivo_antigo.csv'

# Passo 2. Definir o novo nome do arquivo
novo_nome = 'novo_nome.csv'

# Passo 3. Renomear o arquivo
os.rename(caminho_antigo, novo_nome)

Já para mover o arquivo para uma nova pasta, é possível utilizar a biblioteca **shutil**

In [None]:
import shutil

# Passo1. Definir o caminho e nome atual do arquivo
caminho_arquivo = 'caminho/atual/do/arquivo.csv'

# Passo 2. Definir o novo caminho e nome do arquivo
novo_caminho = 'caminho/novo/destino/arquivo.csv'

# Passo 3. Mover o arquivo para a nova pasta
shutil.move(caminho_arquivo, novo_caminho)

#### Excluir arquivos e pastas

In [None]:
#Excluir arquivo
import os

# Definir o caminho do arquivo que será excluído
caminho_arquivo = 'caminho/do/arquivo.csv'

# Excluir o arquivo
os.remove(caminho_arquivo)

In [None]:
#Excluir pasta
import shutil

# Definir o caminho da pasta a ser excluída
caminho_pasta = 'caminho/da/pasta'

# Exclui a pasta e todo o seu conteúdo
shutil.rmtree(caminho_pasta)

Isso oferece flexibilidade e controle sobre como os dados são manipulados e processados durante o fluxo de automação.

# Automação de Tarefas na web

Conforme abordado no tópico de coleta de dados na web, a coleta de dados na internet desempenha um papel fundamental na obtenção de informações relevantes, auxiliando em processos de tomada de decisão, pesquisa, análise de mercado e desenvolvimento de serviços. Entretanto, muitas vezes é bem difícil encontrar conjuntos de dados de código aberto que correspondam perfeitamente ao que você está procurando, ou APIs gratuitas que lhe dão acesso aos dados. Nesse caso, a raspagem de dados da web, ou web scraping, pode ser uma solução para obter mais dados.


### Como funciona o Web Scraping?
O web scraping envolve várias etapas para extrair dados de um site. O processo pode incluir os principais passos:

- **Identificar o alvo:** Primeiro, é necessário identificar o site-alvo a partir do qual deseja extrair dados. Isso pode ser qualquer página da web que contenha as informações que você está interessado em coletar.

- **Analisar a estrutura da página:** Antes de iniciar o web scraping, é importante entender a estrutura da página. Isso envolve examinar o código HTML da página para identificar os elementos que contêm os dados desejados. Você pode usar o recurso de inspeção do navegador para visualizar o código-fonte da página e identificar os elementos relevantes.

- **Selecionar e extrair os dados:** Com base na análise da estrutura da página, você pode usar bibliotecas ou ferramentas de web scraping, como BeautifulSoup em Python, para selecionar e extrair os dados desejados. Isso envolve identificar os elementos HTML específicos (por meio de seletores CSS ou XPath) e recuperar seu conteúdo, como texto, imagens ou links.

- **Tratar e limpar os dados:** Após a extração dos dados, é possível que você precise realizar algum pré-processamento para tratar e limpar as informações coletadas. Isso pode envolver a remoção de caracteres indesejados, a conversão de formatos ou a padronização dos dados de acordo com suas necessidades.

- **Armazenar ou utilizar os dados:** Depois de tratar os dados, você pode optar por armazená-los em um formato específico, como um arquivo CSV, JSON ou em um banco de dados. Alternativamente, você pode utilizar os dados diretamente em análises, visualizações ou aplicativos específicos.

- **Iterar e automatizar:** O processo de web scraping pode ser repetido para várias páginas ou sites semelhantes. Você pode iterar o processo para coletar dados de várias fontes. Além disso, é possível automatizar o processo de web scraping, criando scripts ou programas que executam a extração de dados de forma programada e regular.


<img src="https://drive.google.com/uc?id=1v1WwiGw_SKHeSxJ-uj1WoBN92e8JrYZC" width="400" align="center"/>


### Tipos de webscraping

Existem diversos tipos de web scraping, que dependem da abordagem utilizada e dos objetivos do projeto. Os principais são:

- **Web Scraping Estático:** É o tipo mais utilizado. Nesse caso, o _scraper_ coleta dados de páginas estáticas, ou seja, aquelas em que o conteúdo não é gerado dinamicamente por meio de JavaScript ou AJAX. O web scraper faz o download do HTML da página e extrai os dados desejados diretamente do código-fonte.

- **Web Scraping Dinâmico:** Nesse caso, o scraper lida com páginas que possuem conteúdo gerado dinamicamente por meio de JavaScript ou AJAX. Para coletar os dados, é necessário usar ferramentas como Selenium ou Puppeteer, que permitem a automação de um navegador web real para renderizar e interagir com a página. O scraper pode extrair os dados depois que a página foi totalmente carregada e o JavaScript foi executado.

- **Web Scraping Focused:** Nesse tipo de scraping, o foco está em extrair informações específicas de uma página, como um conjunto de elementos, campos de formulário ou blocos de texto. É uma abordagem mais direcionada e pode ser usada para coletar informações específicas de interesse, evitando a necessidade de extrair todo o conteúdo da página.

- **Web Crawling:** Enquanto o web scraping envolve a extração de dados específicos de páginas individuais, o web crawling envolve a navegação sistemática por vários sites para descobrir e coletar informações. Os crawlers são usados por mecanismos de busca para indexar páginas da web (ex. Google, Bing, Yahoo!, etc), seguir links e coletar informações para construir um índice de pesquisa.

### Baixando dados direto das URLs

Muitas vezes, não precisamos ficar buscando elementos nas páginas ou entendendo a estrutura de HTML, pois é possível localizar um arquivo ou informação por uma requisição direta. Vamos utilzar o exemplo o diretório de venda de medicamentos controlados e atimicrobianos. Esta base de Dados Abertos disponibiliza dados públicos de venda de medicamentos sujeitos à escrituração junto ao SNGPC.

Essa base foi trabalhada na aula de coleta e estruturação de dados. 

In [1]:
import pandas as pd
import requests

# Utilizar um link com a estrutura identificada
url = 'https://dados.anvisa.gov.br/dados/SNGPC/Manipulados/EDA_Manipulados_201402.csv'

#Fazer a requisição do arquivo
resposta = requests.get(url,verify=False)

#Salvar o arquivo em um csv
if resposta.status_code == 200:
    with open("EDA_Manipulados_201402.csv", "wb") as file:
        file.write(resposta.content)
    print("Download concluído com sucesso!")
else:
    print(f"Falha ao baixar o arquivo.")



Download concluído com sucesso!


In [2]:
dados = pd.read_csv('EDA_Manipulados_201402.csv', sep=';', encoding='Latin-1', low_memory=False)
dados.head()

Unnamed: 0,ANO_VENDA,MES_VENDA,UF_VENDA,MUNICIPIO_VENDA,DCB,PRINCIPIO_ATIVO,QTD_ATIVO_POR_UNID_FARMACOTEC,UNIDADE_MEDIDA_PRINCIPIO_ATIVO,QTD_UNIDADE_FARMACOTECNICA,TIPO_UNIDADE_FARMACOTECNICA,CONSELHO_PRESCRITOR,UF_CONSELHO_PRESCRITOR,TIPO_RECEITUARIO,CID10,SEXO,IDADE,UNIDADE_IDADE
0,2014,2,AC,CRUZEIRO DO SUL,712,CLORIDRATO DE AMITRIPTILINA,125,GRAMA,810,CÁPSULA,CRM,AC,1,,,,
1,2014,2,AC,CRUZEIRO DO SUL,712,CLORIDRATO DE AMITRIPTILINA,25,GRAMA,3510,CÁPSULA,CRM,AC,1,,,,
2,2014,2,AC,CRUZEIRO DO SUL,1558,CLORIDRATO DE BUPROPIONA,15,GRAMA,4239,CÁPSULA,CRM,AC,1,,,,
3,2014,2,AC,CRUZEIRO DO SUL,1558,CLORIDRATO DE BUPROPIONA,3,GRAMA,1080,CÁPSULA,CRM,AC,1,,,,
4,2014,2,AC,CRUZEIRO DO SUL,2161,CITALOPRAM,2,GRAMA,540,CÁPSULA,CRM,AC,1,,,,


### Localizar uma tabela em um portal

Muitas vezes os dados são publicados no formato de tabela. Saber trabalhar com tabelas, pode facilitar na hora de criar indicadores e compilar as informações publicadas online.

In [4]:
import requests
from bs4 import BeautifulSoup

# Fazer a requisição HTTP
url = "https://pt.wikipedia.org/wiki/Lista_de_unidades_federativas_do_Brasil_por_popula%C3%A7%C3%A3o"
resposta = requests.get(url)
resposta.status_code

# Criar o objeto BeautifulSoup
soup = BeautifulSoup(resposta.content, "html.parser")

# Encontrar a tabela desejada
tabelas = soup.find_all("table", {"class": "wikitable"})
#print(tabelas)

base_dados = pd.read_html(str(tabelas))
base_dados[1]

Unnamed: 0,Posição,Região,População,% da pop. total,País comparável (habitantes)
0,1,Região Sudeste,84 847 187,"41,80%",Irã (86 143 838)
1,2,Região Nordeste,54 644 582,"26,90%",Myanmar (55 294 979)
2,3,Região Sul,29 933 315,"14,70%",Gana (30 832 019)
3,4,Região Norte,17 349 619,"8,50%",Países Baixos (17 790 060)
4,5,Região Centro-Oeste,16 287 809,"8,02%",Chade (16 818 391)


### Preenchimento de formulários e submissão de dados




Muitas vezes, ao invés de apenas consumir as informações, precisamos enviar informações para uma página ou serviço. Uma forma de fazer isso, é enviando comandos específicos. Nesse exemplo, vamos utilizar a biblioteca selenium, que simula a navegação nas páginas e permite que o navegador interaja com essas informações. 

Para isso, precisamos instalar um webdriver 
https://chromedriver.chromium.org/downloads

Para escolher a versão correta, verifique a versão de seu navegador clicando nos três pontos na lateral direita de seu navegador > ajuda > sobre o google chrome

Caso esteja utilzando outro navegador, confira qual a versão correta em [Supported Browsers](https://www.selenium.dev/documentation/webdriver/browsers/)


In [35]:
#pip install selenium 
from selenium import webdriver
from selenium.webdriver.common.by import By

option = webdriver.ChromeOptions()
option.add_argument("-incognito")
option.add_experimental_option("excludeSwitches", ['enable-automation']);
#option.add_argument("--headless") 
#option.add_argument("disable-gpu")
browser = webdriver.Chrome(options=option)

In [36]:
#Informar url do formulário
browser.get("https://forms.gle/12M8rdtJeVLK6JHk6")

In [37]:
# Use the following snippets to get elements by their class names
Nome = browser.find_elements(By.CLASS_NAME,'whsOnd')
Nome[0].send_keys("Meu Nome")
Nome[1].send_keys("30")
Nome[2].send_keys("São Paulo")

#botoesradiais = browser.find_elements_by_class_name("docssharedWizToggleLabeledLabelWrapper")
#caixadeselecao = browser.find_elements_by_class_name("quantumWizTogglePapercheckboxInnerBox")
enviar = browser.find_elements(By.CLASS_NAME,'NPEfkd')

In [38]:
# radiobuttons[2].click() #Caso seja múltipla escolha
# checkboxes[1].click() #Caso seja múltipla resposta
enviar[0].click()

In [39]:
browser.close()

### Exercício 1

Para treinar a interação de requisições, confira o [arquivo exercício 1]().

### Agendamento de Tarefas
Apenas por questões de definição, automação de tarefas refere-se ao processo de substituir a execução manual de tarefas por scripts, programas ou sistemas automatizados. Ao optar por automatizar tarefas, buscamos reduzir ou eliminar a necessidade de intervenção humana repetitiva em tarefas rotineiras e de baixo valor agregado.

Existem várias maneiras de agendar tarefas dos códigos em Python. A escolha do método adequado vai depender das necessidades do seu projeto e do ambiente em que você está trabalhando. Alguns dos principais métodos são: 
- Crontab: muito usado em sistemas baseados em Unix
- Celery: para tarefas em segundo plano
- APScheduler: biblioteca python para agendamento de tarefas
- Windows Task: agendador de tarefas do Windows

### Windows Task Scheduler
Após desenvolver nossos scripts, precisamos automatizar a execução. Agora vamos descobrir onde o python está instalado. 

Abra o _Prompt de comando_ no windows e digite:


    python -c “import sys; print(sys.executable)”

<img src="https://drive.google.com/uc?id=1y-sL3GaDzeOpe-9n-bMXYArPC3N3HbPo" width="400" align="left"/>

Salve esse caminho

Agora, certifique-se que seu script está testado e funcionando, além disso, no caso do python, precisaremos que o script esteja com a extensão .py. Caso tenha desenvolvido no jupyter, faça o download na extensão .py.

### Configurar Agendador

Caso o Windows esteja em português, basta procurar por Agendador de Tarefas. 

<img src="https://drive.google.com/uc?id=13dmWusClInfVcz1msOD-4w_emIYFr1kO" width="200" align="left"/>

Na tela Inicial, basta clicar em criar tarefa


<img src="https://drive.google.com/uc?id=153EMGy1LU58RDC_A45fF4QeprSNIvUde" width="400" align="left"/>




Na aba geral, dê um nome para sua tarefa. 

Na tela de ações, escolha Iniciar um Programa, e em seguida, cole o caminho do executável do python que executamos na etapa anterior. 

Ainda em ações, em Adicione argumentos (opcional), informe qual é o arquivo que será executado com o caminho completo. 

<img src="https://drive.google.com/uc?id=1O1nrsIH7DwblwATfFB1faHL3_oZyCicN" width="400" align="left"/>



Em disparadores, basta informar qual é a recorrência das ações. 

<img src="https://drive.google.com/uc?id=12bdPcXmlFCeon6cIuQ0DD6GZBfBHGfkS" width="400" align="left"/>



Pronto, agora basta procurar sua tarefa na lista de tarefas. Ao clicar em sua tarefa, note que um painel de ações irá aparecer. Você pode aguardar o horário agendado ou executar manualmente. Além disso, é possível visualizar o histórico de execução, pausar a tarefa ou mesmo excluí-la.


<img src="https://drive.google.com/uc?id=1gUVckZ1u-FYHusySzDECXia-g94I_2yW" width="200" align="left"/>

Pronto, agora sua tarefa está agendada e rodando com sucesso. 

## Outras tarefas úteis

### Enviar e-mail

In [54]:
import smtplib
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart

# Configurações do servidor SMTP e informações
smtp_server = 'smtp.exemplo.com'  # Servidor SMTP
smtp_port = 587  # Porta SMTP
remetente_email = 'remetente@exemplo.com'  # E-mail do remetente
remetente_password = 'senha'  # Senha do remetente

# Informações do destinatário e conteúdo do e-mail
destinatario_email = 'destinatario@exemplo.com'  # E-mail do destinatário
subject = 'Assunto do e-mail'
message = 'Corpo do e-mail'

# Criar objeto MIMEMultipart para construir o e-mail
email = MIMEMultipart()
email['From'] = remetente_email
email['To'] = destinatario_email
email['Subject'] = subject

# Adicionar o corpo do e-mail
email.attach(MIMEText(message, 'plain'))

# Configurar a conexão SMTP
with smtplib.SMTP(smtp_server, smtp_port) as server:
    server.starttls()
    server.login(remetente_email, remetente_password)

    # Enviar o e-mail
    server.send_message(email)

print('E-mail enviado com sucesso!')