# Biblioteca - Coleta de Dados

## Transformando em Planilha

### Pandas

A biblioteca pandas é uma das mais importantes do Python para manipulação e análise de dados, sendo especialmente útil na automatização de processos que envolvem leitura, transformação e armazenamento de informações estruturadas. Ela permite ler arquivos CSV, Excel, JSON e muitos outros formatos, organizar esses dados em tabelas chamadas DataFrames e realizar operações como filtragem, agrupamento, substituição, ordenação e cálculo estatístico de maneira rápida e eficiente. Em tarefas automatizadas, o pandas é frequentemente utilizado para processar grandes volumes de dados coletados automaticamente da internet, limpá-los e salvar em arquivos organizados para posterior análise, envio ou visualização.

In [4]:

import pandas as pd
df_premier21 = pd.read_csv('https://www.football-data.co.uk/mmz4281/2122/E0.csv')
print(df_premier21.head())


  Div        Date   Time    HomeTeam        AwayTeam  FTHG  FTAG FTR  HTHG  \
0  E0  13/08/2021  20:00   Brentford         Arsenal     2     0   H     1   
1  E0  14/08/2021  12:30  Man United           Leeds     5     1   H     1   
2  E0  14/08/2021  15:00     Burnley        Brighton     1     2   A     1   
3  E0  14/08/2021  15:00     Chelsea  Crystal Palace     3     0   H     2   
4  E0  14/08/2021  15:00     Everton     Southampton     3     1   H     0   

   HTAG  ... AvgC<2.5  AHCh  B365CAHH  B365CAHA  PCAHH  PCAHA  MaxCAHH  \
0     0  ...     1.62  0.50      1.75      2.05   1.81   2.13     2.05   
1     0  ...     2.25 -1.00      2.05      1.75   2.17   1.77     2.19   
2     0  ...     1.62  0.25      1.79      2.15   1.81   2.14     1.82   
3     0  ...     1.94 -1.50      2.05      1.75   2.12   1.81     2.16   
4     1  ...     1.67 -0.50      2.05      1.88   2.05   1.88     2.08   

   MaxCAHA  AvgCAHH  AvgCAHA  
0     2.17     1.80     2.09  
1     1.93     2.10     

In [5]:
df_premier21 = df_premier21.rename(columns={'Date':'date',
                                            'HomeTeam':'home_team',
                                            'AwayTeam':'away_team',
                                            'FTHG': 'home_goals',
                                            'FTAG': 'away_goals'})

print(df_premier21.head())

  Div        date   Time   home_team       away_team  home_goals  away_goals  \
0  E0  13/08/2021  20:00   Brentford         Arsenal           2           0   
1  E0  14/08/2021  12:30  Man United           Leeds           5           1   
2  E0  14/08/2021  15:00     Burnley        Brighton           1           2   
3  E0  14/08/2021  15:00     Chelsea  Crystal Palace           3           0   
4  E0  14/08/2021  15:00     Everton     Southampton           3           1   

  FTR  HTHG  HTAG  ... AvgC<2.5  AHCh  B365CAHH  B365CAHA  PCAHH  PCAHA  \
0   H     1     0  ...     1.62  0.50      1.75      2.05   1.81   2.13   
1   H     1     0  ...     2.25 -1.00      2.05      1.75   2.17   1.77   
2   A     1     0  ...     1.62  0.25      1.79      2.15   1.81   2.14   
3   H     2     0  ...     1.94 -1.50      2.05      1.75   2.12   1.81   
4   H     0     1  ...     1.67 -0.50      2.05      1.88   2.05   1.88   

   MaxCAHH  MaxCAHA  AvgCAHH  AvgCAHA  
0     2.05     2.17     1.80

In [7]:
df_filtrado = df_premier21.iloc[:, 1:7]  # Isso pega as colunas de índice 1 a 6

# Passo 4: Filtrar apenas linhas em que a data contém "08/"
df_filtrado_agosto = df_filtrado[df_filtrado['date'].str.contains('08/')]

# Passo 5: Salvar o novo DataFrame em um CSV separado
df_filtrado_agosto.to_csv('dados_coletados.csv', index=False)

print(df_filtrado_agosto.head())

         date   Time   home_team       away_team  home_goals  away_goals
0  13/08/2021  20:00   Brentford         Arsenal           2           0
1  14/08/2021  12:30  Man United           Leeds           5           1
2  14/08/2021  15:00     Burnley        Brighton           1           2
3  14/08/2021  15:00     Chelsea  Crystal Palace           3           0
4  14/08/2021  15:00     Everton     Southampton           3           1


## Colentando dados automatizados

### schedule

A biblioteca schedule serve para agendar a execução automática de funções em horários ou intervalos específicos, permitindo que um código Python rode sozinho em segundo plano sem a necessidade de intervenção humana. No contexto de automatização de processos, como a coleta de dados de um site que se atualiza constantemente, ela permite definir tarefas como “executar essa função todo dia às 10h” ou “a cada 30 minutos”, garantindo que os dados sejam coletados, processados e salvos de forma recorrente e previsível. Isso torna possível transformar scripts simples em robôs que operam de forma autônoma e programada.

### time


A biblioteca time é usada para controlar pausas e intervalos de execução dentro de scripts Python, sendo especialmente útil em processos automatizados que exigem espera entre tarefas ou ciclos contínuos. No contexto do nosso projeto, ela é usada em conjunto com a biblioteca schedule para manter o programa em funcionamento constante, verificando a cada segundo se chegou o momento de executar a tarefa agendada. Com funções como time.sleep(), conseguimos fazer o script esperar de forma controlada, sem sobrecarregar o sistema, garantindo que a automação funcione de forma estável e no tempo certo.











In [2]:
import yfinance as yf
import schedule
import time

contador = 0
encerrar = False  # flag para parar o loop

def coletar_dados():
    global contador, encerrar

    contador += 1

    acao = yf.Ticker("PETR4.SA")
    dados = acao.info

    nome = dados.get("shortName", "N/A")
    preco = dados.get("regularMarketPrice", "N/A")
    variacao_abs = dados.get("regularMarketChange", "N/A")
    variacao_pct = dados.get("regularMarketChangePercent", "N/A")

    print(f"\n{nome}")
    print(f"Preço atual: R$ {preco}")
    print(f"Variação: {variacao_abs} ({round(variacao_pct, 2)}%)")
    print("-" * 40)

    if contador >= 3:
        print("\n✅ Coleta concluída 3 vezes. Encerrando monitoramento.")
        encerrar = True  # isso vai parar o loop

# Agendar a execução
schedule.every(20).seconds.do(coletar_dados)

print("Iniciando monitoramento automático...\n")

while True:
    schedule.run_pending()
    time.sleep(1)
    if encerrar:
        break  # encerra o loop de forma limpa no Jupyter do VSCode




Iniciando monitoramento automático...


PETROBRAS   PN      N2
Preço atual: R$ 29.7
Variação: 0.34000015 (1.16%)
----------------------------------------

PETROBRAS   PN      N2
Preço atual: R$ 29.7
Variação: 0.34000015 (1.16%)
----------------------------------------

PETROBRAS   PN      N2
Preço atual: R$ 29.7
Variação: 0.34000015 (1.16%)
----------------------------------------

✅ Coleta concluída 3 vezes. Encerrando monitoramento.



PETROBRAS   PN      N2
Preço atual: R$ 29.71
Variação: 0.34999847 (1.19%)
----------------------------------------

✅ Coleta concluída 3 vezes. Encerrando monitoramento.

PETROBRAS   PN      N2
Preço atual: R$ 29.71
Variação: 0.34999847 (1.19%)
----------------------------------------

✅ Coleta concluída 3 vezes. Encerrando monitoramento.
