In [1]:
import os 
import requests
import pandas as pd


In [2]:
url_base = 'https://ons-aws-prod-opendata.s3.amazonaws.com/dataset/carga_energia_di/'
years = range(2015, 2025)
urls = [f'CARGA_ENERGIA_{year}.csv' for year in years]

In [3]:
# Criar um DataFrame para armazenar os valores dos ETags
etag_df = pd.DataFrame(columns=['URL', 'ETag'])

def get_etag(url):
    response = requests.head(f'{url_base}{url}')
    etag = response.headers.get('ETag')
    
    # Adicionar a URL e o etag ao DataFrame
    etag_df.loc[len(etag_df)] = [url, etag]
    
    return etag

# Iterar sobre a lista de URLs para obter os ETags
for url in urls:
    get_etag(url)

# Exibir o DataFrame com os valores dos ETags
print(etag_df)

                      URL                                ETag
0  CARGA_ENERGIA_2015.csv  "40fc0964c6c6ffb977eb349fc7956173"
1  CARGA_ENERGIA_2016.csv  "f2faf3fdd60276f2084235ea796f9d68"
2  CARGA_ENERGIA_2017.csv  "ec52aa577ac16373f336f91e43500898"
3  CARGA_ENERGIA_2018.csv  "e428bd907a4df385fd1dcd0ed0fdffd1"
4  CARGA_ENERGIA_2019.csv  "dbd543abf5ea18d2c1e9f210f9a727b1"
5  CARGA_ENERGIA_2020.csv  "d0a5d28a860af586aa469a20a6798a2a"
6  CARGA_ENERGIA_2021.csv  "0668e1b2d0d41394e9c7c3d6364df6b4"
7  CARGA_ENERGIA_2022.csv  "6e869be6821c59ea55829a62dcd8f144"
8  CARGA_ENERGIA_2023.csv  "b18e03a6b653bf8a06f149a213c3320a"
9  CARGA_ENERGIA_2024.csv  "9fccb221f8e8023d8b202a0c901709ec"


In [4]:
def download_file(url, save_dir='data/'):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    response = requests.get(f'{url_base}{url}')
    if response.status_code == 200:
        file_path = os.path.join(save_dir, url)
        with open(file_path, 'wb') as f:
            f.write(response.content)
        print(f'Arquivo {url} baixado com sucesso!')
    else:
        print(f'Erro ao baixar o arquivo {url}: Status {response.status_code}')

In [5]:
def check_and_update_files(url_list, save_dir='data/'):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    for url in url_list:
        file_path = os.path.join(save_dir, url)
        current_etag = get_etag(url)
        stored_etag = etag_df.loc[etag_df['URL'] == url, 'ETag'].values[0] if not etag_df[etag_df['URL'] == url].empty else None
        if not os.path.exists(file_path) or current_etag != stored_etag:
            download_file(url, save_dir)
            etag_df.loc[etag_df['URL'] == url, 'ETag'] = current_etag if stored_etag else etag_df.append({'URL': url, 'ETag': current_etag}, ignore_index=True)
            print(f'{url} foi atualizado ou baixado.')
        else:
            print(f'{url} já está atualizado.')

# Obter ETags iniciais e preencher o DataFrame
for url in urls:
    etag_df.loc[len(etag_df)] = [url, get_etag(url)]

# Verificar e atualizar os arquivos
check_and_update_files(urls)

# Exibir o DataFrame com os valores dos ETags
print(etag_df)
pd.read_csv('data/CARGA_ENERGIA_2021.csv', sep=';', decimal=',')



CARGA_ENERGIA_2015.csv já está atualizado.
CARGA_ENERGIA_2016.csv já está atualizado.
CARGA_ENERGIA_2017.csv já está atualizado.
CARGA_ENERGIA_2018.csv já está atualizado.
CARGA_ENERGIA_2019.csv já está atualizado.
CARGA_ENERGIA_2020.csv já está atualizado.
CARGA_ENERGIA_2021.csv já está atualizado.
CARGA_ENERGIA_2022.csv já está atualizado.
CARGA_ENERGIA_2023.csv já está atualizado.
CARGA_ENERGIA_2024.csv já está atualizado.
                       URL                                ETag
0   CARGA_ENERGIA_2015.csv  "40fc0964c6c6ffb977eb349fc7956173"
1   CARGA_ENERGIA_2016.csv  "f2faf3fdd60276f2084235ea796f9d68"
2   CARGA_ENERGIA_2017.csv  "ec52aa577ac16373f336f91e43500898"
3   CARGA_ENERGIA_2018.csv  "e428bd907a4df385fd1dcd0ed0fdffd1"
4   CARGA_ENERGIA_2019.csv  "dbd543abf5ea18d2c1e9f210f9a727b1"
5   CARGA_ENERGIA_2020.csv  "d0a5d28a860af586aa469a20a6798a2a"
6   CARGA_ENERGIA_2021.csv  "0668e1b2d0d41394e9c7c3d6364df6b4"
7   CARGA_ENERGIA_2022.csv  "6e869be6821c59ea55829a62dcd8f144"
8  

Unnamed: 0,id_subsistema,nom_subsistema,din_instante,val_cargaenergiamwmed
0,N,Norte,2021-01-01,5249.82945833
1,NE,Nordeste,2021-01-01,9828.78591667
2,S,Sul,2021-01-01,8564.13254042
3,SE,Sudeste/Centro-Oeste,2021-01-01,32419.95995833
4,N,Norte,2021-01-02,5585.21470833
...,...,...,...,...
1455,SE,Sudeste/Centro-Oeste,2021-12-30,38850.80550000
1456,N,Norte,2021-12-31,5396.57558333
1457,NE,Nordeste,2021-12-31,10835.87395833
1458,S,Sul,2021-12-31,10689.66916667


In [6]:

def concatenate_csv_files(files, years, all_dataframes = []):
    
    for file in files:
        df = pd.read_csv(file, sep=';', decimal=',')
        for year in years:
            if str(year) in file:
                df['Ano'] = year
        all_dataframes.append(df)
    return all_dataframes

files = [f'data/{url}' for url in urls]
all_dataframes = concatenate_csv_files(files, years)
all_dataframes = pd.concat(all_dataframes)
print(all_dataframes)

    id_subsistema        nom_subsistema din_instante val_cargaenergiamwmed  \
0               N                 Norte   2015-01-01         4541.00516667   
1              NE              Nordeste   2015-01-01         8308.52194932   
2               S                   Sul   2015-01-01         7717.62003968   
3              SE  Sudeste/Centro-Oeste   2015-01-01        30874.77870833   
4               N                 Norte   2015-01-02         4886.83425000   
..            ...                   ...          ...                   ...   
639            SE  Sudeste/Centro-Oeste   2024-06-08        39750.40741667   
640             N                 Norte   2024-06-09         7351.04550000   
641            NE              Nordeste   2024-06-09        11094.68170833   
642             S                   Sul   2024-06-09        10360.89266667   
643            SE  Sudeste/Centro-Oeste   2024-06-09        36603.52750000   

      Ano  
0    2015  
1    2015  
2    2015  
3    2015  
4  

In [12]:
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

engine = create_engine("mysql+mysqlconnector://root:admin123@localhost/currentflow_db")
Session = sessionmaker(bind=engine)
session = Session()

carga_di_sql = session.query(carga_di).all()
print(carga_di_sql)


ModuleNotFoundError: No module named 'your_module'

In [None]:
# Step 3: Convert the Pandas DataFrame to a format for MySQL table insertion
#df.to_sql('customers', con=engine, if_exists='append', index=False)