## Teste de dataframe completo pra um ano de dados da ENEL/RJ


Importando bibliotecas

In [1]:
import pandas as pd


In [2]:
import ssl

try:
    _create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
    # Legacy Python that doesn't verify HTTPS certificates by default
    pass
else:
    # Handle target environment that doesn't support HTTPS verification
    ssl._create_default_https_context = _create_unverified_https_context

Criando parâmetros para a consulta ao site da Aneel

In [3]:
mes = 1
ano = 2021
distribuidora = 383
nome_distribuidora = 'Enel/RJ'
 
# link para conseguir os dados necessários
url = "https://www2.aneel.gov.br/aplicacoes/indicadores_de_qualidade/decFecSegMensal.cfm?mes={}&ano={}&regiao=SE&distribuidora={}&tipo=d".format(mes, ano, distribuidora)

Realizando o scrap com base no link e parâmetros passados anteriormente

In [4]:
scrap = pd.read_html(url)


Criando o DataFrame do mês 1

In [5]:
df1 = pd.DataFrame(scrap[0])

O DF vem com linhas desnecessárias para o que é desejado com essa extração, por isso são removidas as últimas 3 linhas e as 2 primeiras. A linha superior que sobra vira cabeçalho apenas no mês 1, importante remover essa linha na consulta dos meses seguintes

In [6]:
df1.drop(df1.tail(3).index,inplace=True) # Foi passado como localização as últimas 3 linhas e o inplace é para fazer alteração direto no DF original

In [7]:
df1.drop(df1.head(2).index,inplace=True)

Transformando a primeira linhha em cabeçalho

In [8]:
new_header = df1.iloc[0] # Pega os items da primeira linha e adciona à váriavel new_header
df1 = df1[1:] # Retorna todo o dataframe a partir da linha 1 (sem a linha 0 que será cabeçalho)
df1.columns = new_header # defininindo o nome das colunas conforme a lista presente no "new_header"

As próximas linhas de código incluem colunas que serão importantes posteriormente

In [9]:
df1 = df1.assign(MES = '{}'.format(mes))

In [10]:
df1 = df1.assign(ANO = '{}'.format(ano))

In [11]:
df1 = df1.assign(DISTRIBUIDORA = '{}'.format(nome_distribuidora))

In [12]:
df1 = df1.assign(COD_DISTRIBUIDORA = '{}'.format(distribuidora))

In [13]:
df1

2,CONJUNTO,CÓDIGO,Nº DE CONSUMIDORES,DECTOT,FECTOT,DECXP,FECXP,DECXN,FECXN,DECIP,...,DECIPC,FECIPC,DECXPC,FECXPC,DECXNC,FECXNC,MES,ANO,DISTRIBUIDORA,COD_DISTRIBUIDORA
3,Alcantara,13015,68.771,071,033,000,000,000,000,006,...,000,000,000,000,000,000,1,2021,Enel/RJ,383
4,Angra dos Reis,13016,44.194,091,076,000,000,000,000,007,...,000,000,000,000,000,000,1,2021,Enel/RJ,383
5,Araruama,13017,26.407,110,046,000,000,000,000,004,...,000,000,000,000,000,000,1,2021,Enel/RJ,383
6,Arraial do Cabo,13019,15.086,063,020,000,000,000,000,010,...,000,000,000,000,000,000,1,2021,Enel/RJ,383
7,Arsenal,13020,51.821,058,069,000,000,003,049,007,...,000,000,000,000,000,000,1,2021,Enel/RJ,383
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,Neves,16391,28.008,078,065,000,000,001,019,000,...,001,000,000,000,000,000,1,2021,Enel/RJ,383
81,Cachoeira de Macacu,16392,16.149,223,073,000,000,000,000,001,...,000,000,000,000,000,000,1,2021,Enel/RJ,383
82,Bom Jardim,16393,21.616,148,051,000,000,000,000,005,...,000,000,000,000,000,000,1,2021,Enel/RJ,383
83,Retiro Saudoso,16394,60.827,064,031,000,000,000,000,003,...,002,000,000,000,000,000,1,2021,Enel/RJ,383


## Agora será realizada as consultas dos meses seguintes e a concatenação de DataFrames

In [14]:
mes = 2
ano = 2021
distribuidora = 383
nome_distribuidora = 'Enel/RJ'
 
# link para conseguir os dados necessários
url = "https://www2.aneel.gov.br/aplicacoes/indicadores_de_qualidade/decFecSegMensal.cfm?mes={}&ano={}&regiao=SE&distribuidora={}&tipo=d".format(mes, ano, distribuidora)

In [15]:
scrap = pd.read_html(url)


In [16]:
df2 = pd.DataFrame(scrap[0])

In [17]:
df2.drop(df2.tail(3).index,inplace=True)

In [18]:
df2.drop(df2.head(2).index,inplace=True)

In [19]:
new_header = df2.iloc[0] # Pega os items da primeira linha e adciona à váriavel new_header
df2 = df2[1:] # Retorna todo o dataframe a partir da linha 1 (sem a linha 0 que será cabeçalho)
df2.columns = new_header # defininindo o nome das colunas conforme a lista presente no "new_header"

In [20]:
df2 = df2.assign(MES = '{}'.format(mes))

In [21]:
df2 = df2.assign(ANO = '{}'.format(ano))

In [22]:
df2 = df2.assign(DISTRIBUIDORA = '{}'.format(nome_distribuidora))

In [23]:
df2 = df2.assign(COD_DISTRIBUIDORA = '{}'.format(distribuidora))

In [24]:
df2

2,CONJUNTO,CÓDIGO,Nº DE CONSUMIDORES,DECTOT,FECTOT,DECXP,FECXP,DECXN,FECXN,DECIP,...,DECIPC,FECIPC,DECXPC,FECXPC,DECXNC,FECXNC,MES,ANO,DISTRIBUIDORA,COD_DISTRIBUIDORA
3,Alcantara,13015,68.914,059,017,000,000,000,000,002,...,000,000,000,000,000,000,2,2021,Enel/RJ,383
4,Angra dos Reis,13016,44.096,078,038,000,000,000,000,004,...,000,000,000,000,000,000,2,2021,Enel/RJ,383
5,Araruama,13017,26.451,105,125,000,000,000,000,001,...,000,000,000,000,000,000,2,2021,Enel/RJ,383
6,Arraial do Cabo,13019,15.140,057,030,000,000,000,000,006,...,000,000,000,000,000,000,2,2021,Enel/RJ,383
7,Arsenal,13020,51.850,149,093,000,000,000,000,005,...,000,000,000,000,000,000,2,2021,Enel/RJ,383
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,Neves,16391,28.236,092,059,000,000,015,037,002,...,000,000,000,000,000,000,2,2021,Enel/RJ,383
81,Cachoeira de Macacu,16392,16.176,468,116,000,000,000,000,004,...,000,000,000,000,000,000,2,2021,Enel/RJ,383
82,Bom Jardim,16393,21.663,197,142,000,000,000,000,004,...,000,000,000,000,000,000,2,2021,Enel/RJ,383
83,Retiro Saudoso,16394,60.940,040,028,000,000,000,000,012,...,000,000,000,000,000,000,2,2021,Enel/RJ,383


In [25]:
dfinal = pd.concat([df1, df2])

In [26]:
dfinal.to_csv('teste.csv',index=False)