# TRATANDO OS DADOS

Nesse script pode ser observado formas de mudança de unidade de medida, remoção de valores negativos, renomeia colunas, edita quantidade de casas decimais e exclui colunas, de dados em um arquivo no formato .xlsx.

O presente arquivo possui dados do Operador Nacional do Sistema Elétrico e do ERA5 (obtidos por meio do website do Climate Data Store).


In [1]:
# Carregando biblioteca necessária
import pandas as pd

In [2]:
# Abrindo o arquivo Excel
# Adicione o caminho que está localizado seu arquivo .xlsx (Excel)
xlsx_file = 'C:/Winpython/CaminhoDoDado/ConjBomJesus_2017_2020.xlsx'
# Chamando o arquivo de df
df = pd.read_excel(xlsx_file)

# Observando os dados carregados
print(df)

      id_subsistema nom_subsistema id_estado nom_estado  \
0                NE       Nordeste        BA      BAHIA   
1                NE       Nordeste        BA      BAHIA   
2                NE       Nordeste        BA      BAHIA   
3                NE       Nordeste        BA      BAHIA   
4                NE       Nordeste        BA      BAHIA   
...             ...            ...       ...        ...   
30149            NE       Nordeste        BA      BAHIA   
30150            NE       Nordeste        BA      BAHIA   
30151            NE       Nordeste        BA      BAHIA   
30152            NE       Nordeste        BA      BAHIA   
30153            NE       Nordeste        BA      BAHIA   

               nom_pontoconexao nom_localizacao  val_latitudesecoletora  \
0      B.JESUS LAPA - 69 kV (A)        Interior              -13.299456   
1      B.JESUS LAPA - 69 kV (A)        Interior              -13.299456   
2      B.JESUS LAPA - 69 kV (A)        Interior              -13.2

## T2M(°K) PARA T2M(°C)

In [3]:
# Transformando a temperatura de Kelvin para Celsius
# Lembre-se de colocar o nome da variável do mesmo jeito que está na coluna dos seus dados no arquivo .xlsx
df['T2M (°C)'] = df['T2M (°K)'] - 273.15
# Cria uma nova coluna da transformação

## GHI(J/m2) PARA GHI(Wh/m2) 

In [4]:
# Transformando J/m2 para Wh/m2
# Lembre-se de colocar o nome da variável do mesmo jeito que está na coluna dos seus dados no arquivo .xlsx
df['GHI (Wh/m2)'] = df['GHI (J/m2)'] / 3600
# Cria uma nova coluna da transformação

## SSRD(J/m2) PARA SSRD(Wh/m2)

In [5]:
df['SSRD (Wh/m2)'] = df['SSRD (J/m2)'] / 3600
# Cria uma nova coluna da transformação

## TP(m) PARA TP(mm)

In [6]:
df['TP (mm)'] = df['TP (m)'] * 1000
# Cria uma nova coluna da transformação

## TIRANDO VALORES NEGATIVOS 

### SSRD(J/m2)

In [7]:
# Substitua "Nome_da_Coluna" pelo nome da coluna em que deseja fazer a substituição
df['SSRD (Wh/m2)'] = df['SSRD (Wh/m2)'].apply(lambda x: max(x, 0))
# Cria uma nova coluna da transformação

## MUDANDO NOMES DAS COLUNAS

In [8]:
# A esquerda deve ser adicionado os nomes que estão na coluna dos dados
# A direita adicione o nome no qual você quer renomear suas colunas
# Aqui pode ser feitas quantas mundanças achar necessário
mapeamento_nomes = {
    'TP (mm)': 'TP (mm)',
    'T2M (°C)': 'T2M (°C)',
    'GHI (Wh/m2)': 'GHI (Wh/m²)',
    'SSRD (Wh/m2)': 'SSRD (Wh/m²)'
}

# Renomeie as colunas usando o método 'rename' do DataFrame
df.rename(columns=mapeamento_nomes, inplace=True)

## DEIXANDO COM DUAS DECIMAIS

In [9]:
# Substitua "nome_da_coluna1" e "nome_da_coluna2" pelos nomes das colunas que você deseja formatar
df['SSRD (Wh/m²)'] = df['SSRD (Wh/m²)'].apply(lambda x: round(x, 2))
df['TCC'] = df['TCC'].apply(lambda x: round(x, 2))
df['TP (mm)'] = df['TP (mm)'].apply(lambda x: round(x, 2))
df['T2M (°C)'] = df['T2M (°C)'].apply(lambda x: round(x, 2))
df['GHI (Wh/m²)'] = df['GHI (Wh/m²)'].apply(lambda x: round(x, 2))

## EXCLUINDO COLUNAS

In [10]:
# Observando colunas disponíveis
print(df)

      id_subsistema nom_subsistema id_estado nom_estado  \
0                NE       Nordeste        BA      BAHIA   
1                NE       Nordeste        BA      BAHIA   
2                NE       Nordeste        BA      BAHIA   
3                NE       Nordeste        BA      BAHIA   
4                NE       Nordeste        BA      BAHIA   
...             ...            ...       ...        ...   
30149            NE       Nordeste        BA      BAHIA   
30150            NE       Nordeste        BA      BAHIA   
30151            NE       Nordeste        BA      BAHIA   
30152            NE       Nordeste        BA      BAHIA   
30153            NE       Nordeste        BA      BAHIA   

               nom_pontoconexao nom_localizacao  val_latitudesecoletora  \
0      B.JESUS LAPA - 69 kV (A)        Interior              -13.299456   
1      B.JESUS LAPA - 69 kV (A)        Interior              -13.299456   
2      B.JESUS LAPA - 69 kV (A)        Interior              -13.2

In [11]:
# Removendo colunas
# Aqui pode ser removido quantas colunas achar necessário
colunas_para_remover = ['id_subsistema', 'nom_subsistema', 'id_estado', 'nom_estado', 
                        'nom_pontoconexao', 'nom_localizacao', 'nom_modalidadeoperacao', 
                        'nom_tipousina', 'nom_usina_conjunto', 'val_geracaoprogramada',]
df = df.drop(colunas_para_remover, axis=1)

In [13]:
print(df)

       val_latitudesecoletora  val_longitudesecoletora  \
0                  -13.299456                -43.33305   
1                  -13.299456                -43.33305   
2                  -13.299456                -43.33305   
3                  -13.299456                -43.33305   
4                  -13.299456                -43.33305   
...                       ...                      ...   
30149              -13.299456                -43.33305   
30150              -13.299456                -43.33305   
30151              -13.299456                -43.33305   
30152              -13.299456                -43.33305   
30153              -13.299456                -43.33305   

       val_latitudepontoconexao  val_longitudepontoconexao  \
0                    -13.308900                 -43.346111   
1                    -13.308900                 -43.346111   
2                    -13.308900                 -43.346111   
3                    -13.308900                 -43.346