## Importando a biblioteca pandas

In [1]:
!pip install -q pandas==1.5.3 --user

In [2]:
import pandas as pd

In [3]:
pd.__version__

'1.5.3'

## Abrindo o arquivo csv

In [4]:
usinas_df = pd.read_csv("usina_termeletrica_tipo.csv")

In [5]:
usinas_df.head()

Unnamed: 0,DatGeracaoConjuntoDados,DscOrigem,NomTipoUsina,NomSubTipoUsina,QtdUsinaTermeletrica,MdaPotenciaInstaladaKW,MesReferencia,AnoReferencia
0,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,359,8125583.7,12,2012
1,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,381,9358566.0,12,2013
2,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,387,9880703.0,12,2014
3,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,394,10531820.2,12,2015
4,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,398,10897104.2,12,2016


## Exploração do arquivo

In [6]:
# Tipo das variáveis em cada coluna
usinas_df.dtypes

DatGeracaoConjuntoDados     object
DscOrigem                   object
NomTipoUsina                object
NomSubTipoUsina             object
QtdUsinaTermeletrica         int64
MdaPotenciaInstaladaKW     float64
MesReferencia                int64
AnoReferencia                int64
dtype: object

In [7]:
# Nome de cada coluna
usinas_df.columns

Index(['DatGeracaoConjuntoDados', 'DscOrigem', 'NomTipoUsina',
       'NomSubTipoUsina', 'QtdUsinaTermeletrica', 'MdaPotenciaInstaladaKW',
       'MesReferencia', 'AnoReferencia'],
      dtype='object')

In [8]:
# Valores vazios
usinas_df.isna().sum()

DatGeracaoConjuntoDados    0
DscOrigem                  0
NomTipoUsina               0
NomSubTipoUsina            0
QtdUsinaTermeletrica       0
MdaPotenciaInstaladaKW     0
MesReferencia              0
AnoReferencia              0
dtype: int64

In [9]:
# Formato
usinas_df.shape

(1259, 8)

In [10]:
# Valores duplicados
usinas_df[usinas_df.duplicated()]

Unnamed: 0,DatGeracaoConjuntoDados,DscOrigem,NomTipoUsina,NomSubTipoUsina,QtdUsinaTermeletrica,MdaPotenciaInstaladaKW,MesReferencia,AnoReferencia


## Alterações

In [11]:
# Renomeando as colunas
usinas_df.rename(columns = {'DatGeracaoConjuntoDados' : 'Data_Update',
                            'DscOrigem' : 'Origem',
                            'NomTipoUsina' : 'Segmento_Combustivel',
                            'NomSubTipoUsina': 'Combustivel',
                            'QtdUsinaTermeletrica' : 'Quantidade',
                            'MdaPotenciaInstaladaKW' : 'Potencia_KW',
                            'MesReferencia' : 'Mes',
                            'AnoReferencia' : 'Ano'}, 
                 inplace = True)

In [12]:
usinas_df.head(1)

Unnamed: 0,Data_Update,Origem,Segmento_Combustivel,Combustivel,Quantidade,Potencia_KW,Mes,Ano
0,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,359,8125583.7,12,2012


In [13]:
import datetime as dt

In [14]:
# Alterando o tipo da coluna para data
usinas_df['Data_Update'] = pd.to_datetime(usinas_df['Data_Update'], format= '%Y-%m-%d')

In [15]:
usinas_df.dtypes

Data_Update             datetime64[ns]
Origem                          object
Segmento_Combustivel            object
Combustivel                     object
Quantidade                       int64
Potencia_KW                    float64
Mes                              int64
Ano                              int64
dtype: object

In [16]:
# Verificando valores iguais digitados de forma diferente
for column in usinas_df:
    print(usinas_df[column].unique())

['2024-12-31T00:00:00.000000000']
['Biomassa' 'Fossil' 'Fóssil']
['Agroindustriais' 'Biocombustíveis líquidos' 'Biocombustiveis Liquidos'
 'Carvao mineral' 'Floresta' 'Residuos animais' 'Resíduos animais'
 'Residuos solidos urbanos' 'Resíduos sólidos urbanos' 'Carvão mineral'
 'Gas Natural' 'Gás natural' 'Outros fosseis' 'Outros Fósseis' 'Petroleo'
 'Petróleo']
['Bagaço de Cana de Açúcar' 'Biogas - AGR' 'Biogás - AGR' 'Biogás-AGR'
 'Capim Elefante' 'Casca de Arroz' 'Etanol' 'Oleos Vegetais'
 'Óleos vegetais' 'Óleos Vegetais' 'Calor de Processo - CM'
 'Carvão Mineral' 'Carvão Vegetal' 'Gás de Alto Forno - Biomassa' 'Lenha'
 'Licor Negro' 'Resíduos Florestais' 'Biogás - RA' 'Biogás - RU'
 'Carvão - RU' 'Gás de Alto Forno - CM' 'Calor de Processo - GN'
 'Gás Natural' 'Calor de Processo - OF' 'Gás de Refinaria'
 'Óleo Combustível' 'Óleo Diesel' 'Outros Energéticos de Petróleo'
 'Gás de Alto Forno - PE' 'Resíduos Sólidos Urbanos - RU'
 'Biogás - Floresta']
[ 359  381  387  394  398  349  36

In [17]:
# Uniformizando os valores nas colunas
usinas_df['Origem'] = usinas_df['Origem'].str.replace('Fossil', 'Fóssil')
usinas_df['Segmento_Combustivel'] = usinas_df['Segmento_Combustivel'].str.replace('Biocombustiveis Liquidos', 'Biocombustíveis líquidos')
usinas_df['Segmento_Combustivel'] = usinas_df['Segmento_Combustivel'].str.replace('Residuos animais', 'Resíduos animais')
usinas_df['Segmento_Combustivel'] = usinas_df['Segmento_Combustivel'].str.replace('Residuos solidos urbanos', 'Resíduos sólidos urbanos')
usinas_df['Segmento_Combustivel'] = usinas_df['Segmento_Combustivel'].str.replace('Gas Natural', 'Gás natural')
usinas_df['Segmento_Combustivel'] = usinas_df['Segmento_Combustivel'].str.replace('Outros fosseis', 'Outros Fósseis')
usinas_df['Segmento_Combustivel'] = usinas_df['Segmento_Combustivel'].str.replace('Petroleo', 'Petróleo')
usinas_df['Segmento_Combustivel'] = usinas_df['Segmento_Combustivel'].str.replace('Carvao mineral', 'Carvão mineral')
usinas_df['Combustivel'] = usinas_df['Combustivel'].str.replace('Biogás-AGR', 'Biogás - AGR')
usinas_df['Combustivel'] = usinas_df['Combustivel'].str.replace('Oleos Vegetais', 'Óleos Vegetais')
usinas_df['Combustivel'] = usinas_df['Combustivel'].str.replace('Óleos vegetais', 'Óleos Vegetais')
usinas_df.loc[(usinas_df['Segmento_Combustivel'] == 'Carvão mineral'), 'Origem'] = 'Fóssil'

In [18]:
# Conferindo
for column in usinas_df:
    print(usinas_df[column].unique())

['2024-12-31T00:00:00.000000000']
['Biomassa' 'Fóssil']
['Agroindustriais' 'Biocombustíveis líquidos' 'Carvão mineral' 'Floresta'
 'Resíduos animais' 'Resíduos sólidos urbanos' 'Gás natural'
 'Outros Fósseis' 'Petróleo']
['Bagaço de Cana de Açúcar' 'Biogas - AGR' 'Biogás - AGR' 'Capim Elefante'
 'Casca de Arroz' 'Etanol' 'Óleos Vegetais' 'Calor de Processo - CM'
 'Carvão Mineral' 'Carvão Vegetal' 'Gás de Alto Forno - Biomassa' 'Lenha'
 'Licor Negro' 'Resíduos Florestais' 'Biogás - RA' 'Biogás - RU'
 'Carvão - RU' 'Gás de Alto Forno - CM' 'Calor de Processo - GN'
 'Gás Natural' 'Calor de Processo - OF' 'Gás de Refinaria'
 'Óleo Combustível' 'Óleo Diesel' 'Outros Energéticos de Petróleo'
 'Gás de Alto Forno - PE' 'Resíduos Sólidos Urbanos - RU'
 'Biogás - Floresta']
[ 359  381  387  394  398  349  367  378  399  353  370  391  392  358
  374  384  390  396   19   23    2   18    3   20   22    9   10   12
    8   11    1   13    7    5    0   14   17   16   15   40   45   46
   49   50  

In [19]:
# Versão final
usinas_df.head()

Unnamed: 0,Data_Update,Origem,Segmento_Combustivel,Combustivel,Quantidade,Potencia_KW,Mes,Ano
0,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,359,8125583.7,12,2012
1,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,381,9358566.0,12,2013
2,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,387,9880703.0,12,2014
3,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,394,10531820.2,12,2015
4,2024-12-31,Biomassa,Agroindustriais,Bagaço de Cana de Açúcar,398,10897104.2,12,2016


In [20]:
# Salvando o arquivo csv no disco sem o index
usinas_df.to_csv(r'C:\usina_termeletrica_tipo2.csv', index = False)