================Projeto de Análise de Desempenho e Tendências do Sistema Fotovoltaico no Brasil===============

Este projeto tem como objetivo analisar as tendências de crescimento e queda da energia solar no Brasil, considerando o período de 2009 a 2025. A análise busca identificar padrões de sazonalidade, variações anuais e fatores que influenciam o desempenho do sistema fotovoltaico no país. Serão utilizadas técnicas de visualização de dados e estatística para compreender o comportamento da geração de energia solar ao longo dos anos e apoiar tomadas de decisão para o setor. os dados utilizados serão obtidos através de dados da ANEEL, que fornece informações detalhadas sobre a geração de energ#ia solar no Brasil. Esse projeto visa contribuir para o entendimento do crescimento da energia solar no país e auxiliar na formulação de políticas públicas e estratégias de investimento no setor, tambem ver como sistemas fotovoltaicos esta ficando saturado no Brasil, e como isso pode afetar o mercado de energia.

In [87]:
# BiBLIOTECAS NECESARIAS
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests

# Lendo informaçoes dos dados 

In [88]:
# Caminho completo do arquivo
caminho_base = r"C:\Users\Usuario\Documents\empreendimento-gd-informacoes-tecnicas-fotovoltaica.csv"

# Tentando com outro encoding
df = pd.read_csv(
    caminho_base,
    sep=";",              # separador
    encoding="latin-1",   # troca de utf-8 para latin-1
    low_memory=False,
    on_bad_lines="skip"   # ignora linhas problemáticas
)

print("Base carregada com sucesso!")
print(df.head())

Base carregada com sucesso!
  DatGeracaoConjuntoDados CodGeracaoDistribuida MdaAreaArranjo  \
0              2025-08-14                   NaN           5,82   
1              2025-08-14                   NaN           2,47   
2              2025-08-14                   NaN          14,89   
3              2025-08-14                   NaN           4,23   
4              2025-08-14                   NaN           4,55   

  MdaPotenciaInstalada NomFabricanteModulo NomFabricanteInversor  DatConexao  \
0                 6,00              Não há                Não há  2024-02-01   
1                 5,00              Não há                Não há  2024-02-01   
2                 3,00              Não há                Não há  2024-02-01   
3                 5,00              Não há                Não há  2024-02-01   
4                 6,00              Não há                Não há  2024-02-01   

  MdaPotenciaModulos MdaPotenciaInversores  QtdModulos NomModeloModulo  \
0               6,00

In [89]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3772788 entries, 0 to 3772787
Data columns (total 12 columns):
 #   Column                   Dtype 
---  ------                   ----- 
 0   DatGeracaoConjuntoDados  object
 1   CodGeracaoDistribuida    object
 2   MdaAreaArranjo           object
 3   MdaPotenciaInstalada     object
 4   NomFabricanteModulo      object
 5   NomFabricanteInversor    object
 6   DatConexao               object
 7   MdaPotenciaModulos       object
 8   MdaPotenciaInversores    object
 9   QtdModulos               int64 
 10  NomModeloModulo          object
 11  NomModeloInversor        object
dtypes: int64(1), object(11)
memory usage: 345.4+ MB


In [90]:
df.head()

Unnamed: 0,DatGeracaoConjuntoDados,CodGeracaoDistribuida,MdaAreaArranjo,MdaPotenciaInstalada,NomFabricanteModulo,NomFabricanteInversor,DatConexao,MdaPotenciaModulos,MdaPotenciaInversores,QtdModulos,NomModeloModulo,NomModeloInversor
0,2025-08-14,,582,600,Não há,Não há,2024-02-01,600,600,852,Não há,Não há
1,2025-08-14,,247,500,Não há,Não há,2024-02-01,500,500,75,Não há,Não há
2,2025-08-14,,1489,300,Não há,Não há,2024-02-01,300,300,626,Não há,Não há
3,2025-08-14,,423,500,Não há,Não há,2024-02-01,500,500,424,Não há,Não há
4,2025-08-14,,455,600,Não há,Não há,2024-02-01,600,600,495,Não há,Não há


In [91]:
df.tail()

Unnamed: 0,DatGeracaoConjuntoDados,CodGeracaoDistribuida,MdaAreaArranjo,MdaPotenciaInstalada,NomFabricanteModulo,NomFabricanteInversor,DatConexao,MdaPotenciaModulos,MdaPotenciaInversores,QtdModulos,NomModeloModulo,NomModeloInversor
3772783,2025-08-14,GD.TO.003.420.320,4000,900,7 - JA SOLAR,6 - WEG,2025-07-09,1008,900,16,1267 - JAM72D42-630LB,651 - SIW200G M090 W0
3772784,2025-08-14,GD.TO.003.420.321,1200,242,136 - TSUN,71 - DEYE,2025-07-04,242,355,4,1223 - TS605S8E-132GANT,291 - SUN-6K-G
3772785,2025-08-14,GD.TO.003.420.322,15700,3477,96 - OSDA SOLAR,35 - GROWATT,2025-07-08,3477,5000,61,1269 - ODA570-36V-MH,624 - MAC 50KTL3-X MV
3772786,2025-08-14,GD.TO.003.420.323,1000,200,84 - SUNOVA,71 - DEYE,2025-07-07,228,200,4,1047 - SS-BG570-72MDH(T),471 - SUN2000G3-US-220
3772787,2025-08-14,GD.TO.003.420.324,5800,1000,96 - OSDA SOLAR,11 - SUNGROW,2025-07-07,1281,1000,21,1249 - ODA610-33V-MHDRZ,1076 - SG10RS-L_x000D_


# Tratamento dos dados

In [92]:
# Criar uma cópia para não modificar os dados originais
df_tratado = df.copy()

In [93]:
# 1. Remover colunas desnecessárias
colunas_para_remover = [
        "DatGeracaoConjuntoDados", 
        "MdaAreaArranjo", 
        "NomModeloModulo",
        "NomModeloInversor"
    ]
df_tratado = df_tratado.drop(colunas_para_remover, axis=1)

In [94]:
# 2. Converter e tratar datas
df_tratado['DatConexao'] = pd.to_datetime(df_tratado['DatConexao'], errors='coerce')
df_tratado = df_tratado[df_tratado['DatConexao'].notna()]

In [95]:
 # 3. Remover duplicatas
df_tratado = df_tratado.drop_duplicates()

In [96]:
# 4. Tratar valores ausentes
df_tratado = df_tratado.dropna()

In [97]:
# 5. Criar colunas úteis para análise temporal
df_tratado['Ano'] = df_tratado['DatConexao'].dt.year
df_tratado['Mes'] = df_tratado['DatConexao'].dt.month

In [98]:
# 6. Converter colunas numéricas
if 'PotenciaModulo' in df_tratado.columns:
    df_tratado['PotenciaModulo'] = (df_tratado['PotenciaModulo']
                                   .astype(str)
                                   .str.replace(',', '.')
                                   .str.strip())
    
    # Conversão para numérico
    df_tratado['PotenciaModulo'] = pd.to_numeric(df_tratado['PotenciaModulo'], 
                                                errors='coerce')

In [99]:
# Validação dos dados tratados
print("Dimensões do conjunto de dados tratado:", df_tratado.shape)
print("\nValores ausentes:\n", df_tratado.isnull().sum())
print("\nTipos de dados:\n", df_tratado.dtypes)
df_tratado.head()

Dimensões do conjunto de dados tratado: (3772237, 10)

Valores ausentes:
 CodGeracaoDistribuida    0
MdaPotenciaInstalada     0
NomFabricanteModulo      0
NomFabricanteInversor    0
DatConexao               0
MdaPotenciaModulos       0
MdaPotenciaInversores    0
QtdModulos               0
Ano                      0
Mes                      0
dtype: int64

Tipos de dados:
 CodGeracaoDistribuida            object
MdaPotenciaInstalada             object
NomFabricanteModulo              object
NomFabricanteInversor            object
DatConexao               datetime64[ns]
MdaPotenciaModulos               object
MdaPotenciaInversores            object
QtdModulos                        int64
Ano                               int32
Mes                               int32
dtype: object


Unnamed: 0,CodGeracaoDistribuida,MdaPotenciaInstalada,NomFabricanteModulo,NomFabricanteInversor,DatConexao,MdaPotenciaModulos,MdaPotenciaInversores,QtdModulos,Ano,Mes
39,GD.AC.000.000.590,3250,Canadian Solar,Fronius,2016-08-31,3680,3250,112,2016,8
40,GD.AC.000.001.540,200,Canadian Solar,Santerno,2016-10-31,200,200,8,2016,10
41,GD.AC.000.001.552,200,AV PROJECT,Fronius,2016-08-25,200,200,8,2016,8
42,GD.AC.000.009.608,500,Canadian Solar,Fronius,2017-03-09,500,500,20,2017,3
43,GD.AC.000.017.465,500,CANADIAN SOLAR,FRONIUS,2017-07-29,500,500,16,2017,7


In [100]:
 # Padroniza os valores das colunas

def padronizar_valores(df_tratado, colunas_valores):
    
    for coluna in colunas_valores:
        if coluna in df_tratado.columns:
            df_tratado[coluna] = (df_tratado[coluna]
                                  .astype(str)
                                  .str.replace(',', '.')
                                  .str.strip())
            
            # Conversão para numérico
            df_tratado[coluna] = pd.to_numeric(df_tratado[coluna], 
                                               errors='coerce')
    return df_tratado

In [101]:
# Lista das colunas de potência para tratar
colunas_valores = [
    'MdaPotenciaInstalada',
    'MdaPotenciaModulos',
    'MdaPotenciaInversor'
]

In [102]:
# Aplicar o tratamento
df_tratado= padronizar_valores(df_tratado, colunas_valores)

In [103]:
# Verificar resultados
for coluna in colunas_valores:
    if coluna in df_tratado.columns:
        print(f"\nEstatísticas para {coluna}:")
        print(df_tratado[coluna].describe())


Estatísticas para MdaPotenciaInstalada:
count    3.772237e+06
mean     1.115472e+01
std      5.505958e+01
min      0.000000e+00
25%      4.000000e+00
50%      5.500000e+00
75%      8.400000e+00
max      5.000000e+03
Name: MdaPotenciaInstalada, dtype: float64

Estatísticas para MdaPotenciaModulos:
count    3.772237e+06
mean     2.376504e+01
std      2.326320e+02
min      0.000000e+00
25%      4.400000e+00
50%      6.570000e+00
75%      1.054000e+01
max      9.996000e+03
Name: MdaPotenciaModulos, dtype: float64


In [104]:
df_tratado.tail()

Unnamed: 0,CodGeracaoDistribuida,MdaPotenciaInstalada,NomFabricanteModulo,NomFabricanteInversor,DatConexao,MdaPotenciaModulos,MdaPotenciaInversores,QtdModulos,Ano,Mes
3772783,GD.TO.003.420.320,9.0,7 - JA SOLAR,6 - WEG,2025-07-09,10.08,900,16,2025,7
3772784,GD.TO.003.420.321,2.42,136 - TSUN,71 - DEYE,2025-07-04,2.42,355,4,2025,7
3772785,GD.TO.003.420.322,34.77,96 - OSDA SOLAR,35 - GROWATT,2025-07-08,34.77,5000,61,2025,7
3772786,GD.TO.003.420.323,2.0,84 - SUNOVA,71 - DEYE,2025-07-07,2.28,200,4,2025,7
3772787,GD.TO.003.420.324,10.0,96 - OSDA SOLAR,11 - SUNGROW,2025-07-07,12.81,1000,21,2025,7
