### Bibliotecas usadas no projeto:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Carregando os dados. Dados retirados de: https://dadosabertos.aneel.gov.br/dataset/relacao-de-empreendimentos-de-geracao-distribuida

In [2]:
df = pd.read_csv("dados.csv")

### Um resumo dos dados, as primeiras linhas:

In [3]:
df.head()

Unnamed: 0,_id,DatGeracaoConjuntoDados,CodGeracaoDistribuida,MdaAreaArranjo,MdaPotenciaInstalada,NomFabricanteModulo,NomFabricanteInversor,DatConexao,MdaPotenciaModulos,MdaPotenciaInversores,QtdModulos,NomModeloModulo,NomModeloInversor
0,1,2025-06-30T00:00:00,,582,600,Não há,Não há,2024-02-01T00:00:00,600,600,852,Não há,Não há
1,2,2025-06-30T00:00:00,,247,500,Não há,Não há,2024-02-01T00:00:00,500,500,75,Não há,Não há
2,3,2025-06-30T00:00:00,,1489,300,Não há,Não há,2024-02-01T00:00:00,300,300,626,Não há,Não há
3,4,2025-06-30T00:00:00,,423,500,Não há,Não há,2024-02-01T00:00:00,500,500,424,Não há,Não há
4,5,2025-06-30T00:00:00,,455,600,Não há,Não há,2024-02-01T00:00:00,600,600,495,Não há,Não há


### Modificando o nome das colunas e alterando "Não ha" por NaN, para melhor compreensão:

In [4]:
df.replace("Não há", np.nan, inplace=True)
df.rename(columns={'DatGeracaoConjuntoDados':'Data_Geracao_Dados'}, inplace=True)
df.rename(columns={'CodGeracaoDistribuida':'Codigo_Unidade_Geradora'}, inplace=True)
df.rename(columns={'MdaAreaArranjo':'Total_Area_Arranjo'}, inplace=True)
df.rename(columns={'MdaPotenciaInstalada':'Potencia_Instalada'}, inplace=True)
df.rename(columns={'NomFabricanteModulo':'Fabricante_Modulo'}, inplace=True)
df.rename(columns={'NomFabricanteInversor':'Fabricante_Inversor'}, inplace=True)
df.rename(columns={'DatConexao':'Data_conexao_Unidade'}, inplace=True)
df.rename(columns={'MdaPotenciaModulos':'Potencia_Modulos'}, inplace=True)
df.rename(columns={'MdaPotenciaInversores':'Potencia_Inversor'}, inplace=True)
df.rename(columns={'QtdModulos':'Quantidade_Modulos'}, inplace=True)
df.rename(columns={'NomModeloModulo':'Nome_Modelo_Modulo'}, inplace=True)
df.rename(columns={'NomModeloInversor':'Nome_Modelo_inversor'}, inplace=True)

# Dicionário de Dados — Geração Distribuída Fotovoltaica

| **Nome do Campo**              | **Tipo do Dado**         | **Tamanho** | **Descrição** |
|-------------------------------|--------------------------|-------------|---------------|
| `_id`                         | Numérico                 | —           | Identificador único da linha no dataset. |
| `Data_Geracao_Dados`         | Data Simples             | —           | Data do processamento de carga automática no momento da geração para publicação do conjunto de dados abertos. |
| `Codigo_Unidade_Geradora`    | Cadeia de caracteres     | 21          | Código identificador da unidade geradora (UG) no sistema da distribuidora. |
| `Total_Area_Arranjo`         | Numérico                 | 8,2         | Área total dos arranjos fotovoltaicos em metros quadrados (m²). |
| `Potencia_Instalada`         | Numérico                 | 6,2         | Potência instalada da unidade geradora, segundo o projeto aprovado, em quilowatts (kW). |
| `Fabricante_Modulo`          | Cadeia de caracteres     | 100         | Nome do fabricante dos módulos fotovoltaicos. |
| `Fabricante_Inversor`        | Cadeia de caracteres     | 100         | Nome do fabricante dos inversores. |
| `Data_conexao_Unidade`       | Data Simples             | —           | Data em que a unidade geradora foi conectada à rede da distribuidora. |
| `Potencia_Modulos`           | Numérico                 | 6,2         | Soma das potências nominais dos módulos instalados, em kW. |
| `Potencia_Inversor`          | Numérico                 | 6,2         | Soma das potências nominais dos inversores, em kW. |
| `Quantidade_Modulos`         | Numérico                 | 10          | Número total de módulos fotovoltaicos instalados. |
| `Nome_Modelo_Modulo`         | Cadeia de caracteres     | 100         | Modelo técnico ou código comercial do módulo utilizado. |
| `Nome_Modelo_inversor`       | Cadeia de caracteres     | 100         | Modelo técnico ou código comercial do inversor utilizado. |

### Coluna 00: _id -> Contagem de linhas;
### Coluna 01: Data_Geracao_Dados -> Data de processamento e publicação dos dados na plataforma que disponibilizou (publicamente) os dados;
### Coluna 02: Codigo_Unidade_Geradora -> Um identificador único (como se fosse um "cpf" da usida);
### Coluna 03: Total_Area_Arranjo -> Área total dos módulos (em $m^{2}$), ou seja, a área ocupada pelos painéis fotovotáicos;
### Coluna 04: Potencia_Instalada -> Potência total nominal instalada (em $kW$), que a unidade é capaz de gerar, segundo o projeto;
### Coluna 05: Fabricante_Modulo -> Nome do fabricante dos painéis, nome da empresa que fabricou os módulos solares;
### Coluna 06: Fabricante_Inversor -> Nome do fabricante dos inversores, nome da empresa que fabricou os inversores (equipamente que converte CC para CA);
### Coluna 07: Data_conexao_Unidade -> Data de conexão à rede, em que a unidade começou a injetar energia na rede da distribuidora (reflete o início da operação efetiva);
### Coluna 08: Potencia_Modulos -> Potência somada dos módulos (em $kW$), soma das potências nominais dos painéis;
### Coluna 09: Potencia_Inverso -> Potência somada dos Inversores (em $kW$), soma das potências nominais dos inversores conectados;
### Coluna 10: Quantidade_Modulos -> Quantidade total de painéis instalados, número de módulos instalados;
### Coluna 11: Nome_Modelo_Modulo -> Nome técnico do modelo do painel fotovotaico;
### Coluna 12: Nome_Modelo_Inversor -> Nome técnico do modelo do Inversor.

### Ficamos agora com todos os dados faltantes iguais a NaN:

In [5]:
df.head()

Unnamed: 0,_id,Data_Geracao_Dados,Codigo_Unidade_Geradora,Total_Area_Arranjo,Potencia_Instalada,Fabricante_Modulo,Fabricante_Inversor,Data_conexao_Unidade,Potencia_Modulos,Potencia_Inversor,Quantidade_Modulos,Nome_Modelo_Modulo,Nome_Modelo_inversor
0,1,2025-06-30T00:00:00,,582,600,,,2024-02-01T00:00:00,600,600,852,,
1,2,2025-06-30T00:00:00,,247,500,,,2024-02-01T00:00:00,500,500,75,,
2,3,2025-06-30T00:00:00,,1489,300,,,2024-02-01T00:00:00,300,300,626,,
3,4,2025-06-30T00:00:00,,423,500,,,2024-02-01T00:00:00,500,500,424,,
4,5,2025-06-30T00:00:00,,455,600,,,2024-02-01T00:00:00,600,600,495,,


### Porém, temos muitos dados Faltantes. Podemos filtrar o Data Frame (df) e deixar apenas os dados completos. Vamos primeiro usar len(df), onde saberemos a quantidade de linhas:

In [6]:
len(df)

3643608

### Com essa informação, poderemos calcular a porcentagem de linhas filtradas do df. Vamos filtrar os NaN do df:

In [7]:
df = df.dropna()

### Podemos visualizar algumas linhas do df filtrado:

In [8]:
df.head(20)

Unnamed: 0,_id,Data_Geracao_Dados,Codigo_Unidade_Geradora,Total_Area_Arranjo,Potencia_Instalada,Fabricante_Modulo,Fabricante_Inversor,Data_conexao_Unidade,Potencia_Modulos,Potencia_Inversor,Quantidade_Modulos,Nome_Modelo_Modulo,Nome_Modelo_inversor
38,39,2025-06-30T00:00:00,GD.AC.000.000.590,23600,3250,Canadian Solar,Fronius,2016-08-31T00:00:00,3680,3250,112,325W,SYMO
39,40,2025-06-30T00:00:00,GD.AC.000.001.540,1288,200,Canadian Solar,Santerno,2016-10-31T00:00:00,200,200,8,CS6P-250,Sunway M Plus
40,41,2025-06-30T00:00:00,GD.AC.000.001.552,1304,200,AV PROJECT,Fronius,2016-08-25T00:00:00,200,200,8,AVP-250P  POLY-SI,GALVO 2.5-1
41,42,2025-06-30T00:00:00,GD.AC.000.009.608,3840,500,Canadian Solar,Fronius,2017-03-09T00:00:00,500,500,20,CS6K-265,Fronius Primo 5.0-1
42,43,2025-06-30T00:00:00,GD.AC.000.017.465,3600,500,CANADIAN SOLAR,FRONIUS,2017-07-29T00:00:00,500,500,16,320W,SYMO
43,44,2025-06-30T00:00:00,GD.AC.000.017.466,6400,820,CANADIAN SOLAR,FRONIUS,2017-10-05T00:00:00,1040,820,32,325W,PRIMO
44,45,2025-06-30T00:00:00,GD.AC.000.017.513,2500,300,CANADIAN,ABB,2017-11-22T00:00:00,300,300,12,CS6K-270,PVI-3.0-TL-OUTD
45,46,2025-06-30T00:00:00,GD.AC.000.023.039,6400,1040,CANADIAN SOLAR,REFUSOL,2017-12-01T00:00:00,1040,1040,32,325W,008K-020K
46,47,2025-06-30T00:00:00,GD.AC.000.023.041,3600,500,CANADIAN SOLAR,FRONIUS,2018-01-03T00:00:00,585,500,18,325W,PRIMO
47,48,2025-06-30T00:00:00,GD.AC.000.023.042,4000,650,CANADIAN SOLAR,FRONIUS,2017-12-26T00:00:00,650,650,20,325W,PRIMO 6.0-1


### Foram removidas um total de 54831 linhas de um total de 3643608 linhas.

In [9]:
len(df)

3588777

In [10]:
dif_linhas = ((3643608-3588777)*100)/3643608
print(dif_linhas)

1.5048545288077093


### A diferença de um data frame para o outro (após filtar as linhas com possuem NaN - não possuem valor, é muito pequena, então vamos trabalhar apenas com dados completos:

$$
    DifLinhas = \frac{(3643608-3588777)}{3643608}*100 = \frac{54831}{3643608}*100 \simeq 1.5048545288077093 \%
$$

### Resetamos a primeira coluna para os índices iniciem a contagem de 0 até o total de linhas (menos 1):

In [11]:
df = df.reset_index(drop=True)
df['_id'] = df.index

In [12]:
df.head(20)

Unnamed: 0,_id,Data_Geracao_Dados,Codigo_Unidade_Geradora,Total_Area_Arranjo,Potencia_Instalada,Fabricante_Modulo,Fabricante_Inversor,Data_conexao_Unidade,Potencia_Modulos,Potencia_Inversor,Quantidade_Modulos,Nome_Modelo_Modulo,Nome_Modelo_inversor
0,0,2025-06-30T00:00:00,GD.AC.000.000.590,23600,3250,Canadian Solar,Fronius,2016-08-31T00:00:00,3680,3250,112,325W,SYMO
1,1,2025-06-30T00:00:00,GD.AC.000.001.540,1288,200,Canadian Solar,Santerno,2016-10-31T00:00:00,200,200,8,CS6P-250,Sunway M Plus
2,2,2025-06-30T00:00:00,GD.AC.000.001.552,1304,200,AV PROJECT,Fronius,2016-08-25T00:00:00,200,200,8,AVP-250P  POLY-SI,GALVO 2.5-1
3,3,2025-06-30T00:00:00,GD.AC.000.009.608,3840,500,Canadian Solar,Fronius,2017-03-09T00:00:00,500,500,20,CS6K-265,Fronius Primo 5.0-1
4,4,2025-06-30T00:00:00,GD.AC.000.017.465,3600,500,CANADIAN SOLAR,FRONIUS,2017-07-29T00:00:00,500,500,16,320W,SYMO
5,5,2025-06-30T00:00:00,GD.AC.000.017.466,6400,820,CANADIAN SOLAR,FRONIUS,2017-10-05T00:00:00,1040,820,32,325W,PRIMO
6,6,2025-06-30T00:00:00,GD.AC.000.017.513,2500,300,CANADIAN,ABB,2017-11-22T00:00:00,300,300,12,CS6K-270,PVI-3.0-TL-OUTD
7,7,2025-06-30T00:00:00,GD.AC.000.023.039,6400,1040,CANADIAN SOLAR,REFUSOL,2017-12-01T00:00:00,1040,1040,32,325W,008K-020K
8,8,2025-06-30T00:00:00,GD.AC.000.023.041,3600,500,CANADIAN SOLAR,FRONIUS,2018-01-03T00:00:00,585,500,18,325W,PRIMO
9,9,2025-06-30T00:00:00,GD.AC.000.023.042,4000,650,CANADIAN SOLAR,FRONIUS,2017-12-26T00:00:00,650,650,20,325W,PRIMO 6.0-1


### Vamos olhar algumas estatísticas básicas agora:

In [13]:
df.describe(include='all')

Unnamed: 0,_id,Data_Geracao_Dados,Codigo_Unidade_Geradora,Total_Area_Arranjo,Potencia_Instalada,Fabricante_Modulo,Fabricante_Inversor,Data_conexao_Unidade,Potencia_Modulos,Potencia_Inversor,Quantidade_Modulos,Nome_Modelo_Modulo,Nome_Modelo_inversor
count,3588777.0,3588777,3588777,3588777.0,3588777.0,3588777,3588777,3588777,3588777.0,3588777.0,3588777.0,3588777,3588777
unique,,1,3588777,36063.0,6495.0,58610,43745,3914,17558.0,4735.0,,298344,228031
top,,2025-06-30T00:00:00,GD.AC.000.000.590,2000.0,500.0,JINKO,GROWATT,2022-12-29T00:00:00,440.0,500.0,,JAM72S30-550/MR,SUN2000G3-US-220
freq,,3588777,1,199932.0,446950.0,150125,426745,5322,80178.0,684798.0,,44158,71270
mean,1794388.0,,,,,,,,,,55.80174,,
std,1035991.0,,,,,,,,,,8479.818,,
min,0.0,,,,,,,,,,0.0,,
25%,897194.0,,,,,,,,,,9.0,,
50%,1794388.0,,,,,,,,,,13.0,,
75%,2691582.0,,,,,,,,,,22.0,,
