**Previsão de nível de radiação solar**

Dataset sugerido: Solar Radiation Prediction Dataset – Kaggle
(https://www.kaggle.com/datasets/dronio/SolarEnergy)

Utilize o dataset de radiação solar para treinar um modelo supervisionado para classificar
períodos em Alta Radiação e Baixa Radiação (crie a variável-alvo a partir de um limiar,
por exemplo, a mediana da radiação). Compare o desempenho de três algoritmos do
Scikit-learn, como Árvore de Decisão, Random Forest e Support Vector Machine
(SVM).
• Separe dados em treino e teste (70/30).
• Normalize os atributos contínuos, se necessário.
• Avalie com acurácia e matriz de confusão.


In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

In [None]:
df = pd.read_csv('/content/SolarPrediction.csv')
df.head()

Unnamed: 0,UNIXTime,Data,Time,Radiation,Temperature,Pressure,Humidity,WindDirection(Degrees),Speed,TimeSunRise,TimeSunSet
0,1475229326,9/29/2016 12:00:00 AM,23:55:26,1.21,48,30.46,59,177.39,5.62,06:13:00,18:13:00
1,1475229023,9/29/2016 12:00:00 AM,23:50:23,1.21,48,30.46,58,176.78,3.37,06:13:00,18:13:00
2,1475228726,9/29/2016 12:00:00 AM,23:45:26,1.23,48,30.46,57,158.75,3.37,06:13:00,18:13:00
3,1475228421,9/29/2016 12:00:00 AM,23:40:21,1.21,48,30.46,60,137.71,3.37,06:13:00,18:13:00
4,1475228124,9/29/2016 12:00:00 AM,23:35:24,1.17,48,30.46,62,104.95,5.62,06:13:00,18:13:00


In [None]:
df.shape
print(f'o dataframe possui {df.shape[0]} linhas e {df.shape[1]} atributos')

o dataframe possui 32686 linhas e 11 atributos


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32686 entries, 0 to 32685
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   UNIXTime                32686 non-null  int64  
 1   Data                    32686 non-null  object 
 2   Time                    32686 non-null  object 
 3   Radiation               32686 non-null  float64
 4   Temperature             32686 non-null  int64  
 5   Pressure                32686 non-null  float64
 6   Humidity                32686 non-null  int64  
 7   WindDirection(Degrees)  32686 non-null  float64
 8   Speed                   32686 non-null  float64
 9   TimeSunRise             32686 non-null  object 
 10  TimeSunSet              32686 non-null  object 
dtypes: float64(4), int64(3), object(4)
memory usage: 2.7+ MB


In [None]:
df.describe()

Unnamed: 0,UNIXTime,Radiation,Temperature,Pressure,Humidity,WindDirection(Degrees),Speed
count,32686.0,32686.0,32686.0,32686.0,32686.0,32686.0,32686.0
mean,1478047000.0,207.124697,51.103255,30.422879,75.016307,143.489821,6.243869
std,3005037.0,315.916387,6.201157,0.054673,25.990219,83.1675,3.490474
min,1472724000.0,1.11,34.0,30.19,8.0,0.09,0.0
25%,1475546000.0,1.23,46.0,30.4,56.0,82.2275,3.37
50%,1478026000.0,2.66,50.0,30.43,85.0,147.7,5.62
75%,1480480000.0,354.235,55.0,30.46,97.0,179.31,7.87
max,1483265000.0,1601.26,71.0,30.56,103.0,359.95,40.5


In [None]:
# Dados de entrada
X = df.drop(['UNIXTime', 'Data', 'Time', 'TimeSunRise', 'TimeSunSet', 'Radiation'], axis=1)
# Dados de saída
y = df['Radiation']

In [None]:
# Convertendo o dataframe em um array do numpy
X = X.values

In [None]:
X

array([[ 48.  ,  30.46,  59.  , 177.39,   5.62],
       [ 48.  ,  30.46,  58.  , 176.78,   3.37],
       [ 48.  ,  30.46,  57.  , 158.75,   3.37],
       ...,
       [ 44.  ,  30.42, 102.  , 145.19,   9.  ],
       [ 44.  ,  30.42, 101.  , 164.19,   7.87],
       [ 44.  ,  30.43, 101.  ,  83.59,   3.37]])

In [None]:
y

Unnamed: 0,Radiation
0,1.21
1,1.21
2,1.23
3,1.21
4,1.17
...,...
32681,1.22
32682,1.17
32683,1.20
32684,1.23


In [None]:
# Dados de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=25)

In [None]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((26148, 5), (6538, 5), (26148,), (6538,))

In [None]:
modeloLR = LinearRegression()

In [None]:
modeloLR.fit(X_train, y_train)

In [None]:
y_predict = modeloLR.predict(X_test)
y_predict

array([340.35581276, 127.98567645, 257.43891348, ..., 281.62665527,
       689.64111384, 103.58527947])

In [None]:
R2_LR = r2_score(y_test, y_predict)
RMSE_LR = mean_squared_error(y_test, y_predict)
MAE_LR = mean_absolute_error(y_test, y_predict)

In [None]:
print(f'R² da Regressão Linear: {R2_LR: .4f}')
print(f'RMSE da Regressão Linear: {RMSE_LR: .2f}')
print(f'MAE da Regressão Linear: {MAE_LR: .2f}')

R² da Regressão Linear:  0.5682
RMSE da Regressão Linear:  43013.08
MAE da Regressão Linear:  157.74


 Separe dados em treino e teste (70/30).
• Normalize os atributos contínuos, se necessário.
• Avalie com acurácia e matriz de confusão.

In [None]:
mediana_radiacao = df['Radiation'].median()
df['High Radiation'] = (df['Radiation'] > mediana_radiacao).astype(int)
display(df.head())

Unnamed: 0,UNIXTime,Data,Time,Radiation,Temperature,Pressure,Humidity,WindDirection(Degrees),Speed,TimeSunRise,TimeSunSet,High Radiation
0,1475229326,9/29/2016 12:00:00 AM,23:55:26,1.21,48,30.46,59,177.39,5.62,06:13:00,18:13:00,0
1,1475229023,9/29/2016 12:00:00 AM,23:50:23,1.21,48,30.46,58,176.78,3.37,06:13:00,18:13:00,0
2,1475228726,9/29/2016 12:00:00 AM,23:45:26,1.23,48,30.46,57,158.75,3.37,06:13:00,18:13:00,0
3,1475228421,9/29/2016 12:00:00 AM,23:40:21,1.21,48,30.46,60,137.71,3.37,06:13:00,18:13:00,0
4,1475228124,9/29/2016 12:00:00 AM,23:35:24,1.17,48,30.46,62,104.95,5.62,06:13:00,18:13:00,0


In [30]:
# Preparar os dados para classificação
X_classification = df.drop(['UNIXTime', 'Data', 'Time', 'TimeSunRise', 'TimeSunSet', 'Radiation', 'High Radiation'], axis=1)
y_classification = df['High Radiation']

# Dividir os dados em conjuntos de treino e teste (70% treino, 30% teste)
X_train_classification, X_test_classification, y_train_classification, y_test_classification = train_test_split(
    X_classification, y_classification, test_size=0.3, random_state=25
)

print(f'Formato de X_train_classification: {X_train_classification.shape}')
print(f'Formato de X_test_classification: {X_test_classification.shape}')
print(f'Formato de y_train_classification: {y_train_classification.shape}')
print(f'Formato de y_test_classification: {y_test_classification.shape}')

Formato de X_train_classification: (22880, 5)
Formato de X_test_classification: (9806, 5)
Formato de y_train_classification: (22880,)
Formato de y_test_classification: (9806,)


In [None]:
scaler = StandardScaler()
X_train_classification = scaler.fit_transform(X_train_classification)
X_test_classification = scaler.transform(X_test_classification)

In [31]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

# Criar e treinar o modelo de Árvore de Decisão
dt_model = DecisionTreeClassifier(random_state=25)
dt_model.fit(X_train_classification, y_train_classification)

# Criar e treinar o modelo de Floresta Aleatória
rf_model = RandomForestClassifier(random_state=25)
rf_model.fit(X_train_classification, y_train_classification)

# Criar e treinar o modelo SVM
svm_model = SVC(random_state=25)
svm_model.fit(X_train_classification, y_train_classification)

In [27]:
from sklearn.metrics import accuracy_score, confusion_matrix

# Avaliar o Modelo de Árvore de Decisão
y_pred_dt = dt_model.predict(X_test_classification)
accuracy_dt = accuracy_score(y_test_classification, y_pred_dt)
conf_matrix_dt = confusion_matrix(y_test_classification, y_pred_dt)

print("Avaliação do Modelo de Árvore de Decisão:")
print(f"Acurácia: {accuracy_dt:.4f}")
print("Matriz de Confusão:")
print(conf_matrix_dt)
print("-" * 30)

# Avaliar o  Random Forest
y_pred_rf = rf_model.predict(X_test_classification)
accuracy_rf = accuracy_score(y_test_classification, y_pred_rf)
conf_matrix_rf = confusion_matrix(y_test_classification, y_pred_rf)

print("Avaliação do  Random Forest:")
print(f"Acurácia: {accuracy_rf:.4f}")
print("Matriz de Confusão:")
print(conf_matrix_rf)
print("-" * 30)

# Avaliar o Modelo SVM
y_pred_svm = svm_model.predict(X_test_classification)
accuracy_svm = accuracy_score(y_test_classification, y_pred_svm)
conf_matrix_svm = confusion_matrix(y_test_classification, y_pred_svm)

print("Avaliação do Modelo SVM:")
print(f"Acurácia: {accuracy_svm:.4f}")
print("Matriz de Confusão:")
print(conf_matrix_svm)
print("-" * 30)

Avaliação do Modelo de Árvore de Decisão:
Acurácia: 0.8340
Matriz de Confusão:
[[4113  819]
 [ 809 4065]]
------------------------------
Avaliação do Modelo de Floresta Aleatória:
Acurácia: 0.8796
Matriz de Confusão:
[[4555  377]
 [ 804 4070]]
------------------------------
Avaliação do Modelo SVM:
Acurácia: 0.8367
Matriz de Confusão:
[[4633  299]
 [1302 3572]]
------------------------------


In [29]:
print("--- Comparação dos Modelos ---")
print(f"Acurácia da Árvore de Decisão: {accuracy_dt:.4f}")
print("Matriz de Confusão da Árvore de Decisão:\n", conf_matrix_dt)
print("-" * 30)
print(f"Acurácia da Floresta Aleatória: {accuracy_rf:.4f}")
print("Matriz de Confusão da Floresta Aleatória:\n", conf_matrix_rf)
print("-" * 30)
print(f"Acurácia do SVM: {accuracy_svm:.4f}")
print("Matriz de Confusão do SVM:\n", conf_matrix_svm)
print("-" * 30)

print("\n--- Resumo da Análise de Performance ---")
print(f"A Floresta Aleatória obteve a maior acurácia ({accuracy_rf:.4f}).")
print(f"A Árvore de Decisão e o SVM tiveram acurácias semelhantes ({accuracy_dt:.4f} e {accuracy_svm:.4f}, respectivamente).")
print("Analisando as matrizes de confusão:")
print("- A Floresta Aleatória tem um número menor de falsos positivos em comparação com a Árvore de Decisão.")
print("- O SVM tem um número maior de falsos negativos em comparação com os outros dois modelos.")
print("Com base na acurácia e na taxa de falsos positivos, a Floresta Aleatória parece ser o modelo de melhor desempenho entre os três para esta tarefa de classificação.")

--- Comparação dos Modelos ---
Acurácia da Árvore de Decisão: 0.8340
Matriz de Confusão da Árvore de Decisão:
 [[4113  819]
 [ 809 4065]]
------------------------------
Acurácia da Floresta Aleatória: 0.8796
Matriz de Confusão da Floresta Aleatória:
 [[4555  377]
 [ 804 4070]]
------------------------------
Acurácia do SVM: 0.8367
Matriz de Confusão do SVM:
 [[4633  299]
 [1302 3572]]
------------------------------

--- Resumo da Análise de Performance ---
A Floresta Aleatória obteve a maior acurácia (0.8796).
A Árvore de Decisão e o SVM tiveram acurácias semelhantes (0.8340 e 0.8367, respectivamente).
Analisando as matrizes de confusão:
- A Floresta Aleatória tem um número menor de falsos positivos em comparação com a Árvore de Decisão.
- O SVM tem um número maior de falsos negativos em comparação com os outros dois modelos.
Com base na acurácia e na taxa de falsos positivos, a Floresta Aleatória parece ser o modelo de melhor desempenho entre os três para esta tarefa de classificação.