Import's

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score

Dataset

In [None]:
# Carregar o dataset
df = pd.read_csv('dataset/ocean_poluttion.csv')

# Visualizar as primeiras linhas do dataset
df.head()

Exploração dos Dados

In [None]:
# Verificar informações do dataset
df.info()

# Estatísticas descritivas das variáveis numéricas
df.describe()

# Verificar valores únicos em cada coluna categórica
df['Region'].unique()
df['Country'].unique()

# Visualizar distribuição das variáveis
sns.pairplot(df[['AirQuality', 'WaterPollution']])
plt.show()

Feature Engineering

In [None]:
# Criação de uma nova feature: proporção entre qualidade do ar e poluição da água
df['AirQuality_WaterPollution_Ratio'] = df['AirQuality'] / df['WaterPollution']

Preparando os Dados para modelagem

In [None]:
# Dividir os dados em features (X) e target (y)
X = df[['AirQuality']]
y = df['WaterPollution']

# Dividir os dados em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Experimento com Outros Modelos

In [None]:
# Inicializar e treinar um modelo de Random Forest
rf_model = RandomForestRegressor()
rf_model.fit(X_train, y_train)

Ajuste Hiperparâmetros

In [None]:
# Definir os hiperparâmetros para ajustar
param_grid = {'n_estimators': [100, 200, 300], 'max_depth': [None, 10, 20]}

# Realizar busca em grade para encontrar os melhores hiperparâmetros
grid_search = GridSearchCV(estimator=rf_model, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Melhores hiperparâmetros encontrados
print('Best Parameters:', grid_search.best_params_)

Validação Cruzada e Avaliação de Desempenho

In [None]:
# Validar o modelo de Random Forest com validação cruzada
rf_scores = cross_val_score(rf_model, X, y, cv=5)
print('Cross-validated scores:', rf_scores)
print('Mean Cross-validated score:', np.mean(rf_scores))

Desenvolvimento e Avaliação do Modelo de Machine Learning

In [None]:
# Inicializar e treinar o modelo de regressão linear
model = LinearRegression()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliar o desempenho do modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print('Mean Squared Error:', mse)
print('R^2 Score:', r2)

Padrões de Distribuição e Tendências:

In [None]:
# Visualizar os resultados
plt.scatter(X_test, y_test, color='blue')
plt.plot(X_test, y_pred, color='red', linewidth=2)
plt.xlabel('Air Quality')
plt.ylabel('Water Pollution')
plt.title('Regression Model: Air Quality vs Water Pollution')
plt.show()