In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

In [None]:
url = 'https://www.nodc.noaa.gov/archive/arc0121/0163033/1.1/data/0-data/Coastal-Water-Quality-Data.csv'
df = pd.read_csv(url)

In [None]:
print(df.head())
print(df.info())
print(df.describe())

In [None]:
X = df.drop(['target_variable'], axis=1)  # features
y = df['target_variable']  # target variable

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

In [None]:
y_pred = rf_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'MSE: {mse:.2f}')

In [None]:
# Plotagem de resultados
plt.scatter(y_test, y_pred)
plt.xlabel('Valor Real')
plt.ylabel('Valor Previsto')
plt.title('Análise de Resultados')
plt.show()

In [None]:
# Categorização das praias em função da qualidade da água
categories = ['Muito Limpa', 'Limpa', 'Moderadamente Poluída', 'Muito Poluída']
df['category'] = pd.cut(df['target_variable'], bins=[0, 20, 40, 60, 100], labels=categories)

# Plotagem das categorias
plt.figure(figsize=(10, 6))
sns.countplot(x='category', data=df)
plt.title('Categorização das Praias')
plt.xlabel('Categoria')
plt.ylabel('Contagem')
plt.show()

In [None]:
# Monitoramento da poluição nas praias
pollution_levels = df.groupby('beach_name')['target_variable'].mean().reset_index()
pollution_levels.sort_values('target_variable', ascending=False, inplace=True)

# Plotagem dos níveis de poluição
plt.figure(figsize=(10, 6))
sns.barplot(x='beach_name', y='target_variable', data=pollution_levels)
plt.title('Monitoramento da Poluição')
plt.xlabel('Praia')
plt.ylabel('Nível de Poluição')
plt.show()