# 🏖️ Análise da Qualidade da Água nas Praias de Praia Grande (SP)
Este notebook apresenta uma análise exploratória dos dados de balneabilidade coletados da CETESB referentes às praias da cidade de Praia Grande.
**Fonte:** Companhia Ambiental do Estado de São Paulo (CETESB)

📅 Data da amostra: 25/05/2025  
📦 Dados obtidos em: 31/05/2025

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# Configuração estética dos gráficos
sns.set(style='whitegrid')

# Carregamento do dataset
df = pd.read_csv('qualidade_agua_praia_grande.csv')
df.head()

ModuleNotFoundError: No module named 'matplotlib'

In [None]:
# Informações básicas sobre o dataset
df.info()

In [None]:
# Verificação de valores ausentes
df.isnull().sum()

In [None]:
# Estatísticas descritivas gerais
df.describe()

In [None]:
# Contagem de praias por classificação da água
df['Classificacao_Agua'].value_counts()

In [None]:
# Gráfico de barras: número de praias por classificação
sns.countplot(data=df, x='Classificacao_Agua', palette='Set2')
plt.title('Número de Praias por Classificação da Água')
plt.xlabel('Classificação da Água')
plt.ylabel('Quantidade de Praias')
plt.show()

In [None]:
# Gráfico de pizza: proporção de praias próprias vs. impróprias
df['Classificacao_Agua'].value_counts().plot.pie(autopct='%1.1f%%', startangle=90, colors=['#66c2a5', '#fc8d62'])
plt.title('Proporção Geral da Classificação da Água')
plt.ylabel('')
plt.show()

In [None]:
# Boxplot: distribuição da Dist_Norte
sns.boxplot(data=df, y='Dist_Norte', palette='pastel')
plt.title('Distribuição da Distância Norte das Praias')
plt.show()

In [None]:
# Agregação 1: Quantidade por praia e classificação
df.groupby(['Praia', 'Classificacao_Agua']).size().unstack(fill_value=0)

In [None]:
# Agregação 2: Média da Dist_Norte por classificação
df.groupby('Classificacao_Agua')['Dist_Norte'].mean()

In [None]:
# Agregação 3: Tabela pivô com Praias e Datas
df_pivot = df.pivot_table(values='Qualidade_Codigo', index='Praia', columns='Data_Amostra_Inicio', aggfunc='first')
df_pivot

In [None]:
# Correlação entre Dist_Norte e Qualidade_Codigo
df['Qualidade_Codigo'] = pd.to_numeric(df['Qualidade_Codigo'], errors='coerce')
df[['Dist_Norte', 'Qualidade_Codigo']].corr()

## ✅ Conclusão
- A maioria das praias estavam **impróprias** na data analisada.
- A distância ao norte não apresentou forte correlação com a qualidade da água.
- Análises mais profundas podem ser feitas com a coleta contínua dos dados ao longo do tempo.

**Sugestão:** Automatizar a coleta semanal para análises de séries temporais e predição de balneabilidade.