## Projeto Semantix: Análise de qualidade das águas do litoral em São Paulo 

### Uma breve descrição do problema

Nesse projeto iremos analisar a qualidades das águas do litoral norte de São Paulo de acordo com a presença de bactérias do gênero Enterococcus spp. 
Os micro-organismos do gênero Enterococcus constituem uma grande proporção das bactérias naturais da microbiota do trato gastrointestinal da maioria dos mamíferos, aves, répteis e insetos. São ubiquitários e podem ser encontrados amplamente distribuídos no meio ambiente, em solos, água, plantas e alimentos. O Aumento dos níveis de concetração desse microrganismos indica um nível de poluição fecal e também representa um risco à saúde dos banhistas. As medições são realizadas semanalmente em diversas praias do estado de São Paulo e são utilizadas para classificar as praias como ‘Próprias’ ou ‘Impróprias’ para banho. 
A mensuração das águas é feita realizando a contagem de Unidades Formadoras de Colônia (UFCs) a cada 100ml de água. As contagens foram realizadas semanalmente em diversas praias do estado de São Paulo entre 2012 e 2021.  

| Coluna  | Descrição |
| ------- | --------- |
| City     | Cidade do Litoral Norte de SP |
| Beach | Praia |
| Date   | Data da medição |
| Enterococcus    | Densidade de Enterococcus (UFC/100ml) |


In [61]:
#importando as bibliotecas necessárias para a análise
import pandas as pd
import numpy as np

In [67]:
#carregamento do arquivo necessário

analise_aguas = pd.read_csv('sp_beaches.csv')

In [69]:
#realizando algumas verificações no Dataframe

analise_aguas.shape


(74056, 4)

In [71]:
analise_aguas.value_counts()


City           Beach                    Date        Enterococcus
BERTIOGA       BORACÉIA - COL. MARISTA  2012-01-03  8.0             1
SÃO SEBASTIÃO  BORACÉIA - R. CUBATÃO    2015-08-09  3.0             1
                                        2016-08-07  1.0             1
                                        2016-07-31  1.0             1
                                        2016-07-24  1.0             1
                                                                   ..
ILHABELA       PORTINHO                 2012-07-01  144.0           1
                                        2012-06-24  22.0            1
                                        2012-06-17  27.0            1
                                        2012-06-10  212.0           1
UBATUBA        VERMELHA DO NORTE        2021-07-19  1.0             1
Name: count, Length: 74056, dtype: int64

In [75]:
#checando o início da dataframe
analise_aguas.head()

Unnamed: 0,City,Beach,Date,Enterococcus
0,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-03,8.0
1,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-08,22.0
2,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-15,17.0
3,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-22,8.0
4,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-29,2.0


In [77]:
analise_aguas.value_counts()

City           Beach                    Date        Enterococcus
BERTIOGA       BORACÉIA - COL. MARISTA  2012-01-03  8.0             1
SÃO SEBASTIÃO  BORACÉIA - R. CUBATÃO    2015-08-09  3.0             1
                                        2016-08-07  1.0             1
                                        2016-07-31  1.0             1
                                        2016-07-24  1.0             1
                                                                   ..
ILHABELA       PORTINHO                 2012-07-01  144.0           1
                                        2012-06-24  22.0            1
                                        2012-06-17  27.0            1
                                        2012-06-10  212.0           1
UBATUBA        VERMELHA DO NORTE        2021-07-19  1.0             1
Name: count, Length: 74056, dtype: int64

In [79]:
#checando dados faltantes
analise_aguas.isna().sum()

City            0
Beach           0
Date            0
Enterococcus    0
dtype: int64

In [81]:
analise_aguas.dtypes

City             object
Beach            object
Date             object
Enterococcus    float64
dtype: object

In [83]:
#checando as datas em que o valor de UFCs foi superior a 100
analise_aguas.loc[analise_aguas['Enterococcus'] >= 100 , 'classif_agua'] = 'impropria'
analise_aguas.loc[analise_aguas['Enterococcus'] < 100 , 'classif_agua'] = 'ok'


In [85]:
#checando as colunas de classificação de água
analise_aguas.head(10)

Unnamed: 0,City,Beach,Date,Enterococcus,classif_agua
0,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-03,8.0,ok
1,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-08,22.0,ok
2,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-15,17.0,ok
3,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-22,8.0,ok
4,BERTIOGA,BORACÉIA - COL. MARISTA,2012-01-29,2.0,ok
5,BERTIOGA,BORACÉIA - COL. MARISTA,2012-02-05,1.0,ok
6,BERTIOGA,BORACÉIA - COL. MARISTA,2012-02-12,68.0,ok
7,BERTIOGA,BORACÉIA - COL. MARISTA,2012-02-19,32.0,ok
8,BERTIOGA,BORACÉIA - COL. MARISTA,2012-02-26,1.0,ok
9,BERTIOGA,BORACÉIA - COL. MARISTA,2012-03-04,1.0,ok


In [87]:
#verificando as proporções de datas com qualidade da água impropria
analise_aguas['classif_agua'].value_counts()

classif_agua
ok           63855
impropria    10201
Name: count, dtype: int64

In [89]:
#A partir desses valores, vamos criar um dataframe apenas com os valores presentes na variável 'impropria'
analise_aguas_improprias = analise_aguas['classif_agua'].isin(['impropria'])
analise_nao_ok = analise_aguas[analise_aguas_improprias] 



In [91]:
#checando as primeiras 5 linhas do dataframe
analise_nao_ok.head()

Unnamed: 0,City,Beach,Date,Enterococcus,classif_agua
50,BERTIOGA,BORACÉIA - COL. MARISTA,2012-12-16,108.0,impropria
80,BERTIOGA,BORACÉIA - SUL,2012-07-08,120.0,impropria
87,BERTIOGA,BORACÉIA - SUL,2012-08-26,280.0,impropria
112,BERTIOGA,GUARATUBA,2012-02-12,100.0,impropria
186,BERTIOGA,SÃO LOURENÇO (JUNTO AO MORRO),2012-07-08,152.0,impropria


In [93]:
analise_nao_ok.dtypes

City             object
Beach            object
Date             object
Enterococcus    float64
classif_agua     object
dtype: object

In [97]:
#Transformando a coluna de datas para classificações anuais
analise_nao_ok['Date'] = analise_nao_ok['Date'].apply(lambda x: str(x).replace("-","/"))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  analise_nao_ok['Date'] = analise_nao_ok['Date'].apply(lambda x: str(x).replace("-","/"))


In [99]:
# Transformando a coluna Date para o tipo datetime
analise_nao_ok['Date'] = pd.to_datetime(analise_nao_ok['Date'])

# Extraindo o ano
analise_nao_ok['ano_medicao'] = analise_nao_ok['Date'].dt.year

# Verificando o resultado
print(analise_nao_ok[['Date', 'ano_medicao']].head())

          Date  ano_medicao
50  2012-12-16         2012
80  2012-07-08         2012
87  2012-08-26         2012
112 2012-02-12         2012
186 2012-07-08         2012


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  analise_nao_ok['Date'] = pd.to_datetime(analise_nao_ok['Date'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  analise_nao_ok['ano_medicao'] = analise_nao_ok['Date'].dt.year


In [101]:
analise_nao_ok['ano_medicao'].value_counts()

ano_medicao
2018    1475
2019    1407
2013    1152
2015    1094
2014    1082
2012    1071
2016     895
2017     894
2020     663
2021     468
Name: count, dtype: int64

In [103]:
analise_nao_ok.tail()

Unnamed: 0,City,Beach,Date,Enterococcus,classif_agua,ano_medicao
73927,UBATUBA,DOMINGAS DIAS,2021-05-31,224.0,impropria,2021
73934,UBATUBA,DOMINGAS DIAS,2021-07-19,204.0,impropria,2021
73939,UBATUBA,DURA,2021-02-08,132.0,impropria,2021
74041,UBATUBA,MARANDUBA,2021-05-24,144.0,impropria,2021
74049,UBATUBA,MARANDUBA,2021-07-19,192.0,impropria,2021
