## CAP 394: Introdução a Data Science

### Análise preliminar de dados de poços para a caracterização de aquíferos

Ana Carolina Calderaro - 142727

## Introdução

<div style="text-align: justify"> Este trabalho refere-se a análise de dados de poços destinados ao uso e captação de recursos hídricos, distribuidos pelo Instituto Estadual do Ambiente (INEA), no Rio de Janeiro. O objetivo é fazer uma análise preliminar dos dados para auxiliar na caracterização de aquíferos, bem como verificar a disponibilidade e confiabilidade dos dados. Foram analisados aqui dados de poços do estado do Rio de Janeiro.</div>

### 1ª Etapa - Seleção das variáveis

<div style="text-align: justify"> Nessa primeira etapa, foi verificado como se apresentavam as três tabelas com os dados (Figura 1). Para esse trabalho, as variáveis mais relevantes foram a vazão (m3/h) e a profundidade (m). Entretanto, elas não eram comuns a todos, principalmente a profundidade. Como resultado, gerou-se uma tabela com as vazões e profundidade da maioria dos poços, bem como a localização (em UTM) de cada um. Esses valores foram copiados para uma outra planilha e formatados todos no mesmo padrão, resultando em uma planilha com quatro colunas e 1548 linhas (Figura 2).</div>

![tabela%201.PNG](attachment:tabela%201.PNG)![tabela%202.PNG](attachment:tabela%202.PNG)![tabela%203.PNG](attachment:tabela%203.PNG) 
<div style="text-align: center">Figura 1: Tabelas com dados. As variáveis selecionadas estão preenchidas por cinza.</div>

![tabela%204.PNG](attachment:tabela%204.PNG)
<div style="text-align: center"> Figura 2: Resultado em mesmo formato da seleção das variáveis</div>

### 2ª Etapa  - Limpeza dos dados

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [42]:
# carregando a planilha de excel
file = r"C:\Users\Pessoal\Desktop\dados\pocos.xlsx"
xl = pd.ExcelFile(file)
#transformando a coluna em um dataframe
df1 = xl.parse('pocos')
df1

Unnamed: 0,nº,Long,Lat,Vazão Máxima (m3/h),Profundidade nível d'água (m)
0,1.0,643195,7467669,7.200,82.00
1,2.0,646273,7470884,0.400,70.00
2,3.0,650648,7467614,0.800,100.00
3,4.0,640113,7465013,5.000,100.00
4,5.0,647755,7466398,5.657,80.00
5,6.0,645837,7470964,1.500,124.00
6,7.0,645837,7470964,6.800,200.00
7,8.0,648619,7456860,3.000,68.70
8,9.0,650173,7454318,2.000,50.00
9,10.0,647408,7449024,2.000,2.85


In [43]:
#Renomeando as colunas da tabela
df1.rename(columns={"Long": "easting", "Lat": "northing", "Vazão Máxima (m3/h)": "max_flow","Profundidade nível d'água (m)": "depth"}, inplace=True)
#para excluir a coluna "nº"
df2=df1.drop(["nº"], axis=1) #essa é a minha tabela original com todos os dados
df2

Unnamed: 0,easting,northing,max_flow,depth
0,643195,7467669,7.200,82.00
1,646273,7470884,0.400,70.00
2,650648,7467614,0.800,100.00
3,640113,7465013,5.000,100.00
4,647755,7466398,5.657,80.00
5,645837,7470964,1.500,124.00
6,645837,7470964,6.800,200.00
7,648619,7456860,3.000,68.70
8,650173,7454318,2.000,50.00
9,647408,7449024,2.000,2.85


In [44]:
#Primeiro preciso excluir a coluna profundidade (depth) para analisar somente a vazão
df3=df2.drop(["depth"], axis=1)
df4=df3.dropna(subset=["max_flow"])
df4

Unnamed: 0,easting,northing,max_flow
0,643195,7467669,7.200
1,646273,7470884,0.400
2,650648,7467614,0.800
3,640113,7465013,5.000
4,647755,7466398,5.657
5,645837,7470964,1.500
6,645837,7470964,6.800
7,648619,7456860,3.000
8,650173,7454318,2.000
9,647408,7449024,2.000


In [None]:
#ou seja, há 1528 poços com dados de vazão

In [45]:
#Agora preciso excluir os dados que não contenham valores de vazão ou profundidade, baseado no tabela original
df5=df2.dropna(subset=["max_flow", "depth"])
df5

Unnamed: 0,easting,northing,max_flow,depth
0,643195,7467669,7.2,82.0
1,646273,7470884,0.4,70.0
2,650648,7467614,0.8,100.0
3,640113,7465013,5.0,100.0
4,647755,7466398,5.657,80.0
5,645837,7470964,1.5,124.0
6,645837,7470964,6.8,200.0
7,648619,7456860,3.0,68.7
8,650173,7454318,2.0,50.0
9,647408,7449024,2.0,2.85


In [None]:
#Após essa limpeza, os poços que possuem os valores de vazão e profundidade caem para 60.

In [29]:
#Exportando as duas planilhas com os dados limpos (somente vazão e vazão e profundidade) para arquivo csv para serem analisados
#em excel
df4.to_csv(r"C:\Users\Pessoal\Desktop\dados\pocosdf4.csv", index=False)
df5.to_csv(r"C:\Users\Pessoal\Desktop\dados\pocosdf5.csv", index=False)

### 3ª Análise Exploratória
<div style="text-align: justify">Realizando-se uma análise exploratória dos dados da planilha pocosdf5 (vazão x profundidade), foi possível verificar através de gráficos 
o seguinte: parece haver correlação entre valores de baixa profundidade e valores de baixa vazão; parece que as profundidades estão agrupadas próximas a 10m e a 100m, sendo que as profundidades de 100 m tem maior variabilidade de vazão.</div>

![analise_pocos.PNG](attachment:analise_pocos.PNG)
<div style="text-align: center">Figura 3: Scatter plot da vazão x profundidade</div>

![analise_pocos2.PNG](attachment:analise_pocos2.PNG)
<div style="text-align: center">Figura 4: Scatter plot da vazão x profundidade (escala logarítmica)</div>

Realiza-se então uma regressão linear para verificar se existe uma correlação entre vazão e profundidade.

![regressao.PNG](attachment:regressao.PNG)
<div style="text-align: center">Figura 5: Resultados da regressão linear</div>

Estatística de regressão:
#R múltiplo	0,140322161
#R-Quadrado	0,019690309 (1,96%)
#R-quadrado ajustado	0,002788418
#Erro padrão	13,20050509
#Observações	60
#Valor-P 0,0595

<div style="text-align: justify"> Analisando o Valor-P que é de 0,0595 (>0,05), observa-se que a correlação entre as variáveis não é significativa. Observando o gráfico de resíduos (centro), pode-se notar que o Y previsto está muito distante do Y real, assim como o gráfico de probabilidade normal (abaixo) teve que ser modificado para uma curva exponencial. Em relação ao coeficiente de determinação R², o valor de 1,96% está muito abaixo de 100, mostrando que a variável x, ou seja, a vazão, tem muito pouco impacto sobre a profundidade. Conclui-se então então que não há correlação entre essas variáveis, logo a regressão linear não é eficaz para a análise desses dados.</div>

### Obs: 
Deve-se atentar que há poucos dados para uma realização adequada da regressão linear, entretanto esses são os únicos poços que possuem tanto vazão quanto profundidade.

### 4ª Etapa: Plotando os dados
<div style="text-align: justify"> Para plotar as coordenadas, inicialmente somente da vazão, foram transformadas as coordenadas em UTM para lat/long através do site http://www.hamstermap.com/. Para isso foi adicionada na tabela uma coluna da zona 23K correspondente ao da localização. Posteriormente, foram retiradas as colunas de easting e northing e substituídas pela latitude e longitude, os quais são lidas pelo software Orange.</div>

Para efeito de visualização e análise dos dados, as vazões foram classificadas de acordo com o que a Secretaria Estadual de Meio Ambiente e Recursos Hídricos estipula:

#produtividade alta (> 4 m³/h/m) --> granular

#média (2 a 4 m³/h/m) --> granular

#baixa (0,5 a 2 m³/h/m) --> fissural/cárstico

#muito baixa ( fissural/cárstico

In [48]:
# carregando a planilha de excel (todos as vazoes)
file1 = r"C:\Users\Pessoal\Desktop\dados\pocos_limpos4.xlsx"
xl1 = pd.ExcelFile(file1)
#transformando a coluna em um dataframe
vazao = xl1.parse('pocos_limpos4')
vazao

Unnamed: 0,latitude,longitude,max_flow,produtividade,tipo de aquifero
0,-23.004172,-43.319375,0.0001,muito baixa,fissural/carstico
1,-22.999308,-43.361947,0.0010,muito baixa,fissural/carstico
2,-23.000951,-43.376833,0.0010,muito baixa,fissural/carstico
3,-23.016187,-43.468469,0.0010,muito baixa,fissural/carstico
4,-23.016776,-43.482658,0.0100,muito baixa,fissural/carstico
5,-23.010584,-43.533841,0.0100,muito baixa,fissural/carstico
6,-23.014395,-43.521174,0.0100,muito baixa,fissural/carstico
7,-22.890369,-43.260895,0.0100,muito baixa,fissural/carstico
8,-22.951779,-43.347230,0.0100,muito baixa,fissural/carstico
9,-22.892694,-43.395192,0.0125,muito baixa,fissural/carstico


In [49]:
# carregando a planilha de excel (vazao x profundidade)
file3 = r"C:\Users\Pessoal\Desktop\dados\pocos_limpos.xlsx"
xl3 = pd.ExcelFile(file3)
#transformando a coluna em um dataframe
vazao_profun = xl3.parse('pocos_limpos')
vazao_profun

Unnamed: 0,latitude,longitude,max_flow,depth,produtividade,tipo de aquifero
0,-22.904951,-43.599819,0.25,11.0,muito baixa,fissural/carstico
1,-22.863495,-43.574222,0.4,70.0,muito baixa,fissural/carstico
2,-22.912794,-43.564767,0.51,12.0,baixa,fissural/carstico
3,-22.902146,-43.56678,0.77,9.0,baixa,fissural/carstico
4,-22.892637,-43.531271,0.8,100.0,baixa,fissural/carstico
5,-22.895698,-43.533138,0.99,150.0,baixa,fissural/carstico
6,-22.9815,-43.536496,1.0,11.7,baixa,fissural/carstico
7,-22.983718,-43.571647,1.0,11.43,baixa,fissural/carstico
8,-22.990217,-43.579324,1.0,7.0,baixa,fissural/carstico
9,-22.987614,-43.550165,1.2,7.8,baixa,fissural/carstico


### 5ª Etapa: Resultados
<div style="text-align: justify"> Esta etapa foi feita com o software orange, através da função geomap.

![mapa%20de%20produtividade%20todos%20os%20pocos.png](attachment:mapa%20de%20produtividade%20todos%20os%20pocos.png)
<div style="text-align: center">Figura 7: Produtividade de todos os poços (tamanho do ponto proporcional a produtividade)</div>

![produtividade%20estimada%20todos%20pocos.png](attachment:produtividade%20estimada%20todos%20pocos.png)
<div style="text-align: center">Figura 8: Produtividade de todos os poços (tamanho dos pontos iguais)</div>

![tipo%20de%20aquiferos%20%28max%20flow%29.png](attachment:tipo%20de%20aquiferos%20%28max%20flow%29.png)
<div style="text-align: center">Figura 9: Classificação de todos os poços em tipos de aquíferos</div>

![produtividade.png](attachment:produtividade.png)
<div style="text-align: center">Figura 10: Produtividade dos 60 poços (vazão x profundidade)</div>

![mapa%20de%20produtividade%20pocos%20vazao%20e%20profundidade%28max_flow%29.png](attachment:mapa%20de%20produtividade%20pocos%20vazao%20e%20profundidade%28max_flow%29.png)
<div style="text-align: center">Figura 11: Classificação dos 60 poços em tipos de aquíferos</div>

![scatter%20plot.png](attachment:scatter%20plot.png)
<div style="text-align: center">Figura 12: Scatter plot do 60 poços (vazão x profundidade), classificados quanto a produtividade e o tipo de aquífero</div>

### Considerações Finais

<div style="text-align: justify"> Analisando tanto os mapas de produtividade quanto os mapas dos aquíferos, percebe-se que, pela classificação da SEMA, os aquíferos encontram-se bastante distribuídos ao longo do relevo, mesmo as altas produtividades caracterísiticas de aquíferos granulares encontram-se também em relevo elevado, onde se esperava presença de aquíferos fissurais com baixa produtividade (rocha cristalina). O scatter plot produzido no orange (Figura 12), mostra que os valores de baixa produtividade também encontram-se em profundidade rasas, corroborando para o primeiro scatter plot produzido no excel. Além disso, a Figura 12 mostra que, embora não haja uma correlação significativa entre a vazão e a profundidade, parece que as mais altas vazões encontram-se em poços de grande profundidade. Para tentar explicar essa obsevação seria necessário uma validação com dados geológicos. Entretanto, a aplicação de um algoritmo como o SOM (Self Organizing Map), pode tentar agrupar esses valores pela sua distancia e ajudar a elucidar melhor essa questão.</div>