# Filtering and Describing Geospatial Data

Neste notebook vamos definir as funçoes de descriçao e filtragem dos dados a partir das classes definidas na bilbioteca GeoPandas e Matplotlib

[Mapping and Plotting Tools](https://geopandas.org/docs/user_guide/mapping.html)

[Matplotlib](https://matplotlib.org/stable/tutorials/introductory/usage.html#sphx-glr-tutorials-introductory-usage-py)


 *IMPORTANTE*
- Com as funçoes definidas e testadas neste notebook, criaremos um arquivo .py no diretorio .soureces/ para armazena-las, possibilitando assim, sua utilizaçao com a funçao import.

In [1]:
import geopandas as gpd 
import pandas as pd
import fiona

In [3]:
# Origem do banco de dados
from src.funcs1_import gdb

gdb()

SyntaxError: invalid decimal literal (3226631112.py, line 2)

In [None]:
gdb('geodatabase.gpkg')

In [None]:
# Parametro para plot interativo
%matplotlib widget

## Importando os vetores do banco de dados criado no notebook passado.
- Escolha de camada e mapa
    - Caso nao tenha o mapa selecionado retorne lista de mapas disponiveis para aquela escala.
    - Caso nao escolha um mapa retorne todos os vetores daquela camada.

In [None]:
# IMPORTADOR DE LITOLOGIAS POR ESCALA --------------------------------------------------------------------------#
def importar_geometrias(camada, mapa=False):
    '''
    Recebe:
        camada      : camada vetorial a ser lida do geopackage.
        mapa        : nome do mapa presente na camada vetorial;

    Retorna:
        Objeto GeoDataFrame.
        
    Se houver seleçao de mapa retornara apenas as geometrias que possuem o nome escolhido na coluna ['MAPA']
    Se Retornar camada vazia recebera a lista das camadas veotoriais diposniveis
    Se mapa == False: retorna todos os objetos presente nesta camada vetorial
    '''
    
    print(f"# -- Lista de camadas vetoriais disponiveis no Geopackage: {list(fiona.listlayers(gdb('geodatabase.gpkg')))}")

    lito =  gpd.read_file(gdb('geodatabase.gpkg'),
                        driver= 'GPKG',
                        layer= camada)
                        

    if mapa:
        folha = lito[lito.MAPA == 'Carta geológica da folha ' + mapa]
        
        if folha.empty:

            print("O mapa escolhido nao est'a presente na coluna MAPA da camada veotiral. Os mapas disponiveis serao listados a seguir.")
            print('# Selecionando apenas os caracteres apos ''folha'' (SEM ESPAÇO)')
            print(f"# -- Lista de mapas: {list(lito.MAPA.unique())}")

            lista_mapas = list(lito.MAPA.unique())
            return lista_mapas

        else:    
            return(folha)

    else:
        return(lito)

###  Utilizando as funçoes definidas acima para importar os dados

In [None]:
importar_geometrias()

In [None]:
# Abrindo os vetores descritivos dos projetos aerogeofisicos
proj_geof = importar_geometrias('proj_aerogeof')

In [None]:
proj_geof.columns

In [None]:
print(f'Lista de espaçamentos disponíveis: {list(proj_geof.ESPACAMENT.unique())}')

In [None]:
litologia_1kk = importar_geometrias('litologia_1kk')
#litologia_250k = importar_geometrias('litologia_250k')
litologia_100k = importar_geometrias('litologia_100k')
#litologia_50k = importar_geometrias('litologia_50k')

## Descrevendo as caracteristicas dos dados

In [None]:
litologia_1kk.head(5)

In [None]:
print(litologia_1kk.columns)

In [None]:
meta_lito_1kk = pd.DataFrame(litologia_1kk.dtypes)
meta_lito_1kk['Valores null'] = litologia_1kk.isnull().sum()
meta_lito_1kk['Valores unicos'] = litologia_1kk.nunique()
meta_lito_1kk                                                                   # NEED TO CREATE A SYSTEM TO GENERATE A DATAFRAME FOR EACH LITOSTRATIGRAPHIC LAYER
                                                                                # TO DO SO, WE COULD CREATE AN UPPER INDEX FOR EACH LAYER CONTAINING ALL THIS INDECES.

### Here we can define a function to execute this operation for any layer

In [None]:
def metadataframe(GeoDataFrame):
    meta_lito = pd.DataFrame(GeoDataFrame.dtypes)               # Describe the dtype of each column from the DataFrame or, better saying, GeoDataFrame;
    meta_lito['Valores null'] = GeoDataFrame.isnull().sum()     # Describe the sum of each null value from our object
    meta_lito['Valores unicos'] = GeoDataFrame.nunique()        # Describe the number of unique values from our object, that is a GeoDataFrame
    meta_lito = meta_lito.rename(columns = {0 : 'dType'})       # Rename the first column to 'dtype', the name of the function we used.
    return meta_lito

In [None]:
from src.funcs_descricao import metadataframe   # The above function was inserted inside the /sources/descricao.py file;
                                              # So we can import the funcion with this command wennerver we need it

In [None]:
#metadataframe(litologia_250k)
metadataframe(litologia_100k)
#metadataframe(litologia_50k)


### We can observe and analyse by the same means our aerogeophysical metadata.

In [None]:
metadataframe(proj_geof)       # WE CONCLUDE BY OBSERVING THIS DATAFRAME THAT THE 'TITULO' COLUMN EATHER HAS AN DUPLICATED VALUE
                               # BECAUSE WE HAVE 296 GEOMETRIES AND 295 DIFERENT TITLES

## Com os dados disponiveis na RAM podemos utilizar funçoes do built-in do Python ou funçoes disponibilizadas atravez das bibliotecas podemos produzir informaçoes importantes sobre o nosso dado.

#### Como por exemplo, calcular area de cobertura do dado.

In [None]:
area_lito_1kk = litologia_1kk[:].area.sum()
print(area_lito_1kk)

# We can observe that the calculation of the area should be done with a cartesian coordinate reference system instead of geographic for more accurate results
# Although, our coverage area is not inside only one UTM Zone, so we need to create a system to convert each geometry to it's correspodent Zone.

In [None]:
litologia_1kk['SHAPE_AREA'].sum() # We can observe that the area of the polygons have already been calculated and is stored at 'SHAPE_AREA' column

In [None]:
print(litologia_1kk['SHAPE_AREA'].sum() - area_lito_1kk) # The result is the difference between the Area calculated by the CRPM and the area calculated by the GeoPandas Function

In [None]:
# SELECTING AEROGEOPHYSICAL PROJECTS BY ITS FLIGHT LINE SPACEMENT [RESOLUTION]
proj_geof_500m = proj_geof[proj_geof['ESPACAMENT'] == '500']
proj_geof_1000m = proj_geof[proj_geof['ESPACAMENT'] == '1000']

In [None]:
print(f" The total coverage area of projects with 500 m resolution: {proj_geof_500m['SHAPE_AREA'].sum()}")
print(f" The total coverage area of projects with 1000 m resolution: {proj_geof_1000m['SHAPE_AREA'].sum()}")

In [None]:
print(f" The total coverage area of projects with 500 m resolution: {proj_geof_500m[:].area.sum()}")

print(f" The total coverage area of projects with 1000 m resolution: {proj_geof_1000m[:].area.sum()}")

In [None]:
print(f"Percentage of aerogeophysical data coverage of the continental area with 500m resolution: {(proj_geof_500m['SHAPE_AREA'].sum()  / litologia_1kk['SHAPE_AREA'].sum()) * 100} %")
print(f"Percentage of aerogeophysical data coverage of the continental area with 1000m resolution: {(proj_geof_1000m['SHAPE_AREA'].sum() / litologia_1kk['SHAPE_AREA'].sum()) * 100} %")

### Listando atributos geologicos das geometrias importadas.

In [None]:
# Abrindo os vetores litológicos de um unico mapa utilizando a função definida acima
#varginha_100k = importar_geometrias('litologia_100k','Varginha - UFRJ')
#varginha_100k.head(5)

In [None]:
# com estas funçoes utilizadas asssimas, podemos definir uma funçao que descreve o nosso dado vetorial
def describe_geologico(gdf):
    lista_colunas = list(gdf.columns)
    lista_litotipos = list(gdf.LITOTIPOS.unique())
    lista_legenda = list(gdf.LEGENDA.unique())

    dic_litologico = {'lista_colunas': lista_colunas,
                      'lista_litotipos': lista_litotipos,
                      'lista_legenda': lista_legenda}
    return dic_litologico   

In [None]:
dic_litoligico = describe_geologico(litologia_1kk)

### Reconhecendo as litologia mapeadas em suas escalas
- Faremos um filtro na coluna LEGENDA e LITOTIOPOS para selecionar as classes de interesse e, com estas geometrias, selecionaremos os mapas que as contém.
- Assim podemos identificar quais cartas geológicas e suas escalas podemos trabalhar.

In [None]:
def filtro(gdf,mineral):
    filtrado = gdf[gdf['LITOTIPOS'].str.contains(mineral)]
    if filtrado.empty:
        print(f"{list(gdf['LITOTIPOS'].unique())}")
    else:
        return filtrado

In [None]:
litologia_grafitosa_1kk = filtro(litologia_1kk,'graf')

In [None]:
litotipos_vazio = litologia_1kk[litologia_1kk.LITOTIPOS.isna()]
litotipos_vazio.LITOTIPOS

In [None]:
#Foi necessário inserir a str 'Vazio' em celas que não continham valores para que a função de filtro funcionasse corretamente na coluna LEGENDA.

litologia_1kk.fillna('Vazio',inplace=True)
litologia_250k.fillna('Vazio',inplace=True)
litologia_100k.fillna('Vazio',inplace=True)
litologia_50k.fillna('Vazio',inplace=True)

In [None]:
litologia_1kk.to_file(gdb+'geodatabase.gpkg',
              driver='GPKG',
              layer='litologia_1kk')

litologia_250k.to_file(gdb+'geodatabase.gpkg',
              driver='GPKG',
              layer='litologia_250k')

litologia_100k.to_file(gdb+'geodatabase.gpkg',
              driver='GPKG',
              layer='litologia_100k')

litologia_50k.to_file(gdb+'geodatabase.gpkg',
              driver='GPKG',
              layer='litologia_50k')

In [None]:
Grafita_xistos_1kk = filtro(litologia_1kk,'Graf')
list(Grafita_xistos_1kk['LITOTIPOS'].unique())

#### Desafio desnecessário para provar meus conhecimentos com for loops:

In [None]:
#list_gr_100k = mapas_lito_gr_100k

indice=0
for i in mapas_lito_gr_100k:
    print(i)
    list_gr_100k[indice] = l_100k[l_100k['MAPA'].str.contains("i")]
    indice+=1


In [None]:
len(list_gr_100k)

In [None]:
lista_mapa = list(litologia_1kk.MAPA.unique())
print(len(lista_mapa))
lista_nome=[]

for mapa in lista_mapa:
    trash=0
    Mapa=[]
    for letra in mapa:
        if trash<25:
            trash+=1
        else:
            Mapa+=letra
    lista_nome += [''.join(Mapa)]

In [None]:
lista_nome

In [None]:
folha=lista_nome
indice=0
for i in lista_nome:
    print(i)
    folha[indice] = litologia_1kk[litologia_1kk['MAPA'].str.contains(i)].dissolve('MAPA')
    indice+=1

In [None]:
folha[31].plot()

In [None]:
lista_mapa = list(litologia_100k.MAPA.unique())
lista_mapa

In [None]:
lista_nome=[]
for mapa in lista_mapa:
    trash=0
    Mapa=[]
    for letra in mapa:
        if trash<25:
            trash+=1
        else:
            Mapa+=letra
    lista_nome += [''.join(Mapa)]

In [None]:
len(lista_nome)

In [None]:
folha=lista_nome
indice=0
for i in lista_nome:
    print(i)
    folha[indice] = l_100k[l_100k['MAPA'].str.contains(i)].dissolve('MAPA')
    indice+=1

In [None]:
len(folha)