# [GeoPandas](https://geopandas.org/getting_started/introduction.html): Reading Shapefiles and Writing Geopackages

    - The Data Base Creation

 Summary:
   
   - [Basic of python programming](##-Basic-of-python-programming:)
   - [Filtrando arquivos do diretorio](#Filtrando-arquivos-do-diret%C3%B3rio)
   - [Interacting with the GeoSGB GEological Data Base](#Interacting-with-GeoSGB-Geological-Data-Base.)

## Basic of python programming:
 - define a function;
 - save this definition inside a text file at a folder;
 - doing so, we can use this definition anywhere we want throught our projects with < import >

 Be awere that python programming is much more then defining and calling defined functions. But for the start, this will be usefull. Through this project we are going to learn how to analyse geospatial data powered by the Object Oriented Programming Tehchniques.

### Definindo um apelido de atalho para nossa base de dados local.

In [None]:
# Definindo caminho
def gdb(path=''):
    '''
    Diretório raíz dos dados : '/home/ggrl/geodatabase/'

        path : caminho até o arquivo desejado
    '''
    gdb = '/home/ggrl/geodatabase/' + path
    return gdb

### the above definition can be saved into a .py file inside a /source folder, so we can import it anywhere we want

In [None]:
from src.gdb import gdb

In [None]:
gdb()

## Interacting with [GeoSGB](https://geoportal.cprm.gov.br/geosgb/) Geological Data Base.

### Com a ferramenta Geoprocessing conseguimos selecionar a area e a camda vetorial desejada, alem do formato do arquivo. No caso foi feito o download dos arquivos shapefiles da area do territorio continental brasileiro.

### Criando Banco de Dados Geológicos com [GeoPandas](https://geopandas.org/getting_started.html)

- Com a biblioteca GeoPandas, vamos abrir os vetores no formato shapefile e salvalos em um banco de dados formatado como um geopackage.

## Para este trabalho foi utilizada a area continental brasileira.
 - O Download destes arquivos foi feito no dia 18/06/2021 e a base de dados online do SGB pode ter sofrido alteraçoes desde entao.

In [None]:
import geopandas as gpd

#### Gerando lista de arquivos no diretório

In [None]:
# This module can interact with our folders and is useful to extract file and folder names that jupyter have access.
import os

# The os.listdir() will return a list of files inside the folder shapefiles
# We are calling the function we've just created inside this other function: < os.listdir() >

shapefiles = os.listdir(gdb('shapefiles/'))

In [None]:
shapefiles

In [83]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


#### Filtrando arquivos do diretório

In [None]:
# Lista vazia de arquivos
lito_strat_files = []
other_files = []

# Iterando entre os shapefiles da pasta
for i in shapefiles:

    if i[0] == 'U':
        lito_strat_files.append(i)

    else:
        if i[-2] != 'i':
            other_files.append(i)

In [None]:
#other_files
#lito_strat_files

In [None]:
# Lista de arquivos shapefiles vazia
lito_strat_shp = []

# Iterando entre os arquivos de unidades litoestratigráficas
for j in lito_strat_files:
    if j[-1] == 'p':
        lito_strat_shp.append(j)

In [None]:
lito_strat_shp

In [None]:
other_shapefiles = []

for k in other_files:
    if k[-2] == 'i':
        pass

    elif k[-1] == 'p':
        other_shapefiles.append(k)

In [None]:
other_shapefiles

####  Lendo as geometrias litoestratigráficas dos arquivos shapefiles fornecidos pelo banco de dados gratuitos da CPRM e definindo a camada com um nome para cada escala.

In [None]:
# abrindo unidades litoestratigráficas em escala de 1 : 1.000.000
litologia_1kk = gpd.read_file(gdb('shapefiles/Unidades_litoestratigr#U00e1ficas___1_1_000_000__2004_.shp'))

In [None]:
litologia_1kk.to_file(gdb('geodatabase.gpkg'),
              driver='GPKG',
              layer='litologia_1kk')

In [None]:
# Unidades Litoestratigráficas na escala de 1 : 250.000
litologia_250k = gpd.read_file(gdb('shapefiles/Unidades_litoestratigr#U00e1ficas___1_250_000.shp'))

litologia_250k.to_file(gdb('geodatabase.gpkg'),
              driver='GPKG',
              layer='litologia_250k')

In [None]:
# Unidades Litoestratigráficas na escalada de 1 : 150.000
'''
litologia_150k = gpd.read_file(gdb('shapefiles/Unidades_litoestratigr#U00e1ficas___1_150_000.shp'))

litologia_150k.to_file(gdb('geodatadatabase.gpkg'),
              driver='GPKG',
              layer='litologia_150k')
'''
# Este shapefile está vazio, podendo ser um erro no download da base de dados do SGB ou
# apenas que não há mapas disponibilizados para esta escala.

In [None]:
# Unidades Litoestratigráficas na escalada de 1 : 100.000
litologia_100k = gpd.read_file(gdb('shapefiles/Unidades_litoestratigr#U00e1ficas___1_100_000.shp'))

litologia_100k.to_file(gdb('geodatabase.gpkg'),
              driver='GPKG',
              layer='litologia_100k')

In [None]:
# Unidades Litoestratigráficas na escalada de 1 : 50.000
litologia_50k = gpd.read_file(gdb('shapefiles/Unidades_litoestratigr#U00e1ficas___1_50_000.shp'))

litologia_50k.to_file(gdb('geodatabase.gpkg'),
              driver='GPKG',
              layer='litologia_50k')

#### Podemos, também, adicionar ao nosso GeoPackage geometrias outros tipos de geometria, como pontos de ocorrência mineral.

In [None]:
ocorr_min = gpd.read_file(gdb('shapefiles/Ocorr#U00eancias_minerais.shp'))

ocorr_min.to_file(gdb('geodatabase.gpkg'),
                  driver='GPKG',
                  layer='ocorr_min_cprm')

#### Afloramentos, Amostras Petrograficas e Projetos de mapeamentos geolgocios e geofisicos

In [None]:
aflora = gpd.read_file(gdb('shapefiles/Afloramentos_geol#U00f3gicos.shp'))

aflora.to_file(gdb('geodatabase.gpkg'),
                  driver='GPKG',
                  layer='aflora')

In [None]:
am_petro = gpd.read_file(gdb('shapefiles/Amostras_petrogr#U00e1ficas.shp'))

am_petro.to_file(gdb('geodatabase.gpkg'),
                  driver='GPKG',
                  layer='am_petro')

In [None]:
proj_cprm = gpd.read_file(gdb('shapefiles/Projetos_da_CPRM.shp'))


proj_cprm.to_file(gdb('geodatabase.gpkg'),
                  driver='GPKG',
                  layer='proj_cprm')

In [None]:
proj_aerogeof = gpd.read_file(gdb('shapefiles/Projetos_de_aerogeof#U00edsica.shp'))

proj_aerogeof.to_file(gdb('geodatabase.gpkg'),
                  driver='GPKG',
                  layer='proj_aerogeof')

#### Mapa geologico da Folha Campinas SF23_Y_A 1:250.000 vetorizado pelo autor: ggrl

In [None]:
socorro_250k = gpd.read_file(gdb('shapefiles/socorro.shp'))

socorro_250k.to_file(gdb('geodatabase.gpkg'),
                  driver='GPKG',
                  layer='socorro_250k')

### This process took 3' 19'' at my local machine, a very slow process indeed. But remember, this is almost 1 Gb of data.

### We can observe that this algorithm is repeating itself for each shapefile layer

### This is known as redundancy and can be overcomed by OOP techniques

### But we wont implement this technique for now, a better way of improving this algorithm is by using WMS protocols. With this protocols we can access the data directly from de GeoSGB DataBase, removing the need to download, store localy, read and write to geopackages.

# The next [jupyter-notebook](http://localhost:8888/notebooks/1.1-Geapandas%3ASpatial_Data_Analysis.ipynb#Filtering-and-Describing-Geospatial-Data) we'll learn how to filter the itens inside each layer, clean, analyze and visualize our Geo Spatial Data.

# At this step, we are going to create a small data base to work at [Google Colab](https://drive.google.com/drive/folders/1ZNYQBscv28Srgu-FAlyCwJoVhrXjIOne?usp=sharing)

In [None]:
#litologia_SB24 = litologia_1kk[litologia_1kk['MAPA'] == 'Carta geológica da folha Natal']

In [None]:
litologia_1kk_SF23 = litologia_1kk[litologia_1kk['MAPA'] == 'Carta geológica da folha Rio de Janeiro']
litologia_1kk_SF23.head(5)

In [None]:
from src.funcs1_importar import importar_geometrias, gdb

In [None]:
proj_geof = importar_geometrias('proj_aerogeof')

NameError: name 'importar_geometrias' is not defined

In [None]:
Varginha = importar_geometrias('litologia_100k','Varginha')

# O mapa escolhido nao está presente na coluna MAPA da camada veotiral. Os mapas disponiveis serao listados a seguir.
 
# Digite apenas o nome do mapa após <Carta geológica da folha>. (SEM ESPAÇO)
 
# -- Lista de mapas: ['Carta geológica da folha Paulo Saldanha', 'Carta geológica da folha Rio Tanaru - SD.20-X-B-IV', 'Carta geológica da folha Roncador', 'Carta geológica da folha Rio Pardo', 'Carta geológica da folha Pimenta Bueno', 'Carta geológica da folha Serra da Providência', 'Carta geológica da folha Ji Paraná', 'Carta geológica da folha Vila Nova', 'Carta geológica da folha Vila de Tepequém', 'Carta geológica da folha Betânia - UFMT', 'Carta geológica da folha Rio Escondido', 'Carta geológica da folha Ilha do Porto', 'Carta geológica da folha Porto Triunfo SD.20-X-B-V', 'Carta geológica da folha NA-20-Z-D-III', 'Carta geológica da folha Novo Paraíso', 'Carta geológica da folha Santa Rita - UFMT', 'Carta geológica da folha Santa Barbara - UFMT', 'Carta geológica da folha Serra da B

In [None]:
litologia_1kk_SF23.to_file('colab_ex/lito_1kk_sf23.shp')

In [None]:
xmin = litologia_1kk_SF23.bounds['minx'].min()
xmax = litologia_1kk_SF23.bounds['maxx'].max()
print(xmin,xmax)

ymin = litologia_1kk_SF23.bounds['miny'].min()
ymax = litologia_1kk_SF23.bounds['maxy'].max()
print(ymin,ymax)

In [None]:
litologia_100k_SF23 = litologia_100k.cx[-48:-42,-24:-20]
litologia_100k_SF23.to_file('colab_ex/lito_100k_sf23.shp')

In [None]:
ocorrencias_SF23 = ocorr_min.cx[-48:-42,-24:-20]
ocorrencias_SF23.to_file('colab_ex/ocorr_sf23.shp')

In [None]:
am_petro_SF23 = am_petro.cx[-48:-42,-24:-20]
am_petro_SF23.to_file('colab_ex/am_petro_sf23.shp')

In [None]:
aflora_SF23 = aflora.cx[-48:-42,-24:-20]
aflora_SF23.to_file('colab_ex/aflora_sf23.shp')