# Notebook 1 - Mapa Geológico Preditivo

### Limpeza & análise exploratória dos dados

##### Trabalho de Conclusão de Curso - Geologia / IGC / UFMG

Autores: [Franco Naghetini](https://github.com/fnaghetini) & [Guilherme Silveira](https://github.com/guiasilveira)

## Introdução

De forma geral, a **teoria do aprendizado estatístico supervisionado** visa aprender uma função desconhecida $f\colon x \mapsto y$ por meio do treinamento de um  agente  com exemplos $\left\{(x^{(1)},y^{(1)}), (x^{(2)},y^{(2)}),\ldots,(x^{(n)},y^{(n)})\right\}$ de entrada e saída da função.

Nesse sentido, o objetivo deste trabalho é solucionar uma tarefa supervisionada de classificação multinomial $T$ que consiste em predizer as unidades litoestratigráficas $y^{(i)}$ em um determinado domínio $D$ como função de sensores remotos $x_i$ e com base em anotações / interpretações $y^{(i)} = f(x^{(i)})$ feitas pelos geólogos que realizaram o mapeamento da área.

O produto final é um **mapa geológico preditivo 1:25.000 da região de Diamantina (MG)** que pode ser utilizado como um meio de reconciliação entre os dados / interpretações de campo e os sensores remotos. Nesse sentido, as inconsistências entre o mapa geológico e o mapa preditivo podem fornecer *insights* e orientar futuras campanhas de mapeamento na região.

## Sumário

<big><big>[Contexto geológico](#0)</big></big>

<big><big>[Configurações iniciais](#1)</big></big>

<big><big>[Visualização geoespacial](#2)</big></big>

<big><big>[Análise geral](#3)</big></big>

<big><big>[Variáveis globais & funções auxiliares](#4)</big></big>

<big><big>[Limpeza dos dados](#5)</big></big>

<big><big>[Análise exploratória](#6)</big></big>

<big><big>[Descrição univariada](#6_1)</big></big>

<big><big>[Descrição bivariada](#6_2)</big></big>


<big><big>[Exportação dos dados](#7)</big></big>

<a id='0'></a>
## Contexto geológico

 A área de estudo está localizada no Sudeste brasileiro próximo a cidade de Diamantina no contexto geotectônico da borda leste do Cráton São Francisco. A Serra do Espinhaço (SDE) estende-se por mais de 1200 Km em direção meridiana (Knauer, 2007), indo desde a borda Leste do Quadrilátero Ferrífero até o norte do estado da Bahia. A SDE pode ser dividida nos domínios setentrional e meridional, sendo a área de estudo pertencente à essa última. A parte Meridional, localizada no estado de Minas Gerais, possui um grande acervo de conhecimento geológico adquirido, principalmente, a partir da descoberta dos depósitos diamantíferos em diamantina (Knauer op.cit.), além disso, a área vem sendo estutada por décadas por centenas de alunos e professores de diversos institutos de geociências do país, a partir do programa de estagio supervisionado.

Na região de estudo afloram principalmente os litotipos do Supergrupo Rio Paraúna definido por Fogaça et al. (1984), principalmente os xistos do Grupo Costa Sena e os quartzitos Formação Bandeirinha, alem das rochas basais do Supergrupo Espinhaço.

### Trabalhos Anteriores
Um dos primeiros estudos da região da Serra do Espinhaço data ainda do século XVIII realizado
por Viera Couto (Renger, 1979). Uma das maiores contribuições iniciais para a geologia, não só
do Espinhaço, mas de grande parte do Sudeste brasileiro, foi feita pelo naturalista Ludwig Von
Eschwege durante sua passagem pelo Brasil no início do século XIX. Durante seu trabalho,
descrito no Pluto Brasiliensis de 1833, ele descreve a Serra do Espinhaço como um grande
conjunto de Serras que funcionariam como o grande divisor de águas no território sudeste
brasileiro (Derby, 1906). Eschwege dá início, ainda, à primeira tentativa de divisão
estratigráfica (Renger ,op.cit.).
Outros trabalhos posteriores são importantes para o entendimento da geologia da região. Vale,
então, citar os trabalhos realizados por Derby entre os sécs. XVIII e XIX. Derby (1906) em seu
trabalho, publicado em The Jounal of Geology, sugere que a Serra do Espinhaço é composta por
três grupos de rochas: 1º os Gnaisses e os mica xistos; 2º Xistos, quartzitos e calcários nas
regiões auríferas (Quadrilátero ferrífero) e 3º quartzitos e arenitos em regiões diamantíferas.
Diversos autores trabalharam desde então com a geologia da Serra do Espinhaço, na tentativa de
propor uma estratigrafia mais detalhada e compreender os eventos geológicos envolvidos na
formação da mesma. Diversas propostas estratigráficas, então, foram feitas destacando o
trabalho realizado por Pflug (1968), onde o mesmo propõe a divisão da série Minas na região de
Diamantina, dividindo essa sequência em 8 formações litoestratifgráficas, até hoje adotadas.
16
Outros trabalhos de grande relevância e as proposições sobre a geologia do Espinhaço podem
ser encontrados nos artigos publicados por Moraes & Guimarães (1930); Pflug & Renger
(1973); Schol & Fogaça (1979), como descrito em Renger (1979).

### Estratigrafia

A estratigrafia da região de Diamantina foi amplamente discutida nas últimas décadas e uma de
suas propostas foi feita por Almeida Abreu (1995), segundo a ***Figura 1***. Contudo, outros autores
vêm propondo outras compartimentações para seus grupos e formações, como será discutido
neste trabalho. Serão tratados os tópicos Embasamento, Supergrupo Rio Paraúna e Supergrupo
Espinhaço.

**Embasamento**

O Complexo Basal da região da Serra do Espinhaço corresponde à faixa mediana-central da
mesma, constituída por rochas graníticas, chamadas de Complexo Gouveia. Também ocorrem,
ocasionalmente, rochas gnáissicas (Almeida Abreu, 1995; Knauer, 1990). Já no leste e sul, há
ocorrência de gnaisses e granitos, charnockitos e granulitos subordinados (Almeida Abreu,
1995). Segundo Knauer (1990), também se observa ocorrências menos expressivas de corpos
anfibolíticos e produtos de sua milonitização.
O Complexo possui idades arqueanas, segundo Teixeira et al. (1990) in Almeida Abreu (1995)
e Brito Neves et al. (1979) in Knauer (1990) e proterozoicas, segundo Teixeira et al. 1990 in
Almeida Abreu 1995. De acordo com Brito Neves et al. (1979) in Dossin et al. (1984), as rochas
do embasamento incluem rochas graníticas e migmatíticas, além de, segundo Carvalho (1982)
in Dossin et al. (1984), anatexitos, protomilonitos, milonitos, ultramilonitos e corpos isolados de
anfibolitos.

**Supergrupo Rio Paraúna**

Sobreposto ao embasamento, encontra-se o Supergrupo Rio Paraúna que, segundo Fogaça et al.
(1984) e Almeida Abreu (1995), são compostos pelo Grupo Pedro Pereira e pelo Grupo Costa
Sena, da base para o topo. O Grupo Pedro Pereira é subdividido nas Unidades
ultramáfica/máfica e vulcanossedimentar, enquanto o Grupo Costa Sena é composto pelas
Formações Barão de Guaicuí e Bandeirinha, englobando sucessões epiclásticas finas e grossas,
respectivamente (Fogaça et al. 1984).
As definições do Grupo Pedro Pereira são feitas por Almeida Abreu (1995) descrevendo uma
associação de rochas meta-máficas, ultramáficas, ácidas e também metassedimentos de origem
química, sobre o qual Machado et al. (1989) cita idades de 2971 +/- 16 Ma. Já o grupo Costa
Sena é descrito como uma sequência de sericita-xistos com frequente presença de cianita por
Almeida Abreu (1995), e como sequências marinha com vulcanismo ácido calcoalcalino e
continental a até marinha rasa, correspondentes respectivamente às Formações Barão de Guaicuí
e Bandeirinha, por Knauer (1990). Essa sequência supracrustal ao embasamento é chamada por
Dossin et al. (1984) de Supergrupo Rio das Velhas, cuja porção basal é composta por uma
associação de clorita-xistos e mica xistos, enquanto a porção superior é constituída por quartzomica-
xistos com cianita e quartzitos com lentes de metaconglomerados.

**Supergrupo Espinhaço**

Uma das primeiras divisões feitas para o pacote de rochas sobreposto ao Supergrupo Rio
Paraúna foi proposta no trabalho de Pflug (1968), no qual menciona-se oito formações para a
Série Minas, correspondente nesse estudo ao Supergrupo Espinhaço. Esse autor descreve a
primeira delas, Formação São João da Chapada, como quartzitos médios a grossos com
estratificações cruzadas, apresentando intercalações de seixos na base e lâminas de filito na
porção superior. De acordo com Schöll & Fogaça (1979), essa formação se encontra na porção
basal do Supergrupo e é composta por quartzitos metaconglomerados, filitos e metavulcânicas.
Já Almeida Abreu (1995) a descreve como pertencente ao Grupo Guinda do Supergrupo
Espinhaço, englobando uma sequência de sedimentos continentais com metavulcânicas
intercaladas a eles. A Formação é subdivida por Schöll & Fogaça (1979) in Knauer (1990) em
três níveis informais, chamados de A, B e C. O nível A é caracterizado por quartzitos,
metaconglomerados e/ou metabrechas, enquanto o nível B se destaca pela presença de filitos
hematíticos intercalados principalmente por clorita-xistos e turmalinitos finos. O nível C por sua
vez é composto por quartzitos médios a grossos com pequenos conteúdos de ferro de maneira
geral.
18
Acima da Formação São João da Chapada, segundo Pflug (1968), encontra-se a Formação Sopa
Brumadinho, a qual possui principalmente quartzitos e filitos, por vezes intercalados por
conglomerados polimíticos e monomíticos. Também foi observado pelo autor lentes de
conglomerado e intercalações de brecha quartzítica e de filito hematítico. Almeida Abreu (1995)
o coloca como pertencente ao Grupo Guinda, enquanto Schöll & Fogaça (1979) o encaixam na
porção Basal do Supergrupo Espinhaço.
A Formação é subdividida nos níveis D, E e F por Schöll & Fogaça (1979) in Knauer (1990),
em cujo trabalho também se destaca as mineralizações diamantíferas pertencentes a ela. No
nível D predominam filitos e quartzo-filitos, que podem variar lateral e/ou verticalmente para
quartzitos micáceos (Knauer, 1990). O nível E é descrito como bastante heterogêneo,
apresentando quartzitos, metaconglomerados, filitos, filitos hematíticos, metassiltitos e também
xistos verdes (Knauer, 1990). O nível F é chamado, segundo Fogaça & Almeida Abreu (1982)
in Knauer (1990), de Membro Campo Sampaio, marcando o topo da Formação. É composto por
filitos acizentados com gradações para metassiltitos e metargilitos, incluindo lentes de
quartzitos (Knauer, 1990). Almeida-Abreu (1993) in Knauer (2007) descreve os níveis E e F
como membros Datas e Caldeirões, respectivamente.
Pflug (1968) descreve a unidade disposta estratigraficamente acima da Formação Sopa
Brumadinho, como quartzitos puros com estratificações cruzadas e com lâminas muito pouco
expressivas de filitos intercaladas. As estratificações observadas são comentadas por Schöll &
Fogaça (1979) como mega estratificações cruzadas. A Formação se encontra englobada no
Grupo Guinda de acordo com Knauer (1990) in Almeida Abreu (1995) e é relacionada, de
acordo com suas características marcantes, a um ambiente de deposição eólico em Dossin et al.
(1987) in Knauer (1990).
Na proposta feita por Pflug (1968), acima da Formação Galho do Miguel encontram-se cinco
unidades chamadas, da base para o topo, de Formações Santa Rita, Córrego dos Borges,
Córrego da Bandeira, Córrego Pereira e Rio Pardo Grande. Segundo ele, a Formação Santa Rita
é composta por filitos, e siltitos bem laminados, enquanto Schöll & Fogaça (1979) utilizam a
descrição de sedimentos clásticos finos, de maneira geral. Almeida Abreu (1995) o inclui no
Grupo Conselheiro Mata, cuja idade é proposta por Machado et al. (1989) in Almeida Abreu
(1995) como 906 +/- 2 Ma. A Formação Córrego dos Borges por sua vez engloba quartzitos
puros e brechas compostas por material quartzítico (Pflug, 1968), e é incluída na porção
Superior do Supergrupo Espinhaço (Schöll & Fogaça, 1979). A Formação Córrego da Bandeira
foi estudada por fotointerpretação por Pflug (1968) como correspondente a filitos e siltitos com
intercalações de quartzitos e foi incluída no Grupo Conselheiro Mata por Almeida Abreu
(1995), enquanto a Formação Córrego Pereira foi tida como extremamente semelhante à
19
Formação Córrego dos Borges (Pflug, 1968), descrita por Schöll & Fogaça (1979) com
presença de filitos, metassiltitos e quartzitos, com ocasionais lentes de dolomito. No topo do
Supergrupo se encontra a Formação Rio Pardo Grande, constituída de filitos e, menos
expressivamente, bancos de quartzitos e dolomitos (Pflug, 1968). Ela foi incluída na porção
Superior do Supergrupo por Schöll & Fogaça (1979), enquanto Almeida Abreu (1995), por sua
vez, a considerou como componente do Grupo Conselheiro Mata. Acredita-se que a
sedimentação do Supergrupo Espinhaço é correspondente ao Proterozoico Médio, entre 1,7 e
1,0 b.a. (Brito Neves et al., 1979; Costa & Inda, 1982; Hasui, 1982 in Dossin et al., 1984).

### Geologia Estrutural
Trabalhos focados na geologia estrutural da Serra do Espinhaço procuram entender os
fenômenos que levaram à formação das bacias Paleo-Meso Proterozoicas e o(s) evento(s) que
teriam levado ao fechamento das mesmas gerando o relevo montanhoso durante eventos
compressivos no Meso-Neoproterozoicos.
A Serra do Espinhaço encontra-se no limite Leste do Cráton do São Francisco (***Figura 2***), e faz
parte do Cinturão de Cavalgamentos do Espinhaço Meridional (Alkimim et al. 2007) que está
inserido segundo Uhlein et al. (1995) e Alkimim et al. (2007) na unidade externa da Faixa de
dobramentos Araçuaí.
Figura 2: Limites do cráton São
Francisco. Alkimim (1993)
Segundo Almeida Abreu et al. (1986) in Pedrosa-Soares (1992), a movimentação de massas se
deu, em geral, de Leste para Oeste, em um regime tectônico compressivo, sendo frequentes as
inversões da estratigrafia, a partir de um complexo sistema de cavalgamentos. Uma das
principais estruturas, relacionadas a esse processo deformacional das rochas que formam a Serra
do Espinhaço, são os planos de foliação de direção NNE marcados pelos minerais placoídes,
com mergulhos para leste com ângulos entre 10 e 35° (Rolim, 1992). Além da foliação,
estruturas como foliação S-C, profiroclastos rotacionados, boudinagem de veios de quartzo e
dobras de segunda ordem são comuns em diversas rochas da região.
Segundo Rolim (1992), a propagação dos empurrões de leste para oeste varia desde leques
embricados e dobras isoclinais presentes a leste, na porção mais deformada, passando por
duplexes empilhados que teriam sua formação relacionada aos empilhamentos dos cavalos
frente ao alto estrutural formado pelo complexo Gouveia que teria, então, impedido a
movimentação das massas para oeste. Após o complexo, na região centro-oeste da Serra o
arranjo estrutural forma um sistema de duplexes com rampas mais afastadas podendo gerar
Fault-bend folds.
Uhlein (1991) in Uhlein et al. (1995) define duas fases progressivas da deformação, a primeira,
definida por ele como fase Dp1 está relacionada ao desenvolvimento de zonas de cisalhamento
subparalelas ao acamamento, e a segunda, segundo o autor, a mais importante, é marcada pelo
desenvolvimento de dobras isoclinais de eixos norte sul que podem estar rotacionados nas
extremidades das dobras, aparecimento de uma lineação mineral de extiramente de direção EW,
indicando o movimento de massas em direção ao Cráton do São Francisco.
A deformação bem como o metamorfismo relacionados à orogenia brasiliana crescem de dentro
do Cráton, onde as coberturas proterozoicas encontram-se em um estado de anquimetamorfismo
em direção ao cinturão orogênico, local desse estudo o estudo, onde as rochas apresentam um
metamorfismo na fácies xisto-verde. (Alkimim et al. 1996)
Na região de diamantina, os estudos estruturais apontam para um evento deformacional
principal caracterizado por transporte tectônico de Leste para Oeste, sendo esse transporte
responsável pelos grandes alinhamentos de serras de trends Norte/Sul (Knauer & Ebert ,1997).

### Evolução Geológica
Um dos modelos mais clássicos sobre a evolução geológica do Espinhaço é o de Pflug (1965).
Nele, é proposto um geossinclinal na Série Pré-Minas, com eixo de direção NNW-SSE (Dorr et
al. 1959 in Pflug 1965), e a consequente intrusão de granito. Após a erosão, ocorre a
sedimentação da Série Minas, com orientação perpendicular às dobras da Pré-Minas, e fácies
evoluindo de sedimentos costeiros para geossinclinais agrupam-se ao redor de um núcleo mais
antigo. Posteriormente à sedimentação, ocorrem intrusões graníticas, metamorfismo regional e
dobramentos com vergência para N e NE. Em uma bacia que as dobras circundam, é depositada
a Série Lavras, a qual também é, posteriormente, dobrada e metamorfoseada; e, no estágio final
da orogênese, forma-se a bacia do São Francisco, onde se depositam os sedimentos da Série
Bambuí.
Fogaça et al. (1984) apresenta um modelo para a evolução do Supergrupo Rio Paraúna, o qual
ele afirma ser integrante do embasamento pré-Espinhaço. Como no conjunto crustal há granitos
intrusivos (mais jovens que os gnaisses) com rochas metamórficas integrantes da base da
sequência supracrustal, é notado que, mesmo algumas vezes separados por contatos tectônicos,
há uma estreita relação entre os conjuntos crustal e supracrustal. Assim, as rochas crustais de
alto grau (Formação Pedro Pereira) são consideradas mais antigas e pertencentes ao
embasamento do Rio Paraúna. Além disso, o cinturão deste Supergrupo é considerado um
“greenstone belt”, de modo a apresentar um grau de metamorfismo regional mais elevado que o
Espinhaço.
Já Almeida Abreu (1995), afirma que o SE do Cráton do São Francisco é limitado por uma faixa
orogênica representada pela Serra do Espinhaço Meridional. O autor propõe que através dos
sistemas deposicionais e elementos estruturais das Formações Bandeirinha, São João da
Chapada e Sopa-Brumadinho, é conclusivo que o Rift Espinhaço evoluiu em 3 fases. A primeira
fase é caracterizada por processos de distensão crustal e fragmentação de um supercontinente,
no qual a Formação Bandeirinha foi formada e a atividade tectônica que ocorreu durante sua
sedimentação é indicada pelo contato discordante angular e erosivo entre Bandeirinha e São
João da Chapada. A segunda fase foi marcada por uma subsidência mecânica e clima
constantemente úmido, o que levou a formação de uma larga bacia fluvial onde depositou-se a
Formação São João da Chapada.
Na terceira fase, foram depositadas as Formações Sopa-Brumadinho e Galho do Miguel, e a
subsidência volta a ser termal. O ápice do aquecimento levou ao acesso da astenosfera à crosta,
de modo que ocorreu vulcanismo kimberlítico, e, consequentemente, diamantes nos
metaconglomerados da Sopa-Brumadinho; além disso, há o desenvolvimento de meio-grabens.
O Grupo Conselheiro Mata está na margem passiva do Espinhaço e suas sequências são de
ambientes marinho costeiro e plataformal. Ademais, ele se forma quando o fluxo de calor é
difundido pela crosta oceânica.
Segundo o modelo de Dussin & Dussin (1995), as bacias sedimentares indicam uma tectônica
extensiva no interior de placas. Os autores propõem um regime extensivo de forças no
Mesoproterozoico que culminou com o adelgaçamento da litosfera continental, gerando uma
fraturação e ruptura da crosta, desenvolvendo-se uma fase rifte marcada pela grande
instabilidade da bacia e geração de falhamentos normais levando, então, a deposição do Grupo
Diamantina.
Na fase pós-rifte, o Grupo Conselheiro Mata se deposita durante uma transgressão em uma
época de estabilidade tectônica e subsidência da bacia. É proposto que entre as sequências rifte e
pós-rifte houve um hiato temporal na sedimentação, devido à presença de várias discordâncias
erosivas. No início do Neoproterozoico, um segundo período de extensão crustal gerou o Rifte
Araçuaí, no qual não ocorreu muita sedimentação nem vulcanismos; e, no final do
Neoproterozoico, houve a tectônica Brasiliana, na qual, a partir de um cisalhamento dúctil e
consequente deformação regional, as bacias se fecharam e a Faixa Araçuaí foi estruturada.
Conforme Uhlein et al. (1995) o Supergrupo Espinhaço é representado por um rifte que ocorreu
no final do Paleoproterozoico até o início do Mesoproterozoico com orientação norte-sul.
Uhlein et al. (op.cit) divide o rifteamento em três sequências distintas: Sequência Inferior,
Sequênciar Média e Sequência Superior. Tal rifte é continental submeridiano (ensiálico)
tectonizado na orogênese brasiliana (e.g Trompette et al. 1992). As formações São João da
Chapada e Sopa Brumadinho (Sequência Inferior) foram depositadas em ambiente continental e
marcam o início do rifteamento (e.g: Garcia & Uhlein 1987). Nesta mesma fase, ocorreu
também vulcanismo-plutonismo ácido-intermediário sub-alcalino, num contexto intraplaca e
anatexia crustal localizada (e.g Jardim de Sá et al. 1976). Posteriormente, se deu a deposição da
Formação Galho do Miguel (Sequência Média) em depósitos eólicos costeiros (e.g: Dossin et al.
1987), a qual aconteceu numa fase de subsidência térmica e flexural (e.g: Uhlein, 1991). Por
último, houve a sedimentação do Grupo Conselheiro Mata em ambiente marinho raso (e.g
Garcia & Uhlein 1987), também em fase de subsidência térmica e flexural (e.g: Martins Neto
1993). No final do Neoproterozoico, uma tectônica de inversão, em regime compressional,
afetou o sistema Espinhaço com dobras, zonas de cisalhamento, espessamento litósferico e
metamorfismo (Uhlein et al. 1995). *Todas as citações acimas foram retiradas de Uhlein et al.
(1995).


<a id='1'></a>
##  Configurações iniciais

##### Importação de bibliotecas

In [None]:
import os                              # Sistema operacional
import pandas as pd                    # Manipulação de dataframes e series
import numpy as np                     # Operações numéricas
import matplotlib.pyplot as plt        # Visualização de dados
import seaborn as sns                  # Visualização de dados
import statistics as stats             # Ferramentas estatísticas
import scipy.stats as st               # Ferramentas estatísticas
import geopandas as gpd                # Manipulação de dataframes e series geoespaciais
import rasterio, folium                # Manipulação de rasters e mapas interativos
import warnings                        # Desabilitar avisos
warnings.filterwarnings("ignore")

%matplotlib inline

##### Importação do banco de dados

In [None]:
df_original = pd.read_csv("data/data_nb1.csv",sep=",")

In [None]:
# criação de uma cópia (deep) do dataframe original
df = df_original.copy(deep = True)

<a id='2'></a>
## Visualização geoespacial

##### Polígono da área

In [None]:
# importação do polígono da área
pol = "shp/poligono_Sirgas.shp"
# transformação do polígono em (geo)dataframe
gdf = gpd.read_file(pol)
# modificação do crs (31983 -> 4326)
gdf_wgs = gdf.to_crs("EPSG:4326")

# mapa interativo
pol_map = folium.Map(location=[-18.3,-43.7], zoom_start=12,
                     tiles='https://mt1.google.com/vt/lyrs=y&x={x}&y={y}&z={z}',
                     attr = 'Google', name = 'Google Satellite', overlay = True, 
                     control = True)

# polígono sobre mapa interativo
folium.Choropleth(geo_data=gdf_wgs.geometry, fill_opacity=0.1).add_to(pol_map)

pol_map

##### Unidades litoestratigráficas

In [None]:
# importação do shapefile de unidades litoestratigráficas
lito = "shp/lithology_sirgas.shp"
# transformação do shapefile em (geo)dataframe
gdf = gpd.read_file(lito)
# modificação do crs (31983 -> 4326)
gdf_wgs = gdf.to_crs("EPSG:4326")

# mapa interativo
lito_map = folium.Map(location=[-18.3,-43.7], zoom_start=12,
                 tiles='https://mt1.google.com/vt/lyrs=y&x={x}&y={y}&z={z}',
                 attr = 'Google', name = 'Google Satellite', overlay = True, 
                 control = True)

# unidades litoestratigráficas sobre mapa interativo
cplt = folium.Choropleth(geo_data=gdf_wgs, fill_opacity=0.4,
                  data=gdf_wgs,
                  columns=['Unidades','Id'],
                  key_on="feature.properties.Unidades",
                  locations=gdf_wgs.index,
                  legend_name='ID Litologia',
                  highlight=True,
                  fill_color="Set1").add_to(lito_map)

cplt.geojson.add_child(folium.features.GeoJsonTooltip(['Unidades'],labels=False))

lito_map

<a id='3'></a>
## Análise geral

##### Forma dos dados

In [None]:
print("O banco de dados apresenta:")
print(f"   - {df.shape[0]} instâncias")
print(f"   - {df.shape[1]} colunas")

##### Sumário dos dados

In [None]:
datadict = pd.DataFrame(df.dtypes)
datadict["Valores Faltantes"] = df.isnull().sum()
datadict["Valores Únicos"] = df.nunique()
datadict["Contagem"] = df.count()
datadict = datadict.rename(columns = {0 : 'dType'})
datadict

- Os dados geofísicos são do tipo *float64*;

- Os sensores remotos são do tipo *int64*;

- Não há valores faltantes no banco de dados;

- `ID_UNID` representa o *target*;

- `UNID` representa as siglas litoestratigráficas do *target* `ID_UNID`;

- `COD_UNID` representa os códigos litoestratigráficos do *target* `ID_UNID`;
    
- Todas as (possíveis) *features* são numéricas (*float* ou *int*).

##### Renomeação das features

In [None]:
# Dicionário para renomeação
dic_rename = {'X_UTM_23S_SIRGAS'  : 'X_SIR',
              'Y_UTM_23S_SIRGAS'  : 'Y_SIR',
              'SIGNAL'            : 'GT',
              'K_PERC'            : 'K',
              'TH_PPM'            : 'TH',
              'U_PPM'             : 'U',
              'TC_EXP'            : 'CT',
              'LAND7_R'           : 'R',
              'LAND7_G'           : 'G',
              'LAND7_B'           : 'B',
              'ID_UNID'           : 'TARGET',
              'COD_UNID'          : 'COD'
             }

df.rename(columns = dic_rename, inplace = True);

##### Visualização das primeiras linhas do banco de dados

In [None]:
df.head(10)

<a id='4'></a>
## Variáveis globais & funções auxiliares

##### Variáveis globais

In [None]:
# features
FEAT = ['GT', 'K', 'TH', 'U', 'CT', 'U_K', 'TH_K',
        'U_TH', 'MDT', 'MDE', 'B01', 'B02', 'B03',
        'B04', 'B05', 'B06', 'B07', 'B08', 'B09',
        'R', 'G', 'B']

# dados geofísicos
GF = ['GT', 'K', 'TH', 'U', 'CT',
      'U_K', 'TH_K', 'U_TH']

# canais radiométricos
RADIO = ['K', 'TH', 'U']

# sensores remotos
SR = ['MDT', 'MDE', 'B01', 'B02','B03', 'B04', 'B05',
      'B06', 'B07', 'B08', 'B09', 'R', 'G', 'B']

# coordenadas em sirgas
COORD = ['X_SIR', 'Y_SIR']

# dicionário litoestratigráfico
dic_lith = {}
for k, v1, v2 in zip(df['TARGET'].unique(), df['UNID'].unique(), df['COD'].unique()):
    dic_lith[k] = [v1, v2]
    
# Dicionário de features
titles = ['Gradiente Total (nT/m)', 'K (%)', 'Th (ppm)', 'U (ppm)',
          'Contagem Total (μR/h)', 'U/K', 'Th/K', 'U/Th', 'MDT (m)',
          'MDE (m)', 'Landsat8 - 01', 'Landsat8 - 02', 'Landsat8 - 03',
          'Landsat8 - 04', 'Landsat8 - 05', 'Landsat8 - 06', 'Landsat8 - 07',
          'Landsat8 - 08', 'Landsat8 - 09', 'Landsat7 - Vermelho', 'Landsat7 - Verde',
          'Landsat7 - Azul']
dic_features = {}
for f, t in zip(FEAT, titles):
    dic_features[f] = t

##### Parâmetros dos gráficos

In [None]:
# fonte: Times New Roman, tamanho: 12
plt.rcParams.update({'font.family':'Times New Roman', 'font.size' : 12})

fs_title = 16    # tamanho da fonte dos títulos
cm = 'jet'       # mapa de cores
mk = 's'         # estilo do marcador (quadrado)
sz = 1           # tamanho do marcador    
col = 'orange'   # cor dos histogramas
ec = 'black'     # cor das bordas dos histogramas

##### truncateVar(data :: dataframe, col :: string)

Realiza o truncamento de uma variável radiométrica `col`, tendo como referência os limiares inferior (*lower*) e superior (*upper*):

In [None]:
def truncateVar(data = None, col = None):

    lower = data[col].mean() / 10
    upper = data[col].quantile(0.995)
    var_trunc = []
    
    for v in data[col]:
        if v <= lower:
            v = lower
            var_trunc.append(v)
        elif v >= upper:
            v = upper
            var_trunc.append(v)
        else:
            var_trunc.append(v)
        
    return pd.Series(var_trunc)

##### sumStats(df :: dataframe)

Cria um sumário estatístico completo de um dataframe `df`.

In [None]:
def sumStats(df = None):
    stats = df.describe(percentiles = [0.1, 0.5, 0.995]).T

    stats['Amp'] = (df.max() - df.min()).tolist() # amplitude
    stats['S²'] = df.var().tolist() # variância
    stats['Cᵥ'] = (df.std() / df.mean()).tolist() # coeficiente de variação
    stats['Skew'] = df.skew().tolist() # coeficiente de assimetria
    stats = stats.rename(columns={'mean':'X̅','std':'S','min':'Min','max':'Max'})
    
    return stats[['X̅', '50%', 'Min','10%','99.5%','Max','Amp','S²','S','Cᵥ','Skew']]

##### plotBoxplots(cols :: list)

Plota `n` boxplots, sendo `n` o número de features presentes na lista `cols`.

In [None]:
def plotBoxplots(cols = None):
    
    n = len(cols)
    fig, axs = plt.subplots(n,1,figsize = (12, n * 2))
    
    for ax, f in zip(axs, cols):
        sns.boxplot(y = f, x = 'COD', data = df, ax = ax)
        if f != cols[n - 1]:
            ax.axes.get_xaxis().set_visible(False)

##### sumByLito(f :: string)

Cria um sumário estatístico completo de uma feature `f` agrupado pelas unidades litoestratigráficas.

In [None]:
def sumByLito(f = None):
    
    table = df[['COD', f]].groupby(by = 'COD')
    stats = table.describe(percentiles = [0.1,0.995])
    
    return stats.T

##### histByLito(f :: string)

Plota histogramas de uma feature `f` agrupados pelas unidades litoestratigráficas.

In [None]:
def histByLito(f = None):
    
    df[f].hist(by = df['COD'],
                 figsize = (12, 9),
                 edgecolor = ec,
                 color = col)
    plt.tight_layout();

<a id='5'></a>

## Limpeza dos dados

##### Sumário estatístico das features geofísicas

In [None]:
df[GF].describe(percentiles = [0.10, 0.25, 0.50, 0.75, 0.995]).T

In [None]:
# número de valores negativos de K
df.query('K < 0')['K'].count()

- Presença de 88 exemplos com valores negativos de `K`.

##### Truncamento das  variáveis radiométricas

- Nesta etapa, devemos truncar as variáveis radiométricas principais (*i.e.*, `K`, `TH` e `U`), utilizando a função auxiliar `truncateVar()`.

In [None]:
# Truncamento da features radiométricas (K, U, TH):
for r in RADIO:
    df[r] = truncateVar(data = df, col = r)

In [None]:
# sumário estatístico após o truncamento
df[GF].describe(percentiles = [0.10, 0.25, 0.50, 0.75, 0.995]).T

- Repare que o truncamento foi realizado com êxito. Após esse tratamento, os valores máximos das variáveis correspondem aos seus P99.5 originais, ao passo que seus valores mínimos correspondem um décimo das médias originais. 

<a id='6'></a>
## Análise exploratória

### Visualização espacial das features

In [None]:
# criação de uma cópia do dataframe
df_plt = df.copy(deep = True)

# divisão realizada para fins de plotagem
df_plt['Y_SIR'] = df_plt['Y_SIR'] / 10E5

In [None]:
# layout dos plots
fig, axs = plt.subplots(nrows = 4, ncols = 6, figsize = (15, 15))

# coordenadas X e Y
X, Y = COORD[0], COORD[1]

# plotagem dos mapas das features
for ax, f in zip(axs.flat, dic_features):
    g = ax.scatter(data = df_plt, x = X, y = Y, c = f, cmap = cm, s = sz, marker = mk)
    fig.colorbar(g, ax = ax)
    ax.set_title(str(dic_features[f]), size = fs_title)

# layout ajustado
plt.tight_layout();

<a id='6_1'></a>
### Descrição univariada

##### Estatísticas dos dados geofísicos

In [None]:
sumStats(df = df[GF])

In [None]:
fig, axs = plt.subplots(nrows = 2, ncols = 4, figsize = (12, 6))

for ax, gf in zip(axs.flat, GF):
    g = ax.hist(df[gf], color = col, edgecolor = ec)
    ax.set_title(str(dic_features[gf]), size = fs_title)

plt.tight_layout();

- Todas as features geofísicas apresentam distribuições assimétricas positivas;

- As features geofísicas tendem a ser as mais erráticas do banco de dados, com destaque para o **Gradiente Total** que, por sua vez, apresenta um Cᵥ ~ 1.04.

##### Estatísticas dos sensores remotos

In [None]:
sumStats(df = df[SR])

In [None]:
fig, axs = plt.subplots(nrows = 4, ncols = 4, figsize = (13, 12))

for ax, sr in zip(axs.flat, SR):
    g = ax.hist(df[sr], color = col, edgecolor = ec)
    ax.set_title(str(dic_features[sr]), size = fs_title)

plt.tight_layout();

- A grande maioria dos sensores remotos apresentam distribuições assimétricas positivas ou quase simétricas;

- Apenas três features apresentam distribuições assimétricas negativas: **MDE**, **MDT** e **Landsat7 - Vermelho**.

- Em geral, os sensores remotos tendem a ser pouco erráticos, com destaque para a **Banda Landsat8 - 09** que, por sua vez, apresenta um Cᵥ ~ 0.03.

##### Análise da dispersão das features

In [None]:
disp = sumStats(df = df[FEAT]).sort_values(by = 'Cᵥ', ascending = False)['Cᵥ']

plt.figure(figsize = (12,4))

plt.bar(x = disp.index, height = disp.values,
       color = col, edgecolor = ec)

plt.title("Dispersão das features", size = fs_title)
plt.xticks(rotation = 45)
plt.ylabel("Cᵥ", size = fs_title);

- Os sensores remotos tendem a ser muito pouco erráticos (Cᵥ < 0.2), com exceção das features `R`, `G` e `B` que, por sua vez, encontram-se entre as 10 features mais erráticas;

- Os dados geofísicos são, em geral os que apresentam maior dispersão, com exceção da razão `U_TH`.

##### Gráfico de barras unidades litoestratigráficas

In [None]:
labels = df.COD.value_counts().sort_values().index
values = df.COD.value_counts().sort_values().values

plt.figure(figsize = (10, 6))

p = sns.countplot(y = 'COD', data = df, color = col, edgecolor = ec, order = labels)

for i, v in enumerate(values):
    p.text(v + 30, i, str(v), va='center', size = 14)
    
plt.title("Frequência das unidades litoestratigráficas", size = fs_title)
plt.xlabel("Frequência absoluta", size = 14)
plt.xticks(np.arange(0, 6000, 500))
plt.ylabel("");

- As 3 unidades litoestratigráficas mais frequentes (`Fm_SJC`, `Fm_SB_E` e `Fm_BG`) representam mais de 80% do total de ocorrências;

- Portanto, as classes estão claramente desbalanceadas e algumas abordagens serão conduzidas posteriormente para lidar com esse problema.

<a id='6_2'></a>
### Descrição bivariada

##### Mapa de calor - coeficiente de correlação de Spearman

In [None]:
mx_spear = df[FEAT].corr(method = 'spearman').round(1)

mask = np.triu(np.ones_like(mx_spear, dtype = np.bool))

plt.figure(figsize = (13, 13))
plt.title ('Heatmap de correlação rankeada entre features', size = fs_title)

ax = sns.heatmap(
                 mx_spear,
                 annot = True,
                 cmap = 'coolwarm',
                 cbar = True,
                 mask = mask
                )

ax.set_xticklabels(FEAT, rotation = 45)
ax.set_yticklabels(FEAT, rotation = 0);

##### Mapa de calor - Coeficiente de Correlação de Pearson

In [None]:
mx_pear = df[FEAT].corr().round(1)

mask = np.triu(np.ones_like(mx_pear, dtype = np.bool))

plt.figure(figsize = (13, 13))
plt.title ('Heatmap de correlação linear entre features', size = fs_title)

ax = sns.heatmap(
                 mx_pear,
                 annot = True,
                 cmap = 'coolwarm',
                 cbar = True,
                 mask = mask
                )

ax.set_xticklabels(FEAT, rotation = 45)
ax.set_yticklabels(FEAT, rotation = 0);

- As features `U`, `TH` e `K` apresentam correlações lineares positivas médias a fortes entre si;

- As features `U`, `TH` e `K` apresentam forte correlação linear positiva com a variável `CT`, o que já era esperado;

- As features `U_K`, `TH_K`, `U_TH` apresentam forte correlação linear positiva com os canais rediométricos.

- A feature `GT` não apresenta correlação (linear ou monotônica) significativa com nenhuma outra feature;

- As features Landsat 8 apresentam fortíssimas correlações lineares entre si. Esse fato pode implicar em multicolinearidade e deve ser tratado cautelosamente caso um algoritmo linear seja utilizado.As únicas exceções são `B05` e `B09`;

- As features `MDE` e `MDT` são particamente idênticas e, por essa razão, a primeira será descartada;

- A feature `MDT` apresenta uma correlação linear negativa média com `U`. Esse fato é interessante e deve ser investigado!

##### Features geofísicas x target

In [None]:
plotBoxplots(cols = GF);

- As features radiométricas apresentam uma variabilidade significativa quando agrupadas pelas unidades litoestratigráficas. Essas variáveis possivelmente serão as **mais importantes** para treinar os modelos;

- Em contrapartida, a variável magnetométrica `GT` apresenta-se praticamente estacionária quando agrupada pelas unidades.

##### Sensores remotos x target

In [None]:
plotBoxplots(cols = SR);

- As features Landsat 8 apresentam uma variabilidade extremamente baixa quando agrupadas pelas unidades. Nesse sentido, possivelmente, essas variáveis não serão úteis para treinar os modelos;

- Em contrapartida, as features geofísicas, juntamente com `MDE` / `MDT`, `R`, `G` e `B`, apresentam uma dispersão significativa quando agrupadas pelas unidades. Essas variáveis possivelmente contribuirão positivamente para as predições.

##### Estatísticas de K (%) por unidade litoestratigráfica

In [None]:
sumByLito(f = 'K')

In [None]:
histByLito(f = 'K');

- As unidades que apresentam MAIORES concentrações de `K` são **PP4esbd** e **PP3csbg**;

- As unidades que apresentam MENORES concentrações de `K` são **PP4egm** e **PP4esbf**.

##### Estatísticas de U (ppm) por unidade litoestratigráfica

In [None]:
sumByLito(f = 'U')

In [None]:
histByLito(f = 'U');

- As unidades que apresentam MAIORES concentrações de `U` são **MAcgg** e **PP3csbg**;

- As unidades que apresentam MENORES concentrações de `U` são **PP4egm** e **PP4esbf**.

##### Estatísticas de Th (ppm) por unidade litoestratigráfica

In [None]:
sumByLito(f = 'TH')

In [None]:
histByLito(f = 'TH');

- As unidades que apresentam MAIORES concentrações de `TH` são **MAcgg** e **PP3csbg** (mesmas do `U`);

- As unidades que apresentam MENORES concentrações de `TH` são **PP4egm** e **PP4esbf** (mesmas do `U`).

##### Estatísticas de contagem total (μR/h) por unidade litoestratigráfica

In [None]:
sumByLito(f = 'CT')

In [None]:
histByLito(f = 'CT');

- As unidades que apresentam MAIORES concentrações de `CT` são **MAcgg** e **PP3csbg** (mesmas do `U` e `TH`);

- As unidades que apresentam MENORES concentrações de `CT` são **PP4egm** e **PP4esbf** (mesmas do `U` e `TH`).

##### Estatísticas do gradiente total (nT/m) por unidade litoestratigráfica

In [None]:
sumByLito(f = 'GT')

In [None]:
histByLito(f = 'GT');

- As unidades que apresentam MAIORES respostas de `GT` são **PP4esbd** e **PP3csbg**;

- As unidades que apresentam MENORES respostas de `GT` são **PP4esbf** e **PP4egm**.

<a id='7'></a>
## Exportação dos dados

Os dados serão exportados (`data_nb2.csv`) para serem utilizados como input no [notebook2.ipynb](https://github.com/fnaghetini/Mapa-Preditivo/blob/notebook2/notebook2.ipynb).

In [None]:
# colunas a serem descartadas
drop_cols = ['LINE','X','Y','MDE']

# exclusão das colunas
df.drop(drop_cols, axis = 1, inplace = True)

# renomeação das coordenadas
df.rename(columns = {'X_SIR' : 'X', 'Y_SIR' : 'Y'}, inplace = True)

# exportação dados dados
df.to_csv('data/data_nb2.csv', header = True, index = False)