In [6]:
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
from simpledbf import Dbf5
# A primeira coisa que precisa ser ponduada é o formato do arquivo, o pandas, uma das bibliotecas mais usadas para análise de
# dados não reconhece o DBF, então foi necessário baixar a biblioteca simpledbf, me pergunto se seria muito custoso para o BDiA
# disponibilizar os dados em um formato mais tradicional como o CSV

# Também devido ao formato incomum os dados não podem ser visualisados na totalidade no Visual Studio Code, para isso foi
# baixado o DBF View
dbfPath = r'C:/Users/caiom/IA/Arquivos/TCC/BD/BDiA/geol_linha_falha.dbf'
df = Dbf5(dbfPath).to_dataframe()
df.head()

Unnamed: 0,id1,cd_fcim,classif,nm_falha,lineamento,forma,estm_merg,pos_bloco,sentido,compr
0,149750,NA19,falha de rejeito direcional,,,definida e não encoberta,muito forte a sub-vertical,,sinistrogiro,15.3661
1,124448,NA19,falha indiscriminada,,,definida e não encoberta,muito forte a sub-vertical,não determinad,,1.3307
2,124445,NA19,falha indiscriminada,,,definida e não encoberta,muito forte a sub-vertical,não determinad,,4.2816
3,124444,NA19,falha indiscriminada,,,definida e não encoberta,muito forte a sub-vertical,não determinad,,17.8119
4,124443,NA19,falha indiscriminada,,,definida e não encoberta,muito forte a sub-vertical,não determinad,,9.3753


In [7]:
# Vamos começar excluindo as colunas irrelevantes, vale dizer que não sou nenhum especialista em geologia, por isso estou me
# baseando na documentação de conceitos disponibilizada pelo próprio BDiA

# Dentre as colunas presentes nesse conjunto apenas duas apresentam dados completamente irrelevantes para qualquer análise,
# essas colunas contêm os ids e nomes das falhas

df.drop(['id1'],axis=1,inplace=True)
df.drop(['nm_falha'],axis=1,inplace=True)
df.head()

Unnamed: 0,cd_fcim,classif,nm_falha,lineamento,forma,estm_merg,pos_bloco,sentido,compr
0,NA19,falha de rejeito direcional,,,definida e não encoberta,muito forte a sub-vertical,,sinistrogiro,15.3661
1,NA19,falha indiscriminada,,,definida e não encoberta,muito forte a sub-vertical,não determinad,,1.3307
2,NA19,falha indiscriminada,,,definida e não encoberta,muito forte a sub-vertical,não determinad,,4.2816
3,NA19,falha indiscriminada,,,definida e não encoberta,muito forte a sub-vertical,não determinad,,17.8119
4,NA19,falha indiscriminada,,,definida e não encoberta,muito forte a sub-vertical,não determinad,,9.3753


In [8]:
# Agora adequaremos os tipos de dados
df.dtypes
# Após exibir os tipos de dado de cada coluna foi observado que eles já atendem ao formato ideal, não sendo necessário tratamento
# nesse quesito

cd_fcim        object
classif        object
nm_falha       object
lineamento     object
forma          object
estm_merg      object
pos_bloco      object
sentido        object
compr         float64
dtype: object

In [9]:
# O próximo passo é tratar os dados nulos, no conjunto anterior essa foi a última etapa, mas como, a partir de uma análise
# superficial, foi possível observar grandes lacunas de dados, foi decidido adiantar essa etapa

print(len(df.index)) # Identifica o número de linhas do conjunto

93703


In [10]:
print(((df.isnull().sum())*100)/93703) #Retorna a porcentagem de células vazias por coluna

cd_fcim        0.000000
classif        0.316959
nm_falha      96.348036
lineamento    82.971730
forma          0.756646
estm_merg     25.433551
pos_bloco     67.774778
sentido       54.776261
compr          0.000000
dtype: float64


In [35]:
# Como é possível observar acima, há colunas com mais de 60% de células vazias, se aplicassemos técnicas de substituição de dados
# nessas colunas, independentemente do método utilizado, resultaria em uma redução significativa na precisão de qualquer modelo
# feito a base desses dados, em situações como essa o ideal é remover a coluna, porém ainda precisa ser decidido a partir de 
# qual porcentagem a coluna será removida.


# Após a leitura desse documento https://didatica.tech/o-que-sao-dados-missing/ decidi aplicar técnicas de substituição nas
# colunas classif e forma, pois contêm poucas células nulas

# lineamento, pos_bloco e sentido serão removidas, por conterem quantias anômalamente altas de células vazias

# estm_merg terás suas linhas com células vazias removidas, a coluna será mantida pois, apesar de conter muitas células vazias,
# essa porcentagem esta dentro do "aceitável"

# como classsif e forma são colunas de tipo string não seria possível a substituição de seus valores por média ou mediana, 
# sendo assim, optou-se pelo uso da moda.

df['classif'].fillna(df['classif'].mode(),inplace = True)
df['forma'].fillna(df['forma'].mode(),inplace = True)

df.drop(['lineamento'],axis=1,inplace=True)
df.drop(['pos_bloco'],axis=1,inplace=True)
df.drop(['sentido'],axis=1,inplace=True)

df.dropna(inplace=True)

# Devido a maior parte dos dados desse conjunto serem dados textuais, um teste de correlação não se faz necessário


In [36]:
df.head(10)

Unnamed: 0,cd_fcim,classif,forma,estm_merg,compr
0,NA19,falha de rejeito direcional,definida e não encoberta,muito forte a sub-vertical,15.3661
1,NA19,falha indiscriminada,definida e não encoberta,muito forte a sub-vertical,1.3307
2,NA19,falha indiscriminada,definida e não encoberta,muito forte a sub-vertical,4.2816
3,NA19,falha indiscriminada,definida e não encoberta,muito forte a sub-vertical,17.8119
4,NA19,falha indiscriminada,definida e não encoberta,muito forte a sub-vertical,9.3753
5,NA19,falha indiscriminada,definida e não encoberta,muito forte a sub-vertical,3.6551
6,NA19,falha indiscriminada,definida e não encoberta,muito forte a sub-vertical,6.3227
7,NA19,falha indiscriminada,definida e não encoberta,muito forte a sub-vertical,3.1795
8,NA19,falha indiscriminada,definida e não encoberta,muito forte a sub-vertical,3.2926
9,NA19,falha indiscriminada,definida e não encoberta,muito forte a sub-vertical,1.6314
