## Práctica con data de sondajes (Limpieza)

In [None]:
import pandas as pd

## COLLAR

In [None]:
collar = pd.read_csv("files/dh_raw/WP_collar.csv")

In [None]:
collar.columns

In [None]:
collar.dtypes

- BHID: código de cada sondaje (string)
- XCOLLAR, YCOLLAR, ZCOLLAR: coordenadas del collar de cada sondaje (float)
- AT: longitud del sondaje (float)

In [None]:
# Verificar valores vacíos
collar.isna().sum(axis=0)

In [None]:
# Valores únicos de BHID
collar["BHID"].unique()

In [None]:
len(collar["BHID"].unique())

- Hay 3 sondajes que faltan dentro de los códigos (WP001 a WP058)

In [None]:
len(collar)

In [None]:
collar.head()

In [None]:
# Si XCOLLAR fuera una columna de string
collar["XCOLLAR"] = collar["XCOLLAR"].astype(float)

## SURVEY

In [None]:
survey = pd.read_csv("files/dh_raw/WP_survey.csv")

In [None]:
collar.head()

In [None]:
survey.head()

In [None]:
survey.info()

- BHID: el código de cada sondaje (string)
- AT: longitud en la cual se tomó el registro del survey (float)
- BRG: rumbo anotado en el registro del survey (float)
- DIP: buzamiento anotado en el registro del survey (float)

#### Comprueba si collar y survey contienen los mismos taladros (BHID)

In [None]:
at_collar = collar.groupby("BHID")["AT"].max()

In [None]:
at_survey = survey.groupby(["BHID"])["AT"].max()

In [None]:
(at_collar == at_survey).sum()

In [None]:
# Comprobar si la profundidad máxima del collar coincide con la profundidad máxima del survey
(at_collar == at_survey).sum()

In [None]:
len((at_collar == at_survey))

In [None]:
survey[["BRG", "DIP"]].describe()

## Table Lito Assay

In [None]:
table = pd.read_csv("files/dh_raw/Merged_Table_lito_assay.csv")

In [None]:
table.head()

In [None]:
table.info()

- holeid : código del taladro (string)
- from, to : profundidad de un tramo del sondaje (float)
- AG_gpt, AS_ppm, AU_gpt, CU_pct, DENSITY, MO_ppm, RECOV, S_pct : columnas de assay (float), contiene valores vacíos
- C_CUATER, R_AGRUP, ROCK, SPLIT : columnas de lito (string), contiene valores vacíos
- mid_x, mid_y, mid_z: valores numéricos (float)

### holeid
#### Comprobar si no existen sondajes adicionales incompletos (no aparecen en algunas de las tablas)

In [None]:
tableSet = set(table["holeid"].unique())

In [None]:
collarSet = set(collar["BHID"].unique())

In [None]:
surveySet = set(survey["BHID"].unique())

In [None]:
tableSet ^ collarSet

In [None]:
tableSet ^ surveySet

In [None]:
collarSet ^ surveySet

### from to

In [None]:
table["from"]

In [None]:
((table["from"] - table["to"]) < 0).sum()

#### Verificar que los valores de from y to coincidan numéricamente

In [None]:
for dh in table["holeid"].unique():
    df = table[table["holeid"] == dh][["from", "to"]]
    df_from = df.iloc[1:, 0].values
    df_to = df.iloc[:-1, 1].values
    if (df_to - df_from).sum() != 0:
        print(f"Los valores de from to en el sondaje {dh} no coinciden.")

### AG_gpt
#### Cuantos valores vacíos hay por cada sondaje

In [None]:
table[table["holeid"] == "WP001"]["AG_gpt"].isna().sum()

In [None]:
columna = "AG_gpt"
for dh in table["holeid"].unique():
    df = table[table["holeid"] == dh][columna]
    resultado = df.isna().sum()
    total = len(df)
    if resultado != 0:
        print(f"{dh} - {columna}: {resultado/total:.0%} de valores vacíos")

- En el sondaje WP036, WP057 y WP058, la columna de AG_gpt está vacía.

In [None]:
def evaluar_vacios(columna):
    print("")
    for dh in table["holeid"].unique():
        df = table[table["holeid"] == dh][columna]
        resultado = df.isna().sum()
        total = len(df)
        if resultado != 0:
            print(f"{dh} - {columna}: {resultado/total:.1%} de valores vacíos")

In [None]:
table.columns

In [None]:
import ipywidgets as widgets

In [None]:
list(table.columns)

In [None]:
# Evaluar valores de vacios en sondajes de manera automatizada
widgets.interact(evaluar_vacios, columna=list(table.columns), clear_output=True);

### SONDAJE WP036

In [None]:
len(table[table["holeid"] == "WP036"])

In [None]:
table[table["holeid"] == "WP036"].isna().sum()

In [None]:
table[table["holeid"] == "WP057"].isna().sum()

In [None]:
table[table["holeid"] == "WP058"].isna().sum()

Los sondajes WP036, WP057 y WP058 tienen una mayor cantidad de valores vacíos comparado con el resto de sondajes

### Separar en lito y assay la tabla original

In [None]:
columns = ["holeid", "from", "to", "AG_gpt", "AS_ppm", "AU_gpt", "CU_pct", "DENSITY", "MO_ppm", "RECOV", "S_pct"]
assay = table[columns].copy()

In [None]:
assay.rename(columns={"holeid": "ID", "from": "FROM", "to": "TO"}, inplace=True)

In [None]:
assay.to_csv("files/dh_clean/assay.csv", index=False)

In [None]:
columns = ["holeid", "from", "to", "C_CUATER", "R_AGRUP", "ROCK", "SPLIT"]
lito = table[columns]

In [None]:
lito.to_csv("files/dh_clean/lito.csv", index=False)

In [None]:
collar.to_csv("files/dh_clean/collar.csv", index=False)

In [None]:
survey.to_csv("files/dh_clean/survey.csv", index=False)

### Guardar y cargar de una database

In [None]:
from sqlalchemy import create_engine
from sqlalchemy import text

In [None]:
engine = create_engine("sqlite:///database.db")

In [None]:
assay.to_sql(name="table_assay", con=engine)

In [None]:
columns = ["id"] + list(assay.columns)

In [None]:
with engine.connect() as conn:
    result = conn.execute(text("SELECT * FROM table_assay"))
    result = pd.DataFrame(result, columns=columns)

In [None]:
result.drop(columns=["id"], inplace=True)

In [None]:
result

In [None]:
pd.read_sql("table_assay", con=engine)

### Visualizar sondajes en 3D

In [None]:
from sondaje3d import DrillData

In [None]:
collar.rename(columns={"BHID": "ID", "XCOLLAR": "X", "YCOLLAR": "Y", "ZCOLLAR": "Z"}, inplace=True)
collar.drop(columns=["AT"], inplace=True)
survey.rename(columns={"BHID": "ID", "BRG": "AZ"}, inplace=True)

In [None]:
data = DrillData(collar=collar, survey=survey, table=assay, table_name="Assay")

In [None]:
data.validate()

In [None]:
data.table.columns

In [None]:
data.get_points("S_pct", "numeric")

### Visualizar el valor de AG_gpt en categorías

In [None]:
data.table["AG_gpt"].describe()

In [None]:
import matplotlib.pyplot as plt

In [None]:
table = data.table
ag_250 = table[table["AG_gpt"] <= 51]["AG_gpt"]

# Figura principal
fig, ax = plt.subplots(figsize=(12, 6))

# Histograma
ax.hist(ag_250, bins=20)

# Título
ax.set_title("Histograma de Ag (g/t)", fontsize=20)

# Etiquetas de los eje
ax.set_xlabel("Ag (g/t)", fontsize=15)
ax.set_ylabel("Frecuencia", fontsize=15)

# Cambiar escala del eje Y a logarítmico
ax.set_yscale("log")

# Agregar una grilla
ax.grid()

# Mostrar el gráfico
plt.show()

In [None]:
import numpy as np

def categorizar_AG(row):
    if 0 <= row <= 10:
        return "0 - 10 g/t"
    elif 10 < row <= 50:
        return "10 - 50 g/t"
    elif row > 50:
        return "> 50 g/t"

In [None]:
data.table["AG_cat"] = data.table["AG_gpt"].apply(categorizar_AG)

In [None]:
data.table

In [None]:
data.get_points("AG_cat", "categoric")

In [None]:
data.plot_3d()

#### Automatizar el gráfico de un histograma por cada columna en Assay

In [None]:
def histograma(columna):
    # Datos
    df = table[columna]
    
    # Figura principal
    fig, ax = plt.subplots(figsize=(12, 6))

    # Histograma
    ax.hist(df, bins=15)

    # Título
    ax.set_title(f"Histograma de {columna}", fontsize=20)

    # Etiquetas de los eje
    ax.set_xlabel(f"{columna}", fontsize=15)
    ax.set_ylabel("Frecuencia", fontsize=15)

    # Cambiar escala del eje Y a logarítmico
    ax.set_yscale("log")

    # Agregar una grilla
    ax.grid()

    # Mostrar el gráfico
    plt.show()

In [None]:
widgets.interact(histograma, columna=['AG_gpt', 'AS_ppm', 'AU_gpt', 'CU_pct', 'DENSITY', 'MO_ppm', 'RECOV', 'S_pct']);

In [None]:
def categorizar_AU(row):
    if 0 <= row <= 1:
        return "0 - 1 g/t"
    elif 1 < row <= 5:
        return "1 - 5 g/t"
    elif row > 5:
        return "> 5 g/t"

In [None]:
data.table["AU_cat"] = data.table["AU_gpt"].apply(categorizar_AU)

In [None]:
data.get_points("AU_cat", "categoric")

In [None]:
data.plot_3d()

### Gráfico de dispersión

In [None]:
def dispersion(columna1, columna2):
    # Datos
    df1 = table[columna1]
    df2 = table[columna2]
    
    # Figura principal
    fig, ax = plt.subplots(figsize=(12, 6))

    # Dispersión
    ax.scatter(df1, df2, s=15, edgecolor="black")

    # Título
    ax.set_title(f"Diagrama de dispersión de {columna1} vs {columna2}", fontsize=20)

    # Etiquetas de los eje
    ax.set_xlabel(f"{columna1}", fontsize=15)
    ax.set_ylabel(f"{columna2}", fontsize=15)
    
    # Escala logarítmica
    #ax.set_xscale("log")
    #ax.set_yscale("log")
    
    # Agregar una grilla
    ax.grid()

    # Mostrar el gráfico
    plt.show()

In [None]:
dispersion("AU_gpt", "CU_pct")

In [None]:
widgets.interact(dispersion, columna1=['AG_gpt', 'AS_ppm', 'AU_gpt', 'CU_pct', 'DENSITY', 'MO_ppm', 'RECOV', 'S_pct'],
                 columna2=['AG_gpt', 'AS_ppm', 'AU_gpt', 'CU_pct', 'DENSITY', 'MO_ppm', 'RECOV', 'S_pct']);

### Categorías en lito

In [None]:
lito.columns

In [None]:
lito["C_CUATER"].unique()

In [None]:
lito["R_AGRUP"].unique()

In [None]:
lito["ROCK"].unique()

In [None]:
lito["SPLIT"].unique()

### Visualización de sondajes 3D - Litología

In [None]:
lito = pd.read_csv("files/dh_clean/lito.csv")

In [None]:
lito.rename(columns={"holeid": "ID", "from": "FROM", "to": "TO"}, inplace=True)

In [None]:
data = DrillData(collar=collar, survey=survey, table=lito, table_name="Lito")

In [None]:
data.validate()

In [None]:
data.get_points("ROCK", "categoric")

In [None]:
len(lito["ROCK"].unique())

In [None]:
data.plot_3d()

In [None]:
assay

In [None]:
lito

In [None]:
data = pd.merge(assay, lito)

In [None]:
df = data[(data["ROCK"] == "E1") | (data["ROCK"] == "E2") | (data["ROCK"] == "E3")]

In [None]:
df

In [None]:
def dispersion(columna1, columna2):
    # Datos
    df1 = df[columna1]
    df2 = df[columna2]
    
    # Figura principal
    fig, ax = plt.subplots(figsize=(12, 6))

    # Dispersión
    ax.scatter(df1, df2, s=15, edgecolor="black")

    # Título
    ax.set_title(f"Diagrama de dispersión de {columna1} vs {columna2}", fontsize=20)

    # Etiquetas de los eje
    ax.set_xlabel(f"{columna1}", fontsize=15)
    ax.set_ylabel(f"{columna2}", fontsize=15)
    
    # Escala logarítmica
    #ax.set_xscale("log")
    ax.set_yscale("log")
    
    # Agregar una grilla
    ax.grid()

    # Mostrar el gráfico
    plt.show()

In [None]:
widgets.interact(dispersion,
                 columna1=['AG_gpt', 'AS_ppm', 'AU_gpt', 'CU_pct', 'DENSITY', 'MO_ppm', 'RECOV', 'S_pct'],
                 columna2=['AG_gpt', 'AS_ppm', 'AU_gpt', 'CU_pct', 'DENSITY', 'MO_ppm', 'RECOV', 'S_pct']);