<span style="color:lightgreen; font-size:30px">**PG102 - Análisis de datos en Geología**</span>
***
<span style="color:gold; font-size:30px">**Bases de datos - Sondajes**</span>
***

<span style="font-size:20px"> **Autor: Kevin Alexander Gómez** </span>

<span style="font-size:16px"> **Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)** </span>
***

Bienvenido al curso PG102 - Análisis de datos en Geología!!!

Vamos a revisar ejemplos de <span style="color:gold">análisis de datos</span> en Geología usando código en Python.\
Es necesario que tengas un conocimiento previo en programación con Python, estadística y geología general.

<span style="color:lightgreen"> Este notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología. </span>

En el siguiente índice, encontrarás los temas que componen este notebook:

<span style="font-size:20px"> **Índice** </span>
***
- [¿Qué es SQLAlchemy?](#parte-1)
- [Creando una base de datos geológicos](#parte-2)
- [En conclusión...](#parte-3)

***

Antes de empezar tu camino en programación geológica...\
Recuerda que puedes ejecutar un bloque de código usando `Shift` + `Enter`:

In [None]:
2 + 2

Si por error haces doble clic sobre un bloque de texto (como el que estás leyendo ahora mismo), puedes arreglarlo usando también `Shift` + `Enter`.
***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es SQLAlchemy?**</span>
***

<span style="color:gold">SQLAlchemy</span> es una librería de Python diseñada para simplificar y automatizar la comunicación entre programas Python y bases de datos.

Funciona como un puente entre el lenguaje de programación Python y diversos sistemas de gestión de bases de datos (DBMS), como PostgreSQL, MySQL, SQLite y Oracle. 

SQLAlchemy ofrece dos modos principales de operación:

**1. <span style="color:lightgreen">SQL Expression Language</span>:** \
Permite construir consultas SQL de forma programática, utilizando constructos de Python. Esto significa que puedes crear, leer, actualizar y eliminar datos en tu base de datos directamente a través de tu código Python, sin escribir consultas SQL de forma manual.

**2. <span style="color:lightgreen">ORM (Object-Relational Mapping)</span>:** \
Esta capa adicional permite modelar las tablas de tu base de datos como clases Python. Cada clase representa una tabla en tu base de datos, y cada instancia de una clase representa una fila en esa tabla. Esto abstrae aún más el proceso de gestión de datos, permitiéndote trabajar con objetos Python en lugar de consultas SQL directas.


Las **principales ventajas** de usar una base de datos en Geología son:

- **<span style="color:lightgreen">Manejo Eficiente de Datos</span>:** \
La capacidad de SQLAlchemy para manejar complejas consultas y transformaciones de datos es invaluable cuando se trabaja con grandes conjuntos de datos geológicos, como mediciones de sensores, registros de perforación o datos de muestreo.

- **<span style="color:lightgreen">Abstracción de la Base de Datos</span>:** \
Permite cambiar entre diferentes sistemas de bases de datos con mínimos ajustes en tu código. Esto es especialmente útil en proyectos geológicos donde los requisitos de almacenamiento de datos pueden cambiar con el tiempo.

- **<span style="color:lightgreen">Integración con Herramientas de Análisis de Datos</span>:** \
SQLAlchemy se integra bien con otras bibliotecas de análisis de datos en Python, como Pandas y NumPy, facilitando el análisis y la visualización de datos geológicos.

Entre las **principales aplicaciones** se tienen:

- **<span style="color:lightgreen">Análisis Geoespacial</span>:** \
Al integrarse con bibliotecas de Python especializadas en geoprocesamiento, como GeoPandas, SQLAlchemy puede ser utilizado para gestionar y analizar datos geoespaciales, esenciales en la cartografía geológica, estudios de riesgo sísmico, y exploración de recursos naturales.

- **<span style="color:lightgreen">Gestión de Datos de Muestreo</span>:** \
Organizar y acceder a datos de muestras recolectadas en el campo, incluyendo información sobre la ubicación, profundidad, tipo de roca, minerales presentes y otros parámetros relevantes.

- **<span style="color:lightgreen">Seguimiento de Proyectos de Exploración</span>:** \
Administrar la información generada en proyectos de exploración, desde datos de perforación hasta análisis geoquímicos y geofísicos, facilitando el acceso y la revisión de datos para la toma de decisiones.

<span style="color:#43c6ac">En resumen, SQLAlchemy, al ofrecer una manera flexible y potente de manejar bases de datos desde Python, puede ser una herramienta clave en el arsenal de un geólogo programador, priorizando el análisis y la interpretación de datos geológicos, a la vez que se minimiza el tiempo y esfuerzo dedicado a la gestión de datos.</span>

<a id="parte-2"></a>

### <span style="color:lightgreen">**Creando una base de datos geológicos**</span>
***

Vamos a crear una base de datos usando información de sondajes: Collar, Survey y Assay.

Empezaremos cargando los archivos CSV usando Pandas:

In [1]:
import pandas as pd

In [2]:
# Información para enviar a base de datos
collar = pd.read_csv("files/collar.csv")
survey = pd.read_csv("files/survey.csv")
assay = pd.read_csv("files/assay.csv")

La tabla collar tiene las siguientes columnas:
- `ID`: nombre del sondaje
- `X`, `Y` y `Z`: coordenadas del collar del sondaje

La tabla survey tiene las siguientes columnas:
- `ID`: nombre del sondaje
- `AT`: profundidad de registro del survey
- `AZ`: dirección del sondaje
- `DIP`: buzamiento del sondaje

La tabla assay tiene las siguientes columnas:
- `ID`: nombre del sondaje
- `FROM`, `TO`: profundidad inicial y final del tramo
- `RECOV`: recuperación del tramo
- `CU_pct`: Cu en porcentaje
- `AU_gpt`: Au en gramos por tonelada
- `AG_gpt`: Ag en gramos por tonelada
- `DENSITY`: densidad de la roca en el tramo
- `MO_ppm`: Mo en partes por millón
- `AS_ppm`: As en partes por millón
- `S_pct`: S en porcentaje

A partir de la información recibida, crearemos una base de datos relacional, empezaremos importando la función `create_engine` para inicializar la base de datos en `sqlite`:

In [3]:
from sqlalchemy import create_engine

In [4]:
# Establece el tipo de base de datos en sqlite
engine = create_engine("sqlite:///files/sondajes.db")

Ahora, crearemos un modelo declarativo basándonos en la estructura de las tablas collar, survey y assay.

Usaremos el módulo `orm` de SQLAlchemy para crear este modelo:

In [5]:
from sqlalchemy import Column, Integer, String, Float, ForeignKey, MetaData, Table
from sqlalchemy.orm import declarative_base, relationship, sessionmaker

In [6]:
# Creamos una conexión a la base de datos 
Session = sessionmaker(bind=engine)
session = Session()

Ahora, crearemos el modelo declarativo:

In [7]:
# Creamos una instancia del modelo declarativo
Base = declarative_base()

In [8]:
# Estructura de la tabla collar
class Collar(Base):
    __tablename__ = "collar" # Nombre de la tabla
    id = Column(String, primary_key=True) # Llave primaria

    # Columnas de datos
    collar_x = Column(Float)
    collar_y = Column(Float)
    collar_z = Column(Float)
    
    # Relación (ORM para consultas)
    surveys = relationship("Survey", back_populates="collars")
    assays = relationship("Assay", back_populates="collars")

# Estructura de la tabla survey
class Survey(Base):
    __tablename__ = "survey" # Nombre de la tabla
    survey_name = Column(Integer, primary_key=True) # Llave primaria
    id = Column(String, ForeignKey("collar.id"))    # Llave foránea

    # Columnas de datos
    depth = Column(Float)
    direction = Column(Float)
    angle = Column(Float)
    
    # Relación inversa (ORM)
    collars = relationship("Collar", back_populates="surveys")

# Estructura de la tabla assay
class Assay(Base):
    __tablename__ = "assay" # Nombre de la tabla
    assay_name = Column(Integer, primary_key=True) # Llave primaria
    id = Column(String, ForeignKey("collar.id"))   # Llave foránea

    # Columnas de datos
    from_depth = Column(Float)
    to_depth = Column(Float)
    recov = Column(Float)
    Cu = Column(Float)
    Au = Column(Float)
    Ag = Column(Float)
    density = Column(Float)
    Mo = Column(Float)
    As = Column(Float)
    S = Column(Float)
    
    # Relación inversa (ORM)
    collars = relationship("Collar", back_populates="assays")
    

Ahora, implementaremos la estructura en la base de datos usando el método `metadata.create_all`:

In [9]:
# Creando las tablas en la base de datos, si aún no existen
Base.metadata.create_all(engine)

Una vez creado el modelo declarativo, llenaremos la base de datos con la información de sondajes:
> Para añadir una fila a la base de datos (a través de la sesión/conexión), usaremos el método `add`.\
> Para guardar los cambios, usaremos el método `commit`.

In [10]:
# Agregar datos de collar
for index, row in collar.iterrows():
    collar_row = Collar(id=row["ID"],
                        collar_x=row["X"],
                        collar_y=row["Y"],
                        collar_z=row["Z"]
                       )
    # Agregar fila a la base de datos
    session.add(collar_row)

# Agregar datos de survey
for index, row in survey.iterrows():
    survey_row = Survey(id=row["ID"],
                        depth=row["AT"],
                        direction=row["AZ"],
                        angle=row["DIP"]
                       )
    # Agregar fila a la base de datos
    session.add(survey_row)

# Agregar datos de assay
for index, row in assay.iterrows():
    assay_row = Assay(id=row["ID"],
                      from_depth=row["FROM"],
                      to_depth=row["TO"],
                      recov=row["RECOV"],
                      Cu=row["CU_pct"],
                      Au=row["AU_gpt"],
                      Ag=row["AG_gpt"],
                      density=row["DENSITY"],
                      Mo=row["MO_ppm"],
                      As=row["AS_ppm"],
                      S=row["S_pct"]
                     )
    # Agregar fila a la base de datos
    session.add(assay_row)

# Guardar los cambios
session.commit()

Ahora que hemos creado la base de datos, revisaremos el contenido usando el método `query` y `all`:
> El método `query` formula una consulta SQL sobre uno de los modelos (Collar, Survey, Assay).\
> El método `all` selecciona todos los elementos de la consulta. 

In [15]:
# Verificación de los datos en la tabla Collar
collar_table = session.query(Collar).all()

# Mostramos las 10 primeras filas
print("Datos en la tabla Collar:")
for row in collar_table[:10]:
    print(f"ID: {row.id}, X: {row.collar_x}, Y: {row.collar_y}, Z: {row.collar_z}")

Datos en la tabla Collar:
ID: DH001, X: 426.155999999959, Y: 1220.25, Z: 298.1178610000002
ID: DH002, X: 424.56199999997625, Y: 1219.3120000000345, Z: 294.6257320000004
ID: DH003, X: 488.5, Y: 970.375, Z: 249.3986520000003
ID: DH004, X: 431.280999999959, Y: 830.3120000000345, Z: 274.1379880000004
ID: DH005, X: 519.5, Y: 675.875, Z: 197.79505400000016
ID: DH006, X: 521.9679999999935, Y: 996.469000000041, Z: 211.20900100000017
ID: DH007, X: 524.530999999959, Y: 999.9060000000172, Z: 214.4400910000004
ID: DH008, X: 688.75, Y: 430.81200000003446, Z: 219.50394700000012
ID: DH009, X: 680.25, Y: 511.844000000041, Z: 220.6613110000003
ID: DH010, X: 655.155999999959, Y: 633.344000000041, Z: 219.01803900000004


In [16]:
# Verificación de los datos en la tabla Survey
survey_table = session.query(Survey).all()

# Mostramos las 10 primeras filas
print("Datos en la tabla Survey:")
for row in survey_table[:10]:
    print(f"""Survey Name: {row.survey_name}, ID: {row.id}
        Depth: {row.depth}, Direction: {row.direction}, Angle: {row.angle}""")

Datos en la tabla Survey:
Survey Name: 1, ID: DH001
        Depth: 0.0, Direction: 90.5, Angle: 50.0
Survey Name: 2, ID: DH001
        Depth: 31.0, Direction: 90.5, Angle: 50.0
Survey Name: 3, ID: DH001
        Depth: 198.050003, Direction: 90.5, Angle: 50.0
Survey Name: 4, ID: DH002
        Depth: 0.0, Direction: 271.5, Angle: 45.0
Survey Name: 5, ID: DH002
        Depth: 31.0, Direction: 271.5, Angle: 45.0
Survey Name: 6, ID: DH002
        Depth: 222.100006, Direction: 271.5, Angle: 45.0
Survey Name: 7, ID: DH003
        Depth: 0.0, Direction: 271.5, Angle: 44.0
Survey Name: 8, ID: DH003
        Depth: 30.0, Direction: 271.5, Angle: 44.0
Survey Name: 9, ID: DH003
        Depth: 208.199997, Direction: 271.5, Angle: 45.0
Survey Name: 10, ID: DH004
        Depth: 0.0, Direction: 265.5, Angle: 45.0


Si queremos limitar el número de filas a seleccionar, también podemos usar el método `limit`:

In [17]:
# Verificación de los datos en la tabla Assay
assay_table = session.query(Assay).limit(10)

# Mostramos las 10 primeras filas
print("Datos en la tabla Assay:")
for row in assay_table:
    print(f"""Assay Name: {row.assay_name}, ID: {row.id}
        FROM: {row.from_depth}, TO: {row.to_depth},
        Cu: {row.Cu}, Au: {row.Au}, Ag: {row.Ag}, Density: {row.density}, Mo: {row.Mo}, As: {row.As}, S: {row.S}""")

Datos en la tabla Assay:
Assay Name: 1, ID: DH001
        FROM: 0.0, TO: 2.0,
        Cu: 0.79, Au: 1.75, Ag: 6.35, Density: None, Mo: 10.0, As: 26.3, S: 0.0
Assay Name: 2, ID: DH001
        FROM: 2.0, TO: 4.0,
        Cu: 0.83, Au: 1.73, Ag: 5.2, Density: None, Mo: 12.2, As: 31.0, S: 0.0
Assay Name: 3, ID: DH001
        FROM: 4.0, TO: 6.0,
        Cu: 0.84, Au: 6.0, Ag: 5.75, Density: None, Mo: 24.8, As: 32.5, S: 0.0
Assay Name: 4, ID: DH001
        FROM: 6.0, TO: 8.0,
        Cu: 0.83, Au: 2.56, Ag: 2.85, Density: 2.32, Mo: 15.7, As: 13.9, S: 0.2
Assay Name: 5, ID: DH001
        FROM: 8.0, TO: 10.0,
        Cu: 0.97, Au: 1.53, Ag: 2.9, Density: 2.98, Mo: 14.8, As: 15.5, S: 0.5
Assay Name: 6, ID: DH001
        FROM: 10.0, TO: 12.0,
        Cu: 1.48, Au: 2.25, Ag: 3.35, Density: 2.52, Mo: 39.2, As: 20.2, S: 1.0
Assay Name: 7, ID: DH001
        FROM: 12.0, TO: 14.0,
        Cu: 1.03, Au: 2.24, Ag: 3.9, Density: 2.61, Mo: 295.0, As: 31.3, S: 1.5
Assay Name: 8, ID: DH001
        FROM: 14.

<a id="parte-3"></a>

### <span style="color:lightgreen">**En conclusión...**</span>
***

Manejar bases de datos con SQLAlchemy permite organizar, acceder y manipular grandes volúmenes de datos de manera estructurada y eficiente, lo cual es esencial para el análisis de datos en Geología.

La integración de SQLAlchemy con otras librerías de Python posibilita realizar análisis complejos y visualizaciones de datos, ayudando a la interpretación y toma de decisiones en Geología.

<span style="color:#43c6ac">El almacenamiento de datos de sondajes en bases de datos facilita la gestión centralizada, acceso rápido y análisis detallado de la información geológica crítica, mejorando significativamente la eficiencia en la exploración y evaluación de recursos</span>.

***