<span style="color:lightgreen; font-size:30px">**PG002 - Librerías fundamentales de Python**</span>
***
<span style="color:gold; font-size:30px">**Bases de datos**</span>
***

<span style="font-size:20px"> **Autor: Kevin Alexander Gómez** </span>

<span style="font-size:16px"> **Contacto: kevinalexandr19@gmail.com | [Linkedin](https://www.linkedin.com/in/kevin-alexander-g%C3%B3mez-2b0263111/) | [Github](https://github.com/kevinalexandr19)** </span>

***

Bienvenido al curso PG002 - Librerías fundamentales de Python!!!

Vamos a revisar las librerías fundamentales usadas en el lenguaje Python a través de <span style="color:gold">ejemplos en Geología</span>.\
Es necesario que tengas un conocimiento previo en la sintáxis de Python, geología general, matemática y estadística.

<span style="color:lightgreen"> Este notebook es parte del proyecto [**Python para Geólogos**](https://github.com/kevinalexandr19/manual-python-geologia), y ha sido creado con la finalidad de facilitar el aprendizaje en Python para estudiantes y profesionales en el campo de la Geología. </span>

En el siguiente índice, encontrarás los temas que componen este notebook:

<span style="font-size:20px"> **Índice** </span>
***
- [¿Qué es una base de datos?](#parte-1)
- [¿Qué es SQL?](#parte-2)
- [Ejemplo de base de datos relacional](#parte-3)
- [En conclusión...](#parte-4)

***

Antes de empezar tu camino en programación geológica...\
Recuerda que puedes ejecutar un bloque de código usando `Shift` + `Enter`:

In [None]:
2 + 2

Si por error haces doble clic sobre un bloque de texto (como el que estás leyendo ahora mismo), puedes arreglarlo usando también `Shift` + `Enter`.
***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿Qué es una base de datos?**</span>
***

Una base de datos es un sistema organizado de almacenamiento de datos que permite la recopilación, almacenamiento, gestión, actualización, y recuperación eficiente de datos.\
Estos datos están estructurados de manera que se puedan acceder y manipular fácilmente mediante consultas.\
Las bases de datos están diseñadas para manejar grandes volúmenes de información, asegurando la integridad, seguridad, y consistencia de los datos a través de reglas y procedimientos definidos.

<span style="color:#43c6ac">El propósito principal de una base de datos es almacenar y recuperar datos relacionados de manera eficiente para análisis y toma de decisiones.</span>

Uno de los tipos de bases de datos más usados en Geología son las <span style="color:gold">bases de datos relacionales</span>, que almacenan datos en tablas con filas y columnas, donde cada fila representa un registro y cada columna un atributo de esos registros. La relación entre diferentes tablas se establece mediante claves primarias y foráneas.


Una <span style="color:gold">tabla</span> es una estructura que organiza datos en filas y columnas, similar a una hoja de cálculo. Cada tabla almacena datos sobre un tipo específico de objeto o entidad.\
Una <span style="color:gold">fila</span> en una tabla representa un registro único o una instancia de la entidad descrita por la tabla (Ejemplo: una muestra de roca o un bloque de mineral).\
Una <span style="color:gold">columna</span> en una tabla representa un atributo o campo de la entidad (Ejemplo: porosidad o ley de Au).

Una <span style="color:gold">llave primaria</span> es un campo o conjunto de campos que identifica de manera única cada fila en una tabla. Ningún valor de la llave primaria puede repetirse dentro de la tabla, asegurando que cada registro sea único.\
Una <span style="color:gold">llave foránea</span> es un campo en una tabla que enlaza a la llave primaria de otra tabla, estableciendo una relación entre ambas. Esto permite relacionar de forma coherente los datos almacenados en diferentes tablas.


Las ventajas de usar bases de datos relacionales en Geología son:

- **Estructura Organizada** \
Facilita el almacenamiento sistemático de datos geológicos, permitiendo la rápida localización y análisis de datos específicos. Ejemplo: muestras de rocas, datos de sensores, y mediciones de campo.

- **Integridad y Consistencia de Datos** \
Las bases de datos relacionales manejan eficientemente la integridad de datos mediante restricciones, transacciones, y llaves foráneas, asegurando que los datos geológicos sean precisos y confiables, minimizando errores en análisis y reportes.

- **Consultas Complejas y Análisis Avanzado** \
SQL permite realizar consultas complejas y análisis avanzados, incluyendo operaciones de join, subconsultas, y funciones agregadas. Esto facilita el análisis detallado de relaciones entre diferentes tipos de datos geológicos.

- **Seguridad y Control de Acceso** \
Ofrecen robustas características de seguridad y control de acceso a los datos. Protegiendo los datos geológicos sensibles y permite que solo usuarios autorizados puedan acceder o modificar la información.

Algunas desventajas son:

- **Escalabilidad Horizontal Limitada** \
Las bases de datos relacionales pueden enfrentar desafíos para escalar horizontalmente, es decir, distribuir la carga de datos a través de múltiples servidores. Esto puede ser problemático para proyectos de geología que generan y procesan grandes volúmenes de datos, como datos de sensores remotos o series temporales extensas.

- **Manejo de Datos No Estructurados** \
No son ideales para almacenar datos no estructurados o semiestructurados, como imágenes satelitales o datos de texto libre. Esto limita la capacidad de integrar directamente estos tipos de datos en el análisis sin un preprocesamiento significativo.

- **Complejidad y Costo de Mantenimiento** \
Mantener una base de datos relacional puede ser complejo y costoso, especialmente a medida que crece en tamaño y complejidad. Se requieren recursos dedicados para la administración de una base de datos, lo que puede significar un desafío para proyectos con presupuestos limitados.


Para organizar los datos en una base de datos relacional de manera eficiente, usaremos la <span style="color:gold">normalización</span>.\
Este proceso consiste en dividir las tablas en partes más pequeñas y menos redundantes para minimizar la duplicación de datos y mejorar la integridad de la base de datos.\
Por ejemplo, podríamos implementar una tabla para datos geofísicos, otra para datos geoquímicos y otra para datos de geología estructural.

<a id="parte-2"></a>

### <span style="color:lightgreen">**¿Qué es SQL?**</span>
***

SQL o <span style="color:gold">Structured Query Language</span>, es un lenguaje de programación diseñado para gestionar y manipular bases de datos relacionales. Permite realizar tareas como crear, modificar, y consultar bases de datos.

A través de SQL, puedes ejecutar comandos para insertar, actualizar, borrar y recuperar datos de tablas dentro de una base de datos. Es un lenguaje estándar y ampliamente adoptado por sistemas de gestión de bases de datos relacionales como MySQL, PostgreSQL, SQL Server, y SQLite.

Algunas de las características de este lenguaje son:

- **Declarativo:** \
Especificas qué datos deseas obtener o cómo modificarlos, sin detallar los pasos para realizar la acción.

- **Versátil:** \
Puede ser utilizado para manipular datos en pequeñas bases de datos locales hasta grandes sistemas de bases de datos en la nube.

- **Interactivo:** \
SQL permite realizar búsquedas personalizadas para obtener rápidamente información específica de la base de datos.


Algunas aplicaciones importantes de bases de datos y SQL en Geología son:

- **Almacenamiento y Recuperación de Datos:** \
SQL facilita el almacenamiento sistemático de datos geológicos y su recuperación eficiente para análisis y reportes.\ Por ejemplo, puedes almacenar datos de diferentes muestras de rocas y luego realizar consultas para recuperar información específica basada en ciertos criterios, como tipo de roca, ubicación geográfica, o edad.

- **Análisis geoespacial:** \
Algunos sistemas de gestión de bases de datos relacionales ofrecen extensiones para el manejo y análisis de datos geoespaciales, permitiendo a los geólogos realizar consultas complejas que involucran la ubicación y las propiedades espaciales de los datos geológicos.

- **Integración con Herramientas de GIS:** \
SQL se puede utilizar para integrar bases de datos geológicas con sistemas de información geográfica (GIS), permitiendo análisis espaciales avanzados y la visualización de datos geológicos en mapas.

- **Gestión de Proyectos de Exploración:** \
SQL permite la gestión eficiente de datos recopilados en proyectos de exploración, como el seguimiento de la ubicación de muestras, resultados de análisis químicos, y datos de sondajes, facilitando la toma de decisiones basada en datos.

Los comandos en SQL se agrupan en varias categorías, sin embargo, para trabajar con información en Geología nos centraremos en dos grupos específicos, y algunos comandos adicionales:

#### <span style="color:gold">**DDL (Data Definition Language)**</span>
Se utilizan para definir y modificar la estructura de las bases de datos y sus objetos.
- `CREATE`: Crea una nueva tabla, vista, o índice.
- `PRIMARY KEY`: Especifica una o más columnas de una tabla para la clave primaria, que identifica de manera única cada fila en la tabla.
- `ALTER`: Modifica la estructura de una tabla existente, como añadir o eliminar columnas.
- `DROP`: Elimina tablas, vistas, o índices.
- `TRUNCATE`: Elimina todos los registros de una tabla, pero no la tabla en sí.
- `INTEGER`: Es un tipo de dato que indica que la columna almacenará números enteros.
- `TEXT`: Es un tipo de dato que indica que la columna almacenará cadenas de texto.
- `REAL`: Es un tipo de dato que indica que la columna almacenará números reales (números con decimales).

#### <span style="color:gold">**DML (Data Manipulation Language)**</span>
Se utilizan para insertar, modificar, y consultar datos en las bases de datos.
- `SELECT`: Recupera datos de una o más tablas.
- `INSERT`: Añade nuevos registros a una tabla.
- `UPDATE`: Modifica los datos de uno o más registros existentes.
- `DELETE`: Elimina registros de una tabla.
- `VALUES`: Utilizado en combinación con el comando `INSERT INTO` para especificar los valores de los datos que se van a insertar en una tabla
- `WHERE`: Se utiliza para especificar condiciones en las operaciones de selección, actualización y eliminación de datos, permitiendo filtrar las filas que cumplen con dichas condiciones.
 
#### <span style="color:gold">**Cláusulas y Palabras Clave en SQL**</span>
Son elementos del lenguaje SQL que no encajan estrictamente dentro de los grupos pero son cruciales para la estructuración de comandos SQL.
- `FROM`: Se utiliza en una consulta `SELECT` para especificar la tabla de la cual se van a recuperar los datos.
- `IF`: Aunque el uso directo de `IF` no es estándar en las consultas básicas SQL, se utiliza en procedimientos almacenados y en la lógica de control de flujo para ejecutar expresiones condicionales. En el contexto de `IF EXISTS` en operaciones como `DROP TABLE IF EXISTS`, se utiliza para verificar la existencia de un objeto antes de proceder.
- `NOT`: Se utiliza para negar una condición, como en `NOT NULL` o en condiciones `WHERE` para filtrar resultados.
- `EXISTS`: Se utiliza para verificar la existencia de filas en una subconsulta, como en `IF EXISTS` para condicionales o en `WHERE EXISTS`.
- `NOT NULL`: Es una restricción de columna que indica que la columna no puede almacenar valores nulos, asegurando que cada fila tenga un valor en esa columna.
- `INTO`: Se utiliza en comandos como `INSERT INTO` para especificar la tabla en la que se van a insertar los datos.

<a id="parte-3"></a>

### <span style="color:lightgreen">**Ejemplo de base de datos relacional**</span>
***

Vamos a implementar una base de datos muy pequeña usando información geoquímica de rocas.

In [None]:
import pandas as pd
import sqlite3

In [None]:
# Cargamos nuestra tabla
tabla = pd.read_csv("files/rocas.csv")
tabla.head()

Vamos a crear una variable llamada `conn` que servirá como conexión a la base de datos. Si la base de datos no existe, SQLite la creará automáticamente.

In [None]:
conn = sqlite3.connect("files/GeoquimicaRocas.db")

Ahora, utilizaremos la conexión para crear una tabla llamada `informacion_geoquimica` con las columnas de nuestra tabla original. Para esto, haremos uso del método `execute`:

In [None]:
conn.execute("""
CREATE TABLE IF NOT EXISTS informacion_geoquimica (
    id INTEGER PRIMARY KEY,
    Nombre TEXT NOT NULL,
    SiO2 REAL,
    Al2O3 REAL,
    FeOT REAL,
    CaO REAL,
    MgO REAL,
    Na2O REAL,
    K2O REAL,
    MnO REAL,
    TiO2 REAL
);
""")

Para insertar los datos, podemos utilizar el método `execute` para insertar una sola fila:

In [None]:
# Convertir la primera fila de la tabla en una tupla
fila = tuple(tabla.iloc[0].values)

# Insertar la primera fila en la base de datos
conn.execute("""
INSERT INTO informacion_geoquimica (Nombre, SiO2, Al2O3, FeOT, CaO, MgO, Na2O, K2O, MnO, TiO2)
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?);
""", fila)

# Guardar (commit) los cambios
conn.commit()

O también, podemos usar `executemany` para insertar múltiples filas a la vez:

In [None]:
filas = list(tabla.iloc[1:].apply(tuple, axis=1).values)

Podemos colocar la consulta de SQL en una variable llamada `sql`:

In [None]:
# Preparar la consulta SQL para insertar datos
sql = """
INSERT INTO informacion_geoquimica (Nombre, SiO2, Al2O3, FeOT, CaO, MgO, Na2O, K2O, MnO, TiO2)
VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?);
"""

In [None]:
# Insertar múltiples filas usando execumany()
conn.executemany(sql, filas)
    
# Guardar (commit) los cambios a la base de datos
conn.commit()
print(f"{conn.total_changes} filas insertadas.")

Una vez que hemos insertado las filas en la base de datos, podemos realizar consultas sobre los datos almacenados utilizando el método `execute` y luego iterar sobre los resultados:

In [None]:
# Mostrar las 10 primeras filas de la tabla
for i, row in enumerate(conn.execute("SELECT * FROM informacion_geoquimica")):
    if i == 10:
        break
    print(row)

Si queremos leer una tabla en una base de datos y pasarlo a un DataFrame de Pandas, realizamos lo siguiente:

In [None]:
# Escribir la consulta SQL para seleccionar todo el contenido de la tabla
query = "SELECT * FROM informacion_geoquimica;"

# Leer la base de datos y pasar el contenido a un DataFrame de Pandas
df = pd.read_sql_query(query, conn)

# Mostramos la base de datos
df.head()

Por último, cerraremos la conexión con la base de datos usando el método `close`:

In [None]:
# Cerrar la conexión a la base de datos
conn.close()

<a id="parte-4"></a>

### <span style="color:lightgreen">**En conclusión...**</span>
***

*El empleo de bases de datos con Python en geología ofrece un enfoque potente y versátil para el manejo, análisis y visualización de datos geológicos. Esta combinación permite a los profesionales en el campo de la geología gestionar eficientemente grandes volúmenes de información.*

<span style="color:#43c6ac">*La automatización de tareas relacionadas con la gestión de datos, como la actualización de registros, la limpieza de datos y la generación de informes, se simplifica enormemente mediante scripts en Python que interactúan con bases de datos.*</span>

*SQLite en Python ofrece una solución ligera y eficiente para manejar grandes datasets geológicos, facilitando almacenamiento, acceso rápido y distribución de datos sin necesidad de infraestructura compleja.*

***