## Setup

In [None]:
# import libraries
from IPython.display import Markdown, display
import pandas as pd
from sqlalchemy import create_engine
import json


# cargar archivo de configuración
with open('db_config.json') as f:
    db_config = json.load(f)

## Functions

In [None]:
# like print but with markdown format
def printmd(string: str) -> None:
    """Prints a string with markdown format."""
    display(Markdown(string))

# Explora el schema de las diferentes tablas de manera individual y eficiente
def get_table_schema(table_name: str, engine) -> pd.DataFrame:
    """Retrieves the schema of a table from the database.

    Parameters:
    - table_name (str): The name of the table.
    - engine: The database engine object.

    Returns:
    - pandas.DataFrame: A DataFrame containing the column names and data types of the specified table.
    """
    query = f"""
        SELECT column_name, data_type
        FROM information_schema.columns
        WHERE table_name='{table_name}'
    """
    with engine.connect() as connection:
        return pd.read_sql(query, con=connection)

# explore the data in the tables
def get_table_data(table_name:str, engine, limit=5) -> pd.DataFrame:
    """
    Retrieves the data from a table in the database.

    Parameters:
    - table_name (str): The name of the table.
    - engine: The database engine object.
    - limit (int): The number of rows to retrieve.

    Returns:
    - pandas.DataFrame: A DataFrame containing the data from the specified table
    """

    query = f"SELECT * FROM {table_name} LIMIT {limit}"
    with engine.connect() as connection:
        return pd.read_sql(query, con=connection)

# Explora el schema de las diferentes tablas de manera individual y eficiente
def get_table_schema(table_name: str, engine) -> pd.DataFrame:
    """Retrieves the schema of a table from the database.

    Parameters:
    - table_name (str): The name of the table.
    - engine: The database engine object.

    Returns:
    - pandas.DataFrame: A DataFrame containing the column names and data types of the specified table.
    """

    query = f"""
        SELECT column_name, data_type
        FROM information_schema.columns
        WHERE table_name='{table_name}'
    """
    with engine.connect() as connection:
        return pd.read_sql(query, con=connection)

def get_tables(engine) -> pd.DataFrame:
    """Retrieves the names of all tables in the database.

    Parameters:
    - engine: The database engine object.
    
    Returns:
    - pandas.DataFrame: A DataFrame containing the names of all tables in the database.
    """

    query = """
        SELECT table_name
        FROM information_schema.tables
        WHERE table_schema='public'
    """
    with engine.connect() as connection:
        return pd.read_sql(query, con=connection)

def get_databases(engine) -> pd.DataFrame:
    """Retrieves the names of all databases in the database server.
    
    Parameters:
    - engine: The database engine object.

    Returns:
    - pandas.DataFrame: A DataFrame containing the names of all databases in the database server.
    """
    query = """
        SELECT datname
        FROM pg_database
        WHERE datistemplate = false;
    """
    with engine.connect() as connection:
        return pd.read_sql(query, con=connection)

## Connecting to a Database

In [None]:
# cargar archivo de configuración
with open('db_config.json') as f:
    db_config = json.load(f)

In [None]:
# crear conexión
connection_string = f"postgresql://{db_config['user']}:{db_config['pwd']}@{db_config['host']}:{db_config['port']}/{db_config['database']}"
print(connection_string)
engine = create_engine(
    connection_string, 
    connect_args={'sslmode':'require'}
    )

```python
# Explora las tablas de la base de datos
query = """SELECT table_name
           FROM information_schema.tables
           WHERE table_schema='public'
        """
tables = pd.io.sql.read_sql(query, con = engine)
tables
```

In [None]:
# discard engine
engine.dispose()

In [None]:
get_databases??

In [None]:
# Get the list of databases
get_databases(engine)

Cerrar una conexión a la base de datos cuando se ha terminado de usar es una práctica importante por varias razones:

### 1. **Gestión de Recursos**

- **Uso de Memoria**: Las conexiones a la base de datos consumen memoria y otros recursos del sistema. Mantener conexiones abiertas innecesariamente puede llevar al agotamiento de recursos, especialmente en entornos con recursos limitados.
- **Pooling de Conexiones**: Muchas aplicaciones utilizan el pooling de conexiones para gestionar las conexiones a la base de datos de manera eficiente. Si las conexiones no se cierran correctamente, el pool puede alcanzar su límite, causando fallos en las nuevas solicitudes de conexión.

### 2. **Rendimiento**

- **Utilización Eficiente de Recursos**: Las conexiones abiertas que no se están utilizando pueden ralentizar el servidor de la base de datos ya que necesita mantener estas conexiones, afectando el rendimiento general.
- **Reducción de Latencia**: Gestionar correctamente las conexiones asegura que los recursos estén disponibles para las consultas activas, reduciendo la latencia y mejorando los tiempos de respuesta de las aplicaciones.

### 3. **Concurrencia y Escalabilidad**

- **Límite de Conexiones Máximas**: La mayoría de las bases de datos tienen un número máximo de conexiones concurrentes. Exceder este límite puede causar fallos en los intentos de conexión, llevando a errores en la aplicación o rendimiento degradado.
- **Escalabilidad**: Gestionar eficientemente las conexiones permite al sistema manejar más usuarios y transacciones concurrentemente, mejorando la escalabilidad.

### 4. **Seguridad**

- **Prevención de Acceso No Autorizado**: Las conexiones abiertas pueden ser un riesgo de seguridad si no se gestionan adecuadamente. Cerrar las conexiones reduce el riesgo de acceso no autorizado o exposición involuntaria de datos.
- **Gestión de Sesiones**: Cerrar adecuadamente las conexiones ayuda a gestionar las sesiones de usuario de manera efectiva, asegurando que los controles de acceso y permisos se apliquen consistentemente.

### 5. **Integridad y Consistencia de los Datos**

- **Gestión de Transacciones**: Las conexiones abiertas pueden mantener bloqueos en recursos de la base de datos, potencialmente causando bloqueos o otros problemas que afectan la integridad y consistencia de los datos.
- **Asegurar Commit/Rollback**: Cerrar adecuadamente las conexiones asegura que las transacciones se confirmen o deshagan, manteniendo la consistencia de los datos.

### 6. **Manejo de Errores**

- **Recuperación Graciosa**: En caso de un error en la aplicación o un fallo, las conexiones abiertas pueden quedar en un estado indeterminado. Cerrar las conexiones ayuda a recuperarse de manera graciosa de los errores, asegurando que los recursos se liberen adecuadamente.

### Buenas Prácticas para Gestionar Conexiones a la Base de Datos

- **Usar Context Managers**: En Python, usar context managers (declaraciones with) asegura que las conexiones se cierren automáticamente cuando se salga del bloque.

  ```python
  from sqlalchemy import create_engine
  
  engine = create_engine('postgresql://username:password@host:port/database')
  
  with engine.connect() as connection:
      # Realizar operaciones de base de datos
      pass
  # La conexión se cierra automáticamente aquí
  ```

- **Pooling de Conexiones**: Utilizar el pooling de conexiones proporcionado por los controladores de bases de datos o librerías ORM para gestionar las conexiones de manera eficiente.

- **Cerrar Conexiones Explícitamente**: Si no se usan context managers, asegurar que las conexiones se cierren explícitamente en un bloque `finally` para garantizar el cierre incluso si ocurren excepciones.

  ```python
  connection = None
  try:
      connection = engine.connect()
      # Realizar operaciones de base de datos
  finally:
      if connection:
          connection.close()
  ```

Siguiendo estas prácticas, aseguras que las conexiones a la base de datos se gestionen de manera eficiente, llevando a un mejor rendimiento, escalabilidad, seguridad y confiabilidad general de la aplicación.

## Database exploration

In [None]:
# crear conexión
connection_string = f"postgresql://{db_config['user']}:{db_config['pwd']}@{db_config['host']}:{db_config['port']}/{db_config['database']}"

engine = create_engine(
    connection_string, 
    connect_args={'sslmode':'require'}
    )
tables = get_tables(engine)
tables

### Schemas

In [None]:
table_schemas = {
    table: get_table_schema(table, engine)
    for table in tables.table_name
}

printmd("### Schema de las tablas:")
for table, schema in table_schemas.items():
    printmd(f"_Tabla:_ **{table}**")
    display(schema)
    print("\n")

### Table data

In [None]:
table_data = {
    table: get_table_data(table, engine)
    for table in tables.table_name
}


# Show the first rows of data in the tables
printmd("### Datos de las tablas:")
for table, data in table_data.items():
    printmd(f"_Tabla:_ **{table}**")
    display(data)
    print("\n")

## Data validations