# <font color='green'>ITAM: Bases de datos</font>
### Profesor: Act Fernando Ortega  
###  Curso : DATA SCIENCE AND MACHINE LEARNING APPLIED TO FINANCIAL MARKETS  

### <span style="color:red">Conceptos básicos:</span>

### <span style="color:red">1.- Dato:</span>
Es la unidad mínima de información. Por sí solo, un dato puede no tener significado hasta que se interpreta en un contexto.

### Ejemplo:  
El número 24 puede ser un dato. No sabemos si es una edad, temperatura o cantidad de productos, hasta que se le da contexto.

### <span style="color:red">2.- Información:</span>
Es el resultado de procesar, organizar o interpretar datos. La información tiene sentido y utilidad para quien la consulta.

### Ejemplo:  
"El paciente tiene 24 años" es información, porque ahora el dato 24 tiene un significado claro dentro de un contexto médico.

### <span style="color:red">3.- Sistema de información:</span>
Es un conjunto organizado de personas, datos, procesos y tecnologías que recopilan, procesan y distribuyen información para apoyar la toma de decisiones.  

### Ejemplo:  
El sistema de información de una universidad que gestiona alumnos, calificaciones, materias y horarios.

### <span style="color:red">4.- Base de datos (BD):</span>
Es un conjunto organizado de datos relacionados que se almacenan de manera estructurada para facilitar su acceso, gestión y actualización.  

### Ejemplo:  
Una base de datos de clientes que contiene sus nombres, direcciones, teléfonos y correos electrónicos.



### <span style="color:red">5.-  Sistema Manejador de Bases de Datos (DBMS):</span>
Es un software que permite crear, administrar y manipular bases de datos de manera eficiente y segura.
### Ejemplo:  
MySQL, PostgreSQL, Oracle y SQLite son ejemplos de sistemas manejadores de bases de datos.



### Resumen:
* Los datos son la materia prima.

* Al ser organizados y procesados, se convierten en información útil.

* Esta información es usada por un sistema de información para apoyar decisiones.

* Los datos se almacenan en bases de datos, que permiten organizarlos de forma estructurada.



___________________

## **Def:**  
Una base de datos es una colección organizada de datos que se almacenan y se gestionan de forma estructurada, permitiendo su fácil acceso, manipulación y actualización mediante sistemas de gestión llamados Sistemas de Gestión de Bases de Datos (SGBD o DBMS por sus siglas en inglés).

Las bases de datos permiten:  

* Guardar información de manera persistente.

* Consultar datos rápidamente (con lenguajes como SQL).

* Modificar o eliminar registros con precisión y seguridad.

* Garantizar integridad, consistencia y seguridad de los datos.

**Para que sirven?**  

* Almacenamiento estructurado de información: Permiten guardar datos de forma organizada (por ejemplo, en tablas), facilitando su comprensión y manipulación.

* Acceso rápido y eficiente a los datos: Mediante lenguajes como SQL, se pueden hacer consultas para obtener exactamente la información que se necesita, sin tener que buscar manualmente.

* Manejo de grandes volúmenes de datos: Son capaces de gestionar millones de registros sin pérdida de rendimiento.

* Actualización y mantenimiento de datos: Se pueden modificar, eliminar o agregar registros fácilmente, manteniendo la integridad de la información.

* Seguridad y control de acceso: Se puede definir quién tiene permiso para ver o modificar qué parte de la información.

* Evitan la redundancia y aseguran la consistencia: Gracias al diseño adecuado (normalización), se evita duplicar información innecesariamente.

* Soporte para aplicaciones y sistemas: Son el núcleo de muchas aplicaciones: redes sociales, bancos, tiendas en línea, hospitales, universidades, etc.

### Tipos:  
#### 1.- Bases de datos relacionales (RDBMS)  
* Modelo: Tablas con filas y columnas.
* Lenguaje: SQL.
* Ejemplo: MySQL, PostgreSQL, Oracle.
* Uso típico: Aplicaciones empresariales, sistemas bancarios.


#### 2.-Bases de datos no relacionales (NoSQL): Diseñadas para manejar grandes volúmenes de datos no estructurados o semi-estructurados. Incluyen varios subtipos:  

* **Bases de datos de documentos**  
Modelo: Documentos tipo JSON o BSON.

Ejemplo: MongoDB, CouchDB.

Uso: Aplicaciones web, datos semiestructurados.



In [None]:
{
  "usuario": "fer_ortega",
  "email": "fer@ejemplo.com",
  "compras": ["libro", "laptop", "mouse"]
}

* **Bases de datos clave-valor**  
Modelo: Pares clave-valor (como un diccionario).

Ejemplo: Redis, DynamoDB.

Uso: Cachés, sesiones de usuario, sistemas de recomendación.



In [None]:
"usuario:102" → "fer_ortega"
"session:102" → "activa"
"carrito:102" → ["libro", "laptop"]

* **Bases de datos de grafos**  
Modelo: Nodos y relaciones (grafos).

Ejemplo: Neo4j, ArangoDB.

Uso: Redes sociales, motores de recomendación.



In [None]:
(Usuario: Fernando) ---[amigo]---> (Usuario: Laura)
        |
     [compra]
        ↓
     (Producto: Laptop)

* **Bases de datos en columnas**  
Modelo: Columnas en lugar de filas.

Ejemplo: Apache Cassandra, HBase.

Uso: Análisis de grandes volúmenes de datos, sistemas OLAP.

In [None]:
Filas: [1, Ana, 28, México], [2, Luis, 35, Monterrey]
    
Columnas: ID: [1, 2], Nombre: [Ana, Luis], Edad: [28, 35], Ciudad: [México, Monterrey]

### Resumen
##### SQL (Structured Query Language)
Es un lenguaje de consulta estructurado utilizado para interactuar con bases de datos relacionales. Con SQL puedes:  

* Crear, leer, actualizar y eliminar datos (CRUD).
* Diseñar tablas y esquemas.
* Realizar consultas complejas para analizar datos.  


SQL es el estándar que otros sistemas como MySQL, PostgreSQL o SQL Server implementan con ciertas variaciones.

##### MySQL
Es un sistema de gestión de bases de datos relacional (RDBMS) que usa SQL como lenguaje principal.  

MySQL es un software desarrollado inicialmente por MySQL AB (ahora propiedad de Oracle Corporation).  
Permite almacenar, organizar y gestionar datos.  
Es una de las bases de datos más populares para aplicaciones web.  


##### MySQL Workbench
Es una herramienta gráfica oficial para trabajar con bases de datos MySQL. Sirve como interfaz amigable para:  

* Diseñar y modelar bases de datos.
* Escribir y ejecutar consultas SQL sin necesidad de usar la línea de comandos.
* Visualizar y gestionar la estructura de las tablas, esquemas y datos.
* Realizar tareas administrativas como configuraciones y copias de seguridad.  

Esencialmente, es una herramienta que facilita la interacción con MySQL.



## Modelo entidad relación

El modelo entidad-relación (ER) es una metodología conceptual utilizada en el diseño de bases de datos que permite representar de manera clara y estructurada la información del mundo real, facilitando su posterior implementación en sistemas de bases de datos relacionales.   

Este modelo fue propuesto por Peter Chen en 1976 y se basa en la identificación de entidades, que representan objetos o conceptos del dominio a modelar (como personas, productos o eventos), y de relaciones, que definen la forma en que estas entidades se asocian entre sí. Cada entidad posee un conjunto de atributos que describen sus propiedades o características, mientras que las relaciones pueden incluir también atributos que detallan aspectos específicos de la asociación entre entidades. La estructura gráfica del modelo ER utiliza diagramas, conocidos como diagramas entidad-relación, donde las entidades se representan con rectángulos, los atributos con elipses y las relaciones con rombos, conectados mediante líneas que ilustran las cardinalidades y participaciones.   

Este enfoque permite no solo visualizar la organización lógica de los datos, sino también establecer reglas de integridad y restricciones que garantizan la coherencia y validez de la información en la base de datos. 


### Componentes  

* Entidad: Representa un objeto o concepto del mundo real que es distinguible y sobre el cual se desea almacenar información. Se representa gráficamente con un rectángulo.  

Ejemplo: Persona, Producto, Curso.

* Atributo: Son las propiedades o características que describen a una entidad o a una relación. Se representan con elipses conectadas a su entidad o relación.  

Ejemplo: Nombre, Edad, Precio.

* Clave primaria (Identificador): Es un atributo o conjunto de atributos que identifica de forma única a cada instancia de una entidad.  

Ejemplo: Número de matrícula para un alumno.

* Relación: Es una asociación entre dos o más entidades. Se representa con un rombo. Describe cómo las entidades están vinculadas.  

Ejemplo: Un alumno se inscribe en un curso.

* Cardinalidad: Indica el número mínimo y máximo de instancias de una entidad que pueden participar en una relación.  

Ejemplo: Uno a uno (1:1), uno a muchos (1:N), muchos a muchos (M:N).


* Atributos compuestos y derivados

1. Compuestos: Atributos formados por subpartes, por ejemplo, una dirección que se compone de calle, ciudad y código postal.

2. Derivados: Atributos que pueden calcularse a partir de otros, como la edad calculada a partir de la fecha de nacimiento.

#### Ejemplo

In [None]:
import pandas as pd

alumnos = pd.DataFrame({
    "id_alumno": [1, 2, 1],
    "nombre": ["Ana Torres", "Luis Pérez", "Clara Díaz"],
    "fecha_nacimiento": ["2003-04-22", "2002-11-15", "2004-01-05"]
})

In [None]:
alumnos

* alumnos es una entidad.

* "id_alumno", "nombre" y "fecha_nacimiento" son sus atributos.

* id_alumno es la clave primaria.

#### Relaciones

## 1. Uno a Uno (1:1)  

Cada entidad A se relaciona con una sola entidad B, y viceversa.  

**Ejemplo:**  
Una persona tiene un pasaporte.  

Un pasaporte pertenece a una sola persona.  
  
  
Representación:
Persona(1) ←→(1) Pasaporte

In [None]:
personas = pd.DataFrame({
    "id_persona": [1, 2 , 3],
    "nombre": ["Ana", "Luis", "pedro"]
})

pasaportes = pd.DataFrame({
    "id_pasaporte": [101, 102,103],
    "id_persona": [1, 2, 3]  # cada pasaporte tiene una sola persona asociada
})

In [None]:
# JOIN (merge) por la columna 'id_persona'

resultado = pd.merge(personas, pasaportes, on="id_persona")

resultado

## 2. Uno a Muchos (1:N)

Una entidad A se relaciona con muchas entidades B, pero cada entidad B se relaciona con una sola entidad A.  

**Ejemplo:**  
* Un profesor puede dar muchas materias.

* Cada materia tiene un solo profesor. 
  
  
Representación:  

Profesor(1) ←→(N) Materia

In [None]:
profesores = pd.DataFrame({
    "id_profesor": [1, 2],
    "nombre": ["Mario", "Lucía"]
})

materias = pd.DataFrame({
    "id_materia": [101, 102, 103],
    "nombre": ["Matemáticas", "Física", "Química"],
    "id_profesor": [1, 1, 2]  # varias materias pueden tener el mismo profesor
})

In [None]:
# Hacemos el JOIN usando 'id_profesor'
resultado = pd.merge(materias, profesores, on="id_profesor", suffixes=('_materia', '_profesor'))

resultado

## 3. Muchos a Muchos (N:M)

Muchas entidades A se pueden relacionar con muchas entidades B.  

**Ejemplo:** 

* Un estudiante puede inscribirse en varias materias.

* Una materia puede tener muchos estudiantes.  


Representación:  

Estudiante(N) ←→(M) Materia  

Este tipo de relación generalmente se implementa con una tabla intermedia.

In [None]:
estudiantes = pd.DataFrame({
    "id_estudiante": [1, 2],
    "nombre": ["Ana", "Luis"]
})

materias = pd.DataFrame({
    "id_materia": [101, 102],
    "nombre": ["Historia", "Biología"]
})

inscripciones = pd.DataFrame({
    "id_estudiante": [1, 1, 2],
    "id_materia": [101, 102, 101]  # relaciones múltiples
})

In [None]:
resultado = (
    inscripciones
    .merge(estudiantes, on="id_estudiante")
    .merge(materias, on="id_materia", suffixes=('_estudiante', '_materia'))
)

In [None]:
resultado

## Integridad de una base de datos

### Restricción de NO NULIDAD (NOT NULL)  

Descripción: Evita que un campo quede vacío. Obliga a que cada registro tenga un valor en ese atributo.  

Ejemplo: En una tabla de personas, el nombre no puede ser nulo:

In [None]:
import numpy as np

personas = pd.DataFrame({
    "id_persona": [1, 2, 3, 4],
    "nombre": ["Ana", "Luis", "Marta", None],
    "edad": [25, None, 40, 35],
    "email": ["ana@email.com", None, "marta@email.com", "luis@email.com"]
})

personas

In [None]:
(25+40+35)/3

In [None]:
personas["edad"].mean()

### Restricción de CLAVE PRIMARIA (PRIMARY KEY)

Descripción: Identifica de manera única cada fila de una tabla. No puede tener valores nulos ni duplicados.


In [None]:
compras = pd.DataFrame({
    "id_cliente": [1, 2, 1, 3],
    "producto": ["Laptop", "Celular", "Mouse", "Tablet"],
    "monto": [15000, 8000, 500, 6000]
})

compras

In [None]:
compras[compras.id_cliente==1]["monto"]

### Restricción de CLAVE FORÁNEA (FOREIGN KEY)

Descripción: Establece una relación de referencia entre dos tablas. Garantiza que el valor en una columna exista previamente como valor en otra tabla (integridad referencial).


In [None]:
# Tabla clientes
clientes = pd.DataFrame({
    "id_cliente": [1, 2, 3],
    "nombre": ["Ana", "Luis", "Marta"]
})

# Tabla ordenes (sin respetar integridad referencial)
ordenes = pd.DataFrame({
    "id_orden": [100, 101, 102],
    "id_cliente": [1, 4, 2],  # Nota que 4 no existe en clientes
    "producto": ["Laptop", "Tablet", "Celular"]
})

print("Clientes:\n", clientes)
print("\nÓrdenes:\n", ordenes)

La orden con id_orden = 101 tiene id_cliente = 4, pero ese cliente no existe en la tabla clientes.

Esto rompe la integridad referencial, ya que la orden referencia a un cliente inexistente.

En un sistema real, esto puede causar:

Consultas erróneas o resultados incorrectos.

Problemas para enlazar datos.

Errores al tratar de mostrar información completa o realizar análisis.

## Una clave foránea (foreign key) en una tabla debe referenciar a una clave primaria, garantizando así la integridad referencial. Esto significa que cada valor presente en la columna (o conjunto de columnas) definida como clave foránea debe existir previamente como un valor válido en la tabla referenciada.

### Restricción de DOMINIO (CHECK)  

Descripción: Limita los valores que puede tomar un atributo a un conjunto permitido.


In [None]:
personas = pd.DataFrame({
    "id_persona": [1, 2, 3, 4],
    "nombre": ["Ana", "Luis", "Marta", "Carlos"],
    "edad": [25, -25, 130, 40]  # -5 y 130 no son edades válidas
})

print(personas)

In [None]:
personas["edad"].mean()

In [None]:
pd.Series([25, 25, 13, 40]).mean()

## Normalización

Las reglas de normalización son un conjunto de principios en diseño de bases de datos que ayudan a organizar los datos para reducir la redundancia y evitar problemas de inconsistencia. Estas reglas se dividen en formas normales, y cada forma normal impone ciertas condiciones. 

**Primera Forma Normal (1NF)**  

Regla:Todos los atributos deben contener valores atómicos (no divisibles) y cada campo debe contener solo un valor por registro.  

Qué evita:  Listas o arrays dentro de una celda (como tener varios teléfonos en una misma columna).

In [None]:
# Tabla sin cumplir 1NF (valores no atómicos en 'telefonos')
personas = pd.DataFrame({
    "id_persona": [1, 2],
    "nombre": ["Ana", "Luis"],
    "direccion": ["puente de aduana,iztapalapa,cdmx", "puente de guerra,tlalpan,cdmx"]
})

personas

In [None]:
personas['direccion'].str.split()

In [None]:
personas['direccion'].str.split(",")

In [None]:
personas['direccion'].str.split(",",expand=True)

In [None]:
### solución

# Dividir la columna 'direccion' en tres nuevas columnas
personas[['calle', 'delegacion', 'municipio']] = personas['direccion'].str.split(',', expand=True)

personas.drop("direccion",axis=1)

**Segunda Forma Normal (2NF)**  

Regla:Todos los atributos no clave deben depender completamente de toda la clave primaria, no de una parte.

Qué evita:  Dependencias parciales en claves compuestas.

In [None]:
# Tabla que viola la 2NF:  Id: (id_estudiante, id_materia)
calificaciones = pd.DataFrame({
    "id_estudiante": [1, 1, 2],
    "id_materia": [101, 102, 101],
    "nombre_estudiante": ["Ana", "Ana", "Luis"],
    "calificacion": [90, 85, 88]
})

calificaciones

* nombre_estudiante depende solo de id_estudiante, no de la clave completa (id_estudiante, id_materia).

* Esto causa redundancia: el nombre de Ana aparece repetido varias veces.

* Si Ana cambia de nombre (por ejemplo, se corrige a "Ana María"), habría que actualizar varias filas, generando anomalías.

In [None]:
estudiantes = calificaciones[["id_estudiante", "nombre_estudiante"]].drop_duplicates().reset_index(drop=True)
estudiantes

In [None]:
calificaciones_norm = calificaciones.drop(columns=["nombre_estudiante"])
calificaciones_norm

¿Cómo arreglarlo para que esté en 2NF?
Separar las tablas para eliminar dependencias parciales:

Tabla Estudiantes — con información del estudiante (id_estudiante, nombre_estudiante)

Tabla Calificaciones — con las calificaciones (id_estudiante, id_materia, calificacion)

* Se evita la repetición del nombre del estudiante.

* Si el nombre cambia, solo se actualiza en una fila (en la tabla estudiantes).

* Se mejora la integridad y reduce anomalías.

**Tercera Forma Normal (3NF)**  

Regla:Los atributos no clave deben depender únicamente de la clave primaria, no entre sí.

Qué evita:  Dependencias transitivas (A → B y B → C implica A → C, lo cual debe evitarse en una tabla).

Supongamos una tabla con información de empleados, donde la clave primaria es id_empleado, y tiene los siguientes atributos:  

* departamento_id: identifica el departamento donde trabaja el empleado.

* departamento_nombre: nombre del departamento.

El problema es que departamento_nombre depende de departamento_id, que a su vez depende de id_empleado. Esto es una dependencia transitiva, porque:id_empleado → departamento_id → departamento_nombre

In [None]:
empleados = pd.DataFrame({
    "id_empleado": [1, 2, 3],
    "nombre": ["Ana", "Luis", "Marta"],
    "departamento_id": [10, 20, 10],
    "departamento_nombre": ["Ventas", "Marketing", "Ventas"]
})

empleados

* departamento_nombre depende del departamento_id, no directamente del id_empleado, la clave primaria.

* Si el nombre del departamento cambia, debe actualizarse en todas las filas, lo que genera redundancia y riesgo de inconsistencias.

In [None]:
empleados_norm = empleados.drop(columns=["departamento_nombre"])

empleados_norm

In [None]:
departamentos = empleados[["departamento_id", "departamento_nombre"]].drop_duplicates().reset_index(drop=True)
departamentos

* El nombre del departamento se almacena en un solo lugar.

* Se evita redundancia y errores por actualización múltiple.

* Se mejora la integridad de los datos.

### Buen ser de un conjunto relacionado

### Tablas:
* Estudiantes

1. id_estudiante (clave primaria)

2. nombre

3. fecha_nacimiento

* Materias

1. id_materia (clave primaria)

2. nombre_materia

* Calificaciones

1. id_estudiante (clave foránea referenciando a Estudiantes)

2. id_materia (clave foránea referenciando a Materias)

3. calificacion

4. Clave primaria compuesta: (id_estudiante, id_materia)

In [None]:
# Tabla Estudiantes
estudiantes = pd.DataFrame({
    "id_estudiante": [1, 2, 3],
    "nombre": ["Ana", "Luis", "Marta"],
    "fecha_nacimiento": ["2000-01-01", "1999-05-12", "2001-08-20"]
})

# Tabla Materias
materias = pd.DataFrame({
    "id_materia": [101, 102],
    "nombre_materia": ["Matemáticas", "Física"]
})

# Tabla Calificaciones
calificaciones = pd.DataFrame({
    "id_estudiante": [1, 1, 2, 3],
    "id_materia": [101, 102, 101, 102],
    "calificacion": [90, 85, 88, 92]
})

* Integridad de clave primaria:

1. id_estudiante en Estudiantes es único y no nulo.

2. id_materia en Materias es único y no nulo.

3. (id_estudiante, id_materia) en Calificaciones es una clave primaria compuesta (cada combinación única).

* Integridad referencial:

1. Las claves foráneas id_estudiante y id_materia en Calificaciones referencian a valores existentes en Estudiantes y Materias respectivamente.

* Primera Forma Normal (1NF):

1. Todos los atributos son atómicos (un solo valor por celda).

* Segunda Forma Normal (2NF):

1. No hay dependencias parciales porque calificacion depende de la clave completa (id_estudiante, id_materia).

2. Los atributos en Estudiantes y Materias dependen únicamente de sus claves primarias simples.

* Tercera Forma Normal (3NF):

1. No existen dependencias transitivas. Por ejemplo, no hay atributos que dependan de otros atributos no clave dentro de las tablas.

### Descargar mysql (solo SQLalchemy) -- https://dev.mysql.com/downloads/mysql/
### Descargar workbench: Interfaz -- https://dev.mysql.com/downloads/workbench/

## Conectando python a nuestro SMBD

Para esta parte del curso, aplicaremos lo aprendido en POO asi como conceptos previos de bases de datos aplicadolo directamente desde el entorno python, con lo que se podran crear tablas, actualizar, eliminar, hacer consultas entre un sin fin de posibilidades más.  Para trabajar utilizaremos los módulos de SQLAlchemy

### OMR
Un ORM (Object-Relational Mapper) es una librería o herramienta que facilita la interacción entre un lenguaje de programación orientado a objetos y una base de datos relacional. Permite manipular las tablas de la base de datos como si fueran objetos del programa, traduciendo automáticamente las operaciones sobre objetos (crear, leer, actualizar, eliminar) en consultas SQL sobre las tablas correspondientes.  

Generalmente, cada tabla de la base de datos se corresponde con una clase en el programa, cada fila de la tabla con una instancia (objeto) de esa clase, las columnas con los atributos del objeto, y las claves foráneas (foreign keys) con las relaciones entre clases. Esto simplifica el desarrollo, mejora la mantenibilidad del código y reduce errores al evitar la escritura manual de consultas SQL.

### SQLALCHEMY

SQLAlchemy es una biblioteca de Python que proporciona un conjunto completo de herramientas para trabajar con bases de datos relacionales. Principalmente, funciona como un Object-Relational Mapper (ORM) que permite a los desarrolladores interactuar con bases de datos usando objetos y clases de Python en lugar de escribir directamente consultas SQL. Además, SQLAlchemy ofrece una capa de abstracción para generar consultas SQL de manera programática y eficiente, soportando múltiples motores de bases de datos como SQLite, MySQL, PostgreSQL, Oracle, entre otros.  

Su diseño modular permite tanto el uso del ORM para mapeo objeto-relacional como el uso del SQL Expression Language, que facilita la construcción de consultas SQL más flexibles y complejas sin abandonar Python.

SQLAlchemy proporciona una interfaz estandarizada para comunicarse con distintos drivers específicos de cada base de datos. Esto significa que, al utilizar SQLAlchemy, no interactuamos directamente con la API nativa del motor de base de datos, sino que lo hacemos a través de una capa de abstracción que unifica la comunicación. Gracias a esta característica, es posible cambiar el motor de base de datos sin que sea necesario modificar significativamente el código de la aplicación.  


Para utilizar SQLAlchemy con un motor específico, es necesario instalar el driver correspondiente que implemente dicha interfaz estandarizada. 
Un driver es un componente de software que actúa como intermediario entre una aplicación y el motor específico de una base de datos. Cada sistema de gestión de bases de datos (como PostgreSQL, MySQL, Oracle, etc.) tiene su propio protocolo y formato para recibir consultas, procesarlas y devolver resultados.

SQLAlchemy, aunque ofrece una interfaz unificada para trabajar con diferentes bases de datos, no implementa directamente la comunicación con cada tipo de motor. En su lugar, delega esta tarea en drivers específicos que saben cómo "hablar" el lenguaje nativo de cada base de datos.

Por ello, para que SQLAlchemy pueda enviar consultas y recibir datos correctamente, necesita que se instale un driver compatible con la base de datos que se desea utilizar. Este driver traduce las operaciones de SQLAlchemy a comandos que la base de datos entiende y viceversa.

Algunos ejemplos comunes incluyen:  

* psycopg para PostgreSQL

* mysql-connector para MySQL

* cx_Oracle para Oracle



El primer paso para trabajar con SQLAlchemy es crear un engine, que representa el punto de entrada para la comunicación con la base de datos. El engine permite a SQLAlchemy establecer conexión con la base de datos y manejar la interacción con esta.  

El engine es responsable principalmente de dos aspectos fundamentales:  

* El pool de conexiones, que gestiona eficientemente las conexiones activas para mejorar el rendimiento.

* El dialecto, que es la adaptación del lenguaje SQL y las características específicas del motor de base de datos que se está utilizando.

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
!!pip install PyMySQL

In [None]:
!!pip install sqlalchemy

In [None]:
# Importamos la función create_engine de la librería SQLAlchemy,
# que se utiliza para crear el "engine" o motor de conexión a la base de datos

from sqlalchemy import create_engine, text

# Creamos el engine para conectarnos a la base de datos MySQL utilizando el driver pymysql.

# La cadena de conexión tiene la siguiente estructura:
# 'dialecto+driver://usuario:contraseña@host[:puerto]/nombre_base_de_datos'

# En este caso:
# dialecto+driver = mysql+pymysql  --> Usamos MySQL con el driver pymysql
# usuario = root                  --> Nombre de usuario para la base de datos
# contraseña = 1995              --> Contraseña del usuario
# host = localhost               --> Dirección del servidor de la base de datos (local)

engine = create_engine('mysql+pymysql://root:1995@localhost')

# Nota: En esta cadena no se especifica el puerto ni el nombre de la base de datos,
# por lo que se usará el puerto por defecto (3306) y no se selecciona una base de datos específica.
# engine = create_engine('mysql+pymysql://root:1995@localhost:3307/mi_base')

In [None]:
# Abre una conexión al motor de base de datos usando un contexto "with",
# lo que garantiza que la conexión se cierre automáticamente al finalizar el bloque
with engine.connect() as connection:
    
    # Ejecuta una sentencia SQL para crear una base de datos llamada "ejemplo_alchemy3"
    # La función text() se usa para envolver la cadena SQL y que SQLAlchemy la reconozca como tal
    connection.execute(text("CREATE DATABASE ejemplo_alchemy3"))
    
    # Confirma (hace permanentes) los cambios realizados en la base de datos dentro de esta transacción
    connection.commit()


In [None]:
# Abre una conexión al motor de base de datos usando un contexto "with",
# asegurando que la conexión se cierre automáticamente al finalizar el bloque
with engine.connect() as connection:
    
    # Ejecuta una sentencia SQL para eliminar la base de datos llamada "ejemplo_alchemy3"
    # Solo elimina si la base de datos existe, gracias a la cláusula IF EXISTS
    connection.execute(text("DROP DATABASE IF EXISTS ejemplo_alchemy3"))
    
    # Confirma (hace permanentes) los cambios realizados en la base de datos dentro de esta transacción
    connection.commit()

### Dialectos de base de datos

Aunque el lenguaje SQL es un estándar ampliamente aceptado y utilizado para la gestión y manipulación de bases de datos relacionales, en la práctica cada sistema gestor de bases de datos (como MySQL, PostgreSQL, Oracle o SQL Server) implementa su propia variante o extensión del lenguaje. Estas diferencias incluyen variaciones en la sintaxis, funciones soportadas, tipos de datos, y comportamientos específicos, lo que se denomina comúnmente como dialecto SQL. Manejar directamente estas diferencias puede complicar el desarrollo de aplicaciones que deben ser compatibles con múltiples motores de bases de datos. 

En este contexto, una de las principales ventajas de utilizar una herramienta como SQLAlchemy radica en su capacidad para abstraer y gestionar automáticamente estas diferencias. El componente central llamado engine detecta y configura el dialecto apropiado según el motor de base de datos con el que se está conectando, traduce las operaciones realizadas en Python al SQL específico requerido, y maneja las peculiaridades de cada sistema. Esto permite que los desarrolladores escriban código independiente del motor, facilitando la portabilidad y reduciendo la complejidad en la administración de bases de datos heterogéneas.

### Sesiones  

Una vez creado el engine, el siguiente paso fundamental es establecer una sesión, que en términos de bases de datos puede entenderse como una unidad de trabajo o transacción. 
Una sesión agrupa un conjunto de operaciones que deben ejecutarse de manera atómica, es decir, que todas las modificaciones realizadas dentro de la sesión se aplican en conjunto o, en caso de producirse algún error, ninguna de ellas se ejecuta, asegurando la integridad de los datos. Desde la perspectiva de SQLAlchemy, la sesión actúa como un intermediario que lleva un registro exhaustivo de los objetos que han sido creados, modificados o eliminados durante su ciclo de vida. Cuando la sesión se confirma mediante un commit, todas estas operaciones pendientes se sincronizan y reflejan en la base de datos, garantizando que la información esté consistente y actualizada. En caso contrario, si se detecta una falla, la sesión puede revertir los cambios realizados, preservando así la estabilidad y confiabilidad del sistema.

In [None]:
# Importa la función create_engine para crear el motor de conexión a la base de datos
from sqlalchemy import create_engine

# Importa sessionmaker, que es una fábrica para crear objetos sesión
from sqlalchemy.orm import sessionmaker

# Crea el engine que representa la conexión al motor de base de datos MySQL
# usando el driver pymysql, apuntando a la base de datos "ejemplo_alchemy"
engine = create_engine('mysql+pymysql://root:1995@localhost/ejemplo_alchemy3')

# Crea una clase Session configurada para usar el engine creado
# Esto permite crear nuevas sesiones vinculadas a ese engine
Session = sessionmaker(bind=engine)

# Instancia una sesión concreta que será usada para interactuar con la base de datos
session = Session()

# Creando los modelos

En SQLAlchemy, los modelos son clases de Python que representan las tablas de la base de datos. Cada modelo define la estructura de una tabla, incluyendo sus columnas y relaciones, de forma que se pueda trabajar con los datos mediante objetos en lugar de consultas SQL directas.  

Dado que estamos utilizando un Object Relational Mapper (ORM), es necesario crear un modelo (clase) para cada tabla que deseamos replicar o manipular en la base de datos. Esta clase actúa como una plantilla que SQLAlchemy utiliza para mapear automáticamente entre instancias de objetos Python y filas en la tabla correspondiente.  
 
Para facilitar este proceso de mapeo bidireccional —desde la clase a la tabla y viceversa— SQLAlchemy proporciona una clase base especial, comúnmente llamada Base. Esta clase base implementa la lógica necesaria para que las definiciones de las clases (modelos) se asocien automáticamente con las tablas de la base de datos, manejando aspectos como la creación de esquemas, la asignación de columnas y la gestión de relaciones entre tablas.  
  
Al heredar de esta clase base en cada modelo, se habilita esta funcionalidad automática, permitiendo que las operaciones realizadas sobre los objetos se reflejen directamente en la base de datos y que las consultas SQL generen objetos Python de forma transparente.  

In [None]:
# Importamos create_engine para establecer la conexión con la base de datos
from sqlalchemy import create_engine

# Importamos declarative_base para definir la clase base de los modelos
from sqlalchemy.orm import declarative_base

# Importamos sessionmaker para crear sesiones que manejarán las operaciones con la base de datos
from sqlalchemy.orm import sessionmaker

# ---------------------------
# Configuración del engine
# ---------------------------
# El engine es el punto de entrada para la comunicación con la base de datos.
# Parámetros del connection string:
# dialecto+driver://usuario:contraseña@host:puerto/nombre_base_de_datos
engine = create_engine('mysql+pymysql://root:1995@localhost/ejemplo_alchemy3')

# ---------------------------
# Configuración de la sesión
# ---------------------------
# sessionmaker crea una clase generadora de sesiones, ligada al engine configurado.
Session = sessionmaker(bind=engine)

# Creamos una instancia concreta de sesión para realizar operaciones (consultas, inserciones, etc.)
session = Session()

# ---------------------------
# Definición de la clase base para los modelos
# ---------------------------
# Declarative_base provee una clase base que nuestros modelos heredarán para permitir el mapeo
# automático entre las clases de Python y las tablas de la base de datos.
Base = declarative_base()


Se ha creado una clase llamada Base mediante la función declarative_base(). Esta clase actúa como la clase base de la que heredarán todos los modelos definidos. Gracias a esta herencia, cada modelo puede aprovechar la funcionalidad que permite el mapeo automático entre las clases de Python y las tablas de la base de datos, utilizando la metainformación contenida en los atributos de clase, el nombre de la clase y otros detalles específicos de cada modelo.

In [None]:
#Dependiendo de la estructura de nuestras tablas tenemos que importar de sqlalchemy las
#propiedades necesarias
from sqlalchemy import Column, Integer, String, Float , CHAR , Date , Text, CheckConstraint,ForeignKey
from datetime import date

### Crearemos un molde con el ejemplo de una tabla que guardara información sobre bonos

In [None]:
from sqlalchemy.orm import relationship
from sqlalchemy.orm import declarative_base

Base = declarative_base()

class Cliente(Base):
    __tablename__ = 'cliente'
    
    # ID único para cada cliente (clave primaria)
    id = Column(Integer, primary_key=True)
    
    # Nombre del cliente, obligatorio, máximo 100 caracteres
    nombre = Column(String(100), nullable=False)
    
    # Email único y obligatorio del cliente
    email = Column(String(100), nullable=False, unique=True)
    
    # Fecha de registro del cliente, obligatorio
    fecha_registro = Column(Date, nullable=False)
    
    # Relación con Sucursal (un cliente puede pertenecer a una sucursal)
    sucursal_id = Column(Integer, ForeignKey('sucursal.id'), nullable=False)
    
    # Relación inversa para acceder a la sucursal desde cliente
    sucursal = relationship("Sucursal", back_populates="clientes")
    
    # Restricciones adicionales para validar datos
    __table_args__ = (
        CheckConstraint("length(nombre) > 0", name="ck_cliente_nombre_no_vacio"),
        CheckConstraint("email LIKE '%_@_%._%'", name="ck_cliente_email_formato"),
    )

class Sucursal(Base):
    __tablename__ = 'sucursal'
    
    # ID único para cada sucursal (clave primaria)
    id = Column(Integer, primary_key=True)
    
    # Nombre de la sucursal, obligatorio, máximo 50 caracteres
    nombre = Column(String(50), nullable=False)
    
    # Dirección de la sucursal, obligatorio, máximo 200 caracteres
    direccion = Column(String(200), nullable=False)
    
    # Relación inversa para acceder a todos los clientes de esta sucursal
    clientes = relationship("Cliente", back_populates="sucursal")
    
    # Restricciones para validar datos
    __table_args__ = (
        CheckConstraint("length(nombre) > 0", name="ck_sucursal_nombre_no_vacio"),
        CheckConstraint("length(direccion) > 0", name="ck_sucursal_direccion_no_vacio"),
    )


In [None]:
# ============================================================
#   RESUMEN DE VALIDACIONES CHECK MÁS UTILIZADAS (SQLAlchemy)
# ============================================================
#
# 1. Comparaciones numéricas
#    "campo > valor"          Mayor que
#    "campo >= valor"         Mayor o igual que
#    "campo < valor"          Menor que
#    "campo <= valor"         Menor o igual que
#    "campo = valor"          Igualdad
#    "campo <> valor"         Diferente
#    "campo BETWEEN x AND y"  Rango permitido
#
# 2. Validaciones contra listas de valores
#    "campo IN ('A','B','C')"       El valor debe estar en la lista
#    "campo NOT IN ('A','B','C')"   El valor no debe estar en la lista
#
# 3. Validaciones basadas en texto (patrones)
#    "campo LIKE 'Texto%'"          Comienza con 'Texto'
#    "campo LIKE '%Texto'"          Termina con 'Texto'
#    "campo LIKE '%Texto%'"         Contiene 'Texto'
#    "campo LIKE '__abc'"           Dos caracteres cualesquiera antes de 'abc'
#    "length(campo) > 0"            El texto no debe ser vacío
#
# 4. Validaciones compuestas (lógicas)
#    "(campo > 0 AND otro > 0)"
#    "(campo IN ('X','Y') OR otro = 1)"
#    "(campo LIKE '%@%' AND campo LIKE '%.%')"    Validación mínima de email
#
# 5. Validaciones comunes de campos tipo email
#    "email LIKE '%_@_%._%'"        Formato mínimo válido
#    "length(email) > 5"            Longitud mayor que 5
#
# 6. Validaciones usuales de campos obligatorios
#    "length(campo) > 0"
#    "campo <> ''"                  Evitar cadenas vacías
#    "campo IS NOT NULL"            Normalmente no va en CHECK, sino en nullable=False
#
# 7. Validaciones típicas de límites numéricos
#    "monto > 0"
#    "edad BETWEEN 1 AND 120"
#    "porcentaje BETWEEN 0 AND 1"
#

En SQL, para validar datos o hacer consultas, puedes usar comparaciones simples como A = B o C <> z para igualdad y diferencia; operadores IN y NOT IN para verificar si un valor está o no dentro de un conjunto específico; BETWEEN para checar que un valor numérico o fecha esté dentro de un rango inclusivo; comparaciones numéricas como A < 0 para dominio de valores; y LIKE con los comodines % (cualquier cantidad de caracteres) y _ (un solo carácter) para buscar patrones en texto. Estas condiciones pueden usarse en sentencias CHECK al crear tablas para asegurar integridad de datos, o en cláusulas WHERE para filtrar resultados en consultas.

In [None]:
# Crea todas las tablas definidas en las clases que heredan de Base
# La función metadata.create_all() usa el engine para ejecutar las sentencias
# de creación de tablas en la base de datos (en este caso MySQL).

# Nota importante:
# - Si las tablas ya existen, esta función no las vuelve a crear ni reemplaza,
#   simplemente ignora las tablas existentes para evitar errores.
# - No se debe intentar crear tablas con el mismo nombre varias veces sin antes
#   eliminarlas o modificar el esquema, ya que SQL lanzaría un error.
Base.metadata.create_all(engine)

In [None]:
# Crear sucursales
sucursal1 = Sucursal(nombre="Sucursal Centro", direccion="Av. Reforma 123, CDMX")
sucursal2 = Sucursal(nombre="Sucursal Norte", direccion="Calle 5 de Mayo 456, CDMX")

In [None]:


# Agregarlas a la sesión
session.add_all([sucursal1, sucursal2])
session.commit()  # Se requiere para que obtengan IDs

In [None]:
# Crear clientes asociados a las sucursales
cliente1 = Cliente(
    nombre="Juan Pérez",
    email="juan.perez@email.com",
    fecha_registro=date(2025, 7, 18),
    sucursal_id=sucursal1.id
)

cliente2 = Cliente(
    nombre="Ana Gómez",
    email="ana.gomez@email.com",
    fecha_registro=date(2025, 7, 17),
    sucursal_id=sucursal1.id
)

cliente3 = Cliente(
    nombre="Carlos Díaz",
    email="carlos.diaz@email.com",
    fecha_registro=date(2025, 7, 16),
    sucursal_id=sucursal2.id
)

# Agregar clientes a la sesión
session.add_all([cliente1, cliente2, cliente3])
session.commit()

In [None]:
session.close()

In [None]:
### si tuvieramos un DF

# Conexión a la base
engine = create_engine('mysql+pymysql://root:1995@localhost/ejemplo_alchemy3')
Session = sessionmaker(bind=engine)
session = Session()

# Leer CSV
df = pd.read_csv('clientes.csv')

# Iterar sobre filas y crear objetos Cliente
clientes = []
for _, row in df.iterrows():
    cliente = Cliente(
        nombre=row['nombre'],
        email=row['email'],
        fecha_registro=datetime.strptime(row['fecha_registro'], '%Y-%m-%d').date(),
        sucursal_id=row['sucursal_id']
    )
    clientes.append(cliente)

# Agregar todos de una vez
session.add_all(clientes)
session.commit()


In [None]:
import pandas as pd

In [None]:
engine = create_engine('mysql+pymysql://root:1995@localhost/ejemplo_alchemy3')

In [None]:
#connection = engine.raw_connection()

In [None]:
#pd.read_sql("SELECT * FROM sucursal", connection)
pd.read_sql("SELECT * FROM sucursal", engine)

In [None]:
pd.read_sql("SELECT * FROM cliente", engine)

# clase para conectar y consultar tablas

Para consultar una base de datos desde Pandas, solo se requiere contar con un engine de conexión y tener importada la librería. Con estos dos elementos, es posible realizar consultas a cualquier tabla dentro de la base de datos, de manera eficiente y flexible.

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
# Importa la función create_engine de SQLAlchemy, necesaria para crear una conexión con la base de datos.
from sqlalchemy import create_engine

# Importa la biblioteca pandas, que permite trabajar con datos en estructuras tipo DataFrame.
import pandas as pd                    

# Importa la clase datetime del módulo datetime, útil para trabajar con fechas y horas.
from datetime import datetime   

# Crea un engine de conexión a una base de datos MySQL llamada 'banco_base'.
# Usa el usuario 'root', la contraseña '1995', y se conecta al servidor local (localhost).
engine = create_engine('mysql+pymysql://root:1995@localhost/banco_base')

# Establece una conexión directa y sin procesar con la base de datos utilizando el engine.
# Esto puede ser útil para ejecutar procedimientos almacenados o usar cursores manuales.
connection = engine.raw_connection()  # Nota: el nombre usado debe coincidir con el engine creado


In [None]:
tarjetS = pd.read_sql("SELECT * FROM tarjetas", engine)

In [None]:
tarjetS

In [None]:
engine

In [None]:
base = pd.read_sql("SELECT * FROM tarjetas", engine)

In [None]:
base

In [None]:
base[base.tipo=="Credito"][["tipo","cliente"]]

Es posible definir una clase genérica para realizar futuras consultas, lo que permite mantener la integridad del proceso y facilitar la parametrización de los argumentos necesarios para construir el engine de conexión.

In [None]:
# Clase para realizar consultas básicas a una base de datos y sus tablas
class BasicQueries:
    def __init__(self, credentials):
        """
        Inicializa la clase con un diccionario de credenciales y establece la conexión.
        """
        self.isConnected = False
        self.credentials = credentials

        # Construcción de la cadena de conexión a partir del diccionario de credenciales
        self.engstr = (
            f"{self.credentials['servidor']}://"
            f"{self.credentials['user']}:{self.credentials['user_pwd']}@"
            f"{self.credentials['IP/localhost']}/{self.credentials['db']}"
        )
        self.connect()

    def connect(self):
        """
        Establece la conexión a la base de datos usando SQLAlchemy.
        """
        try:
            self.engine = create_engine(self.engstr)
            self.conn = self.engine.raw_connection()
            self.isConnected = True
        except Exception as e:
            print(f"No se pudo conectar a la base de datos. Error: {e}")

    def consultar_tablas(self):
        """
        Consulta las tablas disponibles en la base de datos.
        """
        return pd.read_sql(f"SHOW TABLES FROM {self.credentials['db']}", self.engine)

    def consultar_esquema(self, tabla):
        """
        Consulta el esquema de una tabla específica: nombres de columnas, tipo de datos y si permite nulos.
        """
        return pd.read_sql(
            f"""
            SELECT column_name, data_type, is_nullable 
            FROM information_schema.columns 
            WHERE table_name = '{tabla}'
            """,
            self.engine
        )

    def consultar_primeras_filas(self, tabla):
        """
        Consulta las primeras 5 filas de una tabla.
        """
        return pd.read_sql(f"SELECT * FROM {tabla} LIMIT 5", self.engine)

    def query(self, query):
        """
        Ejecuta cualquier consulta SQL y devuelve el resultado como DataFrame.
        """
        return pd.read_sql(query, self.engine )


#### Credenciales o argumentos de nuestro engine

In [None]:
credentials = {
    "servidor" : "mysql+pymysql",
    "user" : "root",
    "user_pwd" : "1995",
    "IP/localhost" : "localhost",
    "db" : "banco_base"
}


Instanciamos clase

In [None]:
# instanciamos la clase con las credenciales
Q = BasicQueries(credentials)

In [None]:
Q.isConnected

Validamos los métodos

In [None]:
#Realizamos las consultas con el objeto que instancia el engine
pd.read_sql("Select * from tarjetas",Q.engine)

In [None]:
Q.consultar_tablas()

In [None]:
Q.consultar_esquema("clientes")

In [None]:
Q.consultar_primeras_filas("clientes")

In [None]:
Q.consultar_primeras_filas("tarjetas")

In [None]:
Q.query("SELECT * FROM tarjetas LIMIT 10")

## Consultas

Una consulta en SQL (Structured Query Language) es una instrucción utilizada para interactuar con bases de datos relacionales. Su propósito principal es recuperar, insertar, actualizar o eliminar información almacenada en una o varias tablas. A través de consultas, los usuarios pueden filtrar datos específicos, realizar cálculos, agrupar resultados, unir distintas tablas y organizar la información de manera útil. Por ejemplo, una consulta puede extraer todos los clientes que realizaron una compra en el último mes o calcular el promedio de ventas por región. Las consultas permiten transformar grandes volúmenes de datos en información relevante para la toma de decisiones.

### Consultas básicas

Una consulta SQL del tipo SELECT se compone de varios elementos fundamentales que definen qué datos se desean obtener y bajo qué condiciones. En primer lugar, la cláusula SELECT permite especificar las columnas que se quieren recuperar, ya sea todas (usando *) o solo algunas en particular. A continuación, FROM indica la tabla o tablas desde las cuales se extraerán los datos. Por último, la cláusula WHERE establece las condiciones que deben cumplir los registros para ser seleccionados, lo que permite filtrar los resultados. Esta estructura básica hace posible recuperar información precisa y relevante desde una base de datos relacional.

In [None]:
# Ejecuta una consulta SQL para obtener todas las columnas (*) de la tabla 'clientes'
# filtrando los registros donde el campo 'id_cliente' sea igual a 5.

Q.query("""SELECT edad
           FROM clientes 
           WHERE id_cliente=5;""")

In [None]:
Q.query("""3 SELECT  edad,nombre,sexo
          1  FROM clientes
          2  WHERE nombre='Fer';""")   

In [None]:
# Ejecuta una consulta SQL para obtener todas las columnas (*) de la tabla 'clientes'
# filtrando los registros donde el campo 'edad' sea mayor a 50.
Q.query("""
    SELECT * 
    FROM clientes 
    WHERE edad > 50;
""")

In [None]:
# Ejecuta una consulta SQL para obtener las columnas 'edad', 'nombre' y 'pais' de la tabla 'clientes'
# filtrando los registros donde el campo 'edad' sea mayor a 50.
Q.query("""
    SELECT pais,nombre, edad
    FROM clientes
    WHERE edad > 50;
""")


Los alias en SQL sirven para asignar nombres temporales y más cortos a tablas o columnas dentro de una consulta. Esto facilita la escritura y lectura de consultas, especialmente cuando trabajas con múltiples tablas (como en joins) o cuando quieres darle nombres más claros o legibles a columnas calculadas o complejas. Además, los alias ayudan a evitar ambigüedades cuando diferentes tablas tienen columnas con el mismo nombre.

In [None]:
# Ejecuta una consulta SQL para obtener las columnas 'pais' y 'nombre' de la tabla 'clientes',
# utilizando un alias 'c' para referirse a la tabla.

Q.query("""
    SELECT c.pais , nombre       
    FROM clientes c
    WHERE c.nombre LIKE 'Paula'
""")

In [None]:
# Ejecuta una consulta SQL que selecciona las columnas 'pais' y 'nombre' de la tabla 'clientes' (con alias 'c'),
# renombrando temporalmente las columnas como 'country' y 'name' respectivamente para mayor claridad.
Q.query("""
    SELECT c.pais AS country, nombre AS name
    FROM clientes c;
""")

In [None]:
# Ejecuta una consulta SQL que selecciona las columnas 'pais' y 'nombre' de la tabla 'clientes' (alias 'c'),
# renombrándolas temporalmente como 'country' y 'name', y filtrando los registros donde 'ingresos' sea mayor a 10,000.
Q.query("""
    SELECT pais AS country, c.nombre AS name
    FROM clientes c
    WHERE c.ingresos > 10000;
""")


En SQL, existen diversas funciones y operadores que facilitan la construcción de consultas eficientes y precisas. La cláusula BETWEEN permite filtrar registros cuyos valores se encuentren dentro de un rango específico, incluyendo los extremos. LIKE se utiliza para buscar patrones en cadenas de texto mediante comodines, mientras que IN y NOT IN permiten filtrar valores que pertenecen o no a un conjunto determinado, respectivamente. Además, los operadores de comparación básicos como <, >, =, y <> (distinto de) permiten definir condiciones para seleccionar registros según su relación con ciertos valores. Estas herramientas combinadas proporcionan flexibilidad para extraer datos relevantes y específicos de las bases de datos.

In [None]:
# ============================================================
#   FORMAS GENERALES DE BÚSQUEDA EN LA CLÁUSULA WHERE (SQL)
#   Resumen para consultas básicas
# ============================================================
#
# 1. Operadores de comparación
#    campo = valor          igualdad
#    campo <> valor         distinto de
#    campo > valor          mayor que
#    campo >= valor         mayor o igual que
#    campo < valor          menor que
#    campo <= valor         menor o igual que
#
#    Ejemplo:
#    WHERE ingresos > 10000
#
# ------------------------------------------------------------
#
# 2. Búsqueda por rangos con BETWEEN (incluye límites)
#    campo BETWEEN valor_inicial AND valor_final
#
#    Ejemplo:
#    WHERE edad BETWEEN 18 AND 65
#
# ------------------------------------------------------------
#
# 3. Listas de valores con IN y NOT IN
#    campo IN (v1, v2, v3)
#    campo NOT IN (v1, v2, v3)
#
#    Ejemplo:
#    WHERE pais IN ('Mexico', 'Peru', 'Chile')
#
# ------------------------------------------------------------
#
# 4. Búsqueda de patrones con LIKE
#    campo LIKE 'Texto%'         comienza con
#    campo LIKE '%Texto'         termina con
#    campo LIKE '%Texto%'        contiene
#    campo LIKE '_a__o'          patrón por posición (cada _ es un carácter)
#
#    Ejemplo:
#    WHERE nombre LIKE 'A%'
#
# ------------------------------------------------------------
#
# 5. Evaluación de valores nulos
#    campo IS NULL
#    campo IS NOT NULL
#
#    Ejemplo:
#    WHERE direccion IS NOT NULL
#
# ------------------------------------------------------------
#
# 6. Operadores lógicos
#    AND      ambas condiciones deben cumplirse
#    OR       basta con que una condición se cumpla
#    NOT      invierte la lógica
#
#    Ejemplos:
#    WHERE ingresos > 20000 AND pais = 'Mexico'
#    WHERE estrato = 3 OR edad > 80
#    WHERE NOT (pais = 'Mexico')
#
# ------------------------------------------------------------
#
# 7. Comparaciones con expresiones o funciones
#    LENGTH(campo) > 0
#    UPPER(campo) = 'MEXICO'
#    EXTRACT(YEAR FROM fecha) = 2024
#
#    Ejemplo:
#    WHERE LENGTH(nombre) > 0
#
# ------------------------------------------------------------
#
# 8. Combinación de condiciones con paréntesis
#    Permite controlar la precedencia lógica en la consulta.
#
#    Ejemplo:
#    WHERE (pais = 'Mexico' OR pais = 'Colombia') AND ingresos > 50000
#
# ------------------------------------------------------------
#
# 9. Búsqueda por comparación entre columnas
#    campo1 > campo2
#    campo1 = campo2
#
#    Ejemplo:
#    WHERE ingresos > gastos
#
# ------------------------------------------------------------
#
# 10. Comparaciones con subconsultas ( lo vemos en un momento !! )
#     campo = (SELECT ...)
#     campo IN (SELECT ...)
#
#     Ejemplo:
#     WHERE id_cliente IN (SELECT cliente FROM tarjetas)
#
# ============================================================
# Estas forman las herramientas esenciales para filtros en SQL.
# Se usan en cualquier WHERE y permiten construir consultas
# precisas, escalables y fáciles de interpretar.
# ============================================================

In [None]:
# Ejecuta una consulta SQL que selecciona las columnas 'edad' y 'nombre' de la tabla 'clientes',
# filtrando los registros donde la edad esté entre 60 y 70 años (inclusive).
Q.query("""
    SELECT edad, nombre
    FROM clientes
    WHERE edad BETWEEN 60 AND 70;
""")


In [None]:
# Ejecuta una consulta SQL que selecciona las columnas 'edad' y 'nombre' de la tabla 'clientes',
# filtrando los registros donde la edad esté entre 24 y 25 años o entre 30 y 31 años.
Q.query("""
    SELECT edad, nombre
    FROM clientes   
    WHERE (edad BETWEEN 24 AND 25) OR (edad BETWEEN 30 AND 31);
""")


In [None]:
# Ejecuta una consulta SQL que selecciona las columnas 'edad' y 'nombre' de la tabla 'clientes',
# filtrando los registros donde la edad esté entre 24 y 25 años y el nombre sea exactamente 'Kamal'.
Q.query("""
    SELECT edad,  nombre AS nombre_riesgo
    FROM clientes
    WHERE (edad BETWEEN 24 AND 25) AND (nombre LIKE 'Kamal');
""")


In [None]:
Q.query("""
    SELECT edad, nombre
    FROM clientes
    WHERE edad BETWEEN 60 AND 70   
    ORDER BY edad DESC;
""")

In [None]:
# Ejecuta una consulta SQL que obtiene la edad máxima (maximo_edad) de la tabla 'clientes'.
Q.query("""
    SELECT edad AS maximo_edad
    FROM clientes;
""")

In [None]:
# Ejecuta una consulta SQL que obtiene la edad máxima (maximo_edad) de la tabla 'clientes'.
Q.query("""
    SELECT MAX(edad) AS maximo_edad
    FROM clientes;
""")

In [None]:
# Ejecuta una consulta SQL que obtiene la edad mínima de los clientes cuya edad sea mayor a 25 años.
Q.query("""
    SELECT MAX(edad)
    FROM clientes
    WHERE edad > 25;
""")

In [None]:
# Ejecuta una consulta SQL que obtiene la edad mínima de los clientes cuya edad sea mayor a 25 años.
Q.query("""
    SELECT MIN(edad)
    FROM clientes
    WHERE edad > 25;
""")

In [None]:
# Ejecuta una consulta SQL que obtiene los países únicos (sin repetidos) de la tabla 'clientes'.
Q.query("""
    SELECT DISTINCT pais
    FROM clientes;
""")


### subconsultas

Una subconsulta es una consulta SQL que se encuentra anidada dentro de otra consulta principal, ya sea en la cláusula SELECT, FROM o WHERE. Su función principal es proporcionar un conjunto de resultados intermedios que sirven para filtrar, comparar o calcular datos en la consulta externa. Las subconsultas permiten dividir problemas complejos en partes más pequeñas y manejables, facilitando la obtención de información específica basada en condiciones dinámicas o derivadas. De esta manera, amplían la capacidad expresiva y funcional de SQL para realizar análisis más sofisticados y precisos.

In [None]:
# Ejecuta una consulta SQL que obtiene la edad máxima registrada en la tabla 'clientes'.
Q.query("""
    SELECT MAX(edad)
    FROM clientes;
""")

In [None]:
Q.query("""SELECT cliente
            FROM tarjetas
            WHERE cliente BETWEEN 10 AND 12""")

In [None]:
# Ejecuta una consulta SQL que obtiene el nombre, edad y país de los clientes
# cuya edad sea igual a la edad máxima registrada en la tabla 'clientes'.
Q.query("""
    SELECT nombre, edad, pais
    FROM clientes
    WHERE edad = (SELECT MAX(edad)
                    FROM clientes);
""")

In [None]:
# Ejecuta una consulta SQL que obtiene el nombre, edad y país de los clientes
# cuya edad sea igual a la edad máxima registrada en la tabla 'clientes'.
Q.query("""
    SELECT nombre, edad, pais
    FROM clientes
    WHERE edad = (
        SELECT MAX(edad)
        FROM clientes
    );
""")

In [None]:
# Ejecuta una consulta SQL que obtiene el nombre, edad y país de los clientes
# cuyos 'id_cliente' sean 10, 11 o 12.
Q.query("""
    SELECT nombre, edad, pais
    FROM clientes
    WHERE id_cliente IN (SELECT cliente
                            FROM tarjetas
                            WHERE cliente BETWEEN 10 AND 12);
""")


In [None]:
# Ejecuta una consulta SQL que obtiene el campo 'cliente' de la tabla 'tarjetas',
# filtrando los registros donde el valor de 'cliente' esté entre 10 y 12, inclusive.
Q.query("""
    SELECT cliente
    FROM tarjetas
    WHERE cliente BETWEEN 10 AND 12;
""")


In [None]:
# Ejecuta una consulta SQL que obtiene el nombre y la edad de los clientes
# cuyo 'id_cliente' se encuentre dentro del conjunto de clientes que tienen tarjetas
# con valores de cliente entre 10 y 20.
Q.query("""
    SELECT nombre, edad, pais
    FROM clientes
    WHERE id_cliente IN (
        SELECT cliente
        FROM tarjetas
        WHERE cliente BETWEEN 10 AND 12
    );
""")



### FUNCIONES DE AGREGACIÓN

Una función de agregación en SQL es una operación que procesa múltiples valores de una columna y devuelve un solo valor resumen o representativo. Estas funciones permiten realizar cálculos como sumas, promedios, conteos, valores máximos o mínimos sobre conjuntos de datos, facilitando el análisis y la síntesis de grandes volúmenes de información. Algunos ejemplos comunes de funciones de agregación son COUNT(), SUM(), AVG(), MAX() y MIN(). Estas funciones suelen usarse junto con la cláusula GROUP BY para obtener resultados agrupados por una o más columnas.

In [None]:
# Ejecuta una consulta SQL que obtiene, para cada país, el ingreso máximo registrado en la tabla 'clientes'.
# Agrupa los resultados por la columna 'pais' para calcular el máximo ingreso por país.
Q.query("""
    SELECT pais, ingresos, ingresos,ingresos
    FROM clientes
    WHERE pais = "Nepal"

""")


In [None]:
# Ejecuta una consulta SQL que obtiene, para cada país, el ingreso máximo registrado en la tabla 'clientes'.
# Agrupa los resultados por la columna 'pais' para calcular el máximo ingreso por país.
Q.query("""
    SELECT pais, AVG(ingresos), MIN(ingresos),MAX(ingresos)
    FROM clientes
    WHERE pais = "Nepal"

""")


In [None]:
# Ejecuta una consulta SQL que obtiene, para cada país, el ingreso máximo registrado en la tabla 'clientes'.
# Agrupa los resultados por la columna 'pais' para calcular el máximo ingreso por país.
Q.query("""
4    SELECT pais, AVG(ingresos), MIN(ingresos),MAX(ingresos)   5
1   FROM clientes
2    WHERE
3    GROUP BY pais

""")


In [None]:
# Ejecuta una consulta SQL que obtiene los países junto con el ingreso máximo registrado en la tabla 'clientes',
# agrupando los resultados por país. Filtra para mostrar solo aquellos países donde el ingreso máximo sea mayor a 60,000,
# y ordena los resultados en orden ascendente según el ingreso máximo.
Q.query("""
    SELECT pais, MAX(ingresos)
    FROM clientes
    GROUP BY pais
    HAVING MAX(ingresos) > 60000
    ORDER BY MAX(ingresos) ASC;
""")


In [None]:
# Ejecuta una consulta SQL que obtiene, para cada país, 
# el conteo de clientes (count(nombre)) y el ingreso máximo (max(ingresos)) de clientes 
# cuyo estrato sea 2. 
# Agrupa los resultados por país, filtra para mostrar solo aquellos países donde 
# el ingreso máximo sea mayor a 10,000 y el conteo de clientes sea igual a 2,
# y ordena los resultados en orden ascendente según el ingreso máximo.
Q.query("""
    SELECT pais, COUNT(nombre), MAX(ingresos)
    FROM clientes
    WHERE estrato = 2
    GROUP BY pais
    HAVING MAX(ingresos) > 10000 AND COUNT(nombre) = 2
    ORDER BY MAX(ingresos) ASC;
""")


In [None]:
#Finalmente añadimos limite
Q.query("""
    SELECT pais, COUNT(nombre), MAX(ingresos)
    FROM clientes
    WHERE estrato = 2
    GROUP BY pais
    HAVING MAX(ingresos) > 10000 AND COUNT(nombre) = 2
    ORDER BY MAX(ingresos) ASC
    LIMIT 2;
""")


In [None]:
# Ejecuta una consulta SQL que obtiene, para cada país, 
# el conteo de clientes (count(nombre)) y el ingreso máximo (max(ingresos)) de clientes 
# cuyo estrato sea 2. 
# Agrupa los resultados por país, filtra para mostrar solo aquellos países donde 
# el ingreso máximo sea mayor a 10,000 y el conteo de clientes sea igual a 2,
# y ordena los resultados en orden ascendente según el ingreso máximo.
Q.query("""
 4   SELECT pais, COUNT(nombre), MAX(ingresos)   5
 1   FROM clientes
 2   WHERE estrato = 2
 3   GROUP BY pais
 6   HAVING MAX(ingresos) > 10000 AND COUNT(nombre) = 2
 7   ORDER BY MAX(ingresos) ASC
 8    LIMIT 2;
""")


In [None]:
# Ejecuta una consulta SQL que obtiene cada país junto con el ingreso máximo registrado,
# agrupando por país y ordenando los resultados de manera descendente según el ingreso máximo.
Q.query("""
    SELECT pais AS maximo_pais, MAX(ingresos)
    FROM clientes
    GROUP BY pais
    ORDER BY MAX(ingresos) DESC;
""")


In [None]:
# Ejecuta una consulta SQL que obtiene, para cada país, el ingreso máximo y la suma total de ingresos registrados,
# agrupando los resultados por país. Luego ordena los resultados primero en orden ascendente por el ingreso máximo
# y en caso de empate, en orden descendente por la suma de ingresos.
Q.query("""
    SELECT pais AS maximo_pais, MAX(ingresos), SUM(ingresos)
    FROM clientes
    GROUP BY pais
    ORDER BY MAX(ingresos) ASC, SUM(ingresos) DESC;
""")


### Joins  

Los joins en SQL son operaciones que permiten combinar filas de dos o más tablas basándose en una condición relacionada entre ellas, normalmente a través de columnas con valores comunes, como claves primarias y foráneas. Su propósito principal es relacionar y extraer datos relacionados dispersos en diferentes tablas dentro de una base de datos relacional. Existen varios tipos de joins, entre los más comunes están:  

* INNER JOIN: Devuelve solo las filas que tienen coincidencias en ambas tablas.

* LEFT JOIN (o LEFT OUTER JOIN): Devuelve todas las filas de la tabla izquierda y las coincidencias de la tabla derecha; si no hay coincidencia, las columnas de la tabla derecha serán NULL.

* RIGHT JOIN (o RIGHT OUTER JOIN): Devuelve todas las filas de la tabla derecha y las coincidencias de la tabla izquierda.

* FULL JOIN (o FULL OUTER JOIN): Devuelve filas cuando hay coincidencia en una u otra tabla; las filas sin coincidencias en cualquiera de las tablas aparecerán con NULL en las columnas faltantes.  

Los joins son fundamentales para consultas complejas que requieren datos integrados de varias tablas, facilitando el análisis y la gestión eficiente de la información.

In [None]:
# Devuelve todas las columnas de ambas tablas para los registros coincidentes.
Q.query("""
    SELECT *
    FROM clientes
    LIMIT 2
""")


In [None]:
# Devuelve todas las columnas de ambas tablas para los registros coincidentes.
Q.query("""
    SELECT *
    FROM tarjetas
    LIMIT 2
""")


In [None]:
# Ejecuta una consulta SQL que realiza un INNER JOIN entre las tablas 'clientes' y 'tarjetas',
# uniendo las filas donde 'id_cliente' en 'clientes' coincida con 'cliente' en 'tarjetas'.
# Devuelve todas las columnas de ambas tablas para los registros coincidentes.
Q.query("""
    SELECT nombre, monto, tipo
    FROM clientes JOIN tarjetas ON clientes.id_cliente = tarjetas.cliente ;
""")


In [None]:
# Ejecuta una consulta SQL que realiza un LEFT JOIN entre las tablas 'clientes' y 'tarjetas',
# devolviendo todas las filas de la tabla 'clientes' y las filas coincidentes de 'tarjetas'.
# Si no hay coincidencia, los campos de 'tarjetas' serán NULL.
Q.query("""
    SELECT *
    FROM clientes RIGHT JOIN tarjetas ON clientes.id_cliente = tarjetas.cliente;
""")


In [None]:
# Ejecuta una consulta SQL que obtiene el nombre y edad de los clientes (alias 'c'),
# junto con el monto y tipo de sus tarjetas (alias 't'), realizando un JOIN
# donde el 'id_cliente' de clientes coincide con 'cliente' en tarjetas.
Q.query("""
    SELECT c.nombre, c.edad, t.monto, t.tipo
    FROM clientes c
    JOIN tarjetas t ON c.id_cliente = t.cliente;
""")


In [None]:
# Ejecuta una consulta SQL que obtiene el nombre y edad de los clientes (alias 'c'),
# junto con el monto y tipo de sus tarjetas (alias 't'), realizando un JOIN
# entre las tablas 'clientes' y 'tarjetas' del esquema 'banco_base',
# donde el 'id_cliente' de clientes coincide con 'cliente' en tarjetas.
Q.query("""
    SELECT c.nombre, c.edad, t.monto, t.tipo
    FROM banco_base.clientes AS c
    JOIN banco_base.tarjetas AS t ON c.id_cliente = t.cliente
    WHERE ( subcon)
""")

### Joins vs subconsulta

### JOINS  

#### Pros:

* Más eficientes: Los motores de bases de datos suelen optimizar muy bien las joins, haciendo que sean más rápidas especialmente en grandes conjuntos de datos.

* Mejor legibilidad: Para combinar datos de varias tablas relacionadas, las joins suelen ser más claras y directas.

* Menor complejidad: Generalmente, los planes de ejecución de joins son más simples, lo que facilita la optimización.

* Versatilidad: Permiten combinar varias tablas a la vez, con diferentes tipos de joins (INNER, LEFT, RIGHT, FULL).

#### Contras:

* Complejidad en consultas muy grandes: Cuando hay muchas tablas, las joins pueden volverse complejas de leer y mantener.

* Posible duplicación: En algunos casos, puede generar filas duplicadas si no se maneja bien.

### Subconsultas    

#### Pros:

* Claridad para consultas específicas: En ciertos casos, dividir el problema en subconsultas puede facilitar la comprensión.

* Útiles para filtros dinámicos: Cuando se necesita usar resultados intermedios para filtrar o comparar, las subconsultas son prácticas.

* Encapsulamiento: Permiten construir consultas modulares, más fáciles de modificar por partes.

#### Contras:

* Menor eficiencia: Las subconsultas pueden ser menos eficientes, sobre todo si se ejecutan repetidamente o no se optimizan bien.

* Mayor carga computacional: En bases de datos no optimizadas, pueden provocar múltiples accesos a la tabla, incrementando el tiempo de ejecución.

* Limitaciones en algunas bases: No todos los motores de bases soportan subconsultas correlacionadas o las optimizan correctamente.



### Uso de Joins  

* INNER JOIN: Es el más usado y eficiente cuando quieres obtener solo las filas que tienen coincidencia en ambas tablas. Ideal para relaciones estrictas donde solo te interesan los datos relacionados.

* LEFT JOIN (LEFT OUTER JOIN): Útil cuando quieres todas las filas de la tabla izquierda y, si hay datos relacionados en la derecha, mostrarlos; si no, mostrar NULL. Se usa para no perder información de la tabla principal aunque no tenga correspondencia.

* RIGHT JOIN (RIGHT OUTER JOIN): Similar al LEFT JOIN pero toma todas las filas de la tabla derecha. Menos común que LEFT JOIN y depende del diseño de tus tablas.

* FULL JOIN (FULL OUTER JOIN): Devuelve todas las filas de ambas tablas, combinando las coincidencias y llenando con NULL donde no haya. Útil para obtener una vista completa, pero puede ser menos eficiente.


### Extra

### Funciones de ventana  
Una función de ventana (o window function) es una función en SQL que permite realizar cálculos sobre un conjunto de filas relacionadas con la fila actual, sin colapsar (agrupar) las filas en una sola. A diferencia de las funciones de agregación tradicionales (SUM, AVG, COUNT, etc.) que combinan varias filas en una sola, las funciones de ventana mantienen la fila original y calculan valores acumulativos, rankings, promedios móviles, entre otros, sobre una "ventana" de filas.



* Se calcula para cada fila en el conjunto de resultados.

* La ventana está definida por una partición (PARTITION BY) que agrupa filas relacionadas.

* Dentro de cada partición, las filas pueden ser ordenadas (ORDER BY) para realizar cálculos en secuencia.

* No reduce el número de filas (no agrupa).

#### Ejemplos

* ROW_NUMBER() — asigna un número de fila secuencial dentro de cada partición.

* RANK() — asigna un ranking, dejando huecos cuando hay empates.

* DENSE_RANK() — asigna ranking sin huecos en caso de empates.

* SUM() OVER (...) — suma acumulativa o dentro de particiones.

* AVG() OVER (...) — promedio dentro de particiones.



In [None]:
Q.query("""
    SELECT nombre, pais, ingresos, 
    ROW_NUMBER() OVER (ORDER BY ingresos DESC) AS fila_global
    FROM clientes;
""")

In [None]:
Q.query("""
    SELECT nombre, pais, edad, 
    ROW_NUMBER() OVER (ORDER BY edad DESC) AS fila_global
    FROM clientes;
""")

In [None]:
Q.query("""
    SELECT nombre, pais, ingresos,
       ROW_NUMBER() OVER (PARTITION BY pais ORDER BY ingresos DESC) AS fila_por_pais
FROM clientes;
""")

In [None]:
Q.query("""
   SELECT nombre, pais, ingresos,
       RANK() OVER (PARTITION BY pais ORDER BY ingresos DESC) AS ranking
FROM clientes;
""")

Valor   RANK()
100     1
90      2
90      2
80      4  ← salta el 3 porque hubo dos valores con rango 2

In [None]:
Q.query("""
  SELECT nombre, pais, ingresos,
       DENSE_RANK() OVER (PARTITION BY pais ORDER BY ingresos DESC) AS dense_ranking
FROM clientes;
""")

Valor   DENSE_RANK()
100     1
90      2
90      2
80      3  ← no salta el 3

In [None]:
Q.query("""
  SELECT nombre, pais, ingresos, 
  SUM(ingresos) OVER (PARTITION BY pais ORDER BY ingresos) AS suma_acumulada
  FROM clientes;
""")

In [None]:
66175.0+14988.0

In [None]:
Q.query("""
 SELECT nombre, pais, ingresos,
       AVG(ingresos) OVER () AS promedio_global
FROM clientes;
""")

In [None]:
Q.query("""
 SELECT nombre, pais, ingresos,
       AVG(ingresos) OVER (PARTITION BY pais) AS promedio_global
FROM clientes;
""")

In [None]:
Q.query("""
 SELECT nombre, pais, ingresos,
       AVG(ingresos) OVER (PARTITION BY pais ORDER BY ingresos) AS promedio_global
FROM clientes;
""")

* PARTITION BY divide los datos en grupos separados donde la función se calcula por separado en cada grupo.

* Sin PARTITION BY, la función se calcula sobre todo el conjunto de datos.

La consulta anterior  selecciona el nombre, país e ingresos de cada cliente en la tabla clientes.

* Función RANK() OVER (...): Es una función de ventana (window function) que asigna un ranking o posición a cada fila dentro de grupos definidos por pais.

* PARTITION BY pais: Divide las filas en grupos según el país. El ranking se calcula por separado dentro de cada país.

* ORDER BY ingresos DESC: Dentro de cada grupo (país), las filas se ordenan de mayor a menor según el ingreso.  

Resultado: La columna ranking_por_pais indica la posición de cada cliente dentro de su país basada en sus ingresos, donde el número 1 es para el cliente con mayor ingreso en ese país, 2 para el segundo, y así sucesivamente. Si hay empates (clientes con igual ingreso), RANK() asigna el mismo número a esos empates y salta números siguientes.

## Analizar nuestras consultas

EXPLAIN proporciona información sobre cómo el motor de la base de datos procesa la consulta.

Indica detalles como qué índices se usarán, el orden en que se acceden las tablas, el tipo de join, y estimaciones de filas a procesar.

Esta información es fundamental para entender y optimizar el rendimiento de las consultas SQL.

In [None]:
Q.query("""
    EXPLAIN SELECT * FROM clientes WHERE ingresos > 10000;
""")

In [None]:
Q.query("""
    EXPLAIN SELECT * FROM clientes JOIN tarjetas WHERE ingresos > 10000;
""")

* id: Identificador de la consulta o subconsulta. Aquí 0 indica que es la consulta principal (en versiones modernas suele ser 1).

* select_type: Tipo de consulta. SIMPLE significa que no hay subconsultas ni uniones complejas, solo una consulta simple.

* table: Nombre de la tabla que se está leyendo, en este caso clientes.

* partitions: Si se usan particiones, indica cuáles se leen. Aquí es None, no hay particiones involucradas.

* type: Tipo de acceso a la tabla. ALL significa que se está haciendo un escaneo completo (full table scan), es decir, lee todas las filas.

* possible_keys: Índices que podrían usarse para esta consulta. Aquí None indica que no hay índices posibles que ayuden a filtrar.

* key: Índice que realmente se está usando. None significa que no se usó ningún índice.

* key_len: Longitud del índice usado. None porque no hay índice usado.

* ref: Columnas o constantes usadas con el índice. None porque no hay índice.

* rows: Estimación del número de filas que la consulta leerá o examinará, aquí 100 filas.

* filtered: Porcentaje estimado de filas que pasan el filtro WHERE. Aquí 33.33% significa que alrededor de un tercio de las filas serán devueltas tras aplicar la condición.

* Extra: Información adicional. Using where indica que se está aplicando un filtro en la consulta (cláusula WHERE), pero no se usa índice para optimizarlo.

## Indices

Los índices en bases de datos sirven para acelerar la velocidad de las consultas, especialmente cuando se buscan o filtran datos por ciertas columnas.  

Los indices:  

* Mejorar la eficiencia de búsqueda: Un índice actúa como un índice en un libro, permitiendo encontrar rápidamente filas que cumplan ciertas condiciones sin tener que revisar toda la tabla (evita el "full table scan").

* Optimizar operaciones de filtrado y ordenamiento: Las consultas con cláusulas WHERE, JOIN, ORDER BY o agregaciones pueden aprovechar índices para ejecutarse más rápido.

* Reducir tiempo de respuesta: En tablas grandes, sin índices, las consultas pueden volverse muy lentas; un índice reduce drásticamente el tiempo necesario.

¿Qué costo tienen?  
* Espacio extra: Un índice ocupa espacio adicional en disco.

* Costo en escrituras: Insertar, actualizar o borrar datos en tablas con índices puede ser un poco más lento porque también debe actualizarse el índice.

¿Cuándo crear un índice en una columna?  

* Columnas usadas frecuentemente en condiciones WHERE: Si haces consultas donde filtras filas usando una columna específica, crear un índice ahí acelera mucho la búsqueda.

* Columnas usadas para unir tablas (JOIN): Las columnas que actúan como claves foráneas o que se usan en condiciones de unión suelen beneficiarse mucho de índices.

* Columnas que aparecen en ORDER BY o GROUP BY:Si ordenas o agrupas por alguna columna, un índice ayuda a que la base de datos no tenga que ordenar toda la tabla manualmente.

* Columnas con valores muy selectivos: Un índice es más eficiente si la columna tiene muchos valores distintos (alta cardinalidad). Por ejemplo, un índice en una columna con sólo dos valores (como género) suele ser poco efectivo.

* Columnas usadas en consultas frecuentes: Si un campo es clave para las consultas recurrentes de la aplicación, es candidato para índice.

¿Cuándo evitar índices?  

* En columnas con poca variedad de valores (baja cardinalidad), como booleanos o categorías con pocos valores, el índice puede no ayudar.

* En tablas muy pequeñas, porque el costo de usar el índice puede ser mayor que hacer un escaneo completo.

* Si la columna se actualiza muy frecuentemente, pues actualizar el índice en cada escritura agrega costo.

In [None]:
# host = localhost               --> Dirección del servidor de la base de datos (local)
engine = create_engine('mysql+pymysql://root:1995@localhost/banco_base')

#engine.connect().execute(text("CREATE INDEX idx_nombre ON clientes(pais);"))


In [None]:
Q.query("SHOW INDEX FROM clientes;")

In [None]:
engine.connect().execute(text("CREATE INDEX idx_nombre ON clientes(pais);"))

In [None]:
Q.query("SHOW INDEX FROM clientes;")

In [None]:
Q.query("SELECT * FROM clientes where pais like 'm%%'")

In [None]:
Q.query("""
    EXPLAIN SELECT * FROM clientes where pais like 'm%%';
""")

In [None]:
Q.query("""
    SELECT * FROM clientes WHERE nombre like 'm%%';
""")