# Extracción de datos desde DBs

## Introduccion

### Conexión a bases de datos relacionales con ODBC y SQLAlchemy

#### Tipos de módulos de conexión
Para desarrollar un proyecto en Python en el que se quiera implementar el uso "Bases de Datos SQL", se tienen distintos módulos que pueden ser útiles, por ejemplo "PYODBC" que es uno de ellos.

**ODBC:**

Open DataBase Connectivity (ODBC) es un estándar de acceso a las bases de datos desarrollado por SQL Access Group (SAG) en 1992. El objetivo de ODBC es hacer posible el acceder a cualquier dato desde cualquier aplicación, sin importar qué sistema de gestión de bases de datos (DBMS) almacené los datos.

**PYODBC:**

Pyodbc es un módulo de Python de código abierto que simplifica el acceso a las bases de datos "ODBC" desde Python, implementando el uso de la DB API 2.0 de una forma conveniente para Python. Pyodbc también es considerado como un controlador SQL para Python.

#### Configuracion de SQL Server

So just open the access to your 127.0.0.1:1433 in the SQL server Configuration Manager.

Steps:

- Start -> All Programs -> SQL Server Configuration Manager
- SQL Server Network Configuration -> Protocols for MSSQLSERVER -> TCP/IP (Enable it)
- TCP/IP -> Properties -> IP Addresses. Find 127.0.0.1 and change the "Enabled" to "Yes". You can do it for all the IPs if you want.

## Librerias

#### Librerías necesarias
~~~bash
conda install pymssql
conda install pyodbc
conda install sqlalchemy
~~~

In [None]:
import pandas as pd
import polars as pl
import pyodbc
from sqlalchemy import create_engine
# import pymssql # error en la py 3.13 05-25-2025

## DB SQL

### pymssql - error en py 3.13

In [None]:
conn = pymssql.connect(
    server='localhost'
    , database='etl'
)

In [None]:
cursor = conn.cursor()
cursor.execute('SELECT top 5 * FROM information_schema.tables')
cursor.fetchall()

In [None]:
query = 'SELECT TOP 3 * FROM etl.dbo.dataset'
cursor.execute(query)
data = cursor.fetchall()
data

### odbc

In [None]:
# drivers disponibles
pyodbc.drivers()

In [None]:
driver = 'ODBC Driver 17 for SQL Server'
server='localhost'
database='etl'

engine = create_engine(f'mssql+pyodbc://{server}/{database}?driver={driver}')

try:
    conn = engine.connect()
    print("Connection successful")
except Exception as e:
    print(f"Connection failed: {e}")

In [None]:
# metodo 1 - extrae todo
df_tables = pd.read_sql_table('dataset', conn)
df_tables.info()
df_tables.shape

In [None]:
# metodo 2
query = """
SELECT *
FROM etl.dbo.dataset
WHERE Nombre_de_la_Campaña = 'CursosDeProgramacion'
"""
df = pd.read_sql(
    sql=query,
    con=conn
)
df.info()
df.shape

### Polar - MySQL

pl.read_database_uri:

- Utiliza una cadena de conexión URI para especificar la conexión a la base de datos.
- Es ideal cuando se trabaja con conexiones simples y se prefiere una sintaxis concisa.
- Puede usar dos motores de conexión: ConnectorX (predeterminado) y ADBC.
- ConnectorX es más versátil y admite una amplia gama de bases de datos, incluyendo PostgreSQL, MySQL, SQL Server y Redshift.
- ADBC es más nuevo y tiene soporte a PostgreSQL, SQLite y Snowflake, pero puede ser más eficiente en algunos casos.

In [None]:
uri = 'mysql://{user}:{password}@localhost:3306/{database}'.format(
    user='root',
    password='12345',
    database='marketing'
)
query = 'SELECT * FROM marketing'
df = pl.read_database_uri(query=query, uri=uri)
df.head()

pl.read_database:

- Recibe un objeto de conexión creado con una biblioteca como SQLAlchemy.
- Ofrece mayor flexibilidad para configurar la conexión y manejar transacciones.
- Puede ser más lento que pl.read_database_uri si se usa SQLAlchemy o DBAPI2, ya que estos pueden cargar los datos fila por fila en Python antes de convertirlos al formato de Apache Arrow.

In [None]:
query = """
SELECT *
FROM etl.dbo.dataset
WHERE Nombre_de_la_Campaña = 'CursosDeProgramacion'
"""
df = pl.read_database(
    query=query,
    connection = conn
)
df.head()

ConnectorX ofrece varios beneficios al leer datos de bases de datos con Polars:

- **Lectura rápida**: ConnectorX está escrito en Rust, un lenguaje de programación conocido por su rendimiento. Esto permite una lectura eficiente de datos desde la base de datos.
- **Zero-copy**: ConnectorX almacena los datos en formato Apache Arrow, lo que permite transferirlos a Polars sin necesidad de copiarlos. Esto reduce el tiempo de procesamiento y el uso de memoria.
- **Paralelismo**: ConnectorX puede aprovechar el paralelismo para leer datos de la base de datos de forma más rápida, especialmente cuando se trabaja con grandes volúmenes de datos.

## DB NoSQL

La línea de código `pd.DataFrame(list(collection.find()))` está realizando varias operaciones para convertir los documentos de una colección de MongoDB en un DataFrame de Pandas. Aquí está la explicación detallada de cómo funciona:

1. **`collection.find()`**:
   - `collection` es un objeto que representa una colección en una base de datos MongoDB.
   - El método `find()` se utiliza para realizar una consulta en la colección y recuperar todos los documentos. Si no se pasan parámetros a `find()`, se recuperan todos los documentos de la colección.
   - El resultado de `find()` es un cursor, que es un iterador que permite recorrer los documentos recuperados uno por uno.

2. **`list(collection.find())`**:
   - La función `list()` toma el cursor devuelto por `find()` y lo convierte en una lista de documentos. Cada documento en la lista es un diccionario de Python que representa un documento de MongoDB.
   - Esta conversión es necesaria porque el cursor no puede ser directamente pasado a `pd.DataFrame()`. La lista resultante contiene todos los documentos de la colección en forma de diccionarios.

3. **`pd.DataFrame(list(collection.find()))`**:
   - `pd.DataFrame()` es una función de la biblioteca Pandas que se utiliza para crear un DataFrame.
   - Al pasar la lista de diccionarios a `pd.DataFrame()`, Pandas convierte cada diccionario en una fila del DataFrame. Las claves de los diccionarios se convierten en los nombres de las columnas del DataFrame.
   - El resultado es un DataFrame de Pandas que contiene todos los documentos de la colección de MongoDB, con las columnas correspondientes a las claves de los diccionarios.

En resumen, esta línea de código recupera todos los documentos de una colección de MongoDB, los convierte en una lista de diccionarios y luego crea un DataFrame de Pandas a partir de esa lista. Esto permite trabajar con los datos de MongoDB utilizando las poderosas herramientas de análisis y manipulación de datos que ofrece Pandas.