# Extracción de datos desde bases de datos

## Pandas

### Conexión a bases de datos relacionales con ODBC y SQLAlchemy

#### Tipos de módulos de conexión
Para desarrollar un proyecto en Python en el que se quiera implementar el uso "Bases de Datos SQL", se tienen distintos módulos que pueden ser útiles, por ejemplo "PYODBC" que es uno de ellos.

**ODBC:**

Open DataBase Connectivity (ODBC) es un estándar de acceso a las bases de datos desarrollado por SQL Access Group (SAG) en 1992. El objetivo de ODBC es hacer posible el acceder a cualquier dato desde cualquier aplicación, sin importar qué sistema de gestión de bases de datos (DBMS) almacené los datos.

**PYODBC:**

Pyodbc es un módulo de Python de código abierto que simplifica el acceso a las bases de datos "ODBC" desde Python, implementando el uso de la DB API 2.0 de una forma conveniente para Python. Pyodbc también es considerado como un controlador SQL para Python.

### Conexión a bases de datos SQL Server utilizando cursor

#### Librerías necesarias
~~~bash
conda install pymssql
conda install pyodbc
conda install sqlalchemy
~~~

#### Configuracion de SQL Server

So just open the access to your 127.0.0.1:1433 in the SQL server Configuration Manager.

Steps:

- Start -> All Programs -> SQL Server Configuration Manager
- SQL Server Network Configuration -> Protocols for MSSQLSERVER -> TCP/IP (Enable it)
- TCP/IP -> Properties -> IP Addresses. Find 127.0.0.1 and change the "Enabled" to "Yes". You can do it for all the IPs if you want.

In [1]:
import pymssql
conn = pymssql.connect(
    server='DSANDOVALFLAVIO',
    database='cf_db_etl',
)

In [2]:
cursor = conn.cursor()
cursor.execute('SELECT * FROM information_schema.tables')
cursor.fetchall()

[('cf_db_etl', 'dbo', 'dataset', 'BASE TABLE')]

In [3]:
query = 'SELECT TOP 3 * FROM cf_db_etl.dbo.dataset'
cursor.execute(query)
data = cursor.fetchall()
data

[(datetime.date(2023, 12, 24),
  'CursosDeProgramacion',
  'Oeste',
  Decimal('26148'),
  Decimal('133468'),
  Decimal('21979'),
  Decimal('606')),
 (datetime.date(2023, 11, 11),
  'AprendeCSharpFacil',
  'Norte',
  Decimal('34586'),
  Decimal('340290'),
  Decimal('49146'),
  Decimal('495')),
 (datetime.date(2024, 5, 24),
  'CodigoFacilitoEnEspanol',
  'Norte',
  Decimal('20337'),
  Decimal('343710'),
  Decimal('32831'),
  Decimal('1655'))]

### Conexión a bases de datos SQL Server utilizando ODBC y SQLAlchemy

Drivers Disponibles

In [4]:
import pyodbc
pyodbc.drivers()

['SQL Server',
 'PostgreSQL ODBC Driver(ANSI)',
 'PostgreSQL ODBC Driver(UNICODE)',
 'ODBC Driver 17 for SQL Server',
 'MySQL ODBC 9.0 ANSI Driver',
 'MySQL ODBC 9.0 Unicode Driver']

In [5]:
from sqlalchemy import create_engine

driver = 'ODBC Driver 17 for SQL Server'
server = 'DSANDOVALFLAVIO'
database = 'cf_db_etl'

engine = create_engine(f'mssql+pyodbc://{server}/{database}?driver={driver}')

try:
    conn = engine.connect()
    print('Connection successful')
except Exception as e:
    print(e)

Connection successful


In [7]:
import pandas as pd

df_table = pd.read_sql_table('dataset', conn)
df_table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Fecha        1000 non-null   datetime64[ns]
 1   sCampaign    1000 non-null   object        
 2   Region       1000 non-null   object        
 3   Clicks       1000 non-null   float64       
 4   Impresiones  1000 non-null   float64       
 5   Views        1000 non-null   float64       
 6   Costo        1000 non-null   float64       
dtypes: datetime64[ns](1), float64(4), object(2)
memory usage: 54.8+ KB


### Ejecución de consultas SQL para extraer datos específicos

In [9]:
query = """
SELECT *
FROM cf_db_etl.dbo.dataset
WHERE sCampaign = 'CursosDeProgramacion'
"""
df = pd.read_sql(
    sql=query,
    con=conn
)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97 entries, 0 to 96
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Fecha        97 non-null     object 
 1   sCampaign    97 non-null     object 
 2   Region       97 non-null     object 
 3   Clicks       97 non-null     float64
 4   Impresiones  97 non-null     float64
 5   Views        97 non-null     float64
 6   Costo        97 non-null     float64
dtypes: float64(4), object(3)
memory usage: 5.4+ KB


In [10]:
df

Unnamed: 0,Fecha,sCampaign,Region,Clicks,Impresiones,Views,Costo
0,2023-12-24,CursosDeProgramacion,Oeste,26148.0,133468.0,21979.0,606.0
1,2024-12-03,CursosDeProgramacion,Oeste,32254.0,206296.0,6448.0,726.0
2,2024-03-20,CursosDeProgramacion,Norte,7761.0,178949.0,47475.0,862.0
3,2023-10-22,CursosDeProgramacion,Este,42967.0,356762.0,7496.0,1722.0
4,2024-04-22,CursosDeProgramacion,Norte,13362.0,157531.0,47034.0,517.0
...,...,...,...,...,...,...,...
92,2024-01-04,CursosDeProgramacion,Oeste,29805.0,381302.0,19833.0,1152.0
93,2024-12-05,CursosDeProgramacion,Sur,49996.0,79199.0,38665.0,1603.0
94,2024-07-05,CursosDeProgramacion,Este,22068.0,435276.0,34668.0,577.0
95,2023-10-31,CursosDeProgramacion,Este,31943.0,248545.0,21555.0,882.0


## Polars

Polars ofrece dos funciones para leer datos de bases de datos: **pl.read_database_uri** y **pl.read_database**. Ambas funciones permiten ejecutar consultas SQL y cargar los resultados en un DataFrame de Polars, pero se diferencian en la forma en que se establece la conexión a la base de datos

pl.read_database_uri:

- Utiliza una cadena de conexión URI para especificar la conexión a la base de datos.
- Es ideal cuando se trabaja con conexiones simples y se prefiere una sintaxis concisa.
- Puede usar dos motores de conexión: ConnectorX (predeterminado) y ADBC.
- ConnectorX es más versátil y admite una amplia gama de bases de datos, incluyendo PostgreSQL, MySQL, SQL Server y Redshift.
- ADBC es más nuevo y tiene soporte a PostgreSQL, SQLite y Snowflake, pero puede ser más eficiente en algunos casos.

In [11]:
import polars as pl

uri = 'mysql://{user}:{password}@localhost:3306/{database}'.format(
    user='root',
    password='12345',
    database='marketing'
)
query = 'SELECT * FROM marketing'
df = pl.read_database_uri(query=query, uri=uri)
df.head()


ID,YearBirth,Education,MaritalStatus,Income,Kidhome,Teenhome,DtCustomer,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Response,Complain,Country
i64,f64,str,str,f64,f64,f64,date,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,f64,str
1826,1970.0,"""Graduation""","""Divorced""",84835.0,0.0,0.0,2014-06-16,0.0,189.0,104.0,379.0,111.0,189.0,218.0,1.0,4.0,4.0,6.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,"""SP"""
1,1961.0,"""Graduation""","""Single""",57091.0,0.0,0.0,2014-06-15,0.0,464.0,5.0,64.0,7.0,0.0,37.0,1.0,7.0,3.0,7.0,5.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,"""CA"""
10476,1958.0,"""Graduation""","""Married""",67267.0,0.0,1.0,2014-05-13,0.0,134.0,11.0,59.0,15.0,2.0,30.0,1.0,3.0,2.0,5.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"""US"""
1386,1967.0,"""Graduation""","""Together""",32474.0,1.0,1.0,2014-05-11,0.0,10.0,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,2.0,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,"""AUS"""
5371,1989.0,"""Graduation""","""Single""",21474.0,1.0,0.0,2014-04-08,0.0,6.0,16.0,24.0,11.0,0.0,34.0,2.0,3.0,1.0,2.0,7.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,"""SP"""


pl.read_database:

- Recibe un objeto de conexión creado con una biblioteca como SQLAlchemy.
- Ofrece mayor flexibilidad para configurar la conexión y manejar transacciones.
- Puede ser más lento que pl.read_database_uri si se usa SQLAlchemy o DBAPI2, ya que estos pueden cargar los datos fila por fila en Python antes de convertirlos al formato de Apache Arrow.

In [13]:
query = """
SELECT *
FROM cf_db_etl.dbo.dataset
WHERE sCampaign = 'CursosDeProgramacion'
"""
df = pl.read_database(
    query=query,
    connection = conn
)
df.head()

Fecha,sCampaign,Region,Clicks,Impresiones,Views,Costo
date,str,str,"decimal[38,0]","decimal[38,0]","decimal[38,0]","decimal[38,0]"
2023-12-24,"""CursosDeProgramacion""","""Oeste""",26148,133468,21979,606
2024-12-03,"""CursosDeProgramacion""","""Oeste""",32254,206296,6448,726
2024-03-20,"""CursosDeProgramacion""","""Norte""",7761,178949,47475,862
2023-10-22,"""CursosDeProgramacion""","""Este""",42967,356762,7496,1722
2024-04-22,"""CursosDeProgramacion""","""Norte""",13362,157531,47034,517


ConnectorX ofrece varios beneficios al leer datos de bases de datos con Polars:

- **Lectura rápida**: ConnectorX está escrito en Rust, un lenguaje de programación conocido por su rendimiento. Esto permite una lectura eficiente de datos desde la base de datos.
- **Zero-copy**: ConnectorX almacena los datos en formato Apache Arrow, lo que permite transferirlos a Polars sin necesidad de copiarlos. Esto reduce el tiempo de procesamiento y el uso de memoria.
- **Paralelismo**: ConnectorX puede aprovechar el paralelismo para leer datos de la base de datos de forma más rápida, especialmente cuando se trabaja con grandes volúmenes de datos.

# Extracción de datos desde bases de datos NoSQL (MongoDB)

#### Instalación de la librería pymongo

~~~bash
conda install pymongo
~~~

La línea de código `pd.DataFrame(list(collection.find()))` está realizando varias operaciones para convertir los documentos de una colección de MongoDB en un DataFrame de Pandas. Aquí está la explicación detallada de cómo funciona:

1. **`collection.find()`**:
   - `collection` es un objeto que representa una colección en una base de datos MongoDB.
   - El método `find()` se utiliza para realizar una consulta en la colección y recuperar todos los documentos. Si no se pasan parámetros a `find()`, se recuperan todos los documentos de la colección.
   - El resultado de `find()` es un cursor, que es un iterador que permite recorrer los documentos recuperados uno por uno.

2. **`list(collection.find())`**:
   - La función `list()` toma el cursor devuelto por `find()` y lo convierte en una lista de documentos. Cada documento en la lista es un diccionario de Python que representa un documento de MongoDB.
   - Esta conversión es necesaria porque el cursor no puede ser directamente pasado a `pd.DataFrame()`. La lista resultante contiene todos los documentos de la colección en forma de diccionarios.

3. **`pd.DataFrame(list(collection.find()))`**:
   - `pd.DataFrame()` es una función de la biblioteca Pandas que se utiliza para crear un DataFrame.
   - Al pasar la lista de diccionarios a `pd.DataFrame()`, Pandas convierte cada diccionario en una fila del DataFrame. Las claves de los diccionarios se convierten en los nombres de las columnas del DataFrame.
   - El resultado es un DataFrame de Pandas que contiene todos los documentos de la colección de MongoDB, con las columnas correspondientes a las claves de los diccionarios.

En resumen, esta línea de código recupera todos los documentos de una colección de MongoDB, los convierte en una lista de diccionarios y luego crea un DataFrame de Pandas a partir de esa lista. Esto permite trabajar con los datos de MongoDB utilizando las poderosas herramientas de análisis y manipulación de datos que ofrece Pandas.

#### Ejecución de consultas para extraer datos específicos en MongoDB