**Tabla de contenido**
- [Librerías](#Lib)
- [Conexion a sql server con cursor](#Conexion-a-sql-server-con-cursor)
- [Conexión a base de datos utilizando ODBC y SQLAlchemy](#Conexion-a-base-de-datos-utilizando-ODBC-y-SQLAlchemy)
- [Polars](#Polars)

**SQL server y Python**

Conección desde python a sql server

- **Herramientas**: OBDC y PYODBC
- **Configurar SQL server**: Sql server no va a admitir peticiones desde python, ya que tiene algunos puertos bloqueados. Para solucionar esto, es necesario hacer lo siguiente:
    - **Abrir SQL server configuration Manager**
    - ir a la sección **SQL Server Network Configuration** - **Protocols for MSSQLSERVER** y activar TCP/IP.
    - Despues de habilitado el TCP/IP, debemos dar doble clic sobre el, ir a la sección IP addres y verificar la que este activada para la dirección local "127.0.0.1". 
    - Posteriormente, se debe reiniciar el servidor llendo a **SQL Server Services** - **SQL Server (MSSQLSERVER)**, clic derecho y restart. 


Instalar las siguientes librerías:
- pip install pymssql
- pip install pyodbc
- pip install sqlalchemy

# Lib

In [22]:
import pymssql
import pyodbc
from sqlalchemy import create_engine

import pandas as pd
import polars as pl

# Conexion a sql server con cursor

**Conexión a base de datos SQL server usando cursor**

Abrir SQL Server Management Studio y :

- **Server Name:** Poner un "." para conexión local
- Habiliatar en opciones avanzadas : Trust Server Certificate a True,

In [3]:
conn =pymssql.connect(
    server='.', # Nombre del servidor de la base de datos
    database='python_etl' # base de datos a la que nos conectaremos
)

Realicemos consultas

In [5]:
cursor = conn.cursor()
cursor.execute('Select *from information_schema.tables')
cursor.fetchall() # se trae toda la información

[('python_etl', 'dbo', 'WalmartSalesClean', 'BASE TABLE')]

In [7]:
# veamos los primero registros
query = 'Select Top 3 *from python_etl.dbo.WalmartSalesClean'
cursor.execute(query) # ejecuta la consulta
data = cursor.fetchall()
data


[(datetime.date(2010, 2, 12),
  1,
  164195744,
  1,
  38.5099983215332,
  2.5480000972747803,
  211.24217224121094,
  8.105999946594238,
  1),
 (datetime.date(2010, 2, 19),
  1,
  161196816,
  0,
  39.93000030517578,
  2.5139999389648438,
  211.2891387939453,
  8.105999946594238,
  0),
 (datetime.date(2010, 2, 26),
  1,
  140972752,
  0,
  46.630001068115234,
  2.561000108718872,
  211.31964111328125,
  8.105999946594238,
  0)]

# Conexion a base de datos utilizando ODBC y SQLAlchemy

In [9]:
pyodbc.drivers() # visualiza los drivers disponibles

['SQL Server',
 'Microsoft Access Driver (*.mdb, *.accdb)',
 'Microsoft Excel Driver (*.xls, *.xlsx, *.xlsm, *.xlsb)',
 'Microsoft Access Text Driver (*.txt, *.csv)',
 'Microsoft Access dBASE Driver (*.dbf, *.ndx, *.mdx)',
 'SQL Server Native Client RDA 11.0']

Conectemos a la base de datos usando el driver **SQL Server**

In [11]:
driver = 'SQL Server'
server ='.'
database = 'python_etl'
engine = create_engine(f'mssql+pyodbc://{server}/{database}?driver={driver}')

# testar la conexión
try:
    conn = engine.connect()
    print('Conection successfull')
except Exception as e:
    print(e)

Conection successfull


Ya tenemos conexión, entonces ahora hagamos lo siguiente:

- Carguemos toda la tabla usando pandas.
- Ejecutemos una consulta.


In [16]:
df_table = pd.read_sql("SELECT * FROM WalmartSalesClean", con=engine)
df_table.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5763 entries, 0 to 5762
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Date            5763 non-null   object 
 1   Store           5763 non-null   int64  
 2   Weekly_Sales    5763 non-null   int64  
 3   Holiday_Flag    5763 non-null   int64  
 4   Temperature     5763 non-null   float64
 5   Fuel_Price      5763 non-null   float64
 6   CPI             5763 non-null   float64
 7   Unemployment    5763 non-null   float64
 8   Holiday_Events  5763 non-null   int64  
dtypes: float64(4), int64(4), object(1)
memory usage: 405.3+ KB


In [19]:
# Consulta de SQL
query = """
select *from python_etl.dbo.WalmartSalesClean
where Holiday_events = 1
"""
df = pd.read_sql_query(
    sql=query,
    con=conn
)
df.head()

Unnamed: 0,Date,Store,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Holiday_Events
0,2010-02-12,1,164195744,1,38.509998,2.548,211.242172,8.106,1
1,2010-09-10,1,150746064,1,78.690002,2.565,211.495193,7.787,1
2,2010-11-26,1,195562416,1,64.519997,2.735,211.748428,7.838,1
3,2010-12-31,1,136732000,1,48.43,2.943,211.404922,7.838,1
4,2011-02-11,1,164961488,1,36.389999,3.022,212.936707,7.742,1


# Polars

**Polars** ofrece dos funciones para leer datos de bases de datos:

- **pl.read_database_uri**: Ideal cuando se trabaja con conexiones simples y se prefiere una sitaxis precisa. Puede usar dos motores de conexión ConectorX(Predeterminado) y ADBC. ConectorX es más versatil y admite una amplia gama de bases de datos. ADBC es más nuevo y tiene soporte para PostgreSQL, SQLlite y Snowflake, pero puede ser más eficiente en algunos casos. **Es más rapido**.
- **pl.read_database**: utiliza SQLAlchemy, puede ser más lento.


In [None]:
# pl.read_database_uri
uri = "mssql://{user}:{password}@localhost:1433/{database}".format(
    user = 'sa',
    password = 'GS75Stealth*',
    database ='python_etl'
)

query = "SELECT * FROM WalmartSalesClean"

df = pl.read_database_uri(query=query, uri=uri)
df.head()

Date,Store,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Holiday_Events
date,i64,i64,i64,f64,f64,f64,f64,i64
2010-02-12,1,164195744,1,38.509998,2.548,211.242172,8.106,1
2010-02-19,1,161196816,0,39.93,2.514,211.289139,8.106,0
2010-02-26,1,140972752,0,46.630001,2.561,211.319641,8.106,0
2010-03-05,1,155480672,0,46.5,2.625,211.350143,8.106,0
2010-03-12,1,143954160,0,57.790001,2.667,211.380646,8.106,0


In [24]:
# pl.read_database
driver = 'SQL Server'
server ='.'
database = 'python_etl'
engine = create_engine(f'mssql+pyodbc://{server}/{database}?driver={driver}')

# testar la conexión
try:
    conn = engine.connect()
    print('Conection successfull')
except Exception as e:
    print(e)


Conection successfull


In [26]:
query = """
select *from python_etl.dbo.WalmartSalesClean
where Holiday_events = 1
"""
df = pl.read_database(
    query=query,
    connection=conn
)
df.head()

Date,Store,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Holiday_Events
str,i64,i64,i64,f64,f64,f64,f64,i64
"""2010-02-12""",1,164195744,1,38.509998,2.548,211.242172,8.106,1
"""2010-09-10""",1,150746064,1,78.690002,2.565,211.495193,7.787,1
"""2010-11-26""",1,195562416,1,64.519997,2.735,211.748428,7.838,1
"""2010-12-31""",1,136732000,1,48.43,2.943,211.404922,7.838,1
"""2011-02-11""",1,164961488,1,36.389999,3.022,212.936707,7.742,1
