## SQLAlchemy

SQLAlchemy es el kit de herramientas SQL de Python y el asignador relacional de objetos que brinda a los desarrolladores de aplicaciones todo el poder y la flexibilidad de SQL.

Proporciona un conjunto completo de patrones de persistencia de nivel empresarial bien conocidos, diseñados para un acceso a bases de datos eficiente y de alto rendimiento, adaptados a un lenguaje de dominio simple y Pythonic.

In [None]:
import pandas as pd

Vamos a continuación a crear una base de datos en SQLite y cargar data de clientes y tarjetas

Primero cargamos los CSV comprimidos de la fuente

In [None]:
df_cards = pd.read_csv('.\\data\\cards.zip', compression='zip')
df_cards.info()

In [None]:
df_clients = pd.read_csv('.\\data\\clients.zip', compression='zip')
df_clients.info()

Luego creamos un engine de conexión
```
    engine = create_engine('dialect+driver://username:password@host:port/database')
```

Explanation:
------------

- dialect – Name of the DBMS
- driver – Name of the DB API that moves information between SQLAlchemy and the database.
- Username, Password – DB User credentials
- host: port – Specify the type of host and port number.
- Database – Database name

Si quisieran conectarse a **TERADATA** por ejemplo
```
    td_engine = create_engine('teradata://'+ username +':' + password + '@'+ host + ':22/database')
```

Más información en [este link](https://downloads.teradata.com/tools/articles/teradata-sqlalchemy-introduction)

In [None]:
from sqlalchemy import create_engine

engine = create_engine('sqlite:///data/test.db', echo=True) # echo=True permite el output de log de conexión
connection = engine.connect()

Ahora utilizamos `to_sql()` para enviar data a la base de datos `test.db`

Syntax: 'pd.DataFrame.to_sql(table_name, engine_name, if_exists, index)'

Explanation:
------------

- table_name – Name in which the table has to be stored
- engine_name – Name of the engine which is connected to the database
- if_exists – By default, pandas throws an error if the table_name already exists.
- index – (bool), Adds index column to the table that identifies each row uniquely.

In [None]:
df_cards.to_sql('cards', connection, if_exists='replace', index=False, index_label=id, chunksize=500)

# if_exist=...
# fail: Raise a ValueError.
# replace: Drop the table before inserting new values.
# append: Insert new values to the existing table.

In [None]:
df_clients.to_sql('clients', connection, if_exists='replace', index=False, index_label=id, chunksize=500)

Finalmente cerramos la conexión

**SIEMPRE SE DEBE CERRAR LA CONEXIÓN A LA BASE DE DATOS**

In [None]:
connection.close()

## Uso de SQL

In [None]:
engine = create_engine('sqlite:///data/test.db', echo=False) # echo=True permite el output de log de conexión
connection = engine.connect()

### ¿Cómo ejecutar un Query?

In [None]:
query = 'select * from cards limit 10'

df_generator = pd.read_sql_query(query, con=connection, chunksize=5)  # chunksize es opcional

type(df_generator)

### ¿Cómo procesar data por bloques?

In [None]:
raw_data = []

for chunk in df_generator:
  print(type(chunk))
  print(chunk)
  
  # A cada chunk se le puede hacer diferentes validaciones o transformaciones
  raw_data.append(
    chunk[chunk['card_type'] == 'Mastercard']
  )


df = pd.concat(raw_data)

# Si ya no necesito la BD cierro la conexión

connection.close()

In [None]:
df.info()

In [None]:
df

In [None]:
df_clients.head()

# EXERCISE

## Vamos a aplicar mucho de lo aprendido hasta ahora

Cuando cargamos la data desde el CSV algunos datos se corrompieron. Por ejemplo>
- En la tabla `clients` el campo `phone` es `FLOAT`, cuando debería ser `TEXT` en la base de datos.
- Los índices `id` son de tipo `BIGINT` cuando deberian ser `INTEGER`
- Los indices no son `PRIMARY KEY`
-  En `cards` el campo `cliend_id` no es una clave foránea

Para solventar el problema realice lo siguiente:

1. Borre la base de datos
2. Cree un nuevo notebook `final_exercise.ipynb`
3. Escriba los comandos para cargar la data del csv clients.zip a un dataframe con el campo `phone` correcto. Hint: Use el parámetro `converters = {'phone': parse_phone}`, donde `parse_phone = lambda x: transformar_en_numero_correcto( x )`
4. Vuelva a crear las tablas en la base de datos tomando en cuenta las observaciones. Puede usar los queries para crear tablas en el archivo `queries.sql` y la función `read_sql_query()`
5. Utilize `to_sql()` en el nuevo notebook para escribir la data corregida en la base de datos en una nueva tabla `clients`
6. ¿Cuales son los datos de los clientes con dos tarjetas y los clientes sin ninguna tarjeta? (utilize SQL desde pandas)

BONUS: Genere un reporte en Excel con una gráfica que muestre la proporción de clientes con Visa vs. Mastercard por género


