[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/m-durand/propedeutico_python/blob/main/notebooks/7_SQL.ipynb)

# Propedéutico a programación con Python.

**Verano 2023, por el Centro de Ciencia de Datos, EGobiernoyTP.**

## Sesión 7: SQL básico

1. Arrays y Dataframes
2. Operaciones básicas en Dataframes
    * Creación de columnas nuevas
        * Suma, resta, multiplicación o divisón
        * Comandos básicos de texto
    * Agrupación
3. Operaciones avanzadas en Dataframes
    * Funciones Lambda
4. Combinación de Dataframes
    * Tipos de joins
    * Merge

### 2.3 Cargar tablas de bases de datos con sql

Las bases de datos relacionales es otra manera en la que se pueden almacenar, manejar, consultar o analizar información. Generalmente, las bases de datos de esta naturaleza se guardan en servidores (computadoras en la nube) dedicados exclusivamente para el mantenimiento y manejo de datos tabulares (columna-renglón), y el lenguaje que se utiliza para interactuar con estas bases es SQL (Structured Query Language). 

Las bases de datos relacionales son de gran ayuda sobre todo cuando se manejan grandes cantidades de datos. Los paquetes para interactuar entre python y bases de datos relacionales es `psycopg2` y/o `sqlite`. El que se utilizará más durante la maestría es `psycopg2`, sin embargo, para enseñarte el funcionamiento utilizaremos `sqlite`. 

Para establecer la conexión a bases de datos (PSQL) necesitas las siguientes líneas de código, así como la información que se enumera:


```
# Importas paquete
import psycopg2

# Estableces conexión: 
psconn = psycopg2.connect(host="mouse.db.elephantsql.com", # 1. Dirección de la base
                          port = 5432,                     # 2. Puerto de conexión
                          database="base_mouse",           # 3. Nombre de la base
                          user="usuario-n",                # 4. Nombre de usuario
                          password="your-password")        # 5. Contraseña
                          

```


La información numerada se asigna y proporciona generalmente por el administrador/dueño de la base de datos. Esto es para tener mayor seguridad y control de la información. 

Para fines de la sesión de hoy guardamos una pequeña base de datos para mostrar cómo puedes cargar datos con pandas y sql. 

Primero cargamos el paquete:

In [None]:
import sqlite3

In [None]:
gdrv_file = '../datos/flights.db'

In [None]:
conn = sqlite3.connect(gdrv_file)   # aquí pondrías la información de la base con psycopg2.connect

Una vez que tienes asignada la conexión utilizas lenguaje sql para mandar a llamar la tabla `airlines` que está dentro de la base de datos que se llama flights: 

- `select` : selecciona

- `*` : todo
- `from` : de 
- `airlines` : tabla llamada airlines
- `;` : así se cierran los queries en sql


En este caso estamos cargando la tabla a python sin modificar la base de datos original. 

In [None]:
q = '''
    select 
        * 
    from 
        airlines
        ;
    '''

In [None]:
df_sql = pd.read_sql_query(q, conn)  # Nota como utilizamos pandas para cargar el query con la conexión en conn

In [None]:
df_sql 