# Clase 2 - Postgress y AWS RDS

Algunas veces no nos proporcionan archivos csv, sino puntos de entrada a bases de datos, por eso es importante saber consultar bases de datos y extraer de ellas informacion, en python lo que todos recomendan es el uso de **postgressql**, pero dentro en los script de python existen varias librerias para manipular motores de bases de datos, pero existe una libreria en particular que es agnostica a todos los motores de bases de datos, esta libreria se llama **sqlalchemy**
`from sqlalchemy import create_engine, text`

```python
DB_USERNAME = 'usuario_x' # nombre de ususario postgress
DB_PASSWORD = 'pass_x' # pasword del usuario

engine = create_engine(f'postgress://{DB_USERNAME}:{DB_PASSWORD}@localhost/postgres', max_overflow=20)
result = engine.connect().execute(text('SELECT Hello world;'))
print(result.first()[0])
```

-----
### RDS

abrir RDS en AWS y crear una **base de datos** y seleccione **standard create**, luego la base de datos **postgresql**, luego selecciona **free tier** y por ultimo nombra la base de datos en **DB instance identifier**

- OJO: easy create puede ser un servicio traicionero.
- Desactive todos los servicios que puedan suponer un cobro en el futuro.

para poder acceder a la base de datos en AWS modifica la linea del **localhost** por la **url** de la base de datos en AWS

`from sqlalchemy import create_engine, text`

```python
DB_USERNAME = 'usuario_x' # nombre de ususario postgress
DB_PASSWORD = 'pass_x' # pasword del usuario

engine = create_engine(f'postgress://{DB_USERNAME}:{DB_PASSWORD}@ds4a-demo-instance.ccaqzryoosnl.us-east.rds.amazonaws.com/postgres', max_overflow=20)
result = engine.connect().execute(text('SELECT Hello world;'))
print(result.first()[0])
```

si por alguna razon rechaza su conexion, revise el apartado de inbound rules y fijee si la IP es 0.0.0.0 que permite cualquier conexion desde cualquier equipo, si pone una IP real, solo ese equipo tendra conexion privada con la DB.

# Clase 3-4 Dash

Dash es una libreria similar a Django, pero open source y ajustada a Data Science, se basa mucho en boostrap y es de codigo abierto, esto facilita a los que se dedican a ciencia de datos poder hacer presentaciones y paginas web mas faciles sin pensar mucho en estilos CSS.

Boostrap es una libreria de facebook para generar estilos responsivos que funcionan en todo tipo de sipositivos, boostrap usa 12 columnas para distribuir la estructura de una pagina web por la cantidad indefinida de filas, lo que hace mas facil acomodar el contenido dentro de la aplicacion.

```python

# Esto es un callback o decorador en crudo

def get_square(val):
	return val ** 2

def caller (func, val):
	return func(val)

caller(get_square, 5)

# todo lo anterior es lo mismo que esto que viene a continuacion.

@caller
def get_square():
	print( 'Entrega la respuesta' )

```

-----
### GeoJSON y ESRI

GeoJson es un formato moderno similar a un JSON, con la diferencia que contiene **listas de coordenadas e informacion de como deben ser tratadas esas coordenadas**, pero antiguamente existian los **ESRI**, que son servidores que alojan mapas a los que habia que hacerles peticiones para descargar los datos por partes, porque limitaba la cantidad de peticiones que se le hacian al servidor, por lo que los mapas salian en **distintos trozos** que habia que juntar.

Por lo general los gobiernos de todos los paises tienen sus datos en ESRI, **Colombia tiene sus datos en ESRI**, por lo que hay que hacer una conversion de los datos ESRI a GeoJSON

Estos archivos geojson no se pueden abrir en pandas, se debe de usar en este caso **geopandas**, pero si aun debe precisar abrirlo en pandas, hay que abrirlo directamente en python con la **funcion open**.

```python
with open('app/data/us.json') as geo:
	geojson = json.loads(geo.read())
print(type(geojson)) # Esto devuelve dict

# otro ejemplo
with open('app/data/states.json') as f:
	states_dict = json.loads(f.read())
df['States_abbr'] = df['State'].map(states_dict)
```

-----
### Future Engineering

Si usted sabe aplicar la funcion **map()** a un dataframe, usted está aplicando Future Engineering, basicamente es tomar un dataframe y juntar nuevas columnas con informacion

- Dash usa el paradigma de **programación reactiva**, esto quiere decir que cualquier cambio que ocurra, este será aplicado en caliente sin necesidad de parar el programa y volver a recargar para que se apliquen los cambios.

- Dash usa **Layouts y Callback**, los layouts son plantillas de como estructurar la información dentro de la pagina y los callbacks son funcion que **siempre estan escuchando los cambios** que ocurren en los layouts y los ejecutan.

------
### Libreria OS

- Libreria OS de python sirve para acceder a las variables de entorno del sistema

1. Manipulación de Rutas:

- `os.path.join()`: Combina componentes de una ruta para crear una ruta completa.
- `os.path.abspath()`: Devuelve la ruta absoluta de una ruta dada.
- `os.path.basename()`: Devuelve el nombre base de una ruta.
- `os.path.dirname()`: Devuelve el directorio de una ruta.

2. Operaciones de Directorio:

- `os.mkdir()`: Crea un directorio.
- `os.makedirs()`: Crea directorios recursivamente.
- `os.rmdir()`: Elimina un directorio vacío.
- `os.removedirs()`: Elimina directorios recursivamente.

3. Listado de Archivos y Directorios:

- `os.listdir()`: Devuelve una lista de nombres de archivos en un directorio.
- `os.walk()`: Genera los nombres de archivos en un árbol de directorios.

4. Operaciones de Archivos:

- `os.remove()`: Elimina un archivo.
- `os.rename()`: Cambia el nombre de un archivo o directorio.
- `os.path.isfile()`: Verifica si una ruta apunta a un archivo.

5. Información del Sistema:

- `os.getcwd()`: Devuelve el directorio de trabajo actual.
- `os.environ`: Un diccionario que contiene las variables de entorno del sistema.
- `os.system()`: Ejecuta un comando del sistema.

6. Manipulación de Procesos:

- `os.fork()`: Crea un nuevo proceso utilizando la llamada al sistema fork.
- `os.exec*()`: Reemplaza la imagen del proceso actual con un nuevo programa.

-----
### IPython

IPython es una potente interfaz interactiva para el lenguaje de programación Python. Aunque IPython inicialmente se creó como una mejora del intérprete estándar de Python (también conocido como REPL, Read-Eval-Print Loop), ha evolucionado para proporcionar muchas características adicionales que facilitan el desarrollo interactivo, la exploración de datos y la computación científica. Algunas de las características clave de IPython incluyen:

1. Historial de comandos:
IPython mantiene un historial de comandos introducidos, lo que facilita la recuperación y repetición de comandos anteriores.

2. Completado de pestañas:
IPython ofrece completado de pestañas para ayudarte a escribir código más rápido, mostrando opciones disponibles para funciones, variables, y más.

3. Ayuda integrada:
Puedes obtener ayuda instantánea sobre funciones, módulos y objetos escribiendo el nombre seguido de un signo de interrogación, como funcion?.

4. Soporte para magics:
IPython incluye "comandos mágicos" (magics) que son comandos especiales que empiezan con % o %% que proporcionan funcionalidades adicionales, como la medición del tiempo de ejecución, ejecución de scripts, y más.

5. Integración con matplotlib:
IPython facilita la visualización de gráficos y figuras en línea con bibliotecas como matplotlib.

6. Widgets interactivos:
IPython ofrece widgets interactivos que permiten la creación de interfaces de usuario interactivas directamente en el notebook.

7. Soporte para extensiones:
IPython es altamente extensible y admite extensiones y plugins que pueden personalizar y ampliar sus capacidades.

8. Cuadernos interactivos (Jupyter Notebooks):
Los cuadernos interactivos de Jupyter son una característica clave de IPython. Permiten combinar código, texto explicativo y visualizaciones en un único documento interactivo.

9. Parallel Computing:
IPython proporciona herramientas para la computación en paralelo y distribuida, facilitando la ejecución de código en clústeres o en la nube.

Para utilizar IPython, puedes instalarlo como un paquete independiente o puedes usarlo como parte del entorno de desarrollo Jupyter. Jupyter Notebooks, anteriormente conocidos como IPython Notebooks, son una aplicación web que permite la creación y el intercambio de documentos que contienen código, texto y elementos multimedia.

-----



In [2]:
%%capture
%pip install ipython-sql sqlalchemy
import sqlalchemy
sqlalchemy.create_engine("sqlite:///call_center_database.db")
%load_ext sql
%sql sqlite:///call_center_database.db

# Clase 1 - Bases de datos

## Activar Magias en cuadernos de Jupyter

En Jupyter Notebook, los símbolos % y %% se utilizan para activar magias, que son comandos especiales que no son parte del lenguaje Python, pero que proporcionan funcionalidades adicionales dentro del entorno Jupyter. Estas magias facilitan la interactividad y la ejecución de comandos específicos.

### % (línea mágica única):

Se utiliza para ejecutar comandos mágicos en una sola línea.
Ejemplo: %run script.py ejecutará el script "script.py".

### %% (celda mágica):

Se utiliza para ejecutar comandos mágicos en una celda completa.
Ejemplo: %%time medirá el tiempo de ejecución de toda la celda.
En el código que proporcionaste anteriormente:

```Jupyter
%%!
%%HTML o %%html
%%SVG o %%svg
%%latex # La celda se comporta como un script de latex
%%markdown # Se comporta como una celda markdown
%%bash o %%sh # Se comporta como un script de bash
%%capture # Oculta la salida por consola de la celda.
%%code_wrap
%%debug

%%javascript o %%js # La celda se comporta como javascript

%%perl
%%prun
%%pypy
%%python o %%python2 o %%python3 # La celda se comporta como Python, y el numero es la version
%%ruby
%%script

%%sx
%%system
%%time
%%timeit
%%writefile
```

`%load_ext sql: Usa la línea mágica para cargar la extensión SQL.`

`%sql sqlite:///call_center_database.db: Usa la línea mágica para establecer la conexión con la base de datos SQLite.`

`%%capture: Usa la celda mágica para capturar la salida de la celda, evitando que la instalación de paquetes imprima información en la salida estándar.`

En resumen, % se usa para comandos mágicos de una línea, mientras que %% se utiliza para comandos mágicos que afectan a toda la celda.

In [None]:
%%sql -- Esto es un pre-procesador de Jupyter para que la celda se comporte como SQL
-- Puede notar en la esquina inferior derecha que estamos ejecutando la celda como Python.
-- Se puede simplemente quitar %%SQL y en el boton inferior derecho, cambiar a SQL.


SELECT CustomerID, Name, Age,
    CASE -- Similar a IF/ELSE
        WHEN CAST(Age as integer) >= 30 THEN 'Yes' -- CAST convierte el tipo de dato
        WHEN CAST(Age as integer) <  30 THEN 'No'
        ELSE 'Missing Data'
    END AS Over30 -- Renombra la nueva columna resultante como 'Over30'
FROM Customer
ORDER BY Name DESC
LIMIT 20

## Apendice: SQL Cheat Sheet

### SELECT

```sql
SELECT * FROM table_name; -- Selecciona todas las columnas de una tabla
SELECT column_name(s) FROM table_name; -- Selecciona las columnas mencionadas de la tabla
SELECT DISTINCT column FROM table_name; -- Selecciona valores unicos
SELECT column FROM table_name WHERE condition; -- Selecciona datos filtrados basados en una condicion
SELECT column FROM table_name ORDER BY column_1 DESC
```

### Operadores

- `<  menor que`
- `>  mayor que`
- `<= menor igual que`
- `>= mayor igual que`
- `<> no igual que`
- `=  igual que`
- `BETWEEN v1 AND v2 -- valor dentro de un rango`
- `LIKE - Busca un patron. usa % como un comodin - esto es similar al comodin * en los shells`

# Clase 5 - SQL - Aggregate functions in subquerys

las subconsultas sirven para encontrar errores entre tablas.

### Funciones Agregadas

- **AVG(column)** - Promedio de una columna
- **COUNT(column)** - Conteo de filas sin valores NULL
- **MAX(column)** - Valor máximo de una columna
- **MIN(column)** - valor mínimo de una columna
- **SUMA(column)** - Sumatoria de columna

- **ROUND(column,int)** -- Redondea hacia n cifras significativas.
- **FLOOR(column)** -- Redondea hacia abajo
- **CEIL(column)** -- Redondea hacia arriba
- **CAST(column as type)** -- Convierte el tipo de dato, donde type puede ser INTEGER, DECIMAL, TEXT, DATETIME
- **TO_CHAR** -- Convierte un texto a caracteres

`SELECT AVG(column), MIN(column), MAX(column) FROM table_name`

### Miscelaneo
- `CASE...END` -- Usado en SELECT para alterar una variable en el sitio.

```sql
SELECT column
    CASE
        WHEN column >= 0 THEN 'POSITIVE'
        ELSE 'NEGATIVE'
    END
FROM table_name
```
- `AS` -- Usado para renombrar una variable

```sql
SELECT SUM(column) AS total_column FROM table_name
```

- `GROUP BY` -- Usado para agrupar filas con el mismo valor, es usado en conjunto con funciones de agregacion.
- `ORDER BY` -- Determina el orden el cual seran retornadas las filas en la consulta.

#### Ejemplo:
En el siguiente ejemplo puede observar que hay una consulta dentro de otra, la sentencia `SELECT AVG(Duration) FROM call WHERE Duration > 0` es una consulta completa dentro de una condicion `WHERE` que compara duraciones.

```sql

SELECT a.name, b.CallID, b.Duration 
FROM agent a, call b
WHERE b.Duration > (SELECT AVG(Duration) FROM call WHERE Duration > 0)
LIMIT 15```

## La palabra clave IN

Otra herramienta util para crear condiciones (y una manera corta a la palabra OR) __IN__ es usado de la siguiente manera.

```sql
SELECT * FROM customer
WHERE age IN (18,20,25,30,35)
```
Esta podria seleccionar cualquier registro donde la edad sea 18,20,25,30,35

__IN__ Tambien puede ser usado con SELECT como un parametro. por ejemplo:

```sql
SELECT * FROM call
WHERE CustomerID IN (SELECT CustomerID FROM customer)
```
Esto podria seleccionar todos los valores en la columna CostumerID desde la tabla customer y usar estos como parametro para seleccionar filas de la tabla call, donde uno de estos valores de la columna CustomerID esté presente. Esto es especialmente util si usted tiene una columna con valores desde multiples tablas y podria hacer que su consulta solamente seleccione para que venga desde una unica tabla.

In este caso de nuestra tabla call, este podria tener solo valores AgentID que coincidan los valores desde la tabla agent, pero nosotros podemos usar la palabra clave IN para asegurarnos.

# Clase 6 - Calculating an NPS with SQL



In [None]:
%%capture
%run database_setup.py
%load_ext sql
%sql postgresql://jovyan:pg_password@/postgres?host=localhost

In [None]:
SELECT cnt, COUNT(cnt) AS count_of_count FROM
( -- Subconsulta dentro de Select
    SELECT customer_id, count(score.id) AS cnt FROM score
    INNER JOIN customer ON customer_id = customer.id
    GROUP BY customer_id
) a
GROUP BY cnt
ORDER BY count_of_count DESC
LIMIT 100;

In [None]:
-- Que es la funcion TO_CHAR()

SELECT week, ROUND(AVG(avg_week_score),2) AS avg_score FROM
(
    SELECT TO_CHAR(score.created_at, 'IYYY-IW') AS week, customer_id, AVG(score) AS avg_week_score FROM score
    GROUP BY week, customer_id
) a
GROUP BY week
ORDER BY week
LIMIT 100;

In [None]:
WITH nps_weekly AS 
( 
    SELECT *, ROUND(((CAST(promoter AS DECIMAL) / total) - (CAST(detractor AS DECIMAL) / total)) * 100, 0) AS nps, CEIL(CAST(SUBSTRING(week, 6, 8) AS DECIMAL)*12/52) AS month FROM
    (
        SELECT week,
        SUM(CASE WHEN nps_class = 'promoter' THEN 1 ELSE 0 END) AS "promoter",
        SUM(CASE WHEN nps_class = 'passive' THEN 1 ELSE 0 END) AS "passive",
        SUM(CASE WHEN nps_class = 'detractor' THEN 1 ELSE 0 END) AS "detractor",
            COUNT(*) AS "total" FROM

        (
            SELECT CASE
            WHEN avg_week_score > 8 THEN 'promoter'
            WHEN avg_week_score > 6 THEN 'passive'
            ELSE 'detractor'
            END AS nps_class, week FROM
            (
                SELECT TO_CHAR(score.created_at, 'IYYY-IW') AS week, customer_id, AVG(score) as avg_week_score FROM score
                GROUP BY week, customer_id
            ) a
        ) b
    GROUP BY week
    ORDER BY week
    ) c
)

SELECT *, (nps_avg-first_nps)/nps_std AS num_std FROM
(
    (
        SELECT a.month, AVG(a.nps) AS nps_avg, STDDEV(a.nps) AS nps_std FROM
        (
            SELECT * FROM nps_weekly
        ) a
        GROUP BY month
    ) stats

    INNER JOIN
    (
        SELECT DISTINCT ON (month)
        month, nps AS first_nps FROM nps_weekly
    ) first_nps

    ON (stats.month = first_nps.month)
)
first_nps
ORDER BY month
limit 100;

## Alias y JOIN implicito

Nosotros hemos aprendido antes como asignar un nuevo nombre a una columna en una consulta usando la palabra clave __AS__. Esta operacion es conocida como un __Alias__ y es util para mas que solo poner orden a los resultados de las consultas. Un uso funcional de un alias esta en que es llamado como un **JOIN implicito**, el cual es una sentencia join que no usa **la clave JOIN**, En su lugar usa alias para identificar cual tabla a consultar es requerida. La sintaxis para un **JOIN implicito** es la siguiente:

```sql
SELECT a.column_from_table_a, b.column_from_table_b
FROM table_a AS a, table_b AS b
WHERE a.shared_column = b.shared_column
```

Como puede ver, nosotros definimos el alias para cada una de las tablas en la **sentencia FROM** y los referenciamos en nuestra columnas usando un '. (punto)'en la **sentencia SELECT**, refiriendo como notacion __punto__. Nosotros aun usaremos nuestra **sentencia WHERE** para decir que columnas de nuestras tablas seran unidos

Por poner ambas tablas requeridas en la sentencia FROM y usandol nuestro alias, SQL puede inferir que nosotros estamos intentando un JOIN de estas tablas sin necesidad de unsar una palabra especifica.

## Appendix (cheat sheet)

### Nested queries

* <a href = 'https://www.tutorialspoint.com/postgresql/postgresql_sub_queries.htm'>Nested queries</a> Es cuando hace una consulta dentro de una consulta.

```sql
SELECT columns_from_subquery
FROM
    (
        SELECT columns_from_a_table
        FROM
        a_table

    ) AS subquery
```
* En una consulta anidada usted usualmente asigna un <a href='https://www.postgresqltutorial.com/postgresql-alias/'> alias</a> para cada subconsulta. El alias es introducido por la palabra clave __AS__ (see syntax above).
* <a href = 'https://www.tutorialspoint.com/postgresql/postgresql_with_clause.htm'>WITH .. AS</a>[]() le permite crear variables temporalmente en sus consultas, a la vez que le permite acceder a el repetidamente en su codigo en lugar de reescribir cada vez.
* A <a href='https://www.tutorialspoint.com/postgresql/postgresql_views.htm'>view</a> es una consulta que usted almacena como is este estuviera en una tabla. Este actualizará automaticamente cada vez que tablas subyacentes son actualizados.


### Removing duplicates

* <a href='https://www.geekytidbits.com/postgres-distinct-on/'>SELECT DISTINCT ON</a> Esto es muy similar a **SELECT DISTINCT**. in que remueve duplicados de los resultados, con la diferencia que la columna antes de ON es la unique que está siendo evaluada para los duplicados (i.e. la consulta ignora los duplicados en otras columnas). It retrieves the first non-duplicate element as ordered by the ORDER BY clause.

### Formatting and changing data types

* Use <a href='https://www.postgresql.org/docs/9.6/functions-formatting.html'>TO_CHAR</a> para extraer partes de una fecha y lo convierta en una columna de texto - caracter. La sintaxis es `TO_CHAR(column, keyword)` Algunas palabras clave utiles <a href='https://www.postgresql.org/docs/9.6/functions-formatting.html'>mas</a>.
    * __YYYY:__ Year
    * __IYYY:__ Year, preserving the [ISO week numbering standard](https://en.wikipedia.org/wiki/ISO_week_date)
    * __MM:__ Month number
    * __DD:__ Day of month
    * __WW:__ Week of year
    * __IWW:__ Week of year, preserving the [ISO week numbering standard](https://en.wikipedia.org/wiki/ISO_week_date)
    * __HH:__ Hour of day
    * __MI:__ Minute
    * __SS:__ Second
* <a href='https://www.postgresqltutorial.com/postgresql-round/'>ROUND</a> redondea los valores en la columna al entero mas cercano. La sintaxis es `ROUND(column_of_type_numeric, numbers_after_decimal_point)`.
* <a href='https://www.postgresqltutorial.com/postgresql-substring/'> SUBSTRING(column, int1, int2)</a> le deja caracteres en las celdas de columna entre la posicion __int1__ y la posicion __int2__.
* <a href='https://www.postgresql.org/docs/8.1/functions-math.html'>CEIL and FLOOR</a> redondea un numero hacia arriba o hacia abajo respectivamente. Su salida retorna siempre un entero.