# Practica SQL

## Set Up

In [None]:
import os
import gc
import pandas as pd
import polars as pl
from typing import Union
from sqlalchemy import create_engine, text
from dotenv import load_dotenv

load_dotenv()

# Reemplaza USER y PASSWORD del .env
engine = create_engine(f"postgresql+psycopg2://{os.getenv('USER')}:{os.getenv('PASSWORD')}@localhost:5432/postgres")

# Probar la conexión
try:
    connection = engine.connect()
    print("Conexión exitosa")
    connection.close()
except Exception as e:
    print(f"Error al conectar: {e}")


def ejecutar_query(query: str, devolver_polars: bool = False) -> Union[pd.DataFrame, pl.DataFrame, str]:
    """
    Ejecuta una consulta SQL en la base de datos y devuelve un DataFrame.

    Parámetros:
    - query (str): La consulta SQL a ejecutar.
    - devolver_polars (bool): Si es True, devuelve un polars DataFrame, si no, devuelve un pandas DataFrame (por defecto).

    Retorna:
    - Union[pd.DataFrame, pl.DataFrame, str]: Retorna un DataFrame en pandas o polars dependiendo del parámetro 'devolver_polars',
      o un mensaje de éxito/error si la operación no es un SELECT.
    """
    
    with engine.connect() as connection:
        try:
            result = connection.execute(text(query))
            
            # Determinar si es una consulta SELECT para devolver datos
            if result.returns_rows:
                rows = result.fetchall()
                columns = result.keys()

                # Convertir filas en un diccionario de listas para crear correctamente el DataFrame en polars
                data_dict = {col: [row[idx] for row in rows] for idx, col in enumerate(columns)}

                # Verificación de coincidencia de columnas y filas
                if devolver_polars:
                    return pl.DataFrame(data_dict)
                else:
                    return pd.DataFrame(data_dict)
            else:
                connection.commit()
                return f"Query ejecutada correctamente: {result.rowcount} filas afectadas."
        except Exception as e:
            return f"Error al ejecutar la query: {e}"

In [None]:
def cargar_csv_a_sql(url, table_name):
    try:
        df = pd.read_csv(url, nrows=200000, sep="\t")
        df.columns = [i.lower() for i in df.columns]
        df.to_sql(table_name, engine, if_exists="append", method="multi", schema="bootcamp", index=False)
        del df
        gc.collect()
        print(f"Datos cargados en la tabla {table_name}")
    except Exception as e:
        print(f"Error al cargar los datos en la tabla {table_name}: {e}")

# Lista de URLs y nombres de tablas
csv_info = [
    ("https://drive.google.com/uc?id=1MDgiAel34RZULi9a1WXuzGQOE9M5_aGp", "akas"),
    ("https://drive.google.com/uc?id=1vzlcrhm77MFw7ha_Xj3MyfPwhM7XhqW2", "crew"),
    ("https://drive.google.com/uc?id=1Co0bwQQhmtMcTnZwZqWo_W1-nrFVgBFm", "names"),
    ("https://drive.google.com/uc?id=1ojsyx3m-8-3x9LM_X_TS0EBN4JMrkyR4", "principals"),
    ("https://drive.google.com/uc?id=1XCN67VhsVQmlr5BudNJGjHnqZR_DqetR", "ratings")
]

# Cargar cada CSV en su respectiva tabla
for url, table_name in csv_info:
    cargar_csv_a_sql(url, table_name)

In [None]:
ejecutar_query('SELECT * FROM bootcamp.ratings')

## Modelo de datos

Para la parte de la practica creamos una base un tanto más cercana a lo que sería una base real.

Tenemos 5 tablas, cada una con cientos de miles de registros y vamos a poner en práctica todos los conceptos que estuvimos viendo hasta el momento.

![image.png](attachment:image.png)

### 1)
Empezamos utilizando un conjunto de subqueries para devolver con un único comando SELECT la cantidad de filas en cada una de las tablas que tenemos para ir familiarizandonos con nuestros datos.


```sql
SELECT (SELECT COUNT(*) FROM bootcamp.akas) as "Count AKAs",
            (SELECT COUNT(*) FROM bootcamp.ratings) as "Count Ratings",
            (SELECT COUNT(*) FROM bootcamp.names) as "Count Names",
            (SELECT COUNT(*) FROM bootcamp.principals) as "Count Principals",
            (SELECT COUNT(*) FROM bootcamp.crew) as "Count Crew")
```



In [None]:
query = '''
SELECT 
    (SELECT COUNT(*) FROM bootcamp.akas) as "Count AKAs", 
    (SELECT COUNT(*) FROM bootcamp.ratings) as "Count Ratings", 
    (SELECT COUNT(*) FROM bootcamp.names) as "Count Names", 
    (SELECT COUNT(*) FROM bootcamp.principals) as "Count Principals", 
    (SELECT COUNT(*) FROM bootcamp.crew) as "Count Crew"
'''
ejecutar_query(query=query)


### 2)
Supongamos ahora el siguiente caso:

Nos solicitan retornar aquellas peliculas que tengan un rating superior al rating promedio.

Nuevamente, podemos obtener esto con usando un subquery



```sql
SELECT *
FROM bootcamp.ratings
WHERE averagerating > (SELECT AVG(averagerating) FROM bootcamp.ratings)
```



In [None]:
query = '''
SELECT * 
FROM bootcamp.ratings 
WHERE averagerating > (SELECT AVG(averagerating) FROM bootcamp.ratings)
'''
ejecutar_query(query=query)


### 3)

Continuando con el ejercicio anterior, ahora nos solicitan que traigamos también los títulos y regiones de dichas películas.
Como ya vimos en la clase anterior, podemos obtener esto fácilmente utilizando un JOIN.
¿Pero que tipo de JOIN?

Resumamos lo que necesitamos:
- Traer las películas, cuyo rating es superior al promedio - 'bootcamp.ratings'
- Agregarle información de la tabla 'bootcamp.akas' en caso exista.
- Sabemos además que, por fuera del titulo, no precisaríamos más datos de la tabla 'bootcamp.akas'

A priori pareciera ser que un LEFT JOIN cumpliría con todos los requisitos.

Probemos lo siguiente:



```
SELECT r.tconst "R_Title_ID",
       r.averagerating "R_Rating",
       r.numvotes "R_Numero_de_votos",
       a.title "A_Titulo",
       a.region "A_Region"
FROM bootcamp.ratings r
LEFT JOIN bootcamp.akas a
ON r.tconst = a.titleid
WHERE r.averagerating > (SELECT AVG(averagerating) FROM bootcamp.ratings)
```



In [None]:
query = '''
SELECT 
    r.tconst AS "R_Title_ID",
    r.averagerating AS "R_Rating",
    r.numvotes AS "R_Numero_de_votos",
    a.title AS "A_Titulo",
    a.region AS "A_Region" 
FROM 
    bootcamp.ratings r 
LEFT JOIN 
    bootcamp.akas a 
ON 
    r.tconst = a.titleid 
WHERE 
    r.averagerating > (SELECT AVG(averagerating) FROM bootcamp.ratings)
'''
ejecutar_query(query=query)


### 3)bis
¿Qué sucede si nos confundimos el tipo de JOIN?

La realidad es que no pasa nada, simplemente no obtendremos el resultado que queremos ya sea porque filtramos datos de más - o de menos - pero no es que el motor vaya a arrojar ningún error. Por esto es muy importante que revisemos y analicemos si los resultados obtenidos son consistentes con lo que necesitamos.

Como ejemplo, ejecutemos la misma query del ejercicio anterior cambiando el LEFT JOIN por otro tipo de JOIN y veamos cual es el resultado.

```
SELECT r.tconst "R_Title_ID",
       r.averagerating "R_Rating",
       r.numvotes "R_Numero_de_votos",
       a.title "A_Titulo",
       a.region "A_Region"
FROM bootcamp.ratings r
INNER JOIN bootcamp.akas a
ON r.tconst = a.titleid
WHERE r.averagerating > (SELECT AVG(averagerating) FROM bootcamp.ratings)
```

In [None]:
query = '''
SELECT 
    r.tconst AS "R_Title_ID",
    r.averagerating AS "R_Rating",
    r.numvotes AS "R_Numero_de_votos",
    a.title AS "A_Titulo",
    a.region AS "A_Region" 
FROM 
    bootcamp.ratings r 
RIGHT JOIN 
    bootcamp.akas a 
ON 
    r.tconst = a.titleid 
WHERE 
    r.averagerating > (SELECT AVG(averagerating) FROM bootcamp.ratings)
'''
ejecutar_query(query=query)


### 4)
Inmediatamente después, nos comentan que ésta data la necesitarían disponible por separado y que, idealmente, el usuario final no se deba preocupar por escribir correctamente los JOINS, las subqueries ni nada por el estilo.

Podemos crear una vista para hacerlo!



```
CREATE OR REPLACE VIEW pelis_buenas_con_titulo AS
SELECT * 
FROM bootcamp.ratings r
LEFT JOIN bootcamp.akas a
ON r.tconst = a.titleid
WHERE r.averagerating > (SELECT AVG(averagerating) FROM bootcamp.ratings)
```
Observación: Agregamos un LIMIT 1000 al final para no sobrecargar la base.


In [None]:
query = '''
CREATE OR REPLACE VIEW pelis_buenas_con_titulo AS 
SELECT 
    r.*, 
    a.title 
FROM 
    bootcamp.ratings r 
LEFT JOIN 
    bootcamp.akas a 
ON 
    r.tconst = a.titleid 
WHERE 
    r.averagerating > (SELECT AVG(averagerating) FROM bootcamp.ratings) 
LIMIT 1000;
'''
ejecutar_query(query=query)

### 5)
Como comentamos en la clase teórica, ahora nuestra vista existe como "una tabla virtual" a la que podemos consultar de la misma manera que lo haríamos con una tabla real.

Por ejemplo:



```
SELECT COUNT(*)
FROM pelis_buenas_con_titulo
```

O bien:



```
SELECT MAX(numvotes)
FROM pelis_buenas_con_titulo
```




In [None]:
query = '''
SELECT COUNT(*) 
FROM pelis_buenas_con_titulo;
'''
ejecutar_query(query=query)

In [None]:
query = '''
SELECT MAX(numvotes) 
FROM pelis_buenas_con_titulo;
'''
ejecutar_query(query=query)

### 6) 
Probemos algo un tanto más complejo.

Supongamos que nos solicitan lo siguiente:
- El titulo de la película
- Con el numero de votos máximo
- Con las condiciones de:
  - Que haya un actor con "John" en su nombre
  - Y cuyo actor tenga menos de 75 años

Para poder cumplir con ésto vamos a tener que conocer bien en detalle nuestro modelo de datos - es decir las tablas y los datos que viven en ellas.

```
SELECT a.title, CAST(r.numvotes AS INTEGER)
FROM bootcamp.names n 
LEFT JOIN bootcamp.principals p 
ON n.nconst = p.nconst 

LEFT JOIN bootcamp.ratings r 
ON p.tconst = r.tconst 

LEFT JOIN bootcamp.akas a 
ON p.tconst = a.titleid 

WHERE n.birthyear NOT LIKE '%N%' 
AND CAST(date_part('year', NOW()) AS INTEGER) - CAST(n.birthyear AS INTEGER) < 75 
AND n.primaryname LIKE '%John%' 
AND r.numvotes IS NOT NULL 

ORDER BY 2 DESC 
LIMIT 1;
```

In [None]:
query = '''
SELECT 
    a.title, 
    CAST(r.numvotes AS INTEGER) 
FROM 
    bootcamp.names n 
LEFT JOIN 
    bootcamp.principals p ON n.nconst = p.nconst 
LEFT JOIN 
    bootcamp.ratings r ON p.tconst = r.tconst 
LEFT JOIN 
    bootcamp.akas a ON p.tconst = a.titleid 
WHERE 
    n.birthyear NOT LIKE '%N%' 
    AND CAST(date_part('year', NOW()) AS INTEGER) - CAST(n.birthyear AS INTEGER) < 75 
    AND n.primaryname LIKE '%John%' 
    AND r.numvotes IS NOT NULL 
ORDER BY 
    2 DESC 
LIMIT 1;
'''
ejecutar_query(query=query)




---



---



---



## Más Ejercicios:

1) Normalización:
Algunas de las tablas de nuestra base NO cumplen con al menos 1 de las formas normales:
  - Analizar cuales son
  - Que reglas o normas rompen
  - Sugerir una posible solución



2) TO-DOs:
  1. Retornar el actor con mayor numero de apariciones en películas
  2. Retornar el puesto de trabajo menos común
  3. Devolver el titulo más largo de una película incluyendo:
    - El rating
    - La cantidad de votos
  4. Crear una vista que contenga:
    - Las 10 películas con menor rating
    - Incluyendo titulo