### Clase 3
## SQL Avanzado y Otros Datos

# 3.1 Introducción
En esta unidad se explorarán técnicas avanzadas de gentión de bases de datos untilizando SQL y cómo integrearlas con python para maximizar el análisis de datos en entornos de Machine Learning. Nos enfocaremos en dos áreas clase:

**1. Gentión Avanzada de SQL:** aprender a manejar transacciones, realizar consultas complejas y optimizar la interacción con bases de datos relacionales. Esta sección aboradará sentencias avanzadas, como la gestión de transacciones (TCL), y comandos que permiten realizar filtrados y manipulaciones sofisticadas de datos, tales como JOIN, GROUP BY y HAVING.
Estas técnicas permiten extraer y combinar datos de manera eficiente y son fundamentales para cualquier analista de datos que trabaje con volúmenes grandes y complejos de información.

**2. Uso de Otros Formatos de Bases de Datos con Python:**  además de SQL, se explorará cómo trabajar con otros formatos de bases de datos, como JSON, utilizando librerias en Python como Pandas. Se aprenderá a acceder a APIs y a integrar datos desde múltiples fuentes, lo que es esencial para manejar datos no estructuraados y semi-estructurados que son comunes en la actualidad. Esta sección incluirá el uso de librerías como sqlalchemy, sqlite3 y métodos en Pandas como read_sql_query() y read_json() para conectar, leer y manipular datos de manera efectiva.


Al finalizar esta unidad, se estará capacitado para realizar consultas complejas en SQL y gestionar datos desde diferentes formatos utilizando Python, fortaleciendo así tu capacidad para trabajar con datos diversos y optimizar procesos en proyectos de Machine Learning.


# 3.2 SQL Avanzado

## Explicaciones de sentencias avanzadas de SQL

En esta sección se explorarán las sentencias avanzadas de SQL, las cuales permiten realizar consultas más complejas y específicas en bases de datos relacionales. Estas técnicas son fundamentales para cualquier analista de datos, ya que permiten filtrar, combinar y resumir información de manera eficiente. 

### 1. Cláusulas WHERE, AND, OR, NOT

* **WHERE:** se utiliza para filtrar registros en una consulta. Permite especificar condiciones que los datos deben cumplir para ser seleccionados. Es la base para crear consultas más específicas y detalladas.

**Ejemplo**

sql
SELECT * FROM Customers 
WHERE Contry = 'Mexico';

* **AND, OR, NOT:** estas cláusulas se combinan con WHERE para crear condiciones más complejas:
    * AND: devuelve registros si todas las condiciones especificadas son verdaderas.
    * OR: devuelve registros si al menos una de las condiciones es verdadera.
    * NOT: excluye registros que cumplan con una condición específica.

**Ejemplo:**
sql
SELECT * FROMO Costumers
WHERE Country = 'Germany' AND City = 'Berlin';


### 2. Uso de JOINs(INNER, LEFT, RIGHT, FULL)
Los JOINs son cláusulas que permiten combinar filas de dos o más tablas en función de una columna relecionada entre ellas. Existen varios tipos de JOINs que se utilizan según las necesidades de la consulta

* **INER JOIN:** selecciona registros que tienen valores coincidentes en ambas tablas
**Ejemplo:**
SELECT Customers.CustomerName, Orders.OrderID 
FROM Costumers
INNER JOIN Orders ON Customers.CustomersID = Orders.Customers;

* **LEFT JOIN:** devuelve todos los registros de la tabla izquierda y los registros coincidentes en la tabla derecha.
**Ejemplo:**
SELECT Customers.CustomersName, Orders.OrderID
FROM Customers 
LEFT JOIN Orders ON Customers.CustomersID = Orders.CustomersID

* **RIGHT JOIN:** devuelve todos los valores de la tabla derecha y los registros coinsidentes de la tabla izquierda.

* **FULL JOIN:** devuelve todos los registros cuando hay coincidencias en cualquiera de las tablas.


### 3. Gestión De Transacciones (TCL)
Las sentencias de Control de Transacciones permiten manejar transacciones en una base de datos, asegurando la integridad de los datos y permitendo deshacer cambios si algo sale mas.

* **COMMIT:** guarda los cambios realizados durante una transacción.
* **ROLLBACK:** revierte los cambios realizados en la transacción actual.
* **SAVEPOINT:** define un punto dentro de una transacción al que se puede volver utilizando ROLLBACK

**Ejemplo:**

BEGIN;
UPDATE Accounts SET Balance = Balance - 100 WHERE AccountID = 1;
UPDATE Accounts SET Balance = Balance + 100 WHERE AccountID = 2;
COMMIT;


### 4. Agregaciones y Agrupaciones con GROUP BY y HAVING

* **GROUP BY:** agrupa filas que tienen los mismos valores en las columnas especificadas y se utiliza con funciones agregadas como COUNT(), SUM(), AVG(), MIN(), MAX(). Es útil para resumir información y organizar datos de manera significativa.
**Ejemplo:**

SELECT Country, COUNT (CustomersID)
FROM Customers 
GROUP BY Country;

* **HAVING:** se utiliza junto con GROUP BY para filtrar los grupos de datos que cumplen con una condición especifica. A diferencia de WHERE, HAVING se aplica después de que los datos han sido agrupados.
**Ejemplo:** 

SELECT Country, COUNT (CustomersID)
FROM Customers GROUP BY Country
HAVING COUNT(CCustomersID) > 5;


Estas sentencias y cláusulas avanzadas son esenciales para manipular y consultar datos de manera efectiva en SQL, permitiendo una gestión de información compleja y detallada en proyectos de análisis de datos.

# 3.3 Acceso a Otros Formatos de Bases de Datos
En esta sección se explora cómo acceder y manipular bases de datos no relacionales utilizando la biblioteca Pandas en Python. Además, se introducirán algunas librerías clave que facilitan la conexión y el manejo de datos no estructurados y semi-estructurados, como sqlalchemist, sqlite3 y JSON.

### 1. Acceso a bases de datos no relacionales con Pandas.
Pandas es una biblioteca poderosa para la manipulación y análisis de datos en Python. Aunque se usa comúnmente con bases de datos relacionales, también permite trabajar con bases de datos no relacionales como JSON y APIs web. Esto se logra mediante métodos que convierten datos no estructurados en DataFrames, facilitando su análisis y manipulación.

* **Metodos read_json():** este método permite leer archivos JSON desde un archivo local, una URL o directamente desde una cadena de texto JSON. Los datos JSON son comunmente utilizados para transferir información entre servidores y clientes, especialmente a través de APIs.
**Ejemplo:**


In [None]:
import pandas as pd
df = pd.read_json('data.json')
print(df)

### 2. Introducción a Librerías
Para conectar y trabajar con diferentes formatos de bases de datos, es esencial conocer y utilizar librerías especificas que permiten la integración con Pandas. A continuación, se presentan tres librerías de importancia:

* **Sqlalchemy:** es una poderosa libreria de Pyton que permite interactuar con bases de datos SQL de manera flexible y eficiente. Sqlalchemy se usa comúnmente para conectarse a una variedad de motores de bases de datos, incluyendo MySQL, PostgreSQL, SQLite, entre otros. Se combina fácilmente con Pandas y para cargar datos a DataFrames utilizando sentencial SQL.

**Ejemplo:**

In [None]:
from sqlalchemy import create_engine
engine = create_engine('sqlite:///ruta/a/tu_base_de_datos.db', echo=False)
df = pd.read_sql_table('SELECT * FROM nombre_de_la_tabla', con=engine)
print(df.head)

* **SQLite3:** es una biblioteca C integrada que proporciona una base de datos SQL ligera y de fácil acceso. Es una opción ideal para aplicaciones pequeñas y de uso local debido a su simplicidad y configuración mínima. En combinación con Pandas, permite extraer datos de una base de datos y transformarlos en un df.

**Ejemplo:**

In [None]:
import sqlite3 as sql
conn = sql.connect('ruta/a/tu_base_de_datos.db')
df = pd.read_sql_query('SELECT * FROM nombre_de_la_tabla', conn)
conn.close()
print(df.head)

* **JSON:** JavaScript Object Notation es un formato de datos semi-estructurados ampliamente utilizados para el intercambio de datos en aplicaciones web. Pandas facilita la lectura y conversión de datos JSON a DataFrame, permitiendo su análisis de manera estructurados.

**Caracteristicas clave de JSON:**
* los datos se organizan en pares clave-valor
* permite anidar objetos dentro de otros objetos, lo cual facilita la organización de datos complejos.
* Es ideal para la transferencia de datos entre cliente y el servidor en aplicaciones web.

**Ejemplo de lectura de JSON con Pandas:

In [None]:
import pandas as pd
json_data = '{"name": "Brian", "city": "Seattle"}'
df = pd.read_json(json_data, orient='columns')
print(df)

# Uso de APIs y JSON con Pandas

### Introducción a APIs y cómo se integran con Pandas
Las APIs (Application Programming Interfaces) son interfaces que permiten la comunicación entre dos sistemas diferentes, facilitando el intercambio de datos y la integración de diversas funcionalidades en aplicaciones y sitios web. En el contexto de análisis de datos, las APIs son especialmente útiles para acceder a grandes volúmenes de datos desde fuentes externas, como servicios web, redes sociales, y plataformas de datos abiertos.

Pandas, junto con otras librerías de Python como requests, permiten integrar y manipular datos obtenidos a través de APIs, transformándolos en DataFrames para su análisis. Esto facilita la conexión con servicios externos y la extracción de datos en formatos como JSON, que es comúnmente utilizado para la tranferencia de datos.


### 1. Integración de APIs con Pandas
La integración de APIs con Pandas se realiza típicamente en tres pasos:

1. **Realizar una solicitud HTTP a la API:** se utiliza la librería requests para hacer peticiones GET, POST, etc., y obtener datos en formato JSON u otros formatos.

2. **Convertir los datos JSON en un DataFrame:** una vez obtenidos los datos, Pandas puede leer el JSON y convertirlo en un DataFrame utilizando el método read_json() o pd.DataFrame() para una mayor manipulación.

3. **Manipulación y análisis de los datos:** los datos pueden ser filtrados, transformados y analizados utilizando todas las funcionalidades que ofrece Pandas.


### 2. Ejmplo de Lectura y Manipulación de Datos JSON desde una API
A continuación, se presenta un ejemplo práctico de cómo leer y manipular datos JSON desde una API usando Pandas:

**Paso 1: realizar una solicitud a la API**
se usará la librería requests para obtener datos de una API pública. En este caso, vamos a utilizar un ejemplo con una API que devuelve datos en formato JSON.


In [None]:
import requests

# Realiza una solicitud GET a la API
url = '<https://api.example.com/data>'
response = requests.get(url)

# Verifica que la solicitud fue exitosa (código 200)
if response.status_code == 200:
    data = response.json()  # Convierte la respuesta en un formato JSON
else:
    print("Error al realizar la solicitud:", response.status_code)

**Paso 2: convertir los Datos JSON en un DataFrame**
Ahora que tenemos los datos en formato JSON, podemos convertirlos en un DataFrame para su análisis.

In [None]:
import pandas as pd

# Convierte los datos JSON a un DataFrame
df = pd.DataFrame(data)
print(df.head())  # Muestra las primeras filas del DataFrame

**Paso 3: Manipulación y análisis de los datos**
Una vez que los datos están en un DataFrame, podemos realizar operaciones como filtrado, agrupaciones y visualizaciones.

In [None]:
# Ejemplo de filtrado de datos: seleccionar filas donde una columna específica cumple una condición
filtered_df = df[df['column_name'] > 10]

# Ejemplo de agrupación: agrupar por una columna y calcular la media
grouped_df = df.groupby('group_column').mean()

# Muestra los resultados
print(filtered_df.head())
print(grouped_df.head())