<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/04pln/clase_32.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Taller SQL – Resumen

## 1. Introducción a SQL
SQL (Structured Query Language) es el lenguaje estándar para gestionar bases de datos relacionales (RDBMS).  
Permite **crear, modificar y consultar** datos en bases como MySQL, PostgreSQL, SQL Server, Oracle, MariaDB.

---

## 2. Conceptos básicos

### 2.1 Base de Datos (DB)
- Conjunto de datos organizados y relacionados lógicamente.
- Accesibles en tiempo real, con uso compartido y evolución continua.

### 2.2 DBMS
- Sistema para crear y administrar bases de datos.
- Ejemplos: MySQL, PostgreSQL, Oracle, SQL Server.
- Proporciona mecanismos para almacenar, consultar y manipular datos.

---

## 3. Tipos de Bases de Datos
- **Sistema de archivos**: manejo básico, sin consultas complejas.
- **Jerárquica**: datos en estructura de árbol.
- **Red**: relaciones múltiples entre entidades.
- **Relacional (RDBMS)**: tablas con filas (registros) y columnas (campos).
- **Orientada a objetos**: combina datos y métodos.
- **NoSQL**: clave-valor, documentos, grafos, columnas anchas.

---

## 4. Ventajas y características de RDBMS
- Soporte **ACID**: Atomicidad, Consistencia, Aislamiento, Durabilidad.
- Modelo entidad-relación (ER).
- Uso de claves primarias (PK) y foráneas (FK).
- Integridad y seguridad avanzadas.

---

## 5. Diseño de Bases de Datos
- **Entidad**: elemento del mundo real que se quiere almacenar.
- **Atributo**: característica de una entidad.
- **Relación**: conexión entre entidades.
- **Claves**:  
  - PK: identifica de forma única cada fila.  
  - FK: referencia a PK de otra tabla.
- **Normalización**: elimina redundancia (1NF, 2NF, 3NF).

---

## 6. Lenguaje SQL

### 6.1 DDL (Data Definition Language)
- **CREATE**: crea bases y tablas.
- **ALTER**: modifica estructura.
- **DROP**: elimina bases/tablas.
- **CTAS**: crear tabla desde consulta (`CREATE TABLE AS SELECT`).

### 6.2 Tipos de Datos
- Numéricos: `INT`, `DECIMAL`.
- Texto: `CHAR`, `VARCHAR`, `TEXT`.
- Fecha/Hora: `DATE`, `TIMESTAMP`.
- Booleanos.

---

## 7. DML (Data Manipulation Language)
- **INSERT**: agregar datos.
- **SELECT**: consultar datos.
- **UPDATE**: modificar datos.
- **DELETE**: eliminar datos.
- Operaciones CRUD.

---

## 8. Consultas SQL

### 8.1 SELECT – Cláusulas
- **DISTINCT**: sin duplicados.
- **WHERE**: filtra filas.
- **ORDER BY**: ordena resultados.
- **GROUP BY**: agrupa datos.
- **HAVING**: filtra grupos.
- **LIMIT/OFFSET**: limita filas.

### 8.2 JOINs
- **INNER JOIN**: solo coincidencias.
- **LEFT JOIN**: todo de la izquierda.
- **RIGHT JOIN**: todo de la derecha.
- **FULL JOIN**: todo de ambas.
- **CROSS JOIN**: producto cartesiano.

---

## 9. Operadores y Filtros
- Comparación: `=`, `<>`, `<`, `>`.
- Lógicos: `AND`, `OR`, `NOT`.
- **LIKE** y comodines (`%`, `_`).
- Expresiones regulares (`REGEXP`).
- Rango (`BETWEEN`), lista (`IN`).

---

## 10. Funciones en SQL
- **Agregación**: `COUNT`, `SUM`, `AVG`, `MIN`, `MAX`.
- **Texto**: `UPPER`, `LOWER`, `CONCAT`, `TRIM`, `REPLACE`.
- **Fecha/Hora**: manipulación y extracción de fechas.
- **SUBSTRING**: extraer parte de texto.

---

## 11. Subconsultas (Subqueries)
- Consultas anidadas dentro de otra consulta.
- Se usan en `SELECT`, `WHERE`, `FROM`.
- Comparación con `JOIN`:  
  - JOIN: combina tablas directamente.  
  - SUBQUERY: anida consultas para filtrar o procesar datos.

---


### Ejemplo

In [2]:
!pip install pandas sqlalchemy




In [3]:
import pandas as pd

# === 1. Crear un DataFrame de ejemplo ===
data = {
    "id": [1, 2, 3, 4, 5],
    "nombre": ["Ana", "Luis", "María", "Pedro", "Carla"],
    "edad": [23, 34, 29, 40, 31],
    "ciudad": ["Santiago", "Valparaíso", "Concepción", "La Serena", "Temuco"]
}

df = pd.DataFrame(data)

# === 2. Guardar como CSV de prueba ===
csv_file = "personas.csv"
df.to_csv(csv_file, index=False, encoding="utf-8")

print(f"✅ CSV de prueba creado: {csv_file}")
df

✅ CSV de prueba creado: personas.csv


Unnamed: 0,id,nombre,edad,ciudad
0,1,Ana,23,Santiago
1,2,Luis,34,Valparaíso
2,3,María,29,Concepción
3,4,Pedro,40,La Serena
4,5,Carla,31,Temuco


In [6]:
personas_df = pd.read_csv('personas.csv')
personas_df

Unnamed: 0,id,nombre,edad,ciudad
0,1,Ana,23,Santiago
1,2,Luis,34,Valparaíso
2,3,María,29,Concepción
3,4,Pedro,40,La Serena
4,5,Carla,31,Temuco


In [4]:
from sqlalchemy import create_engine

# Archivo de base de datos SQLite
sqlite_file = "mi_base.db"

# Nombre de la tabla
table_name = "personas"

# Crear conexión con SQLite
engine = create_engine(f"sqlite:///{sqlite_file}")

# Subir el CSV a SQLite
df.to_sql(table_name, con=engine, if_exists="replace", index=False)

print(f"✅ Datos del CSV '{csv_file}' cargados en la tabla '{table_name}' de '{sqlite_file}'.")


✅ Datos del CSV 'personas.csv' cargados en la tabla 'personas' de 'mi_base.db'.


In [5]:
import sqlite3

# Conectar a SQLite
conn = sqlite3.connect(sqlite_file)
cursor = conn.cursor()

# Mostrar primeras filas
cursor.execute("SELECT * FROM personas;")
for fila in cursor.fetchall():
    print(fila)

conn.close()


(1, 'Ana', 23, 'Santiago')
(2, 'Luis', 34, 'Valparaíso')
(3, 'María', 29, 'Concepción')
(4, 'Pedro', 40, 'La Serena')
(5, 'Carla', 31, 'Temuco')


# Con otras bd

In [1]:
!pip install pandas sqlalchemy pymysql psycopg2-binary


Collecting pymysql
  Downloading PyMySQL-1.1.1-py3-none-any.whl.metadata (4.4 kB)
Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading PyMySQL-1.1.1-py3-none-any.whl (44 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.0/45.0 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading psycopg2_binary-2.9.10-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.0/3.0 MB[0m [31m23.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymysql, psycopg2-binary
Successfully installed psycopg2-binary-2.9.10 pymysql-1.1.1


In [None]:
import pandas as pd
from sqlalchemy import create_engine

# === CONFIGURACIÓN ===
# Ruta al archivo CSV
csv_file = "ruta/a/tu_archivo.csv"

# Tipo de base de datos: MySQL, PostgreSQL o SQLite
# MySQL/MariaDB: "mysql+pymysql://usuario:contraseña@localhost/nombre_base"
# PostgreSQL:    "postgresql+psycopg2://usuario:contraseña@localhost/nombre_base"
# SQLite:        "sqlite:///mi_base.db"

DATABASE_URL = "mysql+pymysql://usuario:contraseña@localhost/nombre_base"

# Nombre de la tabla donde se guardarán los datos
table_name = "nombre_tabla"

# === PASO 1: Leer el CSV ===
df = pd.read_csv(csv_file, encoding="utf-8")  # Ajusta encoding si es necesario

# === PASO 2: Crear conexión con la base de datos ===
engine = create_engine(DATABASE_URL)

# === PASO 3: Subir datos a la base ===
df.to_sql(table_name, con=engine, if_exists="replace", index=False)

print(f"✅ Datos del CSV '{csv_file}' cargados en la tabla '{table_name}'.")



# Creación de una Base de Datos Relacional en SQLite con PK y FK desde CSV en Python

Este ejemplo muestra cómo:
1. Crear archivos CSV de prueba.
2. Crear una base de datos relacional en SQLite con Primary Keys (PK) y Foreign Keys (FK).
3. Insertar los datos desde CSV en las tablas.
4. Realizar consultas usando JOIN.

## 1. Conceptos Clave

### Primary Key (PK)
- Es un identificador único para cada registro en una tabla.
- No puede repetirse ni ser nulo.

### Foreign Key (FK)
- Es un campo en una tabla que hace referencia a la Primary Key de otra tabla.
- Permite mantener la integridad referencial entre tablas.

## 2. Estructura del Ejemplo

Tendremos dos tablas relacionadas:

- Tabla `ciudades`  
  - `id_ciudad` → PK  
  - `nombre_ciudad`

- Tabla `personas`  
  - `id_persona` → PK  
  - `nombre`  
  - `edad`  
  - `id_ciudad` → FK que referencia `ciudades.id_ciudad`

Relación:  
Cada persona vive en una ciudad y esa ciudad está en la tabla `ciudades`.

## 3. Paso 1: Crear CSV de Prueba

```python
import pandas as pd

# Datos para ciudades
ciudades_data = {
    "id_ciudad": [1, 2, 3],
    "nombre_ciudad": ["Santiago", "Valparaíso", "Concepción"]
}

# Datos para personas (relación con ciudades por id_ciudad)
personas_data = {
    "id_persona": [1, 2, 3, 4, 5],
    "nombre": ["Ana", "Luis", "María", "Pedro", "Carla"],
    "edad": [23, 34, 29, 40, 31],
    "id_ciudad": [1, 2, 1, 3, 2]
}

# Crear DataFrames
df_ciudades = pd.DataFrame(ciudades_data)
df_personas = pd.DataFrame(personas_data)

# Guardar como CSV
df_ciudades.to_csv("ciudades.csv", index=False, encoding="utf-8")
df_personas.to_csv("personas.csv", index=False, encoding="utf-8")

print("CSV creados: ciudades.csv y personas.csv")
```

Resultado:
- `ciudades.csv`
- `personas.csv`

## 4. Paso 2: Crear Base de Datos SQLite con PK y FK

```python
import sqlite3

# Conectar a SQLite (crea el archivo si no existe)
conn = sqlite3.connect("mi_base_relacional.db")
cursor = conn.cursor()

# Activar claves foráneas
cursor.execute("PRAGMA foreign_keys = ON;")

# Crear tabla ciudades
cursor.execute("""
CREATE TABLE IF NOT EXISTS ciudades (
    id_ciudad INTEGER PRIMARY KEY,
    nombre_ciudad TEXT NOT NULL
);
""")

# Crear tabla personas con clave foránea hacia ciudades
cursor.execute("""
CREATE TABLE IF NOT EXISTS personas (
    id_persona INTEGER PRIMARY KEY,
    nombre TEXT NOT NULL,
    edad INTEGER,
    id_ciudad INTEGER,
    FOREIGN KEY (id_ciudad) REFERENCES ciudades(id_ciudad)
);
""")

conn.commit()
```

## 5. Paso 3: Insertar Datos desde CSV a SQLite

```python
# Leer los CSV
df_ciudades = pd.read_csv("ciudades.csv")
df_personas = pd.read_csv("personas.csv")

# Insertar en la tabla ciudades
df_ciudades.to_sql("ciudades", conn, if_exists="append", index=False)

# Insertar en la tabla personas
df_personas.to_sql("personas", conn, if_exists="append", index=False)

print("Datos insertados en las tablas")
```

## 6. Paso 4: Consultar con JOIN

```python
import pandas as pd

# Consulta relacional uniendo personas con ciudades
query = '''
SELECT p.id_persona, p.nombre, p.edad, c.nombre_ciudad
FROM personas p
JOIN ciudades c ON p.id_ciudad = c.id_ciudad;
'''

# Mostrar resultados en un DataFrame
result = pd.read_sql_query(query, conn)
result
```

Salida esperada:
| id_persona | nombre | edad | nombre_ciudad |
|------------|--------|------|---------------|
| 1 | Ana   | 23 | Santiago     |
| 2 | Luis  | 34 | Valparaíso   |
| 3 | María | 29 | Santiago     |
| 4 | Pedro | 40 | Concepción   |
| 5 | Carla | 31 | Valparaíso   |

## 7. Paso 5: Cerrar Conexión
```python
conn.close()
```

## 8. Explicación de la Integridad Referencial

- Si intentas insertar una persona con `id_ciudad` que no existe en `ciudades`, SQLite lo rechazará.
- Esto asegura que todas las personas tengan una ciudad válida.

## 9. Extensiones de este Ejemplo
- Agregar más tablas (por ejemplo, `trabajos` y `empresas`).
- Usar más claves foráneas.
- Crear índices para optimizar consultas.
- Hacer consultas más complejas con múltiples JOIN.

## Resumen
Este flujo en Python y SQLite permite:
1. Definir estructuras relacionales con PK y FK.
2. Insertar datos desde archivos CSV.
3. Realizar consultas relacionadas entre tablas.
4. Mantener integridad de datos automáticamente.


In [7]:
import pandas as pd
import sqlite3

# === 1. Datos de ejemplo ===
ciudades_data = {
    "id_ciudad": [1, 2, 3],
    "nombre_ciudad": ["Santiago", "Valparaíso", "Concepción"]
}

personas_data = {
    "id_persona": [1, 2, 3, 4, 5],
    "nombre": ["Ana", "Luis", "María", "Pedro", "Carla"],
    "edad": [23, 34, 29, 40, 31],
    "id_ciudad": [1, 2, 1, 3, 2]  # Relación con ciudades
}

df_ciudades = pd.DataFrame(ciudades_data)
df_personas = pd.DataFrame(personas_data)

# === 2. Guardar como CSV (opcional para simular que vienen de archivo) ===
df_ciudades.to_csv("ciudades.csv", index=False, encoding="utf-8")
df_personas.to_csv("personas.csv", index=False, encoding="utf-8")

print("✅ CSV creados: ciudades.csv y personas.csv")


✅ CSV creados: ciudades.csv y personas.csv


In [8]:
# Conectar a SQLite
conn = sqlite3.connect("mi_base_relacional.db")
cursor = conn.cursor()

# Activar soporte de claves foráneas
cursor.execute("PRAGMA foreign_keys = ON;")

# Crear tabla ciudades
cursor.execute("""
CREATE TABLE IF NOT EXISTS ciudades (
    id_ciudad INTEGER PRIMARY KEY,
    nombre_ciudad TEXT NOT NULL
);
""")

# Crear tabla personas con clave foránea
cursor.execute("""
CREATE TABLE IF NOT EXISTS personas (
    id_persona INTEGER PRIMARY KEY,
    nombre TEXT NOT NULL,
    edad INTEGER,
    id_ciudad INTEGER,
    FOREIGN KEY (id_ciudad) REFERENCES ciudades(id_ciudad)
);
""")

conn.commit()


In [9]:
# Leer CSVs
df_ciudades = pd.read_csv("ciudades.csv")
df_personas = pd.read_csv("personas.csv")

# Insertar en ciudades
df_ciudades.to_sql("ciudades", conn, if_exists="append", index=False)

# Insertar en personas
df_personas.to_sql("personas", conn, if_exists="append", index=False)

print("✅ Datos insertados en tablas relacionales")


✅ Datos insertados en tablas relacionales


In [10]:
# Consulta relacional
query = """
SELECT p.id_persona, p.nombre, p.edad, c.nombre_ciudad
FROM personas p
JOIN ciudades c ON p.id_ciudad = c.id_ciudad;
"""

result = pd.read_sql_query(query, conn)
result


Unnamed: 0,id_persona,nombre,edad,nombre_ciudad
0,1,Ana,23,Santiago
1,2,Luis,34,Valparaíso
2,3,María,29,Santiago
3,4,Pedro,40,Concepción
4,5,Carla,31,Valparaíso


In [11]:
conn.close()
