# **Introducción a SQL Básico para Ingeniería de Datos**

En este notebook, aprenderás los conceptos básicos de SQL aplicados a la ingeniería de datos. SQL (Structured Query Language) es un lenguaje esencial para consultar y manipular datos en bases de datos relacionales.

## **1. Configuración del Entorno**

Para este ejercicio, usaremos una base de datos SQLite en memoria. Esto nos permitirá practicar consultas SQL sin necesidad de instalar una base de datos externa.

In [1]:
import sqlite3
import pandas as pd

# Crear una conexión a la base de datos en memoria
conn = sqlite3.connect(':memory:')

## **2. Creación de una Tabla de Ejemplo**

Crearemos una tabla llamada `employees` con datos de ejemplo que nos permitirán practicar consultas básicas en SQL.

In [2]:
# Crear la tabla 'employees' y agregar datos de ejemplo
cursor = conn.cursor()
cursor.execute('''
CREATE TABLE employees (
    id INTEGER PRIMARY KEY,
    name TEXT NOT NULL,
    age INTEGER,
    department TEXT,
    salary REAL
)
''')

data = [
    (1, 'Alice', 30, 'HR', 70000),
    (2, 'Bob', 24, 'IT', 60000),
    (3, 'Charlie', 35, 'Finance', 120000),
    (4, 'David', 29, 'IT', 75000),
    (5, 'Eve', 40, 'HR', 90000)
]

cursor.executemany('INSERT INTO employees VALUES (?, ?, ?, ?, ?)', data)
conn.commit()

## **3. Consultas Básicas en SQL**

Aprenderemos a realizar consultas básicas usando `SELECT`, `WHERE`, `ORDER BY` y otras cláusulas fundamentales en SQL.

### a. `SELECT`: Seleccionar Datos de la Tabla

La cláusula `SELECT` se utiliza para seleccionar datos de una tabla. A continuación, seleccionaremos todos los empleados de la tabla.

In [3]:
# Seleccionar todos los empleados
query = 'SELECT * FROM employees'
df = pd.read_sql_query(query, conn)
df

Unnamed: 0,id,name,age,department,salary
0,1,Alice,30,HR,70000.0
1,2,Bob,24,IT,60000.0
2,3,Charlie,35,Finance,120000.0
3,4,David,29,IT,75000.0
4,5,Eve,40,HR,90000.0


### b. `WHERE`: Filtrar Datos

La cláusula `WHERE` se utiliza para filtrar registros. Seleccionaremos solo a los empleados que pertenecen al departamento de 'IT'.

In [4]:
# Seleccionar empleados del departamento de IT
query = 'SELECT * FROM employees WHERE department = "IT"'
df = pd.read_sql_query(query, conn)
df

Unnamed: 0,id,name,age,department,salary
0,2,Bob,24,IT,60000.0
1,4,David,29,IT,75000.0


### c. `ORDER BY`: Ordenar Resultados

Podemos ordenar los resultados en orden ascendente o descendente. A continuación, ordenaremos a los empleados por su salario en orden descendente.

In [5]:
# Ordenar empleados por salario en orden descendente
query = 'SELECT * FROM employees ORDER BY salary DESC'
df = pd.read_sql_query(query, conn)
df

Unnamed: 0,id,name,age,department,salary
0,3,Charlie,35,Finance,120000.0
1,5,Eve,40,HR,90000.0
2,4,David,29,IT,75000.0
3,1,Alice,30,HR,70000.0
4,2,Bob,24,IT,60000.0


### d. `GROUP BY`: Agrupar Datos

La cláusula `GROUP BY` permite agrupar los datos. Calculemos el salario promedio por departamento.

In [6]:
# Calcular el salario promedio por departamento
query = 'SELECT department, AVG(salary) AS avg_salary FROM employees GROUP BY department'
df = pd.read_sql_query(query, conn)
df

Unnamed: 0,department,avg_salary
0,Finance,120000.0
1,HR,80000.0
2,IT,67500.0


### e. `JOIN`: Combinación de Tablas

Supongamos que tenemos otra tabla llamada `departments` con información adicional sobre cada departamento. Podemos usar `JOIN` para combinar estas tablas.

In [7]:
# Crear la tabla 'departments'
cursor.execute('''
CREATE TABLE departments (
    name TEXT PRIMARY KEY,
    location TEXT
)
''')

data_departments = [
    ('HR', 'New York'),
    ('IT', 'San Francisco'),
    ('Finance', 'Chicago')
]

cursor.executemany('INSERT INTO departments VALUES (?, ?)', data_departments)
conn.commit()

In [8]:
# Realizar un JOIN para combinar empleados y departamentos
query = '''
SELECT employees.name, employees.department, employees.salary, departments.location
FROM employees
JOIN departments ON employees.department = departments.name
'''
df = pd.read_sql_query(query, conn)
df

Unnamed: 0,name,department,salary,location
0,Alice,HR,70000.0,New York
1,Bob,IT,60000.0,San Francisco
2,Charlie,Finance,120000.0,Chicago
3,David,IT,75000.0,San Francisco
4,Eve,HR,90000.0,New York
