## 3. SQL: Introducci√≥n a BBDD y Normalizaci√≥n

C√≥mo se gestionan, dise√±an las bases de datos con MySQL, un sistema de gesti√≥n de bases muy popular. Manipulaci√≥n de datos.

1. Intro entorno de trabajo Workbench
2. Importaci√≥n de bases de datos: necesarias para nuestras lecciones de SQL, incluyendo c√≥mo crear y cargar datos en MySQL Workbench.
3. Estructura de una base de datos: componentes b√°sicos (tablas, atributos, registros y su interrelaci√≥n.
4. Modelo relacional: info en tablas y relaciones
5. Claves Primarias y For√°neas: se utilizan para mantener la integridad de la base de datos.
6. Normalizaci√≥n: Proceso crucial para organizar la informaci√≥n de manera eficiente y libre de redundancias.

Aprenderemos a importar datos y a estructurarlos de forma que sean f√°ciles de analizar y visualizar.

Paso 1: Preparar los Datos
Antes de importar, aseg√∫rate de que tus datos:

Est√©n limpios (sin valores nulos inesperados, caracteres especiales, etc.).
Sean coherentes (mismo formato de fecha, tipo de dato, etc.).
Est√©n en un formato compatible, como CSV, Excel (XLSX) o SQL.

Paso 2: Crear una Base de Datos en MySQL Workbench
Abre MySQL Workbench y sigue estos pasos:

Crear una nueva base de datos (schema):

sql<>
Copiar
Editar
CREATE DATABASE nombre_base_datos;
USE nombre_base_datos;

Paso 3: Importar Datos en MySQL Workbench
üî∏ Opci√≥n A: Importar desde un Archivo CSV
1. Prepara el Archivo CSV:

Aseg√∫rate de que la primera fila contenga los nombres de las columnas.
Usa comas , o punto y coma ; como delimitadores (seg√∫n la configuraci√≥n regional).

2. Crea la Tabla Manualmente: Primero, crea la tabla con las columnas correctas:

sql<>
Copiar
Editar

CREATE TABLE nombre_tabla (
    id INT PRIMARY KEY AUTO_INCREMENT,
    nombre VARCHAR(100),
    edad INT,
    fecha_registro DATE
);
3. Importar el CSV usando Workbench:

Ve a Server ‚Üí Data Import.
Selecciona Import from Self-Contained File y elige tu archivo CSV.
Elige la base de datos destino.
Marca Dump Structure and Data.
En Advanced Options, selecciona el delimitador correcto (ej. , o ;).
Haz clic en Start Import.

4. Importar CSV con SQL (Alternativa) Si prefieres hacerlo con SQL, usa:
sql <>
LOAD DATA INFILE '/ruta/a/tu/archivo.csv'
INTO TABLE nombre_tabla
FIELDS TERMINATED BY ',' 
ENCLOSED BY '"' 
LINES TERMINATED BY '\n'
IGNORE 1 ROWS;

- FIELDS TERMINATED BY ',': Indica que los campos est√°n separados por comas.
- ENCLOSED BY '"': Si los valores est√°n entre comillas.
- IGNORE 1 ROWS: Ignora la primera fila (encabezados).
Nota: Aseg√∫rate de que MySQL tenga permisos para leer el archivo. En algunos sistemas, es posible que necesites mover el archivo a un directorio accesible como /var/lib/mysql-files/.



Opci√≥n B: Importar desde Excel (XLSX)
Convierte el archivo a CSV:

Abre el archivo en Excel o Google Sheets.
Exporta o guarda como CSV.
Sigue el Paso A para importar el CSV.

Opci√≥n C: Importar desde un Script SQL
Si tienes un archivo .sql que crea y llena las tablas, sigue estos pasos:

Ve a Server ‚Üí Data Import.
Selecciona Import from Self-Contained File y elige el archivo .sql.
Elige la base de datos destino.
Haz clic en Start Import.


Paso 4: Normalizar los Datos
Para que sean f√°ciles de analizar y visualizar, aseg√∫rate de:

Eliminar datos duplicados:

SQL<>
DELETE FROM nombre_tabla WHERE id NOT IN (
    SELECT MIN(id) FROM nombre_tabla GROUP BY nombre, edad, fecha_registro
);

Separar datos en tablas relacionadas (normalizaci√≥n):

Crea tablas para datos repetitivos, como:
sql<>

CREATE TABLE clientes (
    id INT PRIMARY KEY AUTO_INCREMENT,
    nombre VARCHAR(100),
    email VARCHAR(100)
);

CREATE TABLE pedidos (
    id INT PRIMARY KEY AUTO_INCREMENT,
    cliente_id INT,
    producto VARCHAR(100),
    cantidad INT,
    FOREIGN KEY (cliente_id) REFERENCES clientes(id)
);

Paso 5: Consultas para An√°lisis y Visualizaci√≥n
- Consultas B√°sicas:
SELECT * FROM nombre_tabla;
SELECT nombre, COUNT(*) AS total FROM nombre_tabla GROUP BY nombre;
SELECT AVG(edad) AS promedio_edad FROM nombre_tabla;

Consultas Avanzadas para An√°lisis:

sql<>
SELECT producto, SUM(cantidad) AS total_vendido
FROM pedidos
GROUP BY producto
ORDER BY total_vendido DESC;

Join entre Tablas:
SELECT c.nombre, p.producto, p.cantidad
FROM clientes c
JOIN pedidos p ON c.id = p.cliente_id;

Paso 6: Visualizaci√≥n en MySQL Workbench
En MySQL Workbench, puedes visualizar datos usando la pesta√±a "EER Diagram":

Ve a Database ‚Üí Reverse Engineer... para crear un diagrama ER.
Elige la base de datos.
Sigue los pasos y genera el diagrama.
Esto te ayudar√° a ver las relaciones entre tablas.

 Consejos para una Estructura Eficiente:
 1. Usa √≠ndices en columnas que consultes frecuentemente
 CREATE INDEX idx_nombre ON nombre_tabla(nombre);
 2. Elige los tipos de datos correctos para optimizar el almacenamiento y las consultas (ej. INT para n√∫meros, DATE para fechas).
 3. Normaliza los datos para evitar redundancias, pero no exageres (3FN es suficiente en la mayor√≠a de los casos)

In [7]:
pip install pandas

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [9]:
import pandas as pd
# Cargar el CVD en un DataFrame
df = pd.read_csv ("/Escritorio/DATA ANALYTICS/promo 49/modulo2/clases_invertidas/personal2.csv")
print(df.head())

   Unnamed: 0                                            workers
0           0  {'nombre': 'Ana', 'edad': 34, 'experiencia': 5...
1           1  {'nombre': 'Eva', 'edad': 37, 'experiencia': 2...
2           2  {'nombre': 'Marta', 'edad': 27, 'experiencia':...
3           3  {'nombre': 'Paula', 'edad': 30, 'experiencia':...


In [10]:
type(df)

pandas.core.frame.DataFrame

In [11]:
df.keys()

Index(['Unnamed: 0', 'workers'], dtype='object')

In [12]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  4 non-null      int64 
 1   workers     4 non-null      object
dtypes: int64(1), object(1)
memory usage: 196.0+ bytes
None


In [19]:
df_personal2 = pd.DataFrame(df)
pd.DataFrame(df)

Unnamed: 0,workers
0,"{'nombre': 'Ana', 'edad': 34, 'experiencia': 5..."
1,"{'nombre': 'Eva', 'edad': 37, 'experiencia': 2..."
2,"{'nombre': 'Marta', 'edad': 27, 'experiencia':..."
3,"{'nombre': 'Paula', 'edad': 30, 'experiencia':..."


In [20]:
df

Unnamed: 0,workers
0,"{'nombre': 'Ana', 'edad': 34, 'experiencia': 5..."
1,"{'nombre': 'Eva', 'edad': 37, 'experiencia': 2..."
2,"{'nombre': 'Marta', 'edad': 27, 'experiencia':..."
3,"{'nombre': 'Paula', 'edad': 30, 'experiencia':..."


In [21]:
type(df)

pandas.core.frame.DataFrame

In [13]:
import json
df = pd.read_json("personal2.json")
df.head()


Unnamed: 0,workers
0,"{'nombre': 'Ana', 'edad': 34, 'experiencia': 5..."
1,"{'nombre': 'Eva', 'edad': 37, 'experiencia': 2..."
2,"{'nombre': 'Marta', 'edad': 27, 'experiencia':..."
3,"{'nombre': 'Paula', 'edad': 30, 'experiencia':..."


In [14]:
df.to_excel("personal2.xlsx")

In [None]:
df.to_csv("personal2.csv")
df.head()

Unnamed: 0,workers
0,"{'nombre': 'Ana', 'edad': 34, 'experiencia': 5..."
1,"{'nombre': 'Eva', 'edad': 37, 'experiencia': 2..."
2,"{'nombre': 'Marta', 'edad': 27, 'experiencia':..."
3,"{'nombre': 'Paula', 'edad': 30, 'experiencia':..."


In [None]:
df_personal2.to_csv("personal2.csv")
df_personal2 = pd.read_csv("personal2.csv")