
#  Comparación SQL vs NoSQL 

Este GPT genera un notebook educativo y visualmente explicativo que compara estructuras y comportamientos de bases de datos SQL (relacionales) y NoSQL (documentales) a partir de ejemplos con datos sintéticos, gráficos comparativos y explicaciones ilustrativas



## 1️ Simulación de Base de Datos SQL (Estructura Rígida)

En SQL, todas las filas deben seguir el mismo esquema de columnas.
  Pensemos en un formulario de inscripción donde todos los estudiantes  deben llenar exactamente las mismas casillas.


In [None]:

import pandas as pd # libreria para manejar datos
import numpy as np # librerias para generar datos numericos 

# Datos sintéticos para SQL
np.random.seed(42) 
sql_data = pd.DataFrame({
    'ID': range(1, 101), # genera los numeros 1 al 100 
    'Nombre': np.random.choice(['Ana', 'Luis', 'Pedro', 'María', 'Sofía'], 100), # se seleciona un nombre aleatorio de la lista
    'Edad': np.random.randint(18, 60, 100), # se encarga de generar 100 edades aleatorias 
    'Ciudad': np.random.choice(['Bogotá', 'Medellín', 'Cali', 'Barranquilla'], 100) # se encarga de elegir aleatoriamente una cuidad por persona 
})
# es el que muestras las primeras filas del DataFrame
sql_data.head()


![image.png](attachment:image.png)

In [None]:

import matplotlib.pyplot as plt # libreria para graficar

plt.figure(figsize=(6,4)) # Configura el tamaño de la figura
#sql_data[ciudad] seleciona la columna "ciudad"
#value_counts() cuenta la cantidad de veces que aparece cada ciudad
# .prot() grafica los datos
sql_data['Ciudad'].value_counts().plot(kind='bar') 
plt.title('Distribución por Ciudad (SQL)') # Titulo de la grafica
plt.xlabel('Ciudad') # Etiqueta del eje x
plt.ylabel('Cantidad') # Etiqueta del eje y
plt.show() # muestra la grafica 


![image.png](attachment:image.png)


## 2 Simulación de Base de Datos NoSQL (Documental)

En NoSQL documental, cada documento puede tener campos diferentes.

Imaginemos que  cada perosna escribe su carta a su manera: algunos ponen teléfono, otros no, algunos incluyen barrio, etc...


In [None]:

import random # genera valores aleatorios 

# Datos sintéticos NoSQL heterogéneos
nosql_data = [] # lista para almacenar los documentos
for i in range(1, 101): # genera 100 documentos

    # genera un documento con campos aleatorios
    doc = {"ID": i, "Nombre": random.choice(['Ana', 'Luis', 'Pedro', 'María', 'Sofía'])}
    if random.random() > 0.5: # 50% de probabilidad de incluir el campo
        doc["Edad"] = random.randint(18, 60) 
    if random.random() > 0.7: # 30% de probabilidad de incluir el campo
        doc["RedesSociales"] = random.choice(['Instagram', 'Facebook', 'Twitter'])
    nosql_data.append(doc) # agrega el documento a la lista
# muestra las primeras 5 filas del DataFrame
nosql_data[:5]


![image.png](attachment:image.png)


## 3 Simulación de Base de Datos NoSQL Homogéneo

En este modelo, todos los documentos tienen el mismo formato, pero el esquema sigue siendo flexible.

 Es como una hoja de registro donde todos escriben los mismos datos, pero no hay una regla estricta que lo obligue.


In [None]:

# Datos sintéticos NoSQL homogéneo
# 
nosql_homog = [
    {"ID": i, # identificador unico 
     "Nombre": random.choice(['Ana', 'Luis', 'Pedro', 'María', 'Sofía']), # nombre aleatorio
     "Edad": random.randint(18, 60), # genera una edad aleatoria 
     "Ciudad": random.choice(['Bogotá', 'Medellín', 'Cali', 'Barranquilla'])} # ciudad aleatoria
    for i in range(1, 101) # genera 100 documentos
]
# muestra las primeras 5 filas del DataFrame
nosql_homog[:5]


![image.png](attachment:image.png)


## Conclusión

- **SQL** es ideal para datos estructurados y consistentes, pero menos flexible para cambios rápidos en el esquema.
- **NoSQL heterogéneo** ofrece gran flexibilidad, pero puede dificultar análisis estructurados.
- **NoSQL homogéneo** combina cierta uniformidad con flexibilidad.

 La elección depende del tipo de datos, la necesidad de escalabilidad y la rapidez de cambios en el modelo.
