# Análisis de Bases de Datos Utilizadas

**Pregunta de Investigación MQ5:** ¿Cuáles son las bases de datos más comunes utilizadas en los estudios de IA y ML en educación matemática K-12?

Este notebook analiza las bases de datos utilizadas en los estudios incluidos en la revisión sistemática.

In [None]:
# Configuración del entorno
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib_venn import venn2, venn3
import warnings
warnings.filterwarnings('ignore')

# Configurar estilo de gráficos
plt.style.use('default')
sns.set_palette("husl")

In [None]:
# Cargar datos
url = "https://raw.githubusercontent.com/mlproyecto/doctorado/main/MappingReview.csv"
df = pd.read_csv(url, sep=';', encoding='latin-1')
print(f"Dataset cargado: {df.shape[0]} filas y {df.shape[1]} columnas")

In [None]:
# Limpiar columnas de presencia de bases de datos
db_columns = [col for col in df.columns if 'database' in col.lower() or 'base' in col.lower()]
print(f"Columnas de bases de datos encontradas: {db_columns}")

# Crear diccionario de bases de datos
databases = {}
for col in db_columns:
    if col in df.columns:
        databases[col] = df[col].fillna(0).astype(int)

print(f"Bases de datos analizadas: {list(databases.keys())}")

In [None]:
# Análisis individual de cada base de datos
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
axes = axes.ravel()

for i, (db_name, db_data) in enumerate(databases.items()):
    if i < 4:
        counts = db_data.value_counts()
        axes[i].pie(counts.values, labels=['No', 'Sí'], autopct='%1.1f%%')
        axes[i].set_title(f'Presencia de {db_name}')

plt.tight_layout()
plt.show()

In [None]:
# Análisis de combinaciones de bases de datos
if len(databases) >= 2:
    db_names = list(databases.keys())
    
    # Crear DataFrame de combinaciones
    db_df = pd.DataFrame(databases)
    
    # Análisis de solapamiento
    if len(db_names) == 2:
        set1 = set(db_df[db_df[db_names[0]] == 1].index)
        set2 = set(db_df[db_df[db_names[1]] == 1].index)
        
        plt.figure(figsize=(8, 6))
        venn2([set1, set2], (db_names[0], db_names[1]))
        plt.title('Solapamiento entre Bases de Datos')
        plt.show()
    elif len(db_names) == 3:
        set1 = set(db_df[db_df[db_names[0]] == 1].index)
        set2 = set(db_df[db_df[db_names[1]] == 1].index)
        set3 = set(db_df[db_df[db_names[2]] == 1].index)
        
        plt.figure(figsize=(10, 8))
        venn3([set1, set2, set3], (db_names[0], db_names[1], db_names[2]))
        plt.title('Solapamiento entre Bases de Datos')
        plt.show()