# Análisis de Fuentes de Publicación: Mapping Review IA y ML en Educación Matemática K-12

**MQ4: ¿En qué fuentes se publican estos estudios?**

Este notebook analiza las fuentes (revistas, conferencias, etc.) donde se publican los estudios sobre IA y ML en educación matemática K-12.

## 1. Configuración del Entorno

In [None]:
# Instalación de dependencias
!pip install pandas numpy matplotlib seaborn plotly

In [None]:
# Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# Configuración de estilo
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Configuración para mostrar todas las columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)

## 2. Carga de Datos desde GitHub

In [None]:
# Cargar el dataset desde GitHub
# IMPORTANTE: Cambiar la URL por tu repositorio real
url = "https://raw.githubusercontent.com/mlproyecto/doctorado/main/MappingReview.csv"
df = pd.read_csv(url, sep=';', encoding='latin-1')

print(f"Dataset cargado: {df.shape[0]} filas y {df.shape[1]} columnas")
print("\nPrimeras 5 filas:")
df.head()

## 3. Análisis de Fuentes de Publicación (MQ4)

In [None]:
# Análisis de fuentes de publicación
source_counts = df['Source'].value_counts()
source_percentages = (source_counts / len(df)) * 100

print("=== DISTRIBUCIÓN DE FUENTES DE PUBLICACIÓN ===")
for source, count in source_counts.items():
    percentage = source_percentages[source]
    print(f"{source}: {count} publicaciones ({percentage:.1f}%)")

print(f"\nTotal de fuentes únicas: {len(source_counts)}")
print(f"Fuente más común: {source_counts.index[0]} ({source_counts.iloc[0]} publicaciones)")

In [None]:
# Gráfico de barras para fuentes más frecuentes
top_sources = source_counts.head(15)

plt.figure(figsize=(15, 8))
bars = plt.bar(range(len(top_sources)), top_sources.values, color='lightcoral', alpha=0.7)
plt.xlabel('Fuente de Publicación', fontsize=14)
plt.ylabel('Número de Publicaciones', fontsize=14)
plt.title('Fuentes de Publicación Más Frecuentes', fontsize=16, fontweight='bold')
plt.xticks(range(len(top_sources)), top_sources.index, rotation=45, ha='right')
plt.grid(True, alpha=0.3, axis='y')

# Agregar valores en las barras
for i, (bar, count) in enumerate(zip(bars, top_sources.values)):
    plt.text(i, count + 0.5, str(count), ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# Gráfico de pastel para fuentes principales
top_sources_pie = source_counts.head(10)
others_count = source_counts.iloc[10:].sum()
top_sources_pie['Otros'] = others_count

plt.figure(figsize=(12, 8))
colors = plt.cm.Set3(np.linspace(0, 1, len(top_sources_pie)))

wedges, texts, autotexts = plt.pie(top_sources_pie.values, labels=top_sources_pie.index, 
                                    autopct='%1.1f%%', colors=colors, startangle=90)

plt.title('Distribución de Fuentes de Publicación', fontsize=16, fontweight='bold')
plt.axis('equal')

# Mejorar la legibilidad de las etiquetas
for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_fontweight('bold')

plt.tight_layout()
plt.show()

In [None]:
# Gráfico interactivo con Plotly
fig = px.bar(x=top_sources.index, y=top_sources.values,
              title='Fuentes de Publicación Más Frecuentes',
              labels={'x': 'Fuente', 'y': 'Número de Publicaciones'})

fig.update_layout(
    title_font_size=16,
    xaxis_title_font_size=14,
    yaxis_title_font_size=14
)

fig.show()

## 4. Análisis Temporal por Fuente

In [None]:
# Convertir Year a numérico
df['Year'] = pd.to_numeric(df['Year'], errors='coerce')

# Análisis temporal por fuente
temporal_by_source = df.groupby(['Year', 'Source']).size().unstack(fill_value=0)

print("=== EVOLUCIÓN TEMPORAL POR FUENTE ===")
print(temporal_by_source)

# Gráfico de líneas temporal para fuentes principales
top_sources_temporal = temporal_by_source[top_sources.index[:5]]

plt.figure(figsize=(15, 8))
colors = plt.cm.Set3(np.linspace(0, 1, len(top_sources_temporal.columns)))

for i, source in enumerate(top_sources_temporal.columns):
    plt.plot(top_sources_temporal.index, top_sources_temporal[source], marker='o', linewidth=2, 
             label=source, color=colors[i])

plt.title('Evolución Temporal por Fuente de Publicación', fontsize=16, fontweight='bold')
plt.xlabel('Año', fontsize=14)
plt.ylabel('Número de Publicaciones', fontsize=14)
plt.legend(title='Fuente', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Gráfico de área apilada
fig = px.area(top_sources_temporal, title='Evolución Temporal por Fuente de Publicación')

fig.update_layout(
    title_font_size=16,
    xaxis_title='Año',
    yaxis_title='Número de Publicaciones',
    hovermode='x unified'
)

fig.show()

## 5. Análisis de Presencia en Bases de Datos por Fuente

In [None]:
# Análisis de tipos de publicación por fuente
type_by_source = df.groupby(['Source', 'Type of Publication']).size().unstack(fill_value=0)

print("=== TIPOS DE PUBLICACIÓN POR FUENTE ===")
print(type_by_source)

# Gráfico de barras agrupadas
fig = px.bar(type_by_source, title='Tipos de Publicación por Fuente',
              barmode='group')

fig.update_layout(
    title_font_size=16,
    xaxis_title='Fuente',
    yaxis_title='Número de Publicaciones'
)

fig.show()

## 6. Resumen y Conclusiones

In [None]:
# Generar resumen ejecutivo
print("=== RESUMEN EJECUTIVO ===\n")

print(f"📊 Total de fuentes únicas: {len(source_counts)}")
print(f"📝 Fuente más común: {source_counts.index[0]} ({source_counts.iloc[0]} publicaciones)")
print(f"📈 Fuente menos común: {source_counts.index[-1]} ({source_counts.iloc[-1]} publicaciones)")

# Análisis de concentración
top_5_percentage = (source_counts.head(5).sum() / len(df)) * 100
print(f"🎯 Concentración en top 5 fuentes: {top_5_percentage:.1f}%")

# Análisis temporal
most_productive_year = temporal_by_source.sum(axis=1).idxmax()
most_productive_count = temporal_by_source.sum(axis=1).max()
print(f"📅 Año más productivo: {most_productive_year} ({most_productive_count} publicaciones)")

# Base de datos más utilizada por fuente principal
main_source = source_counts.index[0]
source_db_data = db_by_source_df.loc[main_source]
most_used_db = source_db_data.idxmax()
print(f"🔍 Base de datos más utilizada para {main_source}: {most_used_db} ({source_db_data.max()} publicaciones)")

print("\n=== CONCLUSIONES ===")
print("1. Hay fuentes claramente dominantes en el campo")
print("2. La distribución de fuentes es relativamente concentrada")
print("3. Diferentes fuentes tienen presencia en distintas bases de datos")
print("4. Hay una evolución temporal en las fuentes de publicación")