# Análisis de Fuentes de Publicación: Mapping Review IA y ML en Educación Matemática K-12\n
\n
**MQ4: ¿En qué fuentes aparecen este tipo de estudios?**\n
\n
Este notebook analiza las revistas, conferencias y otras fuentes donde se publican los estudios sobre IA y ML en educación matemática K-12.

## 1. Configuración del Entorno

In [None]:
# Instalación de dependencias\n
!pip install pandas numpy matplotlib seaborn plotly

In [None]:
# Importación de librerías\n
import pandas as pd\n
import numpy as np\n
import matplotlib.pyplot as plt\n
import seaborn as sns\n
import plotly.express as px\n
import plotly.graph_objects as go\n
from plotly.subplots import make_subplots\n
import warnings\n
warnings.filterwarnings('ignore')\n
\n
# Configuración de estilo\n
plt.style.use('seaborn-v0_8')\n
sns.set_palette(\"husl\")\n
plt.rcParams['figure.figsize'] = (12, 8)\n
plt.rcParams['font.size'] = 12\n
\n
# Configuración para mostrar todas las columnas\n
pd.set_option('display.max_columns', None)\n
pd.set_option('display.max_colwidth', None)

## 2. Carga de Datos desde GitHub

In [None]:
# Cargar el dataset desde GitHub\n
# IMPORTANTE: Cambiar la URL por tu repositorio real\n
url = \"https://raw.githubusercontent.com/TU_USUARIO/TU_REPOSITORIO/main/MappingReview.csv\"\n
df = pd.read_csv(url, sep=';', encoding='utf-8')\n
\n
print(f\"Dataset cargado: {df.shape[0]} filas y {df.shape[1]} columnas\")\n
print(\"\\nPrimeras 5 filas:\")\n
df.head()

## 3. Análisis de Fuentes de Publicación (MQ4)

In [None]:
# Análisis de fuentes de publicación\n
source_counts = df['Source'].value_counts()\n
source_percentages = (source_counts / len(df)) * 100\n
\n
print(\"=== DISTRIBUCIÓN DE FUENTES DE PUBLICACIÓN ===\")\n
for source, count in source_counts.items():\n
    percentage = source_percentages[source]\n
    print(f\"{source}: {count} publicaciones ({percentage:.1f}%)\")\n
\n
print(f\"\\nTotal de fuentes únicas: {len(source_counts)}\")\n
print(f\"Fuente más común: {source_counts.index[0]} ({source_counts.iloc[0]} publicaciones)\")

In [None]:
# Gráfico de barras para fuentes de publicación\n
plt.figure(figsize=(15, 10))\n
bars = plt.barh(range(len(source_counts)), source_counts.values, color='lightgreen', alpha=0.7)\n
plt.yticks(range(len(source_counts)), source_counts.index)\n
plt.xlabel('Número de Publicaciones', fontsize=14)\n
plt.title('Distribución de Fuentes de Publicación', fontsize=16, fontweight='bold')\n
plt.grid(True, alpha=0.3, axis='x')\n
\n
# Agregar valores en las barras\n
for i, (bar, count) in enumerate(zip(bars, source_counts.values)):\n
    plt.text(count + 0.5, i, str(count), va='center', fontweight='bold')\n
\n
plt.tight_layout()\n
plt.show()

In [None]:
# Gráfico de pastel para top 10 fuentes\n
top_10_sources = source_counts.head(10)\n
\n
plt.figure(figsize=(12, 8))\n
colors = plt.cm.Set3(np.linspace(0, 1, len(top_10_sources)))\n
\n
wedges, texts, autotexts = plt.pie(top_10_sources.values, labels=top_10_sources.index, \n
                                    autopct='%1.1f%%', colors=colors, startangle=90,\n
                                    textprops={'fontsize': 9})\n
\n
plt.title('Top 10 Fuentes de Publicación', fontsize=16, fontweight='bold')\n
plt.axis('equal')\n
\n
# Mejorar la legibilidad de las etiquetas\n
for autotext in autotexts:\n
    autotext.set_color('white')\n
    autotext.set_fontweight('bold')\n
\n
plt.tight_layout()\n
plt.show()

In [None]:
# Gráfico interactivo con Plotly\n
fig = px.bar(x=source_counts.values, y=source_counts.index,\n
              orientation='h',\n
              title='Distribución de Fuentes de Publicación',\n
              labels={'x': 'Número de Publicaciones', 'y': 'Fuente'})\n
\n
fig.update_layout(\n
    title_font_size=16,\n
    xaxis_title_font_size=14,\n
    yaxis_title_font_size=14,\n
    height=600\n
)\n
\n
fig.show()

## 4. Análisis de Revistas Específicas

In [None]:
# Análisis de revistas específicas\n
journal_counts = df['Publication Title'].value_counts()\n
\n
print(\"=== TOP 20 REVISTAS/CONFERENCIAS ===\")\n
for i, (journal, count) in enumerate(journal_counts.head(20).items(), 1):\n
    print(f\"{i:2d}. {journal}: {count} publicaciones\")\n
\n
# Gráfico de top 15 revistas\n
top_15_journals = journal_counts.head(15)\n
\n
plt.figure(figsize=(15, 10))\n
bars = plt.barh(range(len(top_15_journals)), top_15_journals.values, color='lightcoral', alpha=0.7)\n
plt.yticks(range(len(top_15_journals)), top_15_journals.index, fontsize=10)\n
plt.xlabel('Número de Publicaciones', fontsize=14)\n
plt.title('Top 15 Revistas/Conferencias', fontsize=16, fontweight='bold')\n
plt.grid(True, alpha=0.3, axis='x')\n
\n
# Agregar valores en las barras\n
for i, (bar, count) in enumerate(zip(bars, top_15_journals.values)):\n
    plt.text(count + 0.1, i, str(count), va='center', fontweight='bold')\n
\n
plt.tight_layout()\n
plt.show()

## 5. Análisis Temporal por Fuente

In [None]:
# Convertir Year a numérico\n
df['Year'] = pd.to_numeric(df['Year'], errors='coerce')\n
\n
# Análisis temporal por fuente\n
temporal_by_source = df.groupby(['Year', 'Source']).size().unstack(fill_value=0)\n
\n
print(\"=== EVOLUCIÓN TEMPORAL POR FUENTE ===\")\n
print(temporal_by_source)\n
\n
# Gráfico de líneas temporal\n
plt.figure(figsize=(15, 8))\n
for source in temporal_by_source.columns:\n
    plt.plot(temporal_by_source.index, temporal_by_source[source], marker='o', linewidth=2, label=source)\n
\n
plt.title('Evolución Temporal por Fuente de Publicación', fontsize=16, fontweight='bold')\n
plt.xlabel('Año', fontsize=14)\n
plt.ylabel('Número de Publicaciones', fontsize=14)\n
plt.legend(title='Fuente', bbox_to_anchor=(1.05, 1), loc='upper left')\n
plt.grid(True, alpha=0.3)\n
plt.xticks(temporal_by_source.index, rotation=45)\n
plt.tight_layout()\n
plt.show()

In [None]:
# Gráfico de área apilada\n
fig = px.area(temporal_by_source, title='Evolución Temporal por Fuente de Publicación')\n
\n
fig.update_layout(\n
    title_font_size=16,\n
    xaxis_title='Año',\n
    yaxis_title='Número de Publicaciones',\n
    hovermode='x unified'\n
)\n
\n
fig.show()

## 6. Análisis de Calidad de Fuentes

In [None]:
# Análisis de presencia en bases de datos por fuente\n
presence_columns = ['Present in Eric', 'Present in IEEE', 'Present in Scopus', 'Present in WoS']\n
\n
# Limpiar datos de presencia\n
for col in presence_columns:\n
    df[col] = df[col].fillna('No')\n
    df[col] = df[col].str.strip()\n
\n
# Crear análisis por fuente y presencia\n
presence_by_source = {}\n
for source in df['Source'].unique():\n
    source_data = df[df['Source'] == source]\n
    presence_by_source[source] = {}\n
    for col in presence_columns:\n
        presence_by_source[source][col] = source_data[col].value_counts().to_dict()\n
\n
print(\"=== PRESENCIA EN BASES DE DATOS POR FUENTE ===\")\n
for source, presence_data in presence_by_source.items():\n
    print(f\"\\n{source}:\")\n
    for db, counts in presence_data.items():\n
        print(f\"  {db}: {counts}\")

In [None]:
# Gráfico de calor para presencia en bases de datos\n
presence_matrix = df.groupby(['Source', 'Present in Scopus']).size().unstack(fill_value=0)\n
\n
plt.figure(figsize=(12, 8))\n
sns.heatmap(presence_matrix, annot=True, fmt='d', cmap='YlOrRd', cbar_kws={'label': 'Número de Publicaciones'})\n
plt.title('Presencia en Scopus por Fuente', fontsize=16, fontweight='bold')\n
plt.xlabel('Presencia en Scopus', fontsize=14)\n
plt.ylabel('Fuente', fontsize=14)\n
plt.tight_layout()\n
plt.show()

## 7. Análisis de Tendencias por Fuente

In [None]:
# Análisis de tendencias por fuente\n
print(\"=== ANÁLISIS DE TENDENCIAS POR FUENTE ===\")\n
\n
for source in df['Source'].unique():\n
    source_data = df[df['Source'] == source]\n
    year_counts = source_data['Year'].value_counts().sort_index()\n
    \n
    print(f\"\\n{source}:\")\n
    print(f\"  Total: {len(source_data)} publicaciones\")\n
    if len(year_counts) > 0:\n
        print(f\"  Año con más publicaciones: {year_counts.idxmax()} ({year_counts.max()} publicaciones)\")\n
        print(f\"  Año con menos publicaciones: {year_counts.idxmin()} ({year_counts.min()} publicaciones)\")\n
        print(f\"  Promedio anual: {year_counts.mean():.1f} publicaciones\")

In [None]:
# Gráfico de tendencias normalizadas\n
normalized_trends = temporal_by_source.div(temporal_by_source.sum(axis=1), axis=0) * 100\n
\n
plt.figure(figsize=(15, 8))\n
for source in normalized_trends.columns:\n
    plt.plot(normalized_trends.index, normalized_trends[source], marker='o', linewidth=2, label=source)\n
\n
plt.title('Tendencias Normalizadas por Fuente de Publicación', fontsize=16, fontweight='bold')\n
plt.xlabel('Año', fontsize=14)\n
plt.ylabel('Porcentaje de Publicaciones', fontsize=14)\n
plt.legend(title='Fuente', bbox_to_anchor=(1.05, 1), loc='upper left')\n
plt.grid(True, alpha=0.3)\n
plt.xticks(normalized_trends.index, rotation=45)\n
plt.tight_layout()\n
plt.show()

## 8. Resumen y Conclusiones

In [None]:
# Generar resumen ejecutivo\n
print(\"=== RESUMEN EJECUTIVO ===\\n\")\n
\n
print(f\"📊 Total de fuentes únicas: {len(source_counts)}\")\n
print(f\"📝 Fuente más común: {source_counts.index[0]} ({source_counts.iloc[0]} publicaciones)\")\n
print(f\"📈 Fuente menos común: {source_counts.index[-1]} ({source_counts.iloc[-1]} publicaciones)\")\n
\n
# Análisis de concentración\n
concentration = (source_counts.iloc[0] / len(df)) * 100\n
print(f\"🎯 Concentración de la fuente principal: {concentration:.1f}%\")\n
\n
# Análisis de diversidad\n
diversity_index = len(source_counts) / len(df) * 100\n
print(f\"🌐 Índice de diversidad de fuentes: {diversity_index:.1f}%\")\n
\n
# Top revista\n
top_journal = journal_counts.index[0]\n
top_journal_count = journal_counts.iloc[0]\n
print(f\"🏆 Revista más productiva: {top_journal} ({top_journal_count} publicaciones)\")\n
\n
print(\"\\n=== CONCLUSIONES ===\")\n
print(\"1. Las revistas especializadas dominan la publicación en este campo\")\n
print(\"2. Hay una distribución diversa de fuentes de publicación\")\n
print(\"3. Las conferencias son importantes para la difusión temprana\")\n
print(\"4. Existe variabilidad en la calidad de las fuentes\")