# Análisis de Tipos de Artículos: Mapping Review IA y ML en Educación Matemática K-12

**MQ3: ¿Qué tipos de artículos se publican en este campo?**

Este notebook analiza la distribución y características de diferentes tipos de publicaciones en el campo de IA y ML en educación matemática K-12.

## 1. Configuración del Entorno

In [None]:
# Instalación de dependencias
!pip install pandas numpy matplotlib seaborn plotly

In [None]:
# Importación de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# Configuración de estilo
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Configuración para mostrar todas las columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)

## 2. Carga de Datos desde GitHub

In [None]:
# Cargar el dataset desde GitHub
# IMPORTANTE: Cambiar la URL por tu repositorio real
# Cargar el dataset local
df = pd.read_csv('../MappingReview.csv', sep=';', encoding='latin-1')

print(f"Dataset cargado: {df.shape[0]} filas y {df.shape[1]} columnas")
print("\nPrimeras 5 filas:")
df.head()

## 3. Análisis de Tipos de Artículos (MQ3)

In [None]:
# Análisis de tipos de publicación
type_counts = df['Type of Publication'].value_counts()
type_percentages = (type_counts / len(df)) * 100

print("=== DISTRIBUCIÓN DE TIPOS DE PUBLICACIÓN ===")
for pub_type, count in type_counts.items():
    percentage = type_percentages[pub_type]
    print(f"{pub_type}: {count} publicaciones ({percentage:.1f}%)")

print(f"\nTotal de tipos únicos: {len(type_counts)}")
print(f"Tipo más común: {type_counts.index[0]} ({type_counts.iloc[0]} publicaciones)")

In [None]:
# Gráfico de barras para tipos de publicación
plt.figure(figsize=(12, 8))
bars = plt.bar(range(len(type_counts)), type_counts.values, color='lightblue', alpha=0.7)
plt.xlabel('Tipo de Publicación', fontsize=14)
plt.ylabel('Número de Publicaciones', fontsize=14)
plt.title('Distribución de Tipos de Publicación', fontsize=16, fontweight='bold')
plt.xticks(range(len(type_counts)), type_counts.index, rotation=45, ha='right')
plt.grid(True, alpha=0.3, axis='y')

# Agregar valores en las barras
for i, (bar, count) in enumerate(zip(bars, type_counts.values)):
    plt.text(i, count + 0.5, str(count), ha='center', va='bottom', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# Gráfico de pastel
plt.figure(figsize=(12, 8))
colors = plt.cm.Set3(np.linspace(0, 1, len(type_counts)))

wedges, texts, autotexts = plt.pie(type_counts.values, labels=type_counts.index, 
                                    autopct='%1.1f%%', colors=colors, startangle=90)

plt.title('Distribución de Tipos de Publicación', fontsize=16, fontweight='bold')
plt.axis('equal')

# Mejorar la legibilidad de las etiquetas
for autotext in autotexts:
    autotext.set_color('white')
    autotext.set_fontweight('bold')

plt.tight_layout()
plt.show()

In [None]:
# Gráfico interactivo con Plotly
fig = px.pie(values=type_counts.values, names=type_counts.index,
              title='Distribución de Tipos de Publicación')

fig.update_layout(
    title_font_size=16
)

fig.show()

## 4. Análisis Temporal por Tipo

In [None]:
# Convertir Year a numérico
df['Year'] = pd.to_numeric(df['Year'], errors='coerce')

# Análisis temporal por tipo de publicación
temporal_by_type = df.groupby(['Year', 'Type of Publication']).size().unstack(fill_value=0)

print("=== EVOLUCIÓN TEMPORAL POR TIPO DE PUBLICACIÓN ===")
print(temporal_by_type)

# Gráfico de líneas temporal
plt.figure(figsize=(15, 8))
colors = plt.cm.Set3(np.linspace(0, 1, len(temporal_by_type.columns)))

for i, pub_type in enumerate(temporal_by_type.columns):
    plt.plot(temporal_by_type.index, temporal_by_type[pub_type], marker='o', linewidth=2, 
             label=pub_type, color=colors[i])

plt.title('Evolución Temporal por Tipo de Publicación', fontsize=16, fontweight='bold')
plt.xlabel('Año', fontsize=14)
plt.ylabel('Número de Publicaciones', fontsize=14)
plt.legend(title='Tipo de Publicación', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Gráfico de área apilada
fig = px.area(temporal_by_type, title='Evolución Temporal por Tipo de Publicación')

fig.update_layout(
    title_font_size=16,
    xaxis_title='Año',
    yaxis_title='Número de Publicaciones',
    hovermode='x unified'
)

fig.show()

## 5. Análisis de Fuentes por Tipo

In [None]:
# Análisis de fuentes por tipo de publicación
source_by_type = df.groupby(['Type of Publication', 'Source']).size().unstack(fill_value=0)

print("=== FUENTES POR TIPO DE PUBLICACIÓN ===")
print(source_by_type)

# Gráfico de calor
plt.figure(figsize=(12, 8))
sns.heatmap(source_by_type, annot=True, fmt='d', cmap='YlOrRd', cbar_kws={'label': 'Número de Publicaciones'})
plt.title('Fuentes por Tipo de Publicación', fontsize=16, fontweight='bold')
plt.xlabel('Fuente', fontsize=14)
plt.ylabel('Tipo de Publicación', fontsize=14)
plt.tight_layout()
plt.show()

## 6. Análisis de Fuentes de Datos por Tipo

In [None]:
# Análisis de fuentes por tipo de publicación
source_by_type = df.groupby(['Type of Publication', 'Source']).size().unstack(fill_value=0)

print("=== FUENTES POR TIPO DE PUBLICACIÓN ===")
print(source_by_type)

# Gráfico de barras agrupadas
fig = px.bar(source_by_type, title='Fuentes por Tipo de Publicación',
              barmode='group')

fig.update_layout(
    title_font_size=16,
    xaxis_title='Tipo de Publicación',
    yaxis_title='Número de Publicaciones'
)

fig.show()

## 7. Resumen y Conclusiones

In [None]:
# Generar resumen ejecutivo
print("=== RESUMEN EJECUTIVO ===\n")

print(f"📊 Total de tipos de publicación: {len(type_counts)}")
print(f"📝 Tipo más común: {type_counts.index[0]} ({type_counts.iloc[0]} publicaciones)")
print(f"📈 Tipo menos común: {type_counts.index[-1]} ({type_counts.iloc[-1]} publicaciones)")

# Análisis de diversidad
diversity_index = len(type_counts) / len(df) * 100
print(f"🌐 Índice de diversidad: {diversity_index:.1f}%")

# Análisis temporal
most_productive_year = temporal_by_type.sum(axis=1).idxmax()
most_productive_count = temporal_by_type.sum(axis=1).max()
print(f"📅 Año más productivo: {most_productive_year} ({most_productive_count} publicaciones)")

# Base de datos más utilizada por tipo
most_common_type = type_counts.index[0]
type_source_data = source_by_type.loc[most_common_type]
most_used_source = type_source_data.idxmax()
print(f"🔍 Base de datos más utilizada para {most_common_type}: {most_used_db} ({type_db_data.max()} publicaciones)")

print("\n=== CONCLUSIONES ===")
print("1. Los artículos de investigación dominan la literatura")
print("2. Hay una evolución temporal en los tipos de publicación")
print("3. Diferentes tipos tienen presencia en distintas fuentes")
print("4. La diversidad de tipos de publicación es moderada")