<a href="https://colab.research.google.com/github/braulioalda4-code/nuevo_repositorio/blob/main/py_Braulio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Generar dataset de ejemplo
def generar_dataset_harvard():
    np.random.seed(42)

    # Fechas de ejemplo (últimos 2 años)
    fechas = [datetime.now() - timedelta(days=x) for x in range(0, 730, 10)]

    # Títulos de reseñas
    titulos_positivos = [
        "Amazing campus experience", "Beautiful architecture", "Inspiring place",
        "Great student tour", "Historic and impressive", "Must visit in Boston",
        "Wonderful libraries", "Fantastic museums", "Dream come true"
    ]

    titulos_negativos = [
        "Overrated experience", "Too crowded", "Disappointing tour",
        "Not worth the hype", "Underwhelming", "Closed buildings"
    ]

    titulos_neutrales = [
        "Nice walk around campus", "Interesting history", "Good for photos",
        "Standard university tour", "Decent experience"
    ]

    todos_titulos = titulos_positivos + titulos_negativos + titulos_neutrales

    # Textos de ejemplo
    textos = [
        "The campus was absolutely stunning with beautiful historic buildings and green spaces.",
        "The student-led tour was informative and engaging. Our guide was very knowledgeable.",
        "Expected more from such a prestigious university. Felt like any other campus.",
        "The libraries and museums are world-class. Definitely worth spending a full day here.",
        "Too many tourists, hard to appreciate the academic atmosphere.",
        "The architecture is incredible, especially the older buildings from the colonial era.",
        "Great place to walk around and feel the history. Don't miss the Harvard Yard.",
        "Some buildings were closed to visitors which was disappointing.",
        "The Harvard Square area has great restaurants and shops to explore after the tour.",
        "An inspiring place that makes you appreciate the pursuit of knowledge."
    ]

    data = []
    for i, fecha in enumerate(fechas):
        # Generar rating (distribución sesgada hacia positivo)
        if i % 10 < 7:  # 70% positivos
            rating = np.random.choice([4, 5])
            titulo = np.random.choice(titulos_positivos)
        elif i % 10 < 9:  # 20% neutrales
            rating = 3
            titulo = np.random.choice(titulos_neutrales)
        else:  # 10% negativos
            rating = np.random.choice([1, 2])
            titulo = np.random.choice(titulos_negativos)

        # Plataforma
        plataforma = np.random.choice(['Desktop', 'Mobile'], p=[0.6, 0.4])

        # Votos útiles (la mayoría 0, algunos con votos)
        helpful_votes = 0 if np.random.random() > 0.2 else np.random.randint(1, 10)

        data.append({
            'published_date': fecha.strftime('%Y-%m-%dT%H:%M:%S-05:00'),
            'published_platform': plataforma,
            'rating': rating,
            'type': 'review',
            'helpful_votes': helpful_votes,
            'title': titulo,
            'text': np.random.choice(textos)
        })

    return pd.DataFrame(data)

# Crear dataset
print("🔄 Generando dataset de reseñas de Harvard...")
df = generar_dataset_harvard()
print(f"✅ Dataset generado: {df.shape[0]} reseñas creadas\n")

# Mostrar información básica del dataset
print("=== INFORMACIÓN BÁSICA DEL DATASET ===")
print(f"Dimensiones del dataset: {df.shape}")
print(f"\nPrimeras 5 filas:")
print(df.head().to_string())

print(f"\nColumnas disponibles: {df.columns.tolist()}")

# HISTORIA 1: USANDO ILOC (index-based selection)
print("\n" + "="*60)
print("HISTORIA 1: ANÁLISIS CON ILOC")
print("="*60)

# Obtener las primeras 10 reseñas usando iloc
print("\n📖 Las primeras 10 reseñas del dataset:")
primeras_10 = df.iloc[0:10]
for i in range(len(primeras_10)):
    fila = primeras_10.iloc[i]
    print(f"{i+1}. [{fila['rating']}⭐] {fila['title']} - {fila['published_date'][:10]}")

# Obtener reseñas específicas por posición
print("\n🎯 Reseñas en posiciones estratégicas:")
posiciones = [0, 10, 20, 30, 40, -1]
reseñas_estrategicas = df.iloc[posiciones]
for idx, row in reseñas_estrategicas.iterrows():
    print(f"Posición {idx}: [{row['rating']}⭐] '{row['title']}'")

# Obtener columnas específicas por posición
print("\n📊 Columnas específicas por posición numérica:")
# Columnas: 0:published_date, 2:rating, 5:title, 6:text
datos_esenciales = df.iloc[:, [0, 2, 5, 6]].head(3)
print(datos_esenciales.to_string())

# HISTORIA 2: USANDO LOC (label-based selection)
print("\n" + "="*60)
print("HISTORIA 2: ANÁLISIS CON LOC")
print("="*60)

# Convertir tipos de datos para análisis
df['published_date'] = pd.to_datetime(df['published_date'])
df['rating'] = pd.to_numeric(df['rating'])

# Encontrar todas las reseñas de 5 estrellas
print("\n⭐ Reseñas de 5 estrellas:")
cinco_estrellas = df.loc[df['rating'] == 5]
print(f"Total de reseñas de 5 estrellas: {len(cinco_estrellas)}")

if len(cinco_estrellas) > 0:
    print("\nPrimeras 3 reseñas de 5 estrellas:")
    muestras = cinco_estrellas.head(3)
    for i, (_, row) in enumerate(muestras.iterrows(), 1):
        print(f"{i}. {row['title']}")
        print(f"   Texto: {row['text'][:80]}...")

# Reseñas con votos útiles
print("\n👍 Reseñas con votos útiles:")
votos_utiles = df.loc[df['helpful_votes'] > 0]
print(f"Total reseñas con votos útiles: {len(votos_utiles)}")

if len(votos_utiles) > 0:
    votos_ordenados = votos_utiles.sort_values('helpful_votes', ascending=False).head(3)
    print("Top 3 reseñas más útiles:")
    for _, row in votos_ordenados.iterrows():
        print(f"   [{row['helpful_votes']} votos] '{row['title']}' - Rating: {row['rating']}⭐")

# Reseñas desde plataforma móvil con rating alto
print("\n📱 Mejores reseñas desde móvil:")
mobile_excelentes = df.loc[(df['published_platform'] == 'Mobile') & (df['rating'] >= 4)]
print(f"Reseñas excelentes desde móvil: {len(mobile_excelentes)}")

if len(mobile_excelentes) > 0:
    muestras_mobile = mobile_excelentes.head(2)
    for _, row in muestras_mobile.iterrows():
        print(f"   [{row['rating']}⭐] {row['title']}")
        print(f"   {row['text'][:60]}...")

# HISTORIA 3: COMBINANDO ILOC Y LOC
print("\n" + "="*60)
print("HISTORIA 3: COMBINANDO ILOC Y LOC")
print("="*60)

# Primero usar loc para filtrar, luego iloc para seleccionar posiciones específicas
print("\n📉 Análisis combinado: reseñas negativas recientes")

# Extraer año para filtrado
df['year'] = df['published_date'].dt.year

# Filtrar reseñas de 2023-2024 con rating bajo usando loc
año_actual = datetime.now().year
reseñas_negativas_recientes = df.loc[(df['year'] >= 2023) & (df['rating'] <= 2)]

print(f"Reseñas negativas recientes: {len(reseñas_negativas_recientes)}")

# Usar iloc para obtener muestras específicas de estas reseñas filtradas
if len(reseñas_negativas_recientes) > 0:
    step = max(1, len(reseñas_negativas_recientes) // 3)
    indices_muestras = list(range(0, len(reseñas_negativas_recientes), step))[:3]
    muestras_negativas = reseñas_negativas_recientes.iloc[indices_muestras]

    print("\nMuestras de reseñas negativas recientes:")
    for _, row in muestras_negativas.iterrows():
        print(f"   [{row['rating']}⭐] {row['title']}")
        print(f"   Fecha: {row['published_date'].strftime('%Y-%m-%d')}")
        print(f"   Plataforma: {row['published_platform']}")
        print(f"   Texto: {row['text'][:100]}...\n")

# HISTORIA 4: ANÁLISIS TEMPORAL
print("\n" + "="*60)
print("HISTORIA 4: EVOLUCIÓN TEMPORAL DE RESEÑAS")
print("="*60)

# Usar loc para filtrar por años recientes
reseñas_recientes = df.loc[df['year'] >= 2022]

# Agrupar por año y contar reseñas
conteo_anual = reseñas_recientes.groupby('year').size()
print("\n📈 Cantidad de reseñas por año:")
for año, cantidad in conteo_anual.items():
    print(f"   {año}: {cantidad} reseñas")

# Rating promedio por año usando loc para filtrado y luego cálculos
print("\n📊 Rating promedio por año:")
for año in sorted(reseñas_recientes['year'].unique()):
    reseñas_año = reseñas_recientes.loc[reseñas_recientes['year'] == año]
    rating_promedio = reseñas_año['rating'].mean()
    print(f"   {año}: {rating_promedio:.2f}⭐")

# HISTORIA 5: COMPARATIVA ENTRE PLATAFORMAS
print("\n" + "="*60)
print("HISTORIA 5: COMPARATIVA ENTRE PLATAFORMAS")
print("="*60)

# Usar loc para separar por plataforma
desktop_reviews = df.loc[df['published_platform'] == 'Desktop']
mobile_reviews = df.loc[df['published_platform'] == 'Mobile']

print(f"\n💻 Total reseñas Desktop: {len(desktop_reviews)}")
print(f"📱 Total reseñas Mobile: {len(mobile_reviews)}")

# Rating promedio por plataforma
if len(desktop_reviews) > 0:
    rating_desktop = desktop_reviews['rating'].mean()
    print(f"⭐ Rating promedio Desktop: {rating_desktop:.2f}")

if len(mobile_reviews) > 0:
    rating_mobile = mobile_reviews['rating'].mean()
    print(f"⭐ Rating promedio Mobile: {rating_mobile:.2f}")

# Muestras representativas de cada plataforma usando iloc
print("\n🔍 Muestras representativas por plataforma:")
print("Desktop:")
if len(desktop_reviews) > 0:
    for i in range(min(2, len(desktop_reviews))):
        muestra = desktop_reviews.iloc[i]
        print(f"   [{muestra['rating']}⭐] {muestra['title'][:50]}...")

print("\nMobile:")
if len(mobile_reviews) > 0:
    for i in range(min(2, len(mobile_reviews))):
        muestra = mobile_reviews.iloc[i]
        print(f"   [{muestra['rating']}⭐] {muestra['title'][:50]}...")

# RESUMEN FINAL
print("\n" + "="*60)
print("RESUMEN EJECUTIVO")
print("="*60)

print(f"📊 Dataset completo: {df.shape[0]} reseñas")
print(f"⭐ Rating promedio general: {df['rating'].mean():.2f}")
print(f"📅 Período cubierto: {df['published_date'].min().strftime('%Y-%m-%d')} a {df['published_date'].max().strftime('%Y-%m-%d')}")

# Distribución por plataforma
total = len(df)
if total > 0:
    print(f"📱 Distribución por plataforma:")
    print(f"   - Desktop: {len(desktop_reviews)} reseñas ({(len(desktop_reviews)/total)*100:.1f}%)")
    print(f"   - Mobile: {len(mobile_reviews)} reseñas ({(len(mobile_reviews)/total)*100:.1f}%)")

# Distribución de ratings
print(f"\n🎯 Distribución de ratings:")
distribucion_ratings = df['rating'].value_counts().sort_index()
for rating, cantidad in distribucion_ratings.items():
    porcentaje = (cantidad / total) * 100
    print(f"   {rating:.0f}⭐: {cantidad} reseñas ({porcentaje:.1f}%)")

# DATASETS INTERMEDIOS GENERADOS
print("\n" + "="*60)
print("DATASETS INTERMEDIOS GENERADOS")
print("="*60)

print(f"1. Dataset principal: {df.shape}")
print(f"2. Reseñas 5 estrellas: {cinco_estrellas.shape}")
print(f"3. Reseñas con votos útiles: {votos_utiles.shape}")
print(f"4. Reseñas móviles excelentes: {mobile_excelentes.shape}")
print(f"5. Reseñas desktop: {desktop_reviews.shape}")
print(f"6. Reseñas móviles: {mobile_reviews.shape}")

# Guardar datasets para referencia
df.to_csv('harvard_reviews_generated.csv', index=False)
print(f"\n💾 Dataset guardado como 'harvard_reviews_generated.csv'")

print("\n" + "="*60)
print("ANÁLISIS COMPLETADO EXITOSAMENTE! 🎓")
print("="*60)

🔄 Generando dataset de reseñas de Harvard...
✅ Dataset generado: 73 reseñas creadas

=== INFORMACIÓN BÁSICA DEL DATASET ===
Dimensiones del dataset: (73, 7)

Primeras 5 filas:
              published_date published_platform  rating    type  helpful_votes                 title                                                                                    text
0  2025-10-12T21:58:36-05:00             Mobile       4  review              0    Great student tour                          Too many tourists, hard to appreciate the academic atmosphere.
1  2025-10-02T21:58:36-05:00            Desktop       4  review              0       Inspiring place                          Too many tourists, hard to appreciate the academic atmosphere.
2  2025-09-22T21:58:36-05:00             Mobile       5  review              2     Fantastic museums                         Some buildings were closed to visitors which was disappointing.
3  2025-09-12T21:58:36-05:00            Desktop       5  review     