#  **07: Interface - DeepTweet** 
### Jos√© Eduardo Viveros Escamilla | A01710605

In [4]:
import tensorflow as tf
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
import pickle

# ==========================
# 1. Load Models & Tokenizer
# ==========================

# Replace with real paths
v1_model = tf.keras.models.load_model("models/deeptweet_v1_base.h5")
v2_model = tf.keras.models.load_model("models/deeptweet_v2_modern.h5")
v3_model = tf.keras.models.load_model("models/deeptweet_v3_modern.h5")

# ===== CARGA DEL TOKENIZER =====
import pickle
with open("tokenizer.pkl", "rb") as f:
    tokenizer = pickle.load(f)
tokenizer.num_words

MAX_LEN = 50



In [5]:
def predict_from_model(text, model):
    seq = tokenizer.texts_to_sequences([text])
    pad = pad_sequences(seq, maxlen=MAX_LEN)
    prob = model.predict(pad, verbose=0)[0][0]
    label = "positivo" if prob >= 0.5 else "negativo"
    return label, float(prob)

Comparacion de modelos con diferentes Tweets, en la parte de abajo puedes agregar el Tweets que gustes y tendras la prediccion de los 3 al mismo tiempo

In [11]:
def compare_models(text):
    out = {
    "v1_base": predict_from_model(text, v1_model),
    "v2_modern": predict_from_model(text, v2_model),
    "v3_live": predict_from_model(text, v3_model)
    }

    print("===== RESULTADO POR MODELO =====")
    for name, (lab, prob) in out.items():
        print(f"{name}: {lab} (prob={prob:.3f})")


    votes = [out[m][0] for m in out]
    final = "positivo" if votes.count("positivo") >= 2 else "negativo"


    print("\nPredicci√≥n final (votaci√≥n):", final)
    return out

# Interfaz interactiva
# Aqui puedes escribir cualquier tweet para analizar con los 3 modelos
compare_models("Bro this update is so fire üî•üî•üî•")


===== RESULTADO POR MODELO =====
v1_base: positivo (prob=0.525)
v2_modern: negativo (prob=0.394)
v3_live: negativo (prob=0.408)

Predicci√≥n final (votaci√≥n): negativo


{'v1_base': ('positivo', 0.5252269506454468),
 'v2_modern': ('negativo', 0.3943888247013092),
 'v3_live': ('negativo', 0.40781867504119873)}

In [7]:
test_suite = {
    "positivos": [
        "I absolutely love this! Amazing work üî•",
        "Best update ever, seriously impressive!",
        "This tool is saving me so much time üòÑ",
        "This update is insane, I love it",
        "Amazing performance, exceeded expectations",
        "I feel so happy using this feature",
        "The new design is beautiful üíñ",
        "This is absolutely perfect",
        "What an incredible improvement",
        "This company keeps getting better and better!"
        ],
    "negativos": [
        "This is terrible, worst update ever.",
        "I'm so disappointed, what a mess.",
        "Absolutely horrible experience.",
        "This ruined my workflow.",
        "I hate this update.",
        "This is so frustrating.",
        "It keeps crashing, awful.",
        "What a disaster.",
        "Terrible service once again.",
        "Nothing works, I'm done with this."
        ],
    "sarcasmo": [
        "Oh great, another bug. Wonderful üôÑ",
        "Amazing‚Ä¶ totally not broken.",
        "Fantastic job‚Ä¶ not.",
        "Sure, this update totally improved things üòí",
        "Yeah because this is EXACTLY what I needed‚Ä¶ not",
        "Amazing work guys, really‚Ä¶ ü•¥",
        "Wow, such stability, much crash, very wow",
        "Oh of course it failed again, classic",
        "I just LOVE when things break for no reason üôÉ",
        "Sure, take your time loading‚Ä¶ it's not like I need it"
        ],
    "neutros": [
        "The model uses LSTMs for classification.",
        "The update was released yesterday.",
        "Training took around 2 hours on GPU.",
        "The dataset contains 10,000 samples.",
        "This is part of a research project.",
        "They announced a new version today.",
        "The event starts in 30 minutes.",
        "This algorithm is used in NLP tasks.",
        "The server was down for maintenance.",
        "This feature is currently in beta."
        ],
    "emocionales": [
        "I wish things were easier sometimes.",
        "I'm trying my best, but it's hard today.",
        "Feeling overwhelmed with everything.",
        "Today was surprisingly peaceful.",
        "Why do things feel so heavy lately?",
        "I really needed some good news today.",
        "Everything feels like too much.",
        "Trying to stay positive but it's exhausting.",
        "I miss feeling genuinely happy.",
        "Some days just hit harder than others."
        ],
    "tecnologia": [
        "OpenAI released a new version of GPT.",
        "The new API endpoint is finally out.",
        "The architecture is based on transformers.",
        "This model reaches a new SOTA benchmark.",
        "Inference time has been reduced significantly.",
        "Cloud usage increased after the update.",
        "The model was trained with 1.6M tweets.",
        "GPU utilization is at 95%.",
        "This framework is ideal for sentiment analysis.",
        "The deployment pipeline was improved."
        ],
    "tweets_modernos": [
        "Bro this update is INSANE üî•üî•üî•",
        "Lmao this app is cooked üíÄ",
        "W update fr fr",
        "Not gonna lie, this slaps",
        "This is peak technology",
        "Huge W for the devs",
        "Sheeesh this works so good",
        "Massive L, everything broke",
        "This feature is so mid tbh",
        "Lowkey kinda impressed ngl"
        ],
    "confusos": [
        "I don't know if I like this or hate it.",
        "It works‚Ä¶ sort of?",
        "Well that was something.",
        "I'm not sure how to feel about this.",
        "It‚Äôs okay‚Ä¶ I guess.",
        "Mixed feelings tbh.",
        "Could be worse, could be better.",
        "Not bad but not good either.",
        "Hard to tell if it's an improvement.",
        "It feels weird, honestly."
        ],
    "extremos": [
        "üî•üî•üî•üî•üî•",
        "üíÄüíÄüíÄ",
        "why.",
        "ok.",
        "I'm tired.",
        "lol",
        "no.",
        "pls stop",
        "help",
        "..."
        ]
}


Predicciones del del conjunto de Tweets de prueba
Como podemos ver de igual forma se comparan los 3 modelos en disitintos temas, esto para eventualmente poder analizar el output y tener conclusiones generales de como se comporta cada uno, de igual forma todo esto estara reflejado en el reporte en l aprte de resultados

In [8]:
def run_stress_test():
    for category, examples in test_suite.items():
        print(f"\n=== {category.upper()} ===")
        for t in examples:
            print(f"\nTweet: {t}")
            compare_models(t)
            print("----------------------------------")
run_stress_test()


=== POSITIVOS ===

Tweet: I absolutely love this! Amazing work üî•
===== RESULTADO POR MODELO =====
v1_base: positivo (prob=0.694)
v2_modern: positivo (prob=0.676)
v3_live: positivo (prob=0.715)

Predicci√≥n final (votaci√≥n): positivo
----------------------------------

Tweet: Best update ever, seriously impressive!
===== RESULTADO POR MODELO =====
v1_base: positivo (prob=0.641)
v2_modern: positivo (prob=0.627)
v3_live: positivo (prob=0.651)

Predicci√≥n final (votaci√≥n): positivo
----------------------------------

Tweet: This tool is saving me so much time üòÑ
===== RESULTADO POR MODELO =====
v1_base: positivo (prob=0.529)
v2_modern: negativo (prob=0.315)
v3_live: negativo (prob=0.363)

Predicci√≥n final (votaci√≥n): negativo
----------------------------------

Tweet: This update is insane, I love it
===== RESULTADO POR MODELO =====
v1_base: positivo (prob=0.615)
v2_modern: negativo (prob=0.439)
v3_live: negativo (prob=0.453)

Predicci√≥n final (votaci√≥n): negativo
------------

##  1. Positivos

La mayor√≠a de frases positivas son clasificadas correctamente por los tres modelos.
Sin embargo, algunos ejemplos positivos fueron clasificados como negativos por v2 y v3:

* ‚ÄúThis tool is saving me so much time üòÑ‚Äù

* ‚ÄúThis update is insane, I love it‚Äù

* ‚ÄúThis company keeps getting better and better!‚Äù

Interpretaci√≥n

* Estos casos reflejan patrones del lenguaje moderno:

* ‚Äúinsane‚Äù aparece tanto en elogios como cr√≠ticas, creando ambig√ºedad.

* Expresiones tipo ‚Äúsaving me time‚Äù son muy usadas ir√≥nicamente (‚Äúdidn‚Äôt save me ANY time‚Äù).

* Frases optimistas tambi√©n se usan sarc√°sticamente, lo cual confunde al modelo moderno.

Conclusi√≥n:

Los modelos modernos (v2, v3) son m√°s sensibles al sarcasmo ligero y a la iron√≠a, lo cual es coherente con el lenguaje de Twitter 2020‚Äì2025.

##  2. Negativos

* Todos los ejemplos claramente negativos fueron correctamente clasificados por los tres modelos.

Conclusi√≥n:

La representaci√≥n del ‚Äúespacio negativo‚Äù est√° muy bien aprendida en las tres versiones. Es el comportamiento m√°s consistente de los modelos.

##  3. Sarcasmo

Aqu√≠ se ve la diferencia m√°s importante entre v1 y los modelos modernos.

Hallazgos

 * v1 (2009): falla mucho; interpreta sarcasmo como positivo.

 * v2 y v3: captan sarcasmo moderado mejor y clasifican correctamente muchos casos.

Ejemplos donde v1 falla y v2/v3 aciertan:

* ‚ÄúOh great, another bug. Wonderful üôÑ‚Äù

* ‚ÄúSure, this update totally improved things üòí‚Äù

Conclusi√≥n:

v2 y v3 aprendieron los patrones modernos del sarcasmo:
emojis üôÑüòí, expresiones como ‚Äúsure‚Äù, ‚Äúnot‚Äù, ‚Äúclassic‚Äù.
Esto demuestra la evoluci√≥n del lenguaje digital y el valor del fine-tuning moderno.

## 4. Neutros

Muchos tweets neutros se clasifican como negativos, especialmente por v2 y v3.

Interpretaci√≥n

Esto ocurre porque:

* La clase ‚Äúneutral‚Äù se elimin√≥ durante la binarizaci√≥n.

* En Twitter moderno, mensajes t√©cnicos/neutros suelen acompa√±ar quejas.

Conclusi√≥n:

Los modelos modernos tienen un sesgo negativo natural, aprendido del dataset de Kaggle + datasets modernos.

## 5. Emocionales

Los modelos detectan muy bien:

 * tristeza

 * estr√©s

 * agotamiento

 * emociones impl√≠citas

Excepto frases ambiguas como:

* ‚ÄúI really needed some good news today.‚Äù

Conclusi√≥n:

v3 demuestra excelente sensibilidad a frases emocionales negativas.

## 6. Tecnolog√≠a

Aqu√≠ se observa una diferencia clara entre √©pocas.

Patr√≥n observado

 * v1 (2009): clasifica muchas frases t√©cnicas como positivas.

 * v2 y v3: suelen clasificarlas como negativas o ligeramente negativas.

Causa:

En 2009:

* el discurso tecnol√≥gico era muy optimista,

* t√©rminos t√©cnicos aparec√≠an en contextos positivos.

En 2024‚Äì2025:

* la comunidad tecnol√≥gica usa estos t√©rminos en debates cr√≠ticos o pol√©micos.

Conclusi√≥n:

Este segmento evidencia c√≥mo cambia el discurso tecnol√≥gico con el tiempo.

##  7. Tweets modernos (slang Gen-Z)

Expresiones como:

* INSANE

* cooked

* mid

* W update

* slaps

* ngl

* fr fr

son completamente desconocidas para v1.

* v2 y v3 los manejan mejor, pero a√∫n hay ambig√ºedad.

Conclusi√≥n:

v3 entendi√≥ slang moderno, pero a√∫n no domina modismos ambiguos o sarc√°sticos.

## 8. Confusos y extremos

Los modelos fallan en:

* mensajes muy cortos

* solo emojis

* expresiones sin contexto

Ejemplos que se clasifican como positivos:

* ‚ÄúüíÄüíÄüíÄ‚Äù

* ‚Äú‚Ä¶‚Äù

* ‚Äúok.‚Äù

* ‚Äúwhy.‚Äù

Causa t√©cnica

Los LSTM:

* no entienden sem√°ntica de emojis

* no tienen contexto hist√≥rico

* tratan texto muy corto como positivo por distribuci√≥n del dataset

Conclusi√≥n:

Estas son limitaciones naturales de LSTMs.
Modelos tipo BERT manejar√≠an esto mucho mejor

De igual forma este es un codigo interactivo donde puedes agregar los ejemplos que mas sean interesantes, por si lo quieres probar para no correr necesariamente los 40 ejemplos

In [12]:
tweets = [
    "I hate this update",
    "This is amazing!",
    "Not sure how to feel about this one",
    "Lmao this app broke again üíÄ",
    "This is peak tech fr"
]

for t in tweets:
    print("\nTweet:", t)
    compare_models(t)
    print("---------------------")



Tweet: I hate this update
===== RESULTADO POR MODELO =====
v1_base: negativo (prob=0.188)
v2_modern: negativo (prob=0.159)
v3_live: negativo (prob=0.158)

Predicci√≥n final (votaci√≥n): negativo
---------------------

Tweet: This is amazing!
===== RESULTADO POR MODELO =====
v1_base: positivo (prob=0.800)
v2_modern: positivo (prob=0.749)
v3_live: positivo (prob=0.776)

Predicci√≥n final (votaci√≥n): positivo
---------------------

Tweet: Not sure how to feel about this one
===== RESULTADO POR MODELO =====
v1_base: negativo (prob=0.434)
v2_modern: negativo (prob=0.190)
v3_live: negativo (prob=0.198)

Predicci√≥n final (votaci√≥n): negativo
---------------------

Tweet: Lmao this app broke again üíÄ
===== RESULTADO POR MODELO =====
v1_base: negativo (prob=0.217)
v2_modern: negativo (prob=0.169)
v3_live: negativo (prob=0.172)

Predicci√≥n final (votaci√≥n): negativo
---------------------

Tweet: This is peak tech fr
===== RESULTADO POR MODELO =====
v1_base: positivo (prob=0.556)
v2_moder

La comparaci√≥n entre los tres modelos muestra una evoluci√≥n clara en su capacidad para procesar lenguaje moderno.

El modelo base (v1), entrenado con tweets del 2009, maneja bien textos directos pero falla en iron√≠a, sarcasmo y jerga contempor√°nea.

El modelo v2, afinado con un dataset moderno, incorpora patrones actuales del lenguaje digital, especialmente sarcasmo moderado y modismos recientes.

El modelo v3, entrenado con tweets genuinos del 2024‚Äì2025, demuestra la mayor capacidad para interpretar expresiones ambiguas, lenguaje emocional y slang Gen-Z.

Sin embargo, todos los modelos muestran un sesgo hacia clasificar textos neutrales como negativos, debido a la eliminaci√≥n de la clase ‚Äúneutral‚Äù durante la binarizaci√≥n.

Finalmente, los LSTM presentan limitaciones claras en textos extremadamente cortos, emojis sin contexto y sarcasmo fuerte, lo cual sugiere que arquitecturas transformers ser√≠an una mejora natural para versiones futuras de DeepTweet.