In [2]:
import pandas as pd
import numpy as np
import re
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score


In [3]:
# Aquí deberías usar tu propia función para recopilar los tweets desde la API de Twitter o una biblioteca como Tweepy.

# Ejemplo:
tweets = ['El clima está hermoso hoy', 'El tráfico está terrible', 'Amo mi trabajo', 'Odio estar enfermo', 'El cine fue genial', 'La comida en ese restaurante fue horrible', 'Estoy muy feliz con mi nueva casa', 'Estoy tan triste por la pérdida de mi mascota', 'Qué hermoso atardecer', 'Estoy molesto por el retraso del vuelo', 'La música en ese concierto fue increíble', 'No puedo soportar a mi jefe', 'Estoy emocionado por mi próximo viaje', 'Qué aburrido es este partido de fútbol', 'Amo la pizza', 'Este libro es aburrido', 'Mi equipo favorito ganó el partido', 'Estoy tan cansado de trabajar todo el día', 'Estoy preocupado por mi examen final', 'Amo ir al gimnasio']


In [10]:
# Crea una lista de etiquetas 0 Malo 1 Bueno.
etiquetas = [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0]

# Crea un DataFrame de Pandas con los tweets y etiquetas
df = pd.DataFrame({'tweet': tweets, 'etiqueta': etiquetas})


In [11]:
def preprocesar(texto):
    # Eliminar menciones (@usuario)
    texto = re.sub(r'@\w+', '', texto)
    
    # Eliminar hashtags (#hashtag)
    texto = re.sub(r'#\w+', '', texto)
    
    # Eliminar links
    texto = re.sub(r'http\S+', '', texto)
    
    # Eliminar caracteres especiales y números
    texto = re.sub(r'[^a-zA-Z\s]', '', texto)
    
    # Convertir todo a minúsculas
    texto = texto.lower()
    
    # Eliminar espacios en blanco adicionales
    texto = re.sub(r'\s+', ' ', texto)
    
    return texto

# Aplicar la función de preprocesamiento a cada tweet en el DataFrame
df['tweet'] = df['tweet'].apply(preprocesar)


In [12]:
# Crear una instancia del vectorizador TF-IDF
tfidf = TfidfVectorizer()

# Vectorizar los tweets
vector_tweets = tfidf.fit_transform(df['tweet'])


In [18]:
# Dividir los datos en conjuntos de entrenamiento y prueba, utilizando una proporción de 70/30
X_train, X_test, y_train, y_test = train_test_split(vector_tweets, df['etiqueta'], test_size=0.3, random_state=0)



In [24]:
# Crear una instancia del clasificador SVM
svm = SVC(kernel='linear', C=1.0, random_state=0)

# Entrenar el clasificador utilizando los datos de entrenamiento
svm.fit(X_train, y_train)


In [25]:
# Hacer predicciones en los datos de prueba
y_pred = svm.predict(X_test)

# Calcular la precisión del clasificador
precision = accuracy_score(y_test, y_pred)

print('La precisión del clasificador SVM es:', precision)


La precisión del clasificador SVM es: 0.5
