In [5]:
import numpy as np
import pandas as pd
import re

# Función para eliminar los símbolos, emoticones y links
def clean_text(text):
    # Eliminar URLs
    text = re.sub(r'http\S+|www.\S+', '', text)
    
    # Definir un patrón de regex para eliminar emoticones, símbolos y caracteres no deseados
    emoji_pattern = re.compile(
        "["
        u"\U0001F600-\U0001F64F"  
        u"\U0001F300-\U0001F5FF"  
        u"\U0001F680-\U0001F6FF"  
        u"\U0001F700-\U0001F77F"  
        u"\U0001F780-\U0001F7FF"  
        u"\U0001F800-\U0001F8FF"  
        u"\U0001F900-\U0001F9FF"  
        u"\U0001FA00-\U0001FA6F"  
        u"\U0001FA70-\U0001FAFF"  
        u"\U00002700-\U000027BF"  
        u"\U0001F1E0-\U0001F1FF"  
        "]+", flags=re.UNICODE
    )
    
    # Eliminar emoticones, símbolos y caracteres especiales
    text = emoji_pattern.sub(r'', text)
    
    # Mantener solo letras, incluyendo acentos, y espacios (eliminar números, puntuación, símbolos matemáticos, etc.)
    text = re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑüÜ\s]', '', text)
    
    # Convertir a minúsculas
    text = text.lower()
    
    # Eliminar espacios extra
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Cargar la base de datos
tweets_file = "tweets_Jun20.csv"
df_tweets = pd.read_csv(tweets_file)

# Eliminar tweets que no tienen texto
df_tweets_clean = df_tweets.dropna(subset=['Texto'])

# Aplicar la función de limpieza a la columna de texto
df_tweets_clean['Texto'] = df_tweets_clean['Texto'].apply(clean_text)

# Guardar
df_tweets_clean.to_csv('tweets_cleaned.csv', index=False)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_tweets_clean['Texto'] = df_tweets_clean['Texto'].apply(clean_text)


In [4]:
df_tweets_clean["Texto"]

1       cuidadodelagua sin suministro de agua en la co...
2       serviciodeelectricidad sin servicio en a aveni...
3       banquetaobstruida por vehículos estacionados e...
4       transportepúblico rutas que suspenden labores ...
5       atención sigue las recomendaciones que aquí te...
                              ...                        
2245    una de las mejores propuestas ciudadanas que h...
2246    pues marthaherreranl ha hecho más cosas por nu...
2247    otra historia registrada en mi querida av pase...
2248                                         sannicolásnl
2249                            y lateral tipicodeviernes
Name: Texto, Length: 2229, dtype: object

In [8]:
# Función para filtrar tweets con palabras clave y sus variantes
def contains_keywords(text):
    # Verificar si el texto es un string
    if isinstance(text, str):
        # Definir un patrón de regex para buscar las palabras clave y sus variantes
        pattern = re.compile(r'\b(inundacion(?:es)?|accidente(?:s)?|desborde(?:s)?|inundar(?:se|on)?|desbord(?:ar|ado|ando|amiento)|accidentado)\b', re.IGNORECASE)
        return bool(pattern.search(text))
    return False


# Filtrar los tweets que contienen las palabras clave
df_filtered_tweets = df_tweets_clean[df_tweets_clean['Texto'].apply(contains_keywords)]

# Guardar el resultado
df_filtered_tweets.to_csv('tweets_filtered.csv', index=False)