# Data Cleaning

**Objetivo:** Limpiar los comentarios para tenerlos limpios para analizarlos

## 1. Importar librerías

In [7]:
import pandas as pd
import re
import nltk

## 2. Leer el DataFrame

In [2]:
comments_df = pd.read_csv('../data/raw/comentarios.csv')
comments_df

Unnamed: 0,Comentarios
0,Publik coffee es de esos lugares que desde que...
1,"No publico la comida ni el servicio, porque s..."
2,Great Cortado
3,Rico
4,Una de mis cafeterías favoritas en Salt Lake. ...
...,...
746,No sabía que hacían tazas tan pequeñas.
747,Ambiente fresco con una buena taza de café.
748,Muy moderno: ¡excelente granola casera!
749,Ambiente muy moderno con pequeños pasteles fre...


## 3. Eliminamos signos de puntuación y caracteres especiales

In [None]:
comments_df['Comentarios'] = comments_df['Comentarios'].str.replace(r'[^\w\s]', '', regex=True)

## 4. Convertimos a minúsculas todas las palabras

In [8]:
comments_df['Comentarios'] = comments_df['Comentarios'].str.lower()

## 5. Eliminar acentos

In [16]:
from unidecode import unidecode

comments_df['Comentarios'] = comments_df['Comentarios'].apply(unidecode)

## 6. Eliminamos stopwords

In [17]:
# Descargamos las stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/leon_07/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [18]:
from nltk.corpus import stopwords

# Stopwords en español
stopwords_es = set(stopwords.words('spanish'))

# Eliminamos las stopwords
def eliminar_stopwords(text):
    palabras = text.split()
    palabras_limpias = [p for p in palabras if p.lower() not in stopwords_es]
    return ' '.join(palabras_limpias)

In [19]:
comments_df['Comentarios'] = comments_df['Comentarios'].apply(eliminar_stopwords)

In [20]:
comments_df.to_csv('../data/processed/clean_comments.csv', index=False)