# Ejercicio. Regex
## Bogdan Kaleb García Rivera MIA-2

__Objetivo__

- Practicar expresiones regulares con un conjunto de datos real
___

__Desarrollo__

Vamos a practicar expresiones regulares utilizando un conjunto de datos llamado `'amazon_fine_food_reviews-clean.csv'`. Este conjunto de datos es en realidad un subconjunto de un conjunto más grande que proviene de [esta fuente](https://www.kaggle.com/snap/amazon-fine-food-reviews). Contiene evaluaciones de muchos diversos productos realizadas por usuarios de Amazon. La columna `'text'` contiene el texto de la evaluación, y ésa es la columna que nos interesa.

Vamos a practicar expresiones regulares con esa columna. Con cada búsqueda que realices vas a obtener un nuevo subconjunto de datos de un tamaño específico. Al terminar tus búsquedas compara el tamaño de tus subconjuntos de datos con los de tus compañeros, para checar que tus respuestas fueron correctas.

Obtener subconjuntos de datos que tengan estas características:

1. Todas las evaluaciones que contengan la palabra 'food' (en minúsculas).
2. Todas las evaluaciones que contengan algún número de dos digitos.
3. Todas las evaluaciones que contengan algún porcentaje (uno o más digitos seguidos de un signo de porcentaje).
4. Todas las evaluaciones que comiencen con la palabra 'Dog' o 'dog'.
5. Todas las evaluaciones que terminen con el fragmento 'awesome.' (fíjate que hay específicamente un punto después de la palabra 'awesome').
6. Todas las evaluaciones que contengan las palabras 'horrible' o 'terrible'.
7. Todas las evaluaciones que contengan solamente letras minúsculas.

Después de realizar estas exploraciones, limpia tu conjunto de datos para remover lo siguiente de todos tus textos:

1. Cualquier forma parecida a la siguiente: `<br>` o `<br/>` (revisa variaciones de estos tags, con espacios intermedios, por ejemplo)
2. Signos en general
3. Digitos
4. Cualquier otra cosa que no te parezca relevante para nuestro análisis de lenguaje natural
5. También convierte todas las letras en minúsculas para homogeneizar nuestro conjunto de datos.

Guarda tu conjunto de datos como un archivo 'csv' (asegúrate de incluir por lo menos las columnas 'text' y 'score').
___

Primeramente se realiza la lectura y visualización de los datos

In [1]:
import pandas as pd 
import regex as re

df = pd.read_csv('./data/amazon_fine_food_reviews-clean.csv')
print("Longitud del dataset: ", len(df))
df.head()

Longitud del dataset:  14211


Unnamed: 0,id,product_id,user_id,profile_name,helpfulness_numerator,helpfulness_denominator,score,time,summary,text
0,258510,B00168V34W,A1672LH9S1XO70,"Lorna J. Loomis ""Canadian Dog Fancier""",13,14,3,1266796800,"Misleading to refer to ""PODS""","This coffee does NOT come in individual ""PODS""..."
1,207915,B000CQID2Y,A42CJC66XO0H7,"Scott Schimmel ""A Butterfly Dreaming""",2,2,5,1279497600,Delicious,I was a little skeptical after looking at the ...
2,522649,B007TJGZ0Y,A16QZBG2UN6Z3X,"Toology ""Toology""",0,0,5,1335830400,One of my favs,Gloia Jeans Butter Toffee is one of my favorit...
3,393368,B000W7PUOW,A3J21CQZG60K35,Hsieh Pei Hsuan,2,2,5,1265673600,Tasty!!,My families and friends love Planters peanuts ...
4,178178,B002FX2IOQ,A1Z7XV6JU0EV8M,"Barbara ""Barbara""",1,6,1,1301788800,"Organic Valley White 1 % Milkfat Lowfat Milk, ...","Organic Valley White 1 % Milkfat Lowfat Milk, ..."


Como ya se mencionó anteriormente, la columna que nos interesa es el texto. 

1. Todas las evaluaciones que contengan la palabra 'food' (en minúsculas).

In [2]:
patron_food = r'\w*food\w*' #Detecta la palabra food en cualquier posición 
df_food = df[df['text'].str.contains(patron_food, regex=True)]
print("Longitud del dataset con food: ", len(df_food))

Longitud del dataset con food:  1774


2. Todas las evaluaciones que contengan algún número de dos digitos.

In [3]:
df_digitos = df[df['text'].str.contains(r'\b\d{2}\b', regex=True)] #Detecta únicamente 2 dígitos
print("Longitud del dataset con digitos: ", len(df_digitos))

Longitud del dataset con digitos:  2423


3. Todas las evaluaciones que contengan algún porcentaje (uno o más digitos seguidos de un signo de porcentaje).


In [4]:
df_porcentaje = df[df['text'].str.contains(r'\d{1,}%', regex=True)] #Detecta al menos un dígito seguido de un signo de %
print("Longitud del dataset con porcentaje: ", len(df_porcentaje))

Longitud del dataset con porcentaje:  388


4. Todas las evaluaciones que comiencen con la palabra 'Dog' o 'dog'.


In [5]:
"""
^ indica que debe ocurrir al inicio 
| es el equivalente a un or 
() Un grupo de expresiones
"""
df_dog = df[df['text'].str.contains(r'^(Dog|dog)', regex=True)]
print("Longitud del dataset con dog: ", len(df_dog))
df_dog.head()

Longitud del dataset con dog:  5


  df_dog = df[df['text'].str.contains(r'^(Dog|dog)', regex=True)]


Unnamed: 0,id,product_id,user_id,profile_name,helpfulness_numerator,helpfulness_denominator,score,time,summary,text
755,21456,B002QWP89S,A3H3I5DA0360BG,"Iggy Crazy ""Dawn""",0,0,5,1277769600,Dogs love Greenies,Dogs LOVE Greenies! They go crazy if they eve...
4853,89608,B002LANN56,A2CZ98V784SRJ0,L. Perry,0,0,2,1345680000,They kind of like it....,"Dogs liked it ""okay."" Did NOT give it th the ..."
9693,255027,B008FWOAXI,A1KMAK45XGS4RT,D. Fitzgerald,0,0,4,1346457600,Tasty but use care,Dog loves these. Eats them quickly and without...
13252,160700,B001BOQ3SW,AV307UIAVPGSJ,"Debby Athearn ""nini.mv""",2,2,5,1257379200,Stop the scratching!,Dogs probably don't really want to spend most ...
14131,502312,B001QE96CW,A3LQ3LQ75K38MN,"Paul Ulrich ""AMERICAN CITIZEN""",0,0,5,1336176000,Great Treat!,Dogs love it. It smells like chicken. I have b...


5. Todas las evaluaciones que terminen con el fragmento 'awesome.' (fíjate que hay específicamente un punto después de la palabra 'awesome').


In [6]:
df_awesome = df[df['text'].str.contains(r'awesome\.$', regex=True)]  #$ indica el final de la cadena
print("Longitud del dataset con awesome: ", len(df_awesome))

Longitud del dataset con awesome:  7


6. Todas las evaluaciones que contengan las palabras 'horrible' o 'terrible'.

In [7]:
df_terrible = df[df['text'].str.contains(r'\w*(horrible | terrible)\w*', regex=True)]
print("Longitud del dataset con horrible o terrible: ", len(df_terrible))

  df_terrible = df[df['text'].str.contains(r'\w*(horrible | terrible)\w*', regex=True)]


Longitud del dataset con horrible o terrible:  158


7. Todas las evaluaciones que contengan solamente letras minúsculas.


In [8]:
df_minusculas = df[df['text'].str.contains(r'^[a-z\s]+$', regex=True)] #Grupo de a-z en minúsculas y \s espacio
print("Longitud del dataset con minusculas: ", len(df_minusculas))
df_minusculas.head()

Longitud del dataset con minusculas:  8


Unnamed: 0,id,product_id,user_id,profile_name,helpfulness_numerator,helpfulness_denominator,score,time,summary,text
118,298922,B0012C2GFM,A2WSIHV9HG7W73,bryan,1,1,5,1312848000,GOOD stufff,good produce i found that the high fiber and n...
2473,16434,B007TJGZ54,A9IT7XQZ1DU1C,william mason,0,0,5,1350777600,great coffee,best coffee from green mountain so far i recom...
3360,222679,B000G671SM,A1VYM47ZEUNTEZ,BLUEJAY,0,0,4,1341014400,snacks,these make a great snack at night when i am wa...
4267,108437,B001E2TAX6,ABY2N6PSP2FFC,kenna,0,1,5,1286841600,great tasting,i love tazo teas i dont really like friuty one...
7448,430537,B001IZCMXE,A2PUNPN9QXPDSD,mariah,0,0,3,1323734400,eclipse candy cane peppermint gum,this gum is very good for us who have false te...


Después de realizar estas exploraciones, limpia tu conjunto de datos para remover lo siguiente de todos tus textos:

1. Cualquier forma parecida a la siguiente: `<br>` o `<br/>` (revisa variaciones de estos tags, con espacios intermedios, por ejemplo)

In [9]:
columns = list(df.columns)
columns

['id',
 'product_id',
 'user_id',
 'profile_name',
 'helpfulness_numerator',
 'helpfulness_denominator',
 'score',
 'time',
 'summary',
 'text']

In [10]:
def delete_br_tags(df):
    df_copy = df.copy()
    columns = list(df_copy.columns)
    
    for column in columns:
        if df_copy[column].dtype == 'object':  # Si la columna es de puro texto
            df_copy[column] = df_copy[column].astype(str).str.replace(r'<\/?br\s*\/?>', '', regex=True)
    
    return df_copy

df_without_br = delete_br_tags(df)
df_without_br.head()

Unnamed: 0,id,product_id,user_id,profile_name,helpfulness_numerator,helpfulness_denominator,score,time,summary,text
0,258510,B00168V34W,A1672LH9S1XO70,"Lorna J. Loomis ""Canadian Dog Fancier""",13,14,3,1266796800,"Misleading to refer to ""PODS""","This coffee does NOT come in individual ""PODS""..."
1,207915,B000CQID2Y,A42CJC66XO0H7,"Scott Schimmel ""A Butterfly Dreaming""",2,2,5,1279497600,Delicious,I was a little skeptical after looking at the ...
2,522649,B007TJGZ0Y,A16QZBG2UN6Z3X,"Toology ""Toology""",0,0,5,1335830400,One of my favs,Gloia Jeans Butter Toffee is one of my favorit...
3,393368,B000W7PUOW,A3J21CQZG60K35,Hsieh Pei Hsuan,2,2,5,1265673600,Tasty!!,My families and friends love Planters peanuts ...
4,178178,B002FX2IOQ,A1Z7XV6JU0EV8M,"Barbara ""Barbara""",1,6,1,1301788800,"Organic Valley White 1 % Milkfat Lowfat Milk, ...","Organic Valley White 1 % Milkfat Lowfat Milk, ..."


2. Signos en general

In [11]:
def delete_marks(df):
    df_copy = df.copy()
    marks_pattern = r'[^\w\s]' # Hace match con todo lo que sea diferente de un signo
    columns = list(df_copy.columns)
    
    for column in columns:
        if df_copy[column].dtype == 'object':  # Si la columna es de puro texto
            df_copy[column] = df_copy[column].str.replace(marks_pattern, '', regex=True) 
    return df_copy

df_without_marks = delete_marks(df_without_br)

3. Digitos


In [12]:
# Para este caso solo consideramos que se aplique a la columna text

def delete_digits(df): 
    df_copy = df.copy()
    df_copy['text'] = df_copy['text'].str.replace(r'\d+','', regex=True)
    return df_copy 

df_without_digits = delete_digits(df_without_marks)

4. Cualquier otra cosa que no te parezca relevante para nuestro análisis de lenguaje natural.

 En este caso se puede eliminar algunas stopwords y etiquetas html 
  

In [13]:
def delete_more_marks(df): 
    df_copy = df.copy()
    # Para este caso se quisieron eliminar algunas stop words
    marks_patron = r'\b(?:the|a|an|is|am|are|was|were|be|been|of|in|at|on|to|for|with|and|or|but|because|by|about|this|that|those|there|here)\b'
    html_patron = r"<.*?>" #Borrado de etiquetas html 

    columns = list(df_copy.columns)
    
    for column in columns:
        if df_copy[column].dtype == 'object':  # Si la columna es de puro texto
            df_copy[column] = df_copy[column].str.replace(marks_patron,'', regex=True) # Elimina stopwords
            df_copy[column] = df_copy[column].str.replace(html_patron,'', regex=True) # ELimina patrones html 
            df_copy[column] = df_copy[column].str.replace(r'\s+',' ', regex=True) #Eliminar mas de dos espacios
    return df_copy

df_without_more_marks = delete_more_marks(df_without_digits)

5. También convierte todas las letras en minúsculas para homogeneizar nuestro conjunto de datos.

In [14]:
for column in columns: 
        if df_without_more_marks[column].dtype == 'object':  # Si la columna es de puro texto
            df_without_more_marks[column] = df_without_more_marks[column].str.lower()
df_without_more_marks.iloc[755] #Ejemplo de como queda todo en minúscula y limpios

id                                                                     21456
product_id                                                        b002qwp89s
user_id                                                       a3h3i5da0360bg
profile_name                                                 iggy crazy dawn
helpfulness_numerator                                                      0
helpfulness_denominator                                                    0
score                                                                      5
time                                                              1277769600
summary                                                   dogs love greenies
text                       dogs love greenies they go crazy if they even ...
Name: 755, dtype: object

In [15]:
import os

def write_csv_file(df, nombre_archivo):
    os.makedirs("data", exist_ok=True)
    
    # Guardar archivo en la ruta
    ruta = f"./data/{nombre_archivo}"
    df.to_csv(ruta, index=False)
    
    print(f"Archivo {nombre_archivo} guardado exitosamente en {ruta}")


write_csv_file(df_without_more_marks, 'amazon_fine_food_reviews-clean-regex.csv')

Archivo amazon_fine_food_reviews-clean-regex.csv guardado exitosamente en ./data/amazon_fine_food_reviews-clean-regex.csv
