## Reto 2: Regex

### 1. Objetivos:
    - Practicar expresiones regulares con un conjunto de datos real
 
---
    
### 2. Desarrollo:

Vamos a practicar expresiones regulares utilizando un conjunto de datos llamado 'amazon_fine_food_reviews-clean.csv'. Este conjunto de datos es en realidad un subconjunto de un conjunto más grande que proviene de [esta fuente](https://www.kaggle.com/snap/amazon-fine-food-reviews). Contiene evaluaciones de muchos diversos productos realizadas por usuarios de Amazon. La columna 'text' contiene el texto de la evaluación, y ésa es la columna que nos interesa.

Vamos a practicar expresiones regulares con esa columna. Con cada búsqueda que realices vas a obtener un nuevo subconjunto de datos de un tamaño específico. Al terminar tus búsquedas compara el tamaño de tus subconjuntos de datos con los de tus compañeros, para checar que tus respuestas fueron correctas.

Tu Reto es entonces obtener subconjunto de datos que tengan estas características:

1. Todas las evaluaciones que contengan la palabra 'food' (en minúsculas).
2. Todas las evaluaciones que contengan algún número de dos digitos.
3. Todas las evaluaciones que contengan algún porcentaje (uno o más digitos seguidos de un signo de porcentaje).
4. Todas las evaluaciones que comiencen con la palabra 'Dog' o 'dog'.
5. Todas las evaluaciones que terminen con el fragmento 'awesome.' (fíjate que hay específicamente un punto después de la palabra 'awesome').
6. Todas las evaluaciones que contengan las palabras 'horrible' **o** 'terrible'.
7. Todas las evaluaciones que contengan **solamente** letras minúsculas.

Después de realizar estas exploraciones, limpia tu conjunto de datos para remover lo siguiente de todos tus textos:

1. Cualquier forma parecida a la siguiente: `<br>` o `<br/>` (revisa variaciones de estos tags, con espacios intermedios, por ejemplo)
2. Signos en general
3. Digitos
4. Cualquier otra cosa que no te parezca relevante para nuestro análisis de lenguaje natural

También convierte todas las letras en minúsculas para homogeneizar nuestro conjunto de datos.

Guarda tu conjunto de datos como un archivo 'csv' para que lo puedas utilizar en los próximos retos (asegúrate de incluir **por lo menos** las columnas 'text' y 'score'.

In [1]:
import pandas as pd
import re

In [4]:
df = pd.read_csv("https://github.com/beduExpert/B2-Analisis-de-Datos-con-Python-2020-Santander/raw/main/Datasets/amazon_fine_food_reviews-clean.csv", index_col=0)
df.head(5)

Unnamed: 0_level_0,product_id,user_id,profile_name,helpfulness_numerator,helpfulness_denominator,score,time,summary,text
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
258510,B00168V34W,A1672LH9S1XO70,"Lorna J. Loomis ""Canadian Dog Fancier""",13,14,3,1266796800,"Misleading to refer to ""PODS""","This coffee does NOT come in individual ""PODS""..."
207915,B000CQID2Y,A42CJC66XO0H7,"Scott Schimmel ""A Butterfly Dreaming""",2,2,5,1279497600,Delicious,I was a little skeptical after looking at the ...
522649,B007TJGZ0Y,A16QZBG2UN6Z3X,"Toology ""Toology""",0,0,5,1335830400,One of my favs,Gloia Jeans Butter Toffee is one of my favorit...
393368,B000W7PUOW,A3J21CQZG60K35,Hsieh Pei Hsuan,2,2,5,1265673600,Tasty!!,My families and friends love Planters peanuts ...
178178,B002FX2IOQ,A1Z7XV6JU0EV8M,"Barbara ""Barbara""",1,6,1,1301788800,"Organic Valley White 1 % Milkfat Lowfat Milk, ...","Organic Valley White 1 % Milkfat Lowfat Milk, ..."


In [10]:
data = df.groupby("product_id")["text"].max()
data.head(5)

product_id
0006641040    TITLE: Chicken Soup with Rice<br />AUTHOR: Mau...
7310172001    I buy a big tub of these for my dog about ever...
7310172101    This is a great treat for dogs, but do read th...
B00004CI84    well one of the best you just have to have a c...
B00004CXX9    What happens when you say his name three times...
Name: text, dtype: object

In [14]:
food_data = data[data.str.contains("food")]
digits_data = data[data.str.contains("\d{2}")]
porcentage_data = data[data.str.contains("\d+%")]
dog_data = data[data.str.contains("^[Dd]og")] #("^dog", case=False)
awesome_data = data[data.str.contains("awesome\.$")]
hor_ter_ble_data = data[data.str.contains("[(ho)|(te)]rrible", case=False)]
lower_data = data[data.str.contains("^[a-z]+$")]

In [12]:
def clean_data(data):
  data = data.str.lower()
  data = data.str.strip()
  data = data.str.replace("")
  data = data[~data.str.contains("<\s*br\s*/?\s*>")]

product_id
B0000D94PA    Wow.<br />This gingerbread is terrible. Truly ...
B0001392LO    Not a bad treat for what it does not have in i...
B0001ZZIEC    Shipping was horrible. They claimed they could...
B00020XNTS    First thing is their web site. It is terrible....
B00024D9X4    Yup it's calorie free and carb free and boy ca...
Name: text, dtype: object