## Reto 2: Regex

### 1. Objetivos:
    - Practicar expresiones regulares con un conjunto de datos real
 
---
    
### 2. Desarrollo:

Vamos a practicar expresiones regulares utilizando un conjunto de datos llamado 'amazon_fine_food_reviews-clean.csv'. Este conjunto de datos es en realidad un subconjunto de un conjunto más grande que proviene de [esta fuente](https://www.kaggle.com/snap/amazon-fine-food-reviews). Contiene evaluaciones de muchos diversos productos realizadas por usuarios de Amazon. La columna 'text' contiene el texto de la evaluación, y ésa es la columna que nos interesa.

Vamos a practicar expresiones regulares con esa columna. Con cada búsqueda que realices vas a obtener un nuevo subconjunto de datos de un tamaño específico. Al terminar tus búsquedas compara el tamaño de tus subconjuntos de datos con los de tus compañeros, para checar que tus respuestas fueron correctas.

Tu Reto es entonces obtener subconjunto de datos que tengan estas características:

1. Todas las evaluaciones que contengan la palabra 'food' (en minúsculas).
2. Todas las evaluaciones que contengan algún número de dos digitos.
3. Todas las evaluaciones que contengan algún porcentaje (uno o más digitos seguidos de un signo de porcentaje).
4. Todas las evaluaciones que comiencen con la palabra 'Dog' o 'dog'.
5. Todas las evaluaciones que terminen con el fragmento 'awesome.' (fíjate que hay específicamente un punto después de la palabra 'awesome').
6. Todas las evaluaciones que contengan las palabras 'horrible' **o** 'terrible'.
7. Todas las evaluaciones que contengan **solamente** letras minúsculas.

Después de realizar estas exploraciones, limpia tu conjunto de datos para remover lo siguiente de todos tus textos:

1. Cualquier forma parecida a la siguiente: `<br>` o `<br/>` (revisa variaciones de estos tags, con espacios intermedios, por ejemplo)
2. Signos en general
3. Digitos
4. Cualquier otra cosa que no te parezca relevante para nuestro análisis de lenguaje natural

También convierte todas las letras en minúsculas para homogeneizar nuestro conjunto de datos.

Guarda tu conjunto de datos como un archivo 'csv' para que lo puedas utilizar en los próximos retos (asegúrate de incluir **por lo menos** las columnas 'text' y 'score'.

In [5]:
import pandas as pd
import re

In [7]:
df = pd.read_csv('../../Datasets/amazon_fine_food_reviews-clean.csv')

df.head()

Unnamed: 0,id,product_id,user_id,profile_name,helpfulness_numerator,helpfulness_denominator,score,time,summary,text
0,258510,B00168V34W,A1672LH9S1XO70,"Lorna J. Loomis ""Canadian Dog Fancier""",13,14,3,1266796800,"Misleading to refer to ""PODS""","This coffee does NOT come in individual ""PODS""..."
1,207915,B000CQID2Y,A42CJC66XO0H7,"Scott Schimmel ""A Butterfly Dreaming""",2,2,5,1279497600,Delicious,I was a little skeptical after looking at the ...
2,522649,B007TJGZ0Y,A16QZBG2UN6Z3X,"Toology ""Toology""",0,0,5,1335830400,One of my favs,Gloia Jeans Butter Toffee is one of my favorit...
3,393368,B000W7PUOW,A3J21CQZG60K35,Hsieh Pei Hsuan,2,2,5,1265673600,Tasty!!,My families and friends love Planters peanuts ...
4,178178,B002FX2IOQ,A1Z7XV6JU0EV8M,"Barbara ""Barbara""",1,6,1,1301788800,"Organic Valley White 1 % Milkfat Lowfat Milk, ...","Organic Valley White 1 % Milkfat Lowfat Milk, ..."


In [11]:

group = df.groupby('product_id')['text'].max()

group

product_id
0006641040    TITLE: Chicken Soup with Rice<br />AUTHOR: Mau...
7310172001    I buy a big tub of these for my dog about ever...
7310172101    This is a great treat for dogs, but do read th...
B00004CI84    well one of the best you just have to have a c...
B00004CXX9    What happens when you say his name three times...
                                    ...                        
B009M2LUEW    When I found out about this product from Jorge...
B009NTCO4O    I purchased this item for a christmas<br />gif...
B009NY1MC4    This is fantastic! It is more of a syrup than ...
B009QEBGIQ    This is a great rice, tender when cooked and s...
B009RB4GO4    Yes, it does have artificial sweetener.  Yes, ...
Name: text, Length: 8629, dtype: object

In [16]:
#Todas las evaluaciones que contengan la palabra 'food' (en minúsculas).

group[group.str.contains('skin')]

product_id
B00008433V    My Dalmatian mix has severe skin allergies. Th...
B00028LVKS    I have never been regular. Never. Never ever. ...
B0006M13WG    Our rat terrier was losing her fur, had pinkis...
B0006VB3TA    These are decent treats to keep your dog busy ...
B0007G9FD0    Our 7½-year-old and 2-year-old dogs have been ...
B0009F3SC8    I wrote a negative review and I change my mind...
B000ET4SM8    each bean is nice and plump, very good smell a...
B000EUOZGG    These are fantastic tasting crackers but I did...
B000F9ZEUM    Our 10 year old cat had been having some skin ...
B000FEFET8    we cannot find these Sardines in our local sto...
B000GAO91K    The bottle is much bigger than I expected and ...
B000GW23PC    CAREFUL!!  My nine year old stepson is around ...
B000HDMWKQ    The other reviewer didnt like the bones and sk...
B000JGLE0U    First when it arrived everyone on the house we...
B000K5URAI    I love this stuff, its as good as what you get...
B000KJBCZ8    can not believe

In [14]:
#Todas las evaluaciones que contengan algún número de dos digitos.

group[group.str.contains('[0-9][0-9]')]

product_id
B00006L2ZT    This is a  beautiful repackaging of Camper Van...
B00008433V    My Dalmatian mix has severe skin allergies. Th...
B000084F0P    I have greyhounds and they have sensitive stom...
B00008DFK5    When I want my dog to leave everyone alone for...
B0000A1ODW    Wilton's Black Sparkle Gel icing looks and tas...
                                    ...                        
B009AFJ3I6    I have purchased Ideal for about a year now bu...
B009HINSPK    We've tried many Tassimo flavors.  This is by ...
B009J2GVPS    i am a fan of the tassimo machine, and many of...
B009KAQZIM    I love coffee. Usually I would not recommend M...
B009QEBGIQ    This is a great rice, tender when cooked and s...
Name: text, Length: 1755, dtype: object

In [22]:
#Todas las evaluaciones que contengan algún porcentaje (uno o más digitos seguidos de un signo de porcentaje).

group[group.str.contains('%\d+')]

product_id
B0026LIVMU    I get this on Subscribe and Save and with the ...
B002DTX544    WOW! I used to but this for 140 bucks and now ...
Name: text, dtype: object

In [25]:
#Todas las evaluaciones que comiencen con la palabra 'Dog' o 'dog'.
group[group.str.contains('^dog',case=False)]

product_id
B008FWOAXI    Dog loves these. Eats them quickly and without...
Name: text, dtype: object

In [None]:
#Todas las evaluaciones que comiencen con la palabra 'Dog' o 'dog'.
group[group.str.contains('^dog',case=False)]
