# Steam Games

In [None]:
# Se agrupan por un lado todos aquellos que son de tipo "free"
free_games = ['Free To Play','Free to Play','Free','Free Demo','Play for Free!','Free Mod','Free HITMAN™ Holiday Pack']

# Por otro lado, se agrupa el resto de categorías:
other_games = [valor for valor in no_floats if valor not in free_games]

In [None]:
# Los juegos gratuitos se reemplazan por cero
df_games1['price'] = df_games1['price'].replace(no_floats, 0)

# El resto de juegos se reemplaza por valores nulos
df_games1['price'] = df_games1['price'].replace(other_games ,np.NAN)

# Se convierte la columna a tipo "float"
df_games1['price'] = df_games1['price'].astype(float)
df_games1.head()

## Dataset reviews

## Lemmatizing

In [None]:
# Se crea la función get_wordnet_pos() que nos devuelve el POS (Part of Speech) de cada palabra dentro de la review
from nltk.corpus import wordnet

def get_wordnet_pos(word):
    """Map POS tag to first character lemmatize() accepts"""
    tag = nltk.pos_tag([word])[0][1][0].upper()
    tag_dict = {"J": wordnet.ADJ,
                "N": wordnet.NOUN,
                "V": wordnet.VERB,
                "R": wordnet.ADV}

    return tag_dict.get(tag, wordnet.NOUN)

In [None]:
# Se instancia el lemmatizador:
wordnet_lemmatizer = WordNetLemmatizer()


# Se cargan las stopwords:
stopwords = nltk.corpus.stopwords.words('english')
stopwords = [palabra for palabra in stopwords if 'not' not in palabra]
stopwords

In [None]:
# Se crea una lista vacía donde se almacenarán las reviews lemmatizadas 
reviews_lemma=[]

for review in df_reviews["review"]:
    # Vamos a reemplzar los caracteres que no sean letras por espacios
    review=re.sub("[^a-zA-Z]"," ",str(review))
    # Pasamos todo a minúsculas
    review=review.lower()
    # Tokenizamos para separar las palabras
    review=nltk.word_tokenize(review)

    # Aplicamos el Lemmatizer (Esto puede tardar un ratito)
    frase_lemma = [wordnet_lemmatizer.lemmatize(w, get_wordnet_pos(w)) for w in review]

    # Eliminamos las palabras de menos de 3 letras
    frase_lemma = [palabra for palabra in review if len(palabra)>3]
    # Sacamos las Stopwords
    review = [palabra for palabra in review if not palabra in stopwords]

    # Por ultimo volvemos a unir el review
    #review=" ".join(review)
    
    reviews_lemma.append(review)
    

df_reviews["review_lemma"] = reviews_lemma
df_reviews.head()

## Stemming

In [None]:
# Se instancia el stemmer:
stemmer = PorterStemmer()

# Se cargan las stopwords:
stopwords = nltk.corpus.stopwords.words('english')
stopwords = [palabra for palabra in stopwords if 'not' not in palabra]
stopwords

In [None]:
#############################################################################
# STEMMING
#############################################################################
# Se crea una lista vacía donde se almacenarán las reviews luego del stemming
reviews_stem=[]

for review in df_reviews["review"]:
    # Vamos a reemplzar los caracteres que no sean letras por espacios
    review=re.sub("[^a-zA-Z]"," ",str(review))
    # Pasamos todo a minúsculas
    review=review.lower()
    # Tokenizamos para separar las palabras
    review=nltk.word_tokenize(review)
    # Sacamos las Stopwords
    review = [palabra for palabra in review if not palabra in stopwords]
    # la funcion para buscar la raiz de las palabras
    review = [stemmer.stem(w) for w in review]
    # Por ultimo volvemos a unir el review
    review=" ".join(review)
    # Se anexa a la lista de reviews
    reviews_stem.append(review)

# Se agrega la nueva lista de reviews al Dataframe:
df_reviews["reviews_stem"] = reviews_stem
df_reviews.head()

In [None]:
# Se aplica la funcion creada anteriormente
df_reviews['sentiment_analysis'] = df_reviews["reviews_stem"].apply(classify_sentiment)
df_reviews.head()