# Contando palabras.


Uno de los análisis más básciso que podemos realizar es contar la cantidad de veces que una palabra o una frase ha aparecido en el texto & cuántas veces ha aparecido en comparación con otras palabras clave en el texto.

¿Por qué debemos de contar palabras?

* Contar palabras es el paso más básico que podemos dar para automatizar el análisis de texto.

* Nos permite convertir palabras en números.

* Puede decirnos cuantas veces se menciona una empresa, producto o hhashtag.

### Método `str.contains`


* Para contar la frecuencia de una palabra clave en particular usaremos el método `str.contains` , este **nos dice si una fila contiene o no la palabra clave en cuestión.**

* `str.counts` - Devolvera un objeto booleano , que contendra solo valores True o False.
* También tomara el arguemtno `case=False` que retorna una busqueda insensible de mayusuclas y minusculas.


### EJEMPLO:

Contar palabras clave conocidas es una de las primeras formas en que puedes analizar datos de texto en un conjunto de datos de Twitter. 

En este conjunto de datos, contarás la cantidad de veces que aparecen hashtags específicos en una colección de tweets sobre ciencia de datos. Con este fin, usará los métodos de cadena en el objeto Pandas Series para hacer esto.




In [16]:
import json
import numpy as np
import pandas as pd

data = pd.read_csv("/content/data-science-hashtags.csv")


In [18]:
# Encontrar menciones de #python en 'texto'
python = data['text'].str.contains('#python',case=False)

# Imprimios la proporción total de #python
porcentaje = round(np.sum(python)/data.shape[0],2)
print("Proporción de  #python tweets: {}% ".format(porcentaje))

Proporción de  #python tweets: 0.43% 


## Buscando texto en todos los lugares equivocados

Recuerda que el texto relevante no solo puede estar en el campo de texto principal del tweet. También puede estar en  `extended_tweet`, `retweeted_status` o  `quoted_status`.

Necesitamos verificar todos estos campos para asegurarnos de que hemos contabilizado todo el texto relevante. Haremos esto a menudo, así que crearemos una función que lo haga.

In [19]:
def check_word_in_tweet(word, data):
    """Comprueba si una palabra está en el texto de un conjunto de datos de Twitter. 
    Comprueba el texto y el tweet extendido (tweets de más de 140 caracteres) en busca de
     tweets, retweets y tweets citados.
    Devuelve una serie lógica de pandas.
    """
    contains_column = data['text'].str.contains(word, case = False)
    contains_column |= data['extended_tweet-full_text'].str.contains(word, case = False)
    contains_column |= data['quoted_status-text'].str.contains(word, case = False)
    contains_column |= data['quoted_status-extended_tweet-full_text'].str.contains(word, case = False)
    contains_column |= data['retweeted_status-text'].str.contains(word, case = False)
    contains_column |= data['retweeted_status-extended_tweet-full_text'].str.contains(word, case = False)
    return contains_column

##  Comparando `#Python` vs `#R`.

Ahora que tenemos una función para verificar si la palabra está o no en el tweet en varios lugares, podemos implementar esto en varias palabras y compararlas.Volvamos a nuestro ejemplo con el conjunto de datos de hashtag de ciencia de datos. Queremos ver cuántas veces ocurre esa #rstats en comparación con #python.


In [23]:
# Encuentra menciones de #python en todos los campos de texto
python = check_word_in_tweet('#python', data)

# Encuentra menciones de #rstats en todos los campos de texto
rstats = check_word_in_tweet('#rstats', data)

#Imprimir el porcentaje de tweets en los que aparece #python
pystats_t = round(np.sum(python) / python.shape[0],2)

print("Proporción de  #python tweets: {}%".format(pystats_t))

#Imprimir el porcentaje de tweets en los que aparece #rstats
rstats_t = round(np.sum(rstats) /rstats.shape[0],2)
print("Proporción de  #rstats tweets: {}% ".format(rstats_t))

Proporción de  #python tweets: 0.57%
Proporción de  #rstats tweets: 0.47% 
