# Api Twitter
* https://datascienceparichay.com/article/get-data-from-twitter-api-in-python-step-by-step-guide/
* https://developer.twitter.com/en/portal/projects/1391772372416532480/apps/20820453/keys

Análisis de sentimiento en Español:
* https://platzi.com/tutoriales/1874-python-lenguaje-natural/5654-realiza-un-analisis-de-sentimiento-en-3-pasos-con-python/
    * Ejemplo https://twitter.com/whaleandjaguar_?lang=en

## Tutorial de búsqueda
### Acceso para búsqueda avanzada
Para acceder como usario ver [aquí](https://www.geeksforgeeks.org/python-api-me-in-tweepy/)

In [1]:
import tweepy as tw
import getpass

In [2]:
my_api_key=getpass.getpass()

 ·························


In [3]:
my_api_secret=getpass.getpass()

 ··················································


In [4]:
auth = tw.OAuthHandler(my_api_key, my_api_secret)

In [5]:
api = tw.API(auth, wait_on_rate_limit=True)

In [6]:
search_query = "#SOSColomia OR #ParoNacional OR #Cali OR #UribeTieneLaRazón OR #YoApoyoAlEsmad OR #NoMasParo"

In [7]:
# get tweets from the API
tweets = tw.Cursor(api.search,
              q=search_query,
              lang="es",
              since="2021-03-01" #https://es.wikipedia.org/wiki/Protestas_en_Colombia_de_2021
                  ).items(5000) #empty for all 

In [8]:
# store the API responses in a list
tweets_copy = []
for tweet in tweets:
    tweets_copy.append(tweet)
    
print("Total Tweets fetched:", len(tweets_copy))

Total Tweets fetched: 5000


El módulo `pickle` permité salvar objetos en archivos binarios. De ésta manera podemos grabar la información completa sobre la búsqueda para un análisis posterior

In [9]:
#Save the list of tweet objects as a pickle file
import pickle
f=open('tweets_copy.pickle','wb')
pickle.dump(tweets_copy,f)
f.close()

In [10]:
!ls -lh tweets_copy.pickle

-rw-r--r-- 1 restrepo restrepo 24M May 18 15:44 tweets_copy.pickle


Cada elemento de la lista es un objeto tweet, que equivala a una fila de una base de datos no relacional. Su documentación está disponible [aquí](https://developer.twitter.com/en/docs/twitter-api/v1/data-dictionary/object-model/tweet).

Para acceder al primer hastashg de un tweet debemos caminar la estructura:

lista → diccionario → lista → diccionario

In [11]:
tweets_copy[1].entities['hashtags'][0]['text']

'ParoNacional'

## Ejemplo de DataFrame con información básica

In [44]:
import pandas as pd

# intialize the dataframe
tweets_df = pd.DataFrame()

# populate the dataframe
for tweet in tweets_copy:
    hashtags = []
    try:
        for hashtag in tweet.entities["hashtags"]:
            hashtags.append(hashtag["text"])
        text = api.get_status(id=tweet.id, tweet_mode='extended').full_text
    except:
        pass
    tweets_df = tweets_df.append(pd.DataFrame({'user_name': tweet.user.name, 
                                               'user_location': tweet.user.location,\
                                               'user_description': tweet.user.description,
                                               'user_verified': tweet.user.verified,
                                               'date': tweet.created_at,
                                               'text': text, 
                                               'hashtags': [hashtags if hashtags else None],
                                               'source': tweet.source,
                                               'id':tweet.id}))
    tweets_df = tweets_df.reset_index(drop=True)

# show the dataframe
tweets_df.head()

Unnamed: 0,user_name,user_location,user_description,user_verified,date,text,hashtags,source,id
0,Aníbal Cano,,Optimista alegre de esta maravillosa vida que ...,False,2021-05-18 20:35:32,RT @UnivalleU: #Movilización ✊ Gran Marcha del...,"[Movilización, Cali]",Twitter for Android,1394753543010230274
1,¡#55/86 en 2022!🦍🦍💪💎💎👏👏🚀🚀🌕,,#sigamonoslosbuenos #movimientoantiuribista,False,2021-05-18 20:35:29,RT @PoloDemocratico: El #ParoNacional es la ma...,[ParoNacional],Twitter for iPhone,1394753529844219907
2,kalvin dexter,,vivir,False,2021-05-18 20:35:26,"RT @PrensaRural: #ParoNacional, Campesinado de...",[ParoNacional],Twitter for Android,1394753517546508288
3,Guillermo Rojas,,,False,2021-05-18 20:35:22,RT @Tiradorsilencio: Como Ciudadano Colombiano...,[Cali],Twitter for Android,1394753499943079939
4,#ColombiaEnAlertaRoja,Valle Colombia,,False,2021-05-18 20:35:21,RT @alertaroja234: @BluRadioCo Para aquellos q...,,Twitter Web App,1394753497912942594


In [45]:
tweets_df.shape

(5000, 9)

In [46]:
#Save to standard JSON file
tweets_df.to_json('tweets_df.json',orient='records')

### Ejemplo de análisis de datos
Obtenga la lista de hashtags

In [26]:
hstgs=tweets_df["hashtags"].dropna().sum()
str(
    #first five elements
    hstgs[:5]
).replace("]",",...]")

"['Movilización', 'Cali', 'ParoNacional', 'ParoNacional', 'Cali',...]"

In [27]:
len(hstgs)

6271

veces

Obtener lista de hashtags únicos

In [29]:
str(
 #first five elements
 list(set(hstgs))[:5]
).replace(']',',...]')

"['DesconciertoNacional', 'Rechazo', 'AfroSoul', 'Ansiedad', 'JesúsSantrich',...]"

TOTAL:

In [30]:
len(set(hstgs))

604

__Actividad__: Organizar los hashtags en orden decendiente de acuerdo al número de veces que aparecen en la lista completa de los mismos

Hint:

In [None]:
l=[2,8,7,8,6,7,8]

In [None]:
l.count(8)

In [35]:
hs=pd.DataFrame()

In [42]:
pd.DataFrame( zip( set(hstgs) , [ hstgs.count(x) for x in set(hstgs)] ),columns=['hastags','count'] ).sort_values('count',ascending=False)[:50]

Unnamed: 0,hastags,count
323,ParoNacional,1824
381,Colombia,420
67,CALI,382
452,Cali,293
156,ParoNacional18M,183
548,18M,101
441,PrimeraLínea,99
504,NoMasParo,91
278,Yumbo,77
261,Bogotá,64


### Grabar el objeto para análisis posteriores

In [102]:
import pickle
f=open('tweets_copy.pickle','rb')
tw_cp=pickle.load(f)
f.close()

In [103]:
tweet=tw_cp[0]

# Full DATA:
El atributo `._json` nos permite acceder a la información no estructurado del objeto de tweet completo desglosado en: https://developer.twitter.com/en/docs/twitter-api/v1/data-dictionary/object-model/tweet


In [165]:
print(f'{str(tweet._json)[:76]}...')

{'created_at': 'Wed May 12 05:52:23 +0000 2021', 'id': 1392356965578420225, ...


Si se adiciona como la fila de un DataFrame podremos visuzalizar la base de datos no estructurada completa

In [76]:
full_df=pd.DataFrame()
for tweet in tweets_copy:
    full_df=full_df.append(tweet._json,ignore_index=True)

In [105]:
pd.set_option('display.max_columns',50)

In [107]:
full_df[:1]

Unnamed: 0,contributors,coordinates,created_at,entities,favorite_count,favorited,geo,id,id_str,in_reply_to_screen_name,in_reply_to_status_id,in_reply_to_status_id_str,in_reply_to_user_id,in_reply_to_user_id_str,is_quote_status,lang,metadata,place,retweet_count,retweeted,retweeted_status,source,text,truncated,user,extended_entities,possibly_sensitive,quoted_status,quoted_status_id,quoted_status_id_str
0,,,Wed May 12 05:52:23 +0000 2021,"{'hashtags': [], 'symbols': [], 'user_mentions...",0.0,0.0,,1392356965578420224,1392356965578420225,,,,,,0.0,es,"{'iso_language_code': 'es', 'result_type': 're...",,77.0,0.0,{'created_at': 'Wed May 12 01:10:27 +0000 2021...,"<a href=""http://twitter.com/download/android"" ...",RT @SemanarioVOZ: El Semanario VOZ recalca su ...,0.0,"{'id': 1392150058087428102, 'id_str': '1392150...",,,,,


In [92]:
full_df['id']=full_df['id'].astype(int)

In [95]:
full_df.to_json('full_df.json',orient='records')

_________