# Obtención de datos

Para nuestro conjunto de datos utilizaremos la plataforma de Twitter y para ello lo primero que hay que realizar es:
* Autentificarnos: Esto nos sirve como desarrolladores poder utilizar el API de Twitter y empezar a recolectar datos.
    * Primero deberemos crear una [app de twitter](apps.twitter.com).
* Utilizar tweepy: Libreria/ Dependencia para acceder a el API de twitter simplemente llamando funciones.


# Creando Aplicación de Twitter

1. Lo primero que tenemos que hacer es tener una cuenta en la red social e ingresar [aquí](https://apps.twitter.com/).
2. Una vez iniciado la sesión, nos aparecera un boton de crear nueva app, le damos click y llenamos el formulario que aparece a continuación.
3. En la pestaña Keys and Access Tokens nos vamos a la ultima opcion y le damos create my access token.
4. Una vez hecho esto tendremos nuestras 4 claves para acceder a Twitter: *Consumer Key*, *Consumer Secret*, *Access Token* y *Access Token Secret*

# Tweepy

Tweepy es una libreria de python que nos ayuda a hacer mas simple la conexion a Twitter y obtener datos.
Existen dos maneras de obtenerla 
* Utilizar el siguiente comando en linux: pip install tweepy 
* Clonar el repositorio de github de [tweepy](https://github.com/tweepy/tweepy).

## Ejemplo básico

In [4]:
import tweepy
#Es importante poner tus 4 claves obtenidad al crear tu app de twitter que te dan al registrarte

consumer_key=""
consumer_secret=""
access_token=""
access_token_secret=""

auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)

api = tweepy.API(auth)

public_tweets = api.home_timeline()
for tweet in public_tweets:
    print(tweet.text)

RT @CH14_: @DelSalmon Eso no existe. Quesadilla sin queso se convierte en taco con lo que sea. Saludos!
RT @ssbmhax: 2012 vs 2018 https://t.co/5hR0WX6sXj
Caprese, no puedo creer que comí tomate 😱 https://t.co/3LH7dJknvu
Busteeeeed
RT @gryffsirius: ‘infinity war is the most ambitious crossover event in history’ ok but https://t.co/5Pco7CO81f
RT @marianakrebs: Javier Salomón, Marco Avalos y Daniel Díaz están desparecidos desde el 19 de marzo, los subieron a una camioneta en contr…
Santander be like... https://t.co/Ex7vHX7ILe
Babysitting Jessie's brother and sister 😂 https://t.co/UvuT7WQF20
RT @iFresaFria: yo despues de casarme. https://t.co/LyMlwATjPT
RT @iFresaFria: Súper necesito algo así 🤘🏻🍬 🍭 https://t.co/fcaTGmbylX
RT @SoyFxzz: — ¿que harás en Semana Santa? 
— ... https://t.co/HvuagG7sC6
https://t.co/3ZPibc6H4E
29 de abril te esperamos con ansias 😍🙈🎫 ya nos vi @vgar3 @AlejandraaCota #elnegritoojosclaros 💕
Soy la mujer mas feliz 🙈🎫😍😍😍
noooooooooooooooo, ya entiendo estas cosas sad ;-

In [11]:
user = api.get_user('erick_fimbres')
print (user.screen_name)
print (user.followers_count)
for friend in user.friends():
   print (friend.screen_name)


erick_fimbres
5
analucia2600
samramosq
maarifeeer
argentmxs
Nethojs29
_Huguez
athenavianney


# Obtención de Tweets

Obtenemos los tweets y los guardamos en un archivo .cvs, por lo general da un maximo de 3200 tweets por busqueda mediante usuario.

In [3]:
import csv

def get_all_tweets(screen_name):
    #Twitter only allows access to a users most recent 3240 tweets with this method

    #authorize twitter, initialize tweepy
    auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
    auth.set_access_token(access_token, access_token_secret)
    api = tweepy.API(auth)

    #initialize a list to hold all the tweepy Tweets
    alltweets = []

    #make initial request for most recent tweets (200 is the maximum allowed count)
    new_tweets = api.user_timeline(screen_name = screen_name,count=200)

    #save most recent tweets
    alltweets.extend(new_tweets)

    #save the id of the oldest tweet less one
    oldest = alltweets[-1].id - 1

    #keep grabbing tweets until there are no tweets left to grab
    while len(new_tweets) > 0:
        print ("getting tweets before %s" % (oldest))

        #all subsiquent requests use the max_id param to prevent duplicates
        new_tweets = api.user_timeline(screen_name = screen_name,count=200,max_id=oldest)

        #save most recent tweets
        alltweets.extend(new_tweets)

        #update the id of the oldest tweet less one
        oldest = alltweets[-1].id - 1

        print ("...%s tweets downloaded so far" % (len(alltweets)))

        #transform the tweepy tweets into a 2D array that will populate the csv	
        outtweets = [[tweet.id_str, tweet.created_at, tweet.text.encode("utf-8")] for tweet in alltweets]

        #write the csv
        with open('%s_tweets.csv' % screen_name, 'w') as f:
            writer = csv.writer(f)
            writer.writerow(['id','created_at','text'])
            writer.writerows(outtweets)

            pass


if __name__ == '__main__':
    #pass in the username of the account you want to download
    get_all_tweets("")


getting tweets before 919852699809497087
...397 tweets downloaded so far
getting tweets before 892296442332577791
...593 tweets downloaded so far
getting tweets before 871044679457951743
...789 tweets downloaded so far
getting tweets before 841776290856230911
...988 tweets downloaded so far
getting tweets before 814325463506157572
...1187 tweets downloaded so far
getting tweets before 795659297002848256
...1384 tweets downloaded so far
getting tweets before 778116603359662079
...1582 tweets downloaded so far
getting tweets before 765918096448065536
...1781 tweets downloaded so far
getting tweets before 745499658781229056
...1980 tweets downloaded so far
getting tweets before 727336412157087744
...2173 tweets downloaded so far
getting tweets before 659102467456634879
...2373 tweets downloaded so far
getting tweets before 498929556578107392
...2572 tweets downloaded so far
getting tweets before 452633260859088895
...2769 tweets downloaded so far
getting tweets before 428592687399194626
.