# Scraping twitter

In dit notebook gaan we zien hoe je met behulp van Python twitter kunt scrapen. Hiervoor heb je een developeraccount nodig op twitter, volg daarvoor de instructies die te vinden zijn op canvas: 
https://canvas.hu.nl/courses/17142/pages/week-4

Vervolgens gaan we contact maken met de API van twitter. Als het goed is heb je bij Data Exploration al geleerd wat een API is, en nu gaan we zien hoe we met behulp van Python kunnen communiceren met de twitter API. We maken hiervoor gebruik van de library *tweepy*, dit package bevat alle functies die we nodig hebben om met de API te communiceren, die hoeven we gelukkig dus niet zelf te schrijven. Hierdoor kunnen we met een paar regels code de connectie opzetten en tweets binnenhalen.

De tweepy documentatie met voorbeelden vind je hier: http://docs.tweepy.org/en/latest/

Eerst importeren we de libraries die we gebruiken. Waarschijnlijk zul je deze eerst moeten installeren. Daar zijn twee manieren voor (2e is makkelijkst): 
Optie 1. Ga terug naar het overzicht van bestanden, klik op 'new' rechtsboven en kies 'terminal' en type daar *pip install tweepy --user*
Optie 2. vul *! pip install tweepy --user* in in een cell in dit notebook, en draai deze cel. Na succesvol installeren kan je deze cel weghalen.

Als je één van deze opties hebt gekozen, heb je deze package voortaan in deze omgeving. Let op: vaak moet je even de 'kernel' herstarten (zie knop hierboven). Je moet packages per notebook wel steeds importeren.

In [1]:
import tweepy
import json
import csv

Vul hier je access tokens in (met aanhalingstekens!):

In [2]:
consumer_key = "Vul API key"
consumer_secret = "Vul API secret key in"
access_token_key = "Vul access key in"
access_token_secret = "Vul access secret key in"

Onderstaande code zet te connectie met de API op.

In [None]:
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token_key, access_token_secret)
api = tweepy.API(auth)

Met behulp van de documentatie van tweepy kunnen we er nu achter komen welke *methods* we aan kunnen roepen op *api*, zie daarvoor: http://docs.tweepy.org/en/latest/api.html#tweepy-api-twitter-api-wrapper

In dit voorbeeld gaan we gebruik maken van het *search* endpoint. In de twitter documentatie kunnen we dan weer vinden welke parameters we daaraan mee kunnen geven:
https://developer.twitter.com/en/docs/tweets/search/api-reference/get-search-tweets

In [None]:
# Hier bijvoorbeeld hebben de met de parameters ingesteld:
#  q="#hu-filter:retweets" : Haal Tweets op met "#hu", en laat retweets weg
#  lang="nl"               : Enkel Nederlandse
#  count=3                 : max drie tweets

HU_tweets = api.search(q="#hu -filter:retweets", lang="nl", count=3)

HU_tweets zit nu nog verpakt als tweepy-format. Dat pakken we even uit tot het json format. Json wordt zeer veel gebruikt door APIs.Het is simpelweg een manier om data als een string weer te geven. B.v. (Meer info over wat json is: https://www.w3schools.com/js/js_json_intro.asp)


In [None]:
tweets_json = [tweet._json for tweet in HU_tweets]

Wat hebben we nu precies opgehaald? In tweets_json zitten nu 3 dingen. Ieder van die drie elementen is een json object. Hieronder pakken we er een uit, wat laat zien dat er veel informatie inzit:

In [None]:
print('Hoeveel json tweets hebben we? : ' + str(len(tweets_json)) + '\n')
print('Dit zit in een json tweet : \n \n' + str(tweets_json[0]))

Een json object heeft net als een python dictionary 'keys'. Zoals {"name": "John", "age": "31", "city": "New York"}. Wat voor keys heeft onze tweet json?

In [None]:
print(tweets_json[0].keys())

In [None]:
Laten we kijken naar twee interessante soorten informatie in onze tweets, namelijk 'created_at' en 'text':

In [None]:
# print van iedere tweet's datum en tekst 
for tweet in tweets_json:
    print(tweet['created_at'])
    print(tweet['text'])
    print(' \n ------------------------ \n ')

Door bovenstaande code te gebruiken, en b.v. de parameters aan te passen en meer informatie uit de jsons te halen, kan je al erg veel. Hieronder een voorbeeld wat voor functies je bijvoorbeeld zou kunnen gebruiken. Kijk of je functies kan maken voor de  bewerkingen die je op de tweets wil doen. Dit maakt het overzichtelijk en makkelijk herhaalbaar/aanpasbaar.

In [None]:
def get_hashtags_from_tweet(tweet):
    text = tweet['full_text']
    words = text.split()
    hashtags = [word for word in words if word.startswith('#')]
    return(';'.join(hashtags))

def get_word_count(tweet):
    text = tweet['full_text']
    word_count = len(text.split(' '))
    return(word_count)
    

Hier een voorbeeld van hoe je met python een CSV-bestand aan zou kunnen maken, om je tweets in weg te schrijven. Let op: dit moet je nog aanpassen om werkend te krijgen.

In [None]:
my_tweets = open('my_tweets.csv', 'w', newline='')

outputWriter = csv.writer(my_tweets)
outputWriter.writerow(['created_at', 'full_text', 'user_name', 'word_count', 'hashtags'])    
    
for tweet in tweets:
    created_at = tweet['created_at']
    full_text = tweet['text']
    user_name = tweet['user']['screen_name']
    word_count = get_word_count(tweet)
    hashtags = get_hashtags_from_tweet(tweet)
    outputWriter.writerow([created_at, full_text, user_name, word_count, hashtags])

## Opdracht
Doe een kleine analyse op tweets. Hiervoor bedenk je zelf een vraag, je haalt de benodigde tweets binnen en je schrijft een stukje code om de tweets te analyseren om zo jouw vraag te beantwoorden. Je kunt het voorbeeld volgen om een csv bestand te maken met interessante data uit de tweets. Je kunt dit zo groot of zo klein maken als je zelf wilt. Kijk naar de tweepy documentatie voor voorbeelden. Misschien kun je ook andere endpoints gebruiken dan het *search* endpoint. 

Voorbeelden van mogelijke analyse: 
* Vergelijk het aantal woorden in jouw tweets met die van een mede-student. 
* Haal de tweets van Trump binnen. Is hij meer of minder gaan tweeten na de verkiezingen? Zijn zijn tweets gemiddeld langer of korter geworden? 