-
Notifications
You must be signed in to change notification settings - Fork 0
/
scrap twitter autoconsommation.py
89 lines (68 loc) · 3.44 KB
/
scrap twitter autoconsommation.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
#coding : utf-8
#Ce programme va scrapper les tweets avec les mentions autoconsommation et #autoconsommation
#Scrapping du contenu, de l'ID du tweet, de l'ID de la personne, la géolocal
# de la personne qui a posté le tweet, le nombre de followers de la personne,
#nombre de likes et nombre de RT du post, @cités et #.
import pdb
import tweepy
import pickle
import datetime
import pdb
import csv
import os.path
datafile = "Autoconsommation_donnees.csv"
q='autoconsommation OR #autoconsommation'
#Cette fonction sera utile plus bas, car elle permet de collecter l'information
#dont nous avons besoin dans les tweets, a savoir le texte des hashtags cités
# et les screen_name des personnes mentionnées.
def getItem(items,field):
txt = []
for x in items:
txt.append(x[field])
return ",".join(txt)
#Les informations ci-dessous sont les clés nécessaire à la collecte de données
consumer_key='PUT CONSUMER KEY HERE'
consumer_secret='PUT CONSUMER SECRET HERE'
access_token='PUT ACCESS TOKEN HERE'
access_token_secret='PUT ACCESS TOKEN SECRET HERE'
auth = tweepy.auth.OAuthHandler(consumer_key, consumer_secret)
auth.secure = True
auth.set_access_token(access_token, access_token_secret)
api = tweepy.API(auth, wait_on_rate_limit=True, wait_on_rate_limit_notify=True)
#Cette liste permet d'éviter de collecter le même tweet en double. A chaque
#lancement, le programme va vérifier que l'id du tweet n'est pas déjà enregistré.
#Ainsi, nous sommes sûrs de ne pas collecter plusieurs fois le même en scrappant
#tous les jours.
ListID=[]
if os.path.isfile(datafile):
with open(datafile,'r') as f:
reader = csv.reader(f, delimiter=';',lineterminator='\n')
for row in reader:
tweetid=row[0]
ListID.append(tweetid)
# Le programme ci-dessous permet de collecter les différentes informations dont
#nous avons besoin sur twitter, à savoir: l'id du tweet, le texte, le nombre de
#Retweets... Ces informations sont ensuite enregistrées dans un fichier csv.
with open(datafile,'a') as output:
data=csv.writer(output,delimiter=';',lineterminator='\n')
for tweet in tweepy.Cursor(api.search,q).items():
idtweet = tweet.id_str
TweetTxt = tweet.text.encode('ascii','ignore').decode('utf8')
NombreRT = str(tweet.retweet_count)
NombreLIKE = str(tweet.favorite_count)
Date = tweet.created_at
Hashtags = getItem( tweet.entities['hashtags'], "text")
Mentions = getItem( tweet.entities['user_mentions'], "screen_name" )
Coordonnees = str(tweet.coordinates)
ScreenName = tweet.user.screen_name.encode('ascii','ignore').decode('utf8')
Name = tweet.user.name.encode('ascii','ignore').decode('utf8')
UserID = str(tweet.user.id)
Langue = tweet.user.lang
Localisation = tweet.user.location
NombreFollo = str(tweet.user.followers_count)
NbrAbonnements = str(tweet.user.friends_count)
if idtweet not in ListID:
try :
data.writerow([idtweet,TweetTxt,NombreRT,NombreLIKE,Date,Hashtags,Mentions,Coordonnees,ScreenName,Name,UserID,Langue,Localisation,NombreFollo,NbrAbonnements])
except :
1