In [80]:
import mysql.connector
import nltk
import numpy as np
import pandas as pd
from nltk.tokenize import TweetTokenizer
from nltk.stem import SnowballStemmer

In [81]:
stopwords

['au',
 'aux',
 'avec',
 'ce',
 'ces',
 'dans',
 'de',
 'des',
 'du',
 'elle',
 'en',
 'et',
 'eux',
 'il',
 'je',
 'la',
 'le',
 'leur',
 'lui',
 'ma',
 'mais',
 'me',
 'même',
 'mes',
 'moi',
 'mon',
 'ne',
 'nos',
 'notre',
 'nous',
 'on',
 'ou',
 'par',
 'pas',
 'pour',
 'qu',
 'que',
 'qui',
 'sa',
 'se',
 'ses',
 'son',
 'sur',
 'ta',
 'te',
 'tes',
 'toi',
 'ton',
 'tu',
 'un',
 'une',
 'vos',
 'votre',
 'vous',
 'c',
 'd',
 'j',
 'l',
 'à',
 'm',
 'n',
 's',
 't',
 'y',
 'été',
 'étée',
 'étées',
 'étés',
 'étant',
 'étante',
 'étants',
 'étantes',
 'suis',
 'es',
 'est',
 'sommes',
 'êtes',
 'sont',
 'serai',
 'seras',
 'sera',
 'serons',
 'serez',
 'seront',
 'serais',
 'serait',
 'serions',
 'seriez',
 'seraient',
 'étais',
 'était',
 'étions',
 'étiez',
 'étaient',
 'fus',
 'fut',
 'fûmes',
 'fûtes',
 'furent',
 'sois',
 'soit',
 'soyons',
 'soyez',
 'soient',
 'fusse',
 'fusses',
 'fût',
 'fussions',
 'fussiez',
 'fussent',
 'ayant',
 'ayante',
 'ayantes',
 'ayants',
 'eu'

In [140]:
stopwords = nltk.corpus.stopwords.words('french')
other_stopwords = ['de', 'ou', 'sur', 'or', 'ni', 'car', 'quand']
punctuation = [':', '.', '(', ')', ';', '?', '...']
stopwords.extend(other_stopwords)

In [83]:
mydb = mysql.connector.connect(
  host="localhost",
  user="root",
  passwd="password",
  database="twitter_db"
)

print(mydb)

<mysql.connector.connection_cext.CMySQLConnection object at 0x10ddedf60>


In [84]:
tweet_list = []

cursor = mydb.cursor()

query = ("SELECT text FROM tweets WHERE lang='fr' LIMIT 100")

cursor.execute(query)

for text in cursor:
    tweet_list.append(text[0])

cursor.close()

True

In [85]:
a_tweet = tweet_list[90]
a_tweet

'RT @PPincon: Présidentielle 2017 : Tout savoir (ou presque) sur le parcours de Macron. https://t.co/huhGxvi3KC via @YouTube'

In [86]:
tokenizer = TweetTokenizer()

In [107]:
a_tokenized_tweet = tokenizer.tokenize(a_tweet)
a_tokenized_tweet

['RT',
 '@PPincon',
 ':',
 'Présidentielle',
 '2017',
 ':',
 'Tout',
 'savoir',
 '(',
 'ou',
 'presque',
 ')',
 'sur',
 'le',
 'parcours',
 'de',
 'Macron',
 '.',
 'https://t.co/huhGxvi3KC',
 'via',
 '@YouTube']

In [108]:
# lowercase
a_tokenized_tweet = a_tokenized_tweet[:]
for i in range(len(a_tokenized_tweet)):
    a_tokenized_tweet[i] = a_tokenized_tweet[i].lower()

In [109]:
a_tokenized_tweet

['rt',
 '@ppincon',
 ':',
 'présidentielle',
 '2017',
 ':',
 'tout',
 'savoir',
 '(',
 'ou',
 'presque',
 ')',
 'sur',
 'le',
 'parcours',
 'de',
 'macron',
 '.',
 'https://t.co/huhgxvi3kc',
 'via',
 '@youtube']

In [110]:
# stem words
stemmer = SnowballStemmer('french')

a_tokenized_tweet = a_tokenized_tweet[:]
for i in range(len(a_tokenized_tweet)):
    a_tokenized_tweet[i] = stemmer.stem(a_tokenized_tweet[i])

In [111]:
a_tokenized_tweet

['rt',
 '@ppincon',
 ':',
 'présidentiel',
 '2017',
 ':',
 'tout',
 'savoir',
 '(',
 'ou',
 'presqu',
 ')',
 'sur',
 'le',
 'parcour',
 'de',
 'macron',
 '.',
 'https://t.co/huhgxvi3kc',
 'vi',
 '@youtub']

In [115]:
# remove stopwords and punctuation
a_tokenized_tweet = a_tokenized_tweet[:]
for token in a_tokenized_tweet:
    if token in stopwords or token in punctuation:
        a_tokenized_tweet.remove(token)

In [116]:
a_tokenized_tweet

['rt',
 '@ppincon',
 'présidentiel',
 '2017',
 'tout',
 'savoir',
 'presqu',
 'parcour',
 'macron',
 'https://t.co/huhgxvi3kc',
 'vi',
 '@youtub']

In [211]:
def clean_tweet(tweet):
    '''
        tokenize, lowercase, and lemmatize tweet
    '''
    stopwords = nltk.corpus.stopwords.words('french')
    other_stopwords = ['de', 'ou', 'sur', 'or', 'ni', 'car', 'quand', 'a', 'mais', 'donc', 'si', 'quel', 'entre',\
                       'tout']
    special_chars = ['+', '-', '%', '/', '#', '=']
    punctuation = [':', '.', '(', ')', ';', '?', '…', ',', '!', '...', '"']
    stopwords.extend(other_stopwords)
    
    tokenizer = TweetTokenizer()
    stemmer = SnowballStemmer('french')
    tokens = tokenizer.tokenize(tweet)
    
    tokens = tokens[:]
    # lowercase words
    for i in range(len(tokens)):
        tokens[i] = tokens[i].lower()

    tokens = tokens[:]
    # stem words
    for i in range(len(tokens)):
        tokens[i] = stemmer.stem(tokens[i])
    
    # remove stopwords and punctuation
    clean_tokens = tokens[:]
    for token in tokens:
        if token in stopwords or token in punctuation or token in special_chars:
            clean_tokens.remove(token)
            
    return clean_tokens

In [212]:
clean_tweet(a_tweet)

['rt',
 '@ppincon',
 'présidentiel',
 '2017',
 'savoir',
 'presqu',
 'parcour',
 'macron',
 'https://t.co/huhgxvi3kc',
 'vi',
 '@youtub']

In [213]:
all_tokens = []

In [214]:
for i in range(100):    
    all_tokens.extend(clean_tweet(tweet_list[i]))

In [215]:
print(all_tokens)
print(len(all_tokens))

['rt', '@youssefbarca', "j'arriv", 'caf', '9h01', '#macron', 'https://t.co/6hdqo5gk9m', 'rt', '@sochik75', 'alor', 'insoum', 'fait', 'quoi', '21', 'avril', 'invit', 'voisin', 'convainc', 'derni', 'indec', '@jjbourdin_rmc', 'pourquoi', 'pass', 'extrait', 'interview', 'fillon', 'avant', 'pend', 'apres', 'primair', 'ç', 'https://t.co/if05jgqh4j', 'mdrrr', 'fin', 'dit', 'craint', 'degun', 'https://t.co/sj9hw5lesj', 'rt', '@enima__', "y'a", 'mec', "m'doit", '20', '€', 'jlui', 'envoi', 'plein', 'photos', 'fillon', "m'lach", 'veut', 'comprendr', 'rend', "l'argent", 'fdp', 'couvert', '#p', '#antif', '#délinqu', '#extrêmegauch', '#holland', '#frontnational', '#marinelepen', '#fn', '#new', '#infos', 'https://t.co/ufxxop6zuf', 'sarkozy', 'inspir', 'macron', 'depuis', 'temp', 'dis', 'progr', 'éco', 'macron', 'proch', 'celui', '. ..', 'https://t.co/sstugb2txr', 'rt', '@jeudybruno', 'asselineau', 'mouch', 'macron', 'ête', 'toujour', "d'accord", 'mond', 'marin', 'pen', 'eclat', 'rir', 'macron', 'rit'

In [216]:
set_all_tokens = set(tokens for tokens in all_tokens)
print(set_all_tokens)
print(len(set_all_tokens))

{'@f_philippot', 'enfum', 'vu', 'lr', 'extrait', 'évit', 'depuis', 'bravo', '#sondag', 'arab', 'numer', 'formel', '@lisaguinet', 'projet', 'racont', 'rt', 'recevon', 'bonus', '#p', 'couvert', '#ccif', '>', 'penelop', 'fin', 'pet', 'yeux', 'dir', 'malgr', 'surréel', 'dates.ou', 'https://t.co/7qejcqw1vp', 'passe-t-el', 'fallu', 'https://t.co/vxtmi3cygy', 'https://t.co/sht21uoz4w', 'c3', 'f', '#antif', 'eclat', 'not', 'met', 'parj', "qu'un", 'https://t.co/owwwovhlyv', 'morillon', '@ibn_sayyid', '#macron', 'fdp', '@yeswecan74', 'rendr', 'boob', '@leuohh', 'cupid', 'comment', '#fillon', '@atlasshepard', 'https://t.co/gvdwklqezu', '#emmanuelholland', 'pur', "j'av", '@eugeniebast', 'benoît', 'détestent', '#fnse', '#infos', 'fh', '@diote_kelly', '’', 'tardiv', 'temp', 'spécial', '#alstom', 'https://t.co/9nwpgsojro', '@patriote_progr', 'https://t.co/gjm2cxmkb', 'just', 'envoi', '#délinqu', 'rencontr', 'nombr', 'asselineau', 'sort', 'bien', 'autr', 'ministr', 'propriet', 'montaign', 'résum', 'mê