In [1]:
import pandas as pd
import numpy as np

# Import dataset

In [2]:
df = pd.read_csv('../../tribe_dynamics_data.csv')
df.head(1)

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,brand_id,worker_id,mturker,post_hash,answer,date,duration_seconds,text,model_decision,timestamped_model,lang
0,0,0,18792,TRIBE_103_allayne.low@gmail.com,False,3ca62dcea583b7aa204fc52fe6b2826c,False,2017-07-16,,・\r\nケイト スペード ニューヨークの\r\n2017Fall Collectionに招...,False,,ja


# Drop unnecessary columns

In [3]:
df.drop(['Unnamed: 0', 'Unnamed: 0.1'], axis=1, inplace=True)
df.head(1)

Unnamed: 0,brand_id,worker_id,mturker,post_hash,answer,date,duration_seconds,text,model_decision,timestamped_model,lang
0,18792,TRIBE_103_allayne.low@gmail.com,False,3ca62dcea583b7aa204fc52fe6b2826c,False,2017-07-16,,・\r\nケイト スペード ニューヨークの\r\n2017Fall Collectionに招...,False,,ja


# Reduce to only relevant features

In [4]:
df_small = df[['text','lang','model_decision','answer','mturker']]
df_small.head(3)

Unnamed: 0,text,lang,model_decision,answer,mturker
0,・\r\nケイト スペード ニューヨークの\r\n2017Fall Collectionに招...,ja,False,False,False
1,青春日記【挨拶のハグじゃダメなの】\r\n僕が中学3年生の時だ。\r\n高山私立松倉中学校と...,ja,False,False,False
2,fabric&thingsで本日のみ開催しております\r\nいちごのプチレストラン La F...,ja,False,False,False


# Extract posts from a fixed language

In [5]:
language = 'it'
lang_df = df_small[df_small.lang == language]
lang_df.head(3)

Unnamed: 0,text,lang,model_decision,answer,mturker
130,"Lottie Moss e Alex Mytton, è amore? Rilassarsi...",it,False,False,True
132,"Lottie Moss e Alex Mytton, è amore? Rilassarsi...",it,False,False,True
134,"Lottie Moss e Alex Mytton, è amore? Rilassarsi...",it,False,False,True


In [6]:
print('Dataset contains {} "{}" posts'.format(lang_df.shape[0], language))

Dataset contains 469 "it" posts


# Extract all posts as a list of posts

In [7]:
texts_arr = lang_df.text.values

In [8]:
unique_texts_arr = np.unique(texts_arr)

In [9]:
print('Dataset contains {} distinct "{}" posts'.format(len(unique_texts_arr), language))

Dataset contains 130 distinct "it" posts


In [10]:
lang_no_dup_df = lang_df.drop_duplicates(inplace=False)

In [11]:
print('No duplicates dataset contains {} "{}" posts'.format(lang_no_dup_df.shape[0], language))

No duplicates dataset contains 136 "it" posts


# N-grams

In [12]:
post_number = 1 # extract post at this position in the list
n = 3 # number of grams (n of n-grams)

In [13]:
from nltk import ngrams

one_post = lang_no_dup_df.text.values[post_number]

print('TEXT OF THE SELECTED POST: \n{}'.format(one_post))

TEXT OF THE SELECTED POST: 
Da Serena Williams a Giovanna Mezzogiorno: quando la maternità è sovrana «Mio caro bambino, tu mi hai dato la forza che non pensavo di avere: non vedo l’ora di conoscerti e vederti il prossimo anno nel box giocatori». Nella lettera che Serena Williams ha scritto al figlio in arrivo c’è praticamente tutto: il sapersi fermare, il valore di quell’attesa e un dolce sguardo al futuro. La tennista ameriana, tornata numero uno al mondo, è la grande assente degli Internazionali di Roma, e non ci sarà neppure per i prossimi impegni stagionali: si è presa una pausa-maternità.
LEGGI ANCHESerena Williams: «Sogno che mio figlio mi veda giocare»
Meritata, sacrosanta. Che non mette assolutamente a repentaglio la sua strepitosa e già lunga carriera: Serena tornerà, lo dice lei stessa, magari anche più forte di prima. Trattatasi solo di uno stop momentaneo, lo stesso che ha annunciato Adele nella data conclusiva del suo ultimo tour: «Arrivederci, ci rivediamo tra due anni,

In [14]:
print('{}-grams "decomposition":'.format(n))

n_grams = ngrams(one_post.split(), n)
for grams in n_grams:
    print(grams)

3-grams "decomposition":
('Da', 'Serena', 'Williams')
('Serena', 'Williams', 'a')
('Williams', 'a', 'Giovanna')
('a', 'Giovanna', 'Mezzogiorno:')
('Giovanna', 'Mezzogiorno:', 'quando')
('Mezzogiorno:', 'quando', 'la')
('quando', 'la', 'maternità')
('la', 'maternità', 'è')
('maternità', 'è', 'sovrana')
('è', 'sovrana', '«Mio')
('sovrana', '«Mio', 'caro')
('«Mio', 'caro', 'bambino,')
('caro', 'bambino,', 'tu')
('bambino,', 'tu', 'mi')
('tu', 'mi', 'hai')
('mi', 'hai', 'dato')
('hai', 'dato', 'la')
('dato', 'la', 'forza')
('la', 'forza', 'che')
('forza', 'che', 'non')
('che', 'non', 'pensavo')
('non', 'pensavo', 'di')
('pensavo', 'di', 'avere:')
('di', 'avere:', 'non')
('avere:', 'non', 'vedo')
('non', 'vedo', 'l’ora')
('vedo', 'l’ora', 'di')
('l’ora', 'di', 'conoscerti')
('di', 'conoscerti', 'e')
('conoscerti', 'e', 'vederti')
('e', 'vederti', 'il')
('vederti', 'il', 'prossimo')
('il', 'prossimo', 'anno')
('prossimo', 'anno', 'nel')
('anno', 'nel', 'box')
('nel', 'box', 'giocatori».')
('