**Elaboração de um novo modelo de classificação com base nas informações de usuários avaliados pelo INCT-DD**

In [4]:
#Carrega as bibliotecas
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
from sklearn import tree
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, matthews_corrcoef, mean_squared_error, r2_score, mean_absolute_percentage_error, max_error, explained_variance_score, median_absolute_error
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier, MLPRegressor
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier, GradientBoostingClassifier
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.metrics import balanced_accuracy_score, confusion_matrix, classification_report
import math
import statistics
import datetime
import pytz
import pickle
## NLTK (biblioteca para processamento de linguagem natural)
import nltk
from nltk.stem.rslp import RSLPStemmer ##http://www.nltk.org/howto/portuguese_en.html

#O primeiro uso exige obter os pacotes adicionais da biblioteca descomentando as linhas a seguir
#Instala os pacotes de termos do nltk (apenas na primeira vez)
#nltk.download()
#nltk.download('rslp')

**O novo modelo de classificação de bots foi construído com base nos usuários manualmente avaliados pelo INCT-DD**

Essa escolha foi tomada considerando que esse conjunto de dados é o melhor que se possui quanto à real possibilidade de um usuário do Twitter ser um bot, não existindo bases de avaliação dentro da realidade brasileira (especialmente quanto ao português), bem como atualizadas

In [5]:
#Busca os dados dos usuários avaliados
datafile_users = "/content/sample_data/inct_users.csv"
df_users = pd.read_csv(datafile_users, header = 0)

#Preenche os valores NaN con 0 apenas para avaliação geral
df_users = df_users.fillna(0)
print(len(df_users))
#Apresenta o total de usuários avaliados
df_users.head()

1074


Unnamed: 0.1,Unnamed: 0,error,created_at,default_profile,description,followers_count,friends_count,handle,lang,location,name,profile_image,twitter_id,twitter_is_protected,verified,withheld_in_countries
0,0,0,2009-06-30 01:05:51+00:00,1.0,0,21.0,108.0,lemathes,0.0,"Brasil, São Paulo",Leandro Mathes,http://pbs.twimg.com/profile_images/1141547105...,52253250.0,0.0,0.0,[]
1,1,0,2019-03-09 11:29:52+00:00,True,0,4192.0,4886.0,Maurcio98905595,0.0,"MG , Brasil",Maurício Lima,http://pbs.twimg.com/profile_images/1104354755...,1.104344e+18,False,False,[]
2,2,0,2009-10-20 01:19:19+00:00,False,Feliz é a Nação cujo Deus é o Senhor! #ReageBr...,1341.0,1854.0,LunViana,0.0,"Araraquara, Brasil",Luciana,http://pbs.twimg.com/profile_images/1436716357...,83737520.0,False,False,[]
3,3,0,2020-05-03 19:06:46+00:00,True,0,2.0,31.0,felipeleixas,0.0,0,Felipe,http://pbs.twimg.com/profile_images/1264366970...,1.257024e+18,False,False,[]
4,4,0,2021-04-25 20:04:17+00:00,True,0,10.0,21.0,JoseCar41451194,0.0,0,Jose Carlos Marques de Albuquerque,http://pbs.twimg.com/profile_images/1429559356...,1.386411e+18,False,False,[]


**No novo modelos são consideradas apenas as informações associadas como "É bot?" de respotas "Sim" ou "Não"**

In [6]:
#Busca a classificação do INCT-DD
datafile_handles = "/content/sample_data/handles_inct.csv" #A classificação é a mesma da sample1
df_handles = pd.read_csv(datafile_handles, header = 0)
print(len(df_handles))
df_handles['É Bot?'].head()

1074


0    não
1    não
2    não
3    sim
4    Não
Name: É Bot?, dtype: object

**As mais recentes postagens dos usuários foram consideradas como um atributo do modelo**

Para a classificação dos usuários, o novo modelo inclui atributos relacionados com as postagens dos usuários, na tentativa de extrair informação mais atualizada e dinâmica de sua atuação. Entretanto, os textos das postagens foram utilizados unificando seus conteúdos e extraindo informações representativas, tais como os termos mais recorrentemente utilizados, diferença no tempo das postagens e repostagens

In [7]:
#Recupera os últimos twittes
datafile_timeline = "/content/sample_data/inct_timelines.csv"
df_timeline = pd.read_csv(datafile_timeline, header = 0)
print(len(df_timeline))
df_timeline.head()

82413


  exec(code_obj, self.user_global_ns, self.user_ns)


Unnamed: 0.1,Unnamed: 0,error,tweet_author,tweet_author_id_str,tweet_contributors,tweet_created_at,tweet_favorite_count,tweet_favorited,tweet_geo,tweet_hashtags,tweet_id,tweet_id_str,tweet_is_retweet,tweet_lang,tweet_place,tweet_retweeted,tweet_source,tweet_text
0,0,,lemathes,52253248,,2022-03-09 02:10:58+00:00,0.0,0.0,,[],1.50138e+18,1501379987747876874,0.0,pt,,0.0,Twitter for Android,@LucianoHangBr Já demorou muito!
1,1,,lemathes,52253248,,2022-03-09 02:10:12+00:00,0.0,False,,[],1.50138e+18,1501379796210757632,False,pt,,False,Twitter for Android,RT @LucianoHangBr: A vida precisa continuar e ...
2,2,,lemathes,52253248,,2022-03-02 21:57:17+00:00,0.0,False,,[],1.499142e+18,1499141820722421760,False,pt,,False,Twitter for Android,Pq ñ mandam uma bomba na cabeça do Pudim e aca...
3,3,,lemathes,52253248,,2022-03-02 16:57:51+00:00,1.0,False,,[],1.499066e+18,1499066467916079105,False,pt,,False,Twitter for Android,"@carteiroreaca Usa máscara, quem quer e acha q..."
4,4,,lemathes,52253248,,2022-03-02 16:54:56+00:00,0.0,False,,[],1.499066e+18,1499065733086695425,False,pt,,False,Twitter for Android,@carteiroreaca Isso aí!!! 👏👏👏👏 Já demorou de m...


Aplica um pré-processamento nos dados para unificar a informação da postagens se tratar de um retweet

In [9]:
#identifica os formatos existentes
df_timeline['tweet_is_retweet'].unique()

array(['0.0', 'False', 'True', False, True], dtype=object)

In [10]:
df_timeline['retweet_tratado'] = df_timeline['tweet_is_retweet'].apply(lambda x: "sim" if (x == 'True' or x == True) else "não")
df_timeline['retweet_tratado'].unique()

array(['não', 'sim'], dtype=object)

In [12]:
#Necessário reverificar no texto do tweet por RT @, pois o campo tweet_is_retweet falha em algumas situações não identificadas
#Parecem ser os RT com comentários adicionais
#for tweet in df_timeline['retweet_tratado', 'tweet_text']:
#    if tweet['retweet_tratado'] == 'não':
#        if tweet['tweet_text'].find("RT @") != -1:
#            tweet['retweet_tratado'] = 'sim'
#len(df_timeline)
#for i in range(len(df_timeline)):
#    if df_timeline.iloc[i]['retweet_tratado'] == 'não':
#        if df_timeline.iloc[i]['tweet_text'].find("RT @") != -1:
#            df_timeline.iloc[i]['retweet_tratado']  = 'sim'
df_timeline['tweet_com_rt_tratado'] = df_timeline['tweet_text'].apply(lambda x: "sim" if x.find("RT @") != -1 else "não" )

In [15]:
#Combina em uma única coluna as informações de retweets e tweets com RT comentados
def reune_rt(retweet,rt):
    if retweet == 'sim' or rt == 'sim':
        return 'sim'
    else:
        return 'não'

df_timeline['retweet_e_tweet_com_rt_tratado'] = df_timeline.apply(lambda x: reune_rt(x.retweet_tratado, x.tweet_com_rt_tratado), axis=1)
df_timeline.head()

Unnamed: 0.1,Unnamed: 0,error,tweet_author,tweet_author_id_str,tweet_contributors,tweet_created_at,tweet_favorite_count,tweet_favorited,tweet_geo,tweet_hashtags,...,tweet_id_str,tweet_is_retweet,tweet_lang,tweet_place,tweet_retweeted,tweet_source,tweet_text,tweet_com_rt_tratado,retweet_tratado,retweet_e_tweet_com_rt_tratado
0,0,,lemathes,52253248,,2022-03-09 02:10:58+00:00,0.0,0.0,,[],...,1501379987747876874,0.0,pt,,0.0,Twitter for Android,@LucianoHangBr Já demorou muito!,não,não,não
1,1,,lemathes,52253248,,2022-03-09 02:10:12+00:00,0.0,False,,[],...,1501379796210757632,False,pt,,False,Twitter for Android,RT @LucianoHangBr: A vida precisa continuar e ...,sim,não,sim
2,2,,lemathes,52253248,,2022-03-02 21:57:17+00:00,0.0,False,,[],...,1499141820722421760,False,pt,,False,Twitter for Android,Pq ñ mandam uma bomba na cabeça do Pudim e aca...,não,não,não
3,3,,lemathes,52253248,,2022-03-02 16:57:51+00:00,1.0,False,,[],...,1499066467916079105,False,pt,,False,Twitter for Android,"@carteiroreaca Usa máscara, quem quer e acha q...",não,não,não
4,4,,lemathes,52253248,,2022-03-02 16:54:56+00:00,0.0,False,,[],...,1499065733086695425,False,pt,,False,Twitter for Android,@carteiroreaca Isso aí!!! 👏👏👏👏 Já demorou de m...,não,não,não


In [16]:
df_timeline[df_timeline["retweet_e_tweet_com_rt_tratado"] == 'sim']

Unnamed: 0.1,Unnamed: 0,error,tweet_author,tweet_author_id_str,tweet_contributors,tweet_created_at,tweet_favorite_count,tweet_favorited,tweet_geo,tweet_hashtags,...,tweet_id_str,tweet_is_retweet,tweet_lang,tweet_place,tweet_retweeted,tweet_source,tweet_text,tweet_com_rt_tratado,retweet_tratado,retweet_e_tweet_com_rt_tratado
1,1,,lemathes,52253248,,2022-03-09 02:10:12+00:00,0.0,False,,[],...,1501379796210757632,False,pt,,False,Twitter for Android,RT @LucianoHangBr: A vida precisa continuar e ...,sim,não,sim
5,5,,lemathes,52253248,,2022-02-27 13:38:14+00:00,0.0,False,,[],...,1497929065302482946,False,pt,,False,Twitter for Android,"RT @roxmo: Puxa, que pena, passou tão perto!… ...",sim,não,sim
6,6,,lemathes,52253248,,2022-02-18 04:17:53+00:00,0.0,False,,[],...,1494526561902546944,False,pt,,False,Twitter for Android,RT @mila_sayuri: Alguém poderia confirmar se e...,sim,não,sim
7,7,,lemathes,52253248,,2022-02-18 04:11:31+00:00,0.0,False,,[],...,1494524957593845762,False,pt,,False,Twitter for Android,RT @RenzoGracieBJJ: Quando postei aqui o vídeo...,sim,não,sim
8,8,,lemathes,52253248,,2022-02-18 04:10:00+00:00,0.0,False,,[],...,1494524573919940609,False,pt,,False,Twitter for Android,RT @roxmo: Vc confia nas urnas eletrônicas?,sim,não,sim
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
82406,82406,,FATIMAC75843178,1349784643244093440,,2022-03-17 12:10:29+00:00,0.0,False,,[],...,1504429966729138176,False,pt,,False,Twitter for Android,RT @EdmarVencedor: @BelaBonoro @OsvaldoLimaJni...,sim,não,sim
82408,82408,,FATIMAC75843178,1349784643244093440,,2022-03-17 12:09:52+00:00,0.0,False,,[],...,1504429810352898052,False,pt,,False,Twitter for Android,RT @BelaBonoro: @OsvaldoLimaJni1 @CeliaSLeao1 ...,sim,não,sim
82409,82409,,FATIMAC75843178,1349784643244093440,,2022-03-17 12:09:18+00:00,0.0,False,,[],...,1504429669613031426,False,pt,,False,Twitter for Android,RT @carlosjordy: Ciro sincero diz de quem é a ...,sim,não,sim
82410,82410,,FATIMAC75843178,1349784643244093440,,2022-03-17 12:08:46+00:00,0.0,False,,[],...,1504429535818924033,False,pt,,False,Twitter for Android,RT @CarlaZambelli38: ATENÇÃO ao alerta do Pres...,sim,não,sim


Extrai a diferença em segundos entre as postagens do usuário

In [17]:
#Incluir uma dedida da distancia temporal entre twittes (mediana e mínimo)
df_handles['Tempo mediano'] = np.array(len(df_handles))
df_handles['Tempo menor']   = np.array(len(df_handles))
iuser = 0
for user in df_handles['handle']:
    df_temp = df_timeline[df_timeline['tweet_author'] == user]
    itweet = 0
    menor = 100000
    difs = list()
    tweet_date_prev = None
    for tweet in df_temp['tweet_created_at']:
        tweet_date = pd.to_datetime(pd.to_datetime(tweet).strftime("%Y-%m-%dT%H:%M:%S.%fZ"))
        if itweet > 0:
            dif = (tweet_date_prev - tweet_date).seconds
            if dif < menor:
                menor = dif
            difs.append(dif)
        else:
            tweet_date_prev = tweet_date
        tweet_date_prev = tweet_date
        itweet += 1
    if len(difs) > 0:
        mediana = statistics.median(difs)
    else:
        mediana = 1000
    print(user + ' - ' + str(menor) + ' - ' + str(mediana)+'\n')
    df_handles['Tempo mediano'][iuser] = mediana
    df_handles['Tempo menor'][iuser]   = menor
    iuser += 1
    
    

lemathes - 16 - 1917

Maurcio98905595 - 1 - 22

LunViana - 2 - 34

felipeleixas - 141 - 40791.0

JoseCar41451194 - 9 - 584

stefmilhori - 0 - 862

Maurio0916 - 11 - 7975

alaincremonezi - 7 - 210

marctrickguedes - 24 - 436



A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Valdir_25 - 16 - 10217

HermesMachadoAP - 26 - 3416

euclaudemir - 4 - 8076

LongoMarlongo - 5 - 117

Tadeu88537223 - 4 - 147

EliasBispodeCe1 - 3 - 63

lessa_tadeu - 100000 - 1000

kentyan71 - 4 - 136

Sirenite1 - 1 - 142

elechimamil - 6 - 423

mhelena17 - 4 - 74

victorcalazans - 15 - 405

AnaPedros2308 - 4 - 136

ricardo_lacava - 24 - 235

AslanDeHogwarts - 10 - 1933

Patriota7M - 0 - 24

luGusmao1 - 2 - 15

GilAndrade5 - 6 - 66

ClaytonSampaio5 - 0 - 20900

filhadefridak - 17 - 14945

lucas_neves164 - 100000 - 1000

Thiago48035185 - 6 - 71

herciconti - 0 - 110

FlaviaPauletti - 13 - 2250

ElielAmorim9 - 14 - 207

Lunar_Vante - 6 - 380

lemosmarl - 3 - 10776

joaocarlosjc - 5 - 1533

georgedebarros - 16 - 314

valterpn - 2 - 290

Mariade25585540 - 5 - 249

NTresolavy - 6 - 193

jonny_1309 - 3 - 27605

Dani_BernMor - 16 - 652

lui45807682 - 2 - 180

OluasSnanaj - 22 - 2964

abreumartha - 7 - 104

deuzemaroliveir - 5 - 49

Tahuamello - 100000 - 1000

BorjaoOp - 100000 - 1000

Melchi

**Os dados inicialmente tratados são reunidos com a classificação dada pelo INCT-DD**

In [None]:
#Reune os dados do usuário com a classificação
df_result_merge = pd.merge(df_handles, df_users, on=['handle'])
print(len(df_result_merge))
df_result_merge.head()

**Os dados das postagens foram reunidos para a extração de informações representativas**

Para viabilizar o treinamento do modelo, os dados por postagens foram convertidos em conjuntos por usuário (autor do tweet, e a representação foi dada por informações sumarizadas ou probabilísticas, por exemplo, as hashtags mais utilizadas ou o percentual de postagens realizadas a partir do Android, iPhone ou Web.

In [None]:
#Reune todos os tweets de um mesmo autor em um único texto, separando apenas por vírgula
df_result_text = df_timeline.groupby('tweet_author').agg({'tweet_text':lambda col: ', '.join(col)}).reset_index()

In [None]:
#Reune todos as hashtags utilizadas por um mesmo autor em um único texto, separando apenas por vírgula
df_result_hashtags = df_timeline.groupby('tweet_author').agg({'tweet_hashtags':lambda col: ', '.join(col)}).reset_index()

In [None]:
#Reune a informação de fonte de todos os tweets de um mesmo autor em um único texto, separando apenas por vírgula
df_result_source = df_timeline.groupby('tweet_author').agg({'tweet_source':lambda col: ', '.join(col)}).reset_index()

In [None]:
#Reune as informações de twettes que são retweets
df_result_retweet = df_timeline.groupby('tweet_author').agg({'retweet_tratado':lambda col: ', '.join(col)}).reset_index()

In [None]:
#Reune as informações de twettes com RT
df_result_tweet_com_rt = df_timeline.groupby('tweet_author').agg({'tweet_com_rt_tratado':lambda col: ', '.join(col)}).reset_index()
df_result_tweet_com_rt

In [None]:
#Reune as informações da junção de retweets e tweets com rt
df_result_retweet_e_tweet_com_rt = df_timeline.groupby('tweet_author').agg({'retweet_e_tweet_com_rt_tratado':lambda col: ', '.join(col)}).reset_index()
df_result_retweet_e_tweet_com_rt

In [None]:
#Reune os dados (merge) do usuários, suas avaliações com texto dos tweets, as hashtags, as fontes e os retweets
df_result_merge = pd.merge(df_handles, df_users, on=['handle'])
df_result_merge = pd.merge(df_result_merge,df_result_text, left_on=['handle'], right_on=['tweet_author'])
df_result_merge = pd.merge(df_result_merge,df_result_hashtags, left_on=['handle'], right_on=['tweet_author'])
df_result_merge = pd.merge(df_result_merge,df_result_source, left_on=['handle'], right_on=['tweet_author'])
df_result_merge = pd.merge(df_result_merge,df_result_retweet, left_on=['handle'], right_on=['tweet_author'])
df_result_merge = pd.merge(df_result_merge,df_result_tweet_com_rt, left_on=['handle'], right_on=['tweet_author'])
df_result_merge = pd.merge(df_result_merge,df_result_retweet_e_tweet_com_rt, left_on=['handle'], right_on=['tweet_author'])

In [None]:
#Exibe parte dos resultados da junção (nem todos os usuários ainda estão ativos e número de amostras diminui)
print(len(df_result_merge))
df_result_merge.head()

**A classificação dos usuários foi padronizada para 0 - Não Bot e 1 - Bot**

In [None]:
#Padroniza a saída da classificação do INCT-DD para bot e monta o conjunto Y
df = df_result_merge
y = df['É Bot?'].apply(lambda x: 1 if (x == 'Sim' or x == 'sim') else 0)
y.reset_index(drop=True, inplace=True)
y.head()

In [None]:
##Seleciona as colunas para o conjunto X
#feature_cols = ['tweet_text'] #,'tweet_source','tweet_hashtags'
#x = df['tweet_text']
#x.shape

** [Classficando apenas pelo texto dos Twittes (NLTK)] **

In [None]:
##Prepara o conjunto de dados para treinamento e teste
#x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1) 

In [None]:
##Método para vetorizar e contabilizar os termos
stemmer = nltk.stem.RSLPStemmer()
class StemmedCountVectorizerRSLPS(CountVectorizer):
    def build_analyzer(self):
        analyzer = super(StemmedCountVectorizerRSLPS, self).build_analyzer()
        return lambda doc: ([stemmer.stem(w) for w in analyzer(doc)])
stemmed_count_vect = StemmedCountVectorizerRSLPS(stop_words=nltk.corpus.stopwords.words('portuguese'))
tfidf_transformer = TfidfTransformer()

In [None]:
##Pipeline para extrair as informaçoes e classificar com base no texto (pode ser usado ANN ou MNB [MultinomialNB(fit_prior=False)])
#text_mnb_stemmed = Pipeline([('vect', stemmed_count_vect),
#                      ('tfidf', TfidfTransformer()),
#                      ('mnb', MLPClassifier(random_state=1, max_iter=600, activation='relu',solver='adam')),
#])
#text_mnb_stemmed = text_mnb_stemmed.fit(x_train, y_train)

In [None]:
#text_mnb_stemmed

In [None]:
##Avalia a classificação
#predicted_mnb_stemmed = text_mnb_stemmed.predict(x_test)
#np.mean(predicted_mnb_stemmed == y_test)

**Os atributos do treinamentos envolvem diversos fatores**

Uma das etapas mais critícas da modelagem é a definição dos atributos que representam o cenário real, nesse sentido foram incluídas o máximo de variáveis que pudessem representar um usuário e suas atividades na rede, desde o tamanho do login escolhido até o tempo mínimo entre suas postagens. Na sequência são realizadas as atividades de extração, tratamento e junção dessas informações como atributos do conjunto de treinamento do modelo.

In [None]:
df.columns #df é o conjunto completo de dados, já com os twittes-hashtags-sources-retweets em campos únicos

In [None]:
df.head()

De todo os conjuntos de informações disponíveis não foram selecionados aquelas que não poderiam ser automaticamente extraídos dos perfis e atividades dos usuários na rede. Portanto, as classificações como "comportamento agressivo?", "Parece só Retweetar?", entre outras, não foram incluídos no conjunto de treinamento.

In [None]:
feature_cols = ['followers_count', 'friends_count', 'Tempo mediano', 'Tempo menor']
x = df[feature_cols]

In [None]:
##Converte os testos em frequências
#st = stemmed_count_vect.fit_transform((df['tweet_text']))
#tfidf_transformer = TfidfTransformer()
#x_tfidf = tfidf_transformer.fit_transform(st)
#x_tfidf

In [None]:
##Inclui as frequências no conjunto x
#x_tfidf.shape
#x.join(pd.DataFrame(x_tfidf.todense()))

In [None]:
len(df['tweet_hashtags'][7].replace("[","").replace("]","").replace(", \'","$").split("$"))
len(df['tweet_hashtags'][7].split(", ["))

In [None]:
#Inclui os quantitativos de hashtages utilizadas (e a mediana por postagem)

qtd_hashtags = df['tweet_hashtags'].apply(lambda x: len(x.replace("[","").replace("]","").replace(", \'","$").split("$")))
x['Quantidade hashtags'] = np.array(list(qtd_hashtags))
qtd_hashtags_media = df['tweet_hashtags'].apply(lambda x: len(x.replace("[","").replace("]","").replace(", \'","$").split("$"))/len(x.split(", [")))
x['Quantidade hashtags media'] = np.array(list(qtd_hashtags_media))

x.head()

In [None]:
#Inclui o número de dígitos no nome
username_digitos = df['handle'].apply(lambda x: sum(c.isdigit() for c in str(x)) ) 
x['Digitos no username'] = np.array(list(username_digitos))

In [None]:
#O tamanho do nome e do login
tam_username = df['handle'].apply(lambda x: len(str(x)))
tam_nome = df['name'].apply(lambda x: len(str(x)))
x['Tamanho do username'] = np.array(list(tam_username))
x['Tamanho do nome'] = np.array(list(tam_nome))

In [None]:
x.head()

A fonte do tweet foi considera importante informação, considerando que automações de postagens possam ser facilitadas a partir da versão Web ou que possa existir algum padrão no uso das diferentes fontes. Sendo assim, forneceu-se ao métodos a informação percentual da origem das postagens do mesmo usuário, seja Android, iPhone ou Web.

In [None]:
#Calcula a quantidade de twittes por fontes
fonte_android = df['tweet_source'].apply(lambda x: str(x).count('Twitter for Android') )
fonte_iphone = df['tweet_source'].apply(lambda x: str(x).count('Twitter for iPhone') )
fonte_web = df['tweet_source'].apply(lambda x: str(x).count('Twitter Web App') )

In [None]:
fonte_soma = fonte_android + fonte_iphone + fonte_web
fonte_soma = fonte_soma.apply(lambda x: 1 if x <= 0 else x )

In [None]:
#Calcula o percentual por usuário
fonte_android = fonte_android/fonte_soma
fonte_iphone = fonte_iphone/fonte_soma
fonte_web = fonte_web/fonte_soma

In [None]:
x['Fonte de Android'] = np.array(list(fonte_android))
x['Fonte de iPhone'] = np.array(list(fonte_iphone))
x['Fonte de Web'] = np.array(list(fonte_web))
x = x.fillna(0)
x.head()

In [None]:
#Avaliação geral das diferentes fontes
x['Fonte de Android'].describe()

In [None]:
x['Fonte de iPhone'].describe()

In [None]:
x['Fonte de Web'].describe()

In [None]:
#Inclui a informação do retweet
df['retweet_tratado'].head()

In [None]:
retweet_tratado = df['retweet_tratado'].apply(lambda x: str(x).count('sim')/len(x.split(",")))
x['retweet_tratado_media'] = np.array(list(retweet_tratado))

In [None]:
tweet_com_rt = df['tweet_com_rt_tratado'].apply(lambda x: str(x).count('sim')/len(x.split(",")))
x['tweet_com_rt_tratado_media'] = np.array(list(tweet_com_rt))

In [None]:
retweet_e_tweet_com_rt = df['retweet_e_tweet_com_rt_tratado'].apply(lambda x: str(x).count('sim')/len(x.split(",")))
x['retweet_e_tweet_com_rt_tratado_media'] = np.array(list(retweet_e_tweet_com_rt))

In [None]:
x_novo = x

In [None]:
##Inclui os textos dos twittes (NLTK)
#st = stemmed_count_vect.fit_transform((df['tweet_text']))
#tfidf_transformer = TfidfTransformer()
#x_tfidf = tfidf_transformer.fit_transform(st)
#x_tfidf
#x_novo = x.join(pd.DataFrame(x_tfidf.todense()))

In [None]:
x_novo.shape

In [None]:
x_novo.head()

**Com o primeiro conjunto de atributos formado é possível separar o conjunto de dados em treinamento e teste para a elaboração do modelo**

In [None]:
#Cria um modelo de classificação para o conjunto completo
x_train, x_test, y_train, y_test = train_test_split(x_novo, y, test_size=0.3, random_state=1) 

In [None]:
classifier = RandomForestClassifier(n_jobs=3, random_state=1, n_estimators=100)
classifier = classifier.fit(x_train,y_train)
y_pred = classifier.predict(x_test)
np.mean(y_pred == y_test)

In [None]:
##Seleciona os atributos mais "importantes"
#x_new = SelectKBest(chi2, k=20).fit_transform(x_novo, y)

In [None]:
#x_train, x_test, y_train, y_test = train_test_split(x_new, y, test_size=0.3, random_state=1) 

In [None]:
classifier = RandomForestClassifier(n_jobs=3, random_state=1, n_estimators=100)
classifier = classifier.fit(x_train,y_train)
y_pred = classifier.predict(x_test)
mean = np.mean(y_pred == y_test)
balanced = balanced_accuracy_score(y_test, y_pred)
print ("Mean: " + str(mean) + " | Balanced accuracy: " + str(balanced))
confusion_matrix(y_test, y_pred)

In [None]:
print(classification_report(y_test, y_pred))

In [None]:
#Classificação com RNA
classifier = MLPClassifier(max_iter=1200, random_state=1, activation='tanh', solver='adam') #activation: logistic, relu, tanh, identity | solver: lbfgs, sgd, adam
classifier = classifier.fit(x_train,y_train)
y_pred = classifier.predict(x_test)
mean = np.mean(y_pred == y_test)
balanced = balanced_accuracy_score(y_test, y_pred)
print ("Mean: " + str(mean) + " | Balanced accuracy: " + str(balanced))

**Informações de trend topics**

Outra informação que se mostrou de relevância ao longo do trabalho de modelagem foi a relação das postagens de bots com as menções e hashtags listadas nos mais atuais 'trend topics', ou seja, o aparente uso de termos altamente utilizados no momento para possivelmente alavancar a visibilidade da postagem.

Para averiguar essa possibilidade, um sistema de monitoramento dos tópicos mais mencionados foi criado e cada postagem coletada do usuário foi confrontado com os 'trend topics' do período mais próximo. Esse confrontamento gerou um percentual de uso desses tópicos nas postagens dos usuários.

In [None]:
#Busca os dados de todas as trending topics recuperadas
datafile_trends = "data/sample2/trends_dataclips_qijpjdyxutqsnrteglrjtwjhdjja.csv"
df_trends = pd.read_csv(datafile_trends, header = 0)
#Preenche os valores NaN con 0 apenas para avaliação geral
df_trends = df_trends.fillna(0)
print(len(df_trends))
df_trends.head()

Entre os passos de tratamentos dos dados das "trend topics" está o ajuste dos padrões de data e hora dos registros, tanto dos tópicos monitorados quanto dos próprios tweets.
A seguir são extraídas as datas dos tweets no formato yyyy-mm-dd, dentro da conversão nos próximos trechos foi também necessário ajustar o "timezone" desses dados.

In [None]:
#Inclui um percentual de trending topics utilizado por tweet
#Para tweet, busca pelos trending topics imediatamente anteriores
df_timeline['Numero de trendings'] = np.array(len(df_timeline))
df_timeline['Numero de trendings'] = 0
df_trends['Trend Date Time Convertido'] = np.array(len(df_trends))

itrend = 0
for x in df_trends['trend_date_time']:
    df_trends['Trend Date Time Convertido'][itrend] = pd.to_datetime(x).strftime("%Y-%m-%d")
    itrend += 1

df_trends.head()   

O relacionamento dos trends e dos tweets foi realizado percorrendo todos os trends armazenados para cada tweet em data anterior ao do tweet e, para cada trend nessa condição, verificou-se no texto do tweet a presença de trendings. Caso esteja presente acumulou-se essa ocorrência, finalizando com a ocorrência de uso de uma trend por cada tweet.
Este trecho demanda de melhorias em desempenho e na inclusão de restrições que reduzam o tempo de ocorrência da trend para mais próximo do tweet.

In [None]:
itweet = 0
for tweet in df_timeline['tweet_created_at']:
    tweet_date = pd.to_datetime(pd.to_datetime(tweet).strftime("%Y-%m-%dT%H:%M:%S.%fZ"))
    df_temp = df_trends[df_trends['Trend Date Time Convertido'] == tweet_date.strftime("%Y-%m-%d")] 
        
    itrend = 0
    for trend in df_temp['Trend Date Time Convertido']:
        trend_date = pd.to_datetime(pd.to_datetime(trend).strftime("%Y-%m-%d"))
        if trend_date <= tweet_date.tz_convert(None):
            if df_timeline['tweet_text'][itweet].find(df_trends['trend'][itrend]) != -1: 
                df_timeline['Numero de trendings'][itweet] = df_timeline['Numero de trendings'][itweet] + 1
        itrend += 1
    print(itweet)    
    itweet += 1     

Para cada tweet foi armazenados o número de trend topics encontrado.

In [None]:
df_timeline[df_timeline['Numero de trendings'] > 0].describe()
df_timeline['Numero de trendings'].describe()

In [None]:
df_timeline

As quantidades de trendings utilizadas em cada tweet foram agrupados por autor (usuário), assim foram incluídos na base de treinamento o número de trendings utilizadas, a média de trendings por tweet desse autor e o número máximo de trendings usado em um mesmo tweet.

In [None]:
#Reune as informações de trends nos tweets por author
df_result_trend = df_timeline.groupby('tweet_author').agg({'Numero de trendings':lambda col: sum(col)/len(col)}).reset_index()
df_result_trend_max = df_timeline.groupby('tweet_author').agg({'Numero de trendings':lambda col: max(col)}).reset_index()
df_result_trend['trends_media'] = df_result_trend['Numero de trendings']
df_result_trend_max['trends_max'] = df_result_trend_max['Numero de trendings']
df_result_trend_max

In [None]:
df_handles.head()

In [None]:
df_trends.head()

In [None]:
trends_unique = df_trends.trend.unique()

In [None]:
df_result_merge.head()

Os valores referentes aos trendings do usuário são reunidos ("merged") com os dados gerais do usuário

In [None]:
df_result_merge = pd.merge(df_result_merge,df_result_trend, left_on=['handle'], right_on=['tweet_author'])
df_result_merge = pd.merge(df_result_merge,df_result_trend_max, left_on=['handle'], right_on=['tweet_author'])
df_result_merge

In [None]:
#df_result_merge_trend = df_result_merge
df_result_merge['qtdtrends'] = np.array(list(tam_username))

ttemp = 0
iuser = 0
for user in df_result_merge.tweet_text:
    for trend in trends_unique:
        if user.find(trend) != -1:
            ttemp = ttemp + 1
    print(str(ttemp) + " - " + str(iuser) + " | " + str((iuser/len(df_result_merge.tweet_text))*100) + "%")
    df_result_merge['qtdtrends'][iuser] = ttemp
    iuser = iuser + 1
    ttemp = 0

In [None]:
df_result_merge.head()

In [None]:
x_novo_trend = x_novo

Por fim os dados do monitoramento das trendings são incluídos na base de treinamento.

In [None]:
x_novo_trend['qtdtrends'] = df_result_merge['qtdtrends']
x_novo_trend['trends_media'] = df_result_merge['trends_media']
x_novo_trend['trends_max'] = df_result_merge['trends_max']

In [None]:
x_novo_trend.head()

**Conjuntos de treinamento e teste**

Os dados reunidos para geração dos modelos são, então, separados em dados de treinamento e teste para a aplicação dos métodos de aprendizagem de máquina - em especial Random Florest, Redes neuronais artificiais e Gradient Boosting.

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x_novo_trend, y, test_size=0.3, random_state=1) 

In [None]:
classifier = RandomForestClassifier(n_jobs=3, random_state=1, n_estimators=100)
classifier = classifier.fit(x_train,y_train)
y_pred = classifier.predict(x_test)
mean = np.mean(y_pred == y_test)
balanced = balanced_accuracy_score(y_test, y_pred)
print ("Mean: " + str(mean) + " | Balanced accuracy: " + str(balanced))
print("Score: " + str(classifier.score(x_test, y_test)))
confusion_matrix(y_test, y_pred)

In [None]:
classifier = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=1)
classifier = classifier.fit(x_train,y_train)
y_pred = classifier.predict(x_test)
mean = np.mean(y_pred == y_test)
balanced = balanced_accuracy_score(y_test, y_pred)
print ("Mean: " + str(mean) + " | Balanced accuracy: " + str(balanced))
print("Score: " + str(classifier.score(x_test, y_test)))
confusion_matrix(y_test, y_pred)

In [None]:
importances = classifier.feature_importances_

indices = np.argsort(importances)

fig, ax = plt.subplots(figsize =(10, 6))
ax.barh(range(len(importances)), importances[indices])
ax.set_yticks(range(len(importances)))
_ = ax.set_yticklabels(np.array(x_novo_trend.columns)[indices])

**Resultados**

Os resultados ainda demandam de maior avaliação, especialmente com a variação da semente aleatória para os cortes do conjunto de treinamento e para a aplicação dos métodos. Ainda nesse sentido, demanda-se ainda da seleção de modelos baseada na otimização dos hiperparâmetros dos métodos aplicados.

Mesmo com essas demandas, observa-se uma acurácia aproximada de 74% para os métodos (e aproximadamente 70% ao considerar-se o desbalanceamento da base). Valor considerado bom, dado o complexo cenário tratado. 

Importante ponto a ser destacado que o valor da acurácia baseia-se também em um ponto de corte da consistência da classificação, a qual pode variar en 0.0 e 1.0, valores que atrelam-se à probabilidade da classificação, em que por padrão adota-se o corte em 0.5, apesar da aplicação pode gerar um intervalo mais restrito, deslocando a média/mediana das predições. Dito isso e considerando que não deva ser utilizado apenas o corte "bruto" de bot ou não bot, a associação dessa probabilidade permite melhor compreensão do "risco" do usuário ser efetivamente um bot, bem como permite um deslocamento do rigor dessa classificação. 

Os trechos a seguir avaliam a acurácia considerando a mediana das predições como corte, bem como a comparação dos valores preditos nos grupos de usuários previamente (manualmente) classificados como bot ou não, no qual verifica-se uma clara separação dos valores preditos.

In [None]:
#x_new_trend = SelectKBest(chi2, k=10).fit_transform(x_novo_trend, y)

In [None]:
#x_train, x_test, y_train, y_test = train_test_split(x_new_trend, y, test_size=0.3, random_state=1) 

In [None]:
#classifier = RandomForestClassifier(n_jobs=3, random_state=1, n_estimators=100)
#classifier = classifier.fit(x_train,y_train)
#y_pred = classifier.predict(x_test)
#mean = np.mean(y_pred == y_test)
#balanced = balanced_accuracy_score(y_test, y_pred)
#print ("Mean: " + str(mean) + " | Balanced accuracy: " + str(balanced))
#confusion_matrix(y_test, y_pred)

In [None]:
#x_new_trend

In [None]:
#confusion_matrix(y_test, y_pred)

In [None]:
y_pred

In [None]:
classifier.predict_proba(x_test)

In [None]:
predicted_proba = classifier.predict_proba(x_test)[0]

In [None]:
y_test

In [None]:
np.median(classifier.predict_proba(x_test)[:,1])

In [None]:
threshold = 0.6
predicted = (classifier.predict_proba(x_test)[:,1] >= threshold).astype(bool)

In [None]:
np.mean(predicted == y_test)

In [None]:
x_test_geral = x_test
dtf = [x_test, x_train]
x_test_geral = pd.concat(dtf)

In [None]:
print(len(x_test_geral))
y_test_temp = y_test
y_test_temp.reset_index(drop=True, inplace=True)
y_test_temp[y_test_temp == 1].index
res_geral = classifier.predict_proba(x_test_geral)[y_test_temp.index,1]
res_sim = classifier.predict_proba(x_test_geral)[y_test_temp[y_test_temp == 1].index,1]
res_nao = classifier.predict_proba(x_test_geral)[y_test_temp[y_test_temp == 0].index,1]

np.median(res_sim)
np.median(res_nao)
bplots = plt.boxplot([res_geral, res_nao, res_sim],  vert = 1, patch_artist = False)

In [None]:
pd.DataFrame({"Não": res_nao}).describe()

In [None]:
pd.DataFrame({"Sim": res_sim}).describe()

**Comparação com as predições do Botometer**

Visando a avaliar a qualidade da classificação dos modelos gerados, os mesmos usuários passaram pela avaliação da ferramenta Botometer, já bem conhecida e amplamente utilizada (apesar de sua aplicação com enfoque nas publicações em Inglês).

In [None]:
#Lê os dados da aplicação do botometer
#Busca os dados dos usuários avaliados
datafile_botometer = "data/handles_inct.csv"
df_botometer = pd.read_csv(datafile_botometer, header = 0)
#Preenche os valores NaN con 0 apenas para avaliação geral
df_botometer = df_botometer.fillna(0)
print(len(df_botometer))
df_botometer.head()

In [None]:
#Avalia os resultados do botometer
a = len(df_botometer['analise_botometer'])
b = len(df_botometer[(df_botometer['É Bot?'] == 'não') | (df_botometer['É Bot?'] == 'Não')]['analise_botometer'])
c = len(df_botometer[(df_botometer['É Bot?'] == 'sim') | (df_botometer['É Bot?'] == 'Sim')]['analise_botometer'])
print(" " + str(a) + " = " + str(b) + " + " + str(c))
botometer_geral = df_botometer['analise_botometer']
botometer_nao   = df_botometer[(df_botometer['É Bot?'] == 'não') | (df_botometer['É Bot?'] == 'Não')]['analise_botometer']
botometer_sim   = df_botometer[(df_botometer['É Bot?'] == 'sim') | (df_botometer['É Bot?'] == 'Sim')]['analise_botometer']

In [None]:
plt.figure(figsize =(20, 10)) #(11, 6)
bplots = plt.boxplot([botometer_geral/5, botometer_nao/5, botometer_sim/5, res_geral, res_nao, res_sim],  vert = 1, patch_artist = False)
colors = ['blue', 'green', 'red', 'lightblue', 'lightgreen', 'pink']
c = 0
for i, bplot in enumerate(bplots['boxes']):
    bplot.set(color=colors[c], linewidth=3)
    c += 1
    
colorss = ['blue','blue', 'green', 'green', 'red', 'red', 'lightblue', 'lightblue', 'lightgreen', 'lightgreen', 'pink', 'pink' ]    
c3 = 0
for cap in bplots['caps']:
    cap.set(color=colorss[c3], linewidth=3)
    c3 +=1

plt.title("Boxplot da avaliação do Botometer e do novo modelo Pegabot para os dados avaiados no INCT-DD", loc="center", fontsize=18)
plt.xlabel("Agrupados por: (1) Botometer Geral; (2) Botometer apenas considerados não bots; (3) Botometer apenas considerados bots; (4) Novo Pegabot Geral; (5) Novo Pegabot apenas considerados não bots; (6) Novo Pegabot apenas considerados bots")
plt.ylabel("Avaliação do Botometer")

plt.show()

In [None]:
import scipy
scipy.stats.kruskal(botometer_geral,  botometer_nao,botometer_sim)

In [None]:
scipy.stats.kruskal(res_geral,  res_nao,res_sim)