L'analisi è andata avanti applicando la **Regressione Logistica** al dataset ottenuto dopo aver estratto le features *Presentation*, *Reputation*, *Time*, *Affect* e *Linguistic*. <br>
É stata considerata come variabile dipendente la variabile `is_featured` e come variabili indipendenti le metriche associate alle suddette 5 features. <br><br>
**Variabile dipendente**: `is_featured` <br><br>
**Variabili indipendenti**: 
* `version` indica la versione del prodotto
* `tags_number` indica il numero di tag scelti dal maker al momento della creazione del post
* `score` indica il punteggio che il post ha ottenuto dagli utenti
* `is_best_time_to_launch` è una variabile booleana (Yes/No) che indica se il post è stato lanciato all'orario consigliato (00:01:00 - 8:59:59)
* `is_best_day_to_launch` è una variabile booleana (Yes/No) che indica se il post è stato lanciato nel giorno consigliato (Lunedì o Martedì)
* `is_weekend` è una variabile booleana (Yes/No) che indica se il post è stato lanciato di Sabato o Domenica
* `positive_description_sentiment` indica il sentimento positivo derivato dalla descrizione del post scritta dal maker 
* `negative_description_sentiment` indica il sentimento negativo derivato dalla descrizione del post scritta dal maker
* `text_description_length` indica la lunghezza della descrizione del post. Questa variabile è stata discretizzata utilizzando l'algoritmo k-means individuando tre cluster: Short, Medium e Long.
* `sentence_length_in_the_description` indica la lunghezza delle frasi presenti nella descrizione del post. Questa variabile è stata discretizzata utilizzando l'algoritmo k-means individuando tre cluster: Short, Medium e Long.
* `bullet_points_explicit_features` è una variabile booleana (Yes/No) che indica se nella descrizione del post sono presenti elenchi puntati o caratteristiche esplicite
* `emoji_in_description` è una varibile booleana (Yes/No) che indica se nella descrizione del post sono presenti delle emoji
* `tagline_length` indica la lunghezza della tagline del post. Questa variabile è stata discretizzata utilizzando l'algoritmo k-means individuando tre cluster: Short, Medium e Long.
* `emoji_in_tagline` è una variabile booleana (Yes/No) che indica se nella tagline del post sono presenti delle emoji
* `are_there_video` è una variabile booleana (Yes/No) che indica se il post contiene dei video
* `are_there_tweetable_images` è una variabile booleana (Yes/No) che indica se il post contiene delle immagini "tweetable"
* `are_there_gif_images` è una variabile booleana (Yes/No) che indica se il post contiene delle immagini gif
* `number_of_gif` indica il numero di gif presenti nel post
* `offers` è una variabile booleana (Yes/No) che indica se nei commenti del post sono presenti delle offerte riguardanti quel prodotto
* `promo_discount_codes` è una variabile booleana (Yes/No) che indica se nei commenti del post sono presenti codici promozionali riguardanti quel prodotto
* `are_there_questions` è una variabile booleana (Yes/No) che indica se nei commenti del post sono presenti delle domande su quel prodotto
* `hunter_has_twitter` è una variabile booleana (Yes/No) che indica se l'hunter possiede un account twitter
* `hunter_has_website` è una variabile booleana (Yes/No) che indica se l'hunter possiede un sito web
* `hunter_followers` indica il numero di followers che ha l'hunter. Questa variabile è stata discretizzata utilizzando l'algoritmo k-means individuando tre cluster: Low, Medium e High.
* `hunter_apps_made` indica il numero di post lanciati (e quindi il numero di applicazioni fatte) dall'hunter. Questa variabile è stata discretizzata utilizzando l'algoritmo k-means individuando tre cluster: Low, Medium e High.
* `hunter_follows_up_on_comments` è una variabile booleana (Yes/No) che indica se l'hunter partecipa attivamente nella discussione nei commenti del post
* `maker_has_twitter` è una variabile booleana (Yes/No) che indica se il maker possiede un account twitter
* `maker_has_website` è una variabile booleana (Yes/No) che indica se il maker possiede un sito web
* `maker_followers` indica il numero di followers che ha il maker. Questa variabile è stata discretizzata utilizzando l'algoritmo k-means individuando tre cluster: Low, Medium e High.
* `maker_started_comment_thread` è una variabile booleana (Yes/No) che indica se nel thread è stato lui il primo a scrivere un commento
* `maker_comment_ratio` indica, nel caso in cui la variabile maker_started_comment_thread assume valore Yes, la percentuale di commenti scritti dal maker
* `thread_length` indica la lunghezza del thread, cioè il numero di commenti scritti prima del featuring
* `hunter_is_maker` è una variabile booleana (Yes/No) che indica se l'hunter che ha cacciato il post è il maker
* `maker_positive_comment` indica il sentimento positivo derivato dai commenti scritti dal maker il giorno in cui ha lanciato il post
* `maker_negative_comment` indica il sentimento negativo derivato dai commenti scritti dal maker il giorno in cui ha lanciato il post
* `others_positive_comment` indica il sentimento positivo derivato dai commenti scritti dagli altri utenti il giorno in cui il maker ha lanciato il post
* `others_negative_comment` indica il sentimento negativo derivato dai commenti scritti dagli altri utenti il giorno in cui il maker ha lanciato il post
* `topic` indica il topic dominante per il post. Questa variabile è stata discretizzata in: web_development, creativity e community.

In [1]:
import os
import pandas as pd
import numpy as np

In [2]:
csv_directory = os.getcwd()[:-8] + 'dataset\\'
dataset = 'features.csv'
csv_path = os.path.join(csv_directory, dataset)
mydata = pd.read_csv(csv_path, delimiter=';', usecols=['is_featured', 'version', 'tags_number', 'score', 
                                                       'is_best_time_to_launch', 'is_best_day_to_launch', 
                                                       'is_weekend', 'positive_description_sentiment', 
                                                       'negative_description_sentiment', 'text_description_length', 
                                                       'sentence_length_in_the_description', 'bullet_points_explicit_features', 
                                                       'emoji_in_description', 'tagline_length', 'emoji_in_tagline', 
                                                       'are_there_video', 'are_there_tweetable_images', 'are_there_gif_images', 
                                                       'number_of_gif', 'offers', 'promo_discount_codes', 
                                                       'are_there_questions', 'hunter_has_twitter', 'hunter_has_website', 
                                                       'hunter_followers', 'hunter_apps_made', 'hunter_follows_up_on_comments', 
                                                       'maker_has_twitter', 'maker_has_website', 'maker_followers', 
                                                       'maker_started_comment_thread', 'maker_comment_ratio', 'thread_length', 
                                                       'hunter_is_maker', 'maker_positive_comment', 'maker_negative_comment', 
                                                       'others_positive_comment', 'others_negative_comment', 'topic'])
pd.set_option('display.max_columns', 39)
mydata.head()

Unnamed: 0,version,tags_number,is_featured,score,is_best_time_to_launch,is_best_day_to_launch,is_weekend,positive_description_sentiment,negative_description_sentiment,text_description_length,sentence_length_in_the_description,bullet_points_explicit_features,emoji_in_description,tagline_length,emoji_in_tagline,are_there_video,are_there_tweetable_images,are_there_gif_images,number_of_gif,offers,promo_discount_codes,are_there_questions,hunter_has_twitter,hunter_has_website,hunter_followers,hunter_apps_made,hunter_follows_up_on_comments,maker_has_twitter,maker_has_website,maker_followers,maker_started_comment_thread,maker_comment_ratio,thread_length,hunter_is_maker,maker_positive_comment,maker_negative_comment,others_positive_comment,others_negative_comment,topic
0,1.0,4,Yes,2771,Yes,Yes,No,2,-1,Short,Short,No,No,Long,No,No,Yes,No,0,No,No,Yes,Yes,Yes,Low,Medium,Yes,Yes,Yes,Low,No,0.0,21,No,1,-1,4,-2,web development
1,1.0,6,Yes,313,No,No,No,2,-1,Medium,Medium,No,No,Long,No,No,No,No,0,No,No,No,Yes,Yes,Low,Low,Yes,Yes,Yes,Low,No,0.0,3,No,1,-1,4,-1,web development
2,1.0,2,Yes,442,Yes,No,No,2,-3,Long,Short,No,No,Long,No,No,No,No,0,No,No,No,Yes,No,High,High,Yes,Yes,Yes,Low,No,0.0,1,No,1,-1,3,-1,web development
3,1.0,3,Yes,208,No,No,Yes,2,-1,Long,Short,No,No,Long,No,Yes,No,No,0,No,No,No,No,Yes,Low,Low,No,No,Yes,Low,No,0.0,3,Yes,1,-1,1,-1,creativity
4,1.0,4,Yes,166,No,No,No,1,-2,Medium,Short,No,No,Medium,No,No,No,Yes,1,No,No,No,Yes,No,Low,Low,No,Yes,Yes,Low,No,0.0,8,No,2,-2,3,-2,community


# Impostazione delle variabili di default per la regressione logistica

Per impostare le variabili di default durante l'esecuzione della regressione logistica sono state create delle variabili `dummy`. In particolare:
- per le variabili booleane è stato impostato come default il valore *No*
- per la lunghezza della descrizione, delle frasi presenti nella descrizione e della tagline di ogni post è stato impostato come default il valore *Short*
- per il numero di follower degli hunter, per il numero di follower dei maker e per il numero di applicazioni/prodotti fatti dall'hunter è stato impostato come default il valore *High*
- per la variabile topic è stato impostato come default il valore *web development*

In [3]:
mydata = pd.get_dummies(mydata, columns=['is_best_time_to_launch', 'is_best_day_to_launch', 'is_weekend', 
                                         'bullet_points_explicit_features', 'emoji_in_description', 'emoji_in_tagline', 
                                         'are_there_video', 'are_there_tweetable_images', 'are_there_gif_images', 'offers', 
                                         'promo_discount_codes', 'are_there_questions', 'hunter_has_twitter', 
                                         'hunter_has_website', 'hunter_follows_up_on_comments', 'maker_has_twitter', 
                                         'maker_has_website', 'maker_started_comment_thread', 'hunter_is_maker'], 
                        drop_first=True)

In [4]:
mydata = pd.get_dummies(mydata, columns=['text_description_length', 'sentence_length_in_the_description', 'tagline_length', 
                                         'hunter_followers', 'hunter_apps_made', 'maker_followers'])

mydata = mydata.drop(['text_description_length_Short', 'sentence_length_in_the_description_Short', 'tagline_length_Short', 
                     'hunter_followers_High', 'hunter_apps_made_High', 'maker_followers_High'], axis=1)

In [5]:
mydata = pd.get_dummies(mydata, columns = ['topic'])
mydata = mydata.drop(['topic_web development'], axis=1)

In [6]:
pd.set_option('display.max_columns', 48)
mydata.head()

Unnamed: 0,version,tags_number,is_featured,score,positive_description_sentiment,negative_description_sentiment,number_of_gif,maker_comment_ratio,thread_length,maker_positive_comment,maker_negative_comment,others_positive_comment,others_negative_comment,is_best_time_to_launch_Yes,is_best_day_to_launch_Yes,is_weekend_Yes,bullet_points_explicit_features_Yes,emoji_in_description_Yes,emoji_in_tagline_Yes,are_there_video_Yes,are_there_tweetable_images_Yes,are_there_gif_images_Yes,offers_Yes,promo_discount_codes_Yes,are_there_questions_Yes,hunter_has_twitter_Yes,hunter_has_website_Yes,hunter_follows_up_on_comments_Yes,maker_has_twitter_Yes,maker_has_website_Yes,maker_started_comment_thread_Yes,hunter_is_maker_Yes,text_description_length_Long,text_description_length_Medium,sentence_length_in_the_description_Long,sentence_length_in_the_description_Medium,tagline_length_Long,tagline_length_Medium,hunter_followers_Low,hunter_followers_Medium,hunter_apps_made_Low,hunter_apps_made_Medium,maker_followers_Low,maker_followers_Medium,topic_community,topic_creativity
0,1.0,4,Yes,2771,2,-1,0,0.0,21,1,-1,4,-2,1,1,0,0,0,0,0,1,0,0,0,1,1,1,1,1,1,0,0,0,0,0,0,1,0,1,0,0,1,1,0,0,0
1,1.0,6,Yes,313,2,-1,0,0.0,3,1,-1,4,-1,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,0,0,0,1,0,1,1,0,1,0,1,0,1,0,0,0
2,1.0,2,Yes,442,2,-3,0,0.0,1,1,-1,3,-1,1,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,0,0,1,0,0,0,1,0,0,0,0,0,1,0,0,0
3,1.0,3,Yes,208,2,-1,0,0.0,3,1,-1,1,-1,0,0,1,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,1,1,0,0,0,1,0,1,0,1,0,1,0,0,1
4,1.0,4,Yes,166,1,-2,1,0.0,8,2,-2,3,-2,0,0,0,0,0,0,0,0,1,0,0,0,1,0,0,1,1,0,0,0,1,0,0,0,1,1,0,1,0,1,0,1,0


# Implementazione del modello per la regressione logistica

Per realizzare la regressione logistica è stato richiamato il metodo **from_formula** fornito dalla classe **GLM() (Generalized Linear Models)** presente nel package `statsmodels`. Questo metodo ha come parametri di input:
* **formula** è una stringa rappresentante una formula che separa la variabile dipendente dalle variabili indipendenti
* **data** rappresenta il dataset necessario per costruire il modello
* **family** indica la distribuzione della variabile dipendente. In questo caso è Binomial che prende come parametro di default il link *logit* in quanto dobbiamo realizzare la regressione logistica.

Successivamente è stato costruito il modello richiamando la funzione `fit`.

In [7]:
import statsmodels.api as sm

In [8]:
myformula = 'is_featured ~ version + tags_number + score + is_best_time_to_launch_Yes + is_best_day_to_launch_Yes + is_weekend_Yes + positive_description_sentiment + negative_description_sentiment + text_description_length_Medium + text_description_length_Long + sentence_length_in_the_description_Medium + sentence_length_in_the_description_Long + bullet_points_explicit_features_Yes + emoji_in_description_Yes + tagline_length_Medium + tagline_length_Long + emoji_in_tagline_Yes + are_there_video_Yes + are_there_tweetable_images_Yes + are_there_gif_images_Yes + number_of_gif + offers_Yes + promo_discount_codes_Yes + are_there_questions_Yes + hunter_has_twitter_Yes + hunter_has_website_Yes + hunter_followers_Low + hunter_followers_Medium + hunter_apps_made_Low + hunter_apps_made_Medium + hunter_follows_up_on_comments_Yes + maker_has_twitter_Yes + maker_has_website_Yes + maker_followers_Low + maker_followers_Medium + maker_started_comment_thread_Yes + maker_comment_ratio + thread_length + hunter_is_maker_Yes + maker_positive_comment + maker_negative_comment + others_positive_comment + others_negative_comment + topic_community + topic_creativity'
model = sm.GLM.from_formula(formula=myformula, data=mydata, family=sm.families.Binomial())
results = model.fit()

Richiamando la funzione `summary` è possibile osservare i risultati del modello costruito.

In [9]:
print(results.summary().tables[0])

                            Generalized Linear Model Regression Results                            
Dep. Variable:     ['is_featured[No]', 'is_featured[Yes]']   No. Observations:                 3537
Model:                                                 GLM   Df Residuals:                     3491
Model Family:                                     Binomial   Df Model:                           45
Link Function:                                       logit   Scale:                          1.0000
Method:                                               IRLS   Log-Likelihood:                -653.95
Date:                                     Fri, 15 Nov 2019   Deviance:                       1307.9
Time:                                             00:32:23   Pearson chi2:                 4.51e+15
No. Iterations:                                         22                                         
Covariance Type:                                 nonrobust                                         


In [10]:
# Note that the summary table is a list. The table at index 1 is the "core" table. 
# Additionally, read_html puts dataframe in a list, so we want index 0
results_summary = results.summary()
results_as_html = results_summary.tables[1].as_html()
logistic = pd.read_html(results_as_html, header=0, index_col=0)[0]

In [11]:
# Convert html table into csv file
csv_directory = os.getcwd()[:-8] + 'dataset\\'
csv_file_name = 'logistic_regression_results.csv'
csv_path = os.path.join(csv_directory, csv_file_name)
logistic.to_csv(csv_path, sep=';', columns=logistic.columns)
temp = pd.read_csv(csv_path, delimiter=';')
temp.rename(columns={temp.columns[0]: "Predictor"}, inplace = True)
temp.to_csv(csv_path, sep=';', index=False)

Successivamente è stato calcolato il valore di **Odds Ratio** per ogni coefficiente utilizzando la funzione *exp** fornita dal package `numpy` e che prende come parametro di input il coefficiente.

In [12]:
# Calculate Odds Ratio
def calculate_odds_ratio(coefficient_column):
    odds_ratio = []
    for i in range(0, len(coefficient_column)):
        if not odds_ratio:
            odds_ratio.append('-')
        else:
            odds_ratio.append(np.exp(coefficient_column[i]))
    return odds_ratio

df = pd.read_csv(csv_path, delimiter=';')
odds_ratio = calculate_odds_ratio(df['coef'])
print(odds_ratio)

['-', 0.9149370627061898, 1.0647073791009516, 0.9403529457394286, 1.6776600581391066, 2.2427437394679774, 1.1317894904637835, 1.0868678199900736, 1.1350764437648089, 0.8870978385440923, 1.02183496872525, 1.0608813235682861, 1.3231298123374369, 3.856654122734203, 1.2143391264963688, 0.764143255648199, 0.8928827551057416, 0.38612273258157437, 0.7060988762143844, 1.1027422146092711, 1.2836402668381013, 0.9347277206160275, 0.9132916573024414, 1.01541764421976, 0.6948217090977765, 0.8100980412985926, 1.1187365855889229, 6.794176423501872e-09, 7.474153957593612e-10, 66681940761.04503, 32734650430.056602, 0.6728721080574356, 1.0349985233486143, 1.2093705286634666, 1.1202656413335307e-09, 5.133540879257342e-07, 3.7787754419879516, 1.008637086237646, 0.8839100278274583, 0.9876765632119844, 1.3531023594194929, 0.6302743992863972, 1.3698482948192128, 1.02470011597193, 0.9740428329225616, 1.0602449856945972]


In [13]:
# Add Odds Ratio column to logistic regression summary table
df.insert(2, 'Odds Ratio', odds_ratio)
df.to_csv(csv_path, sep=';', index=False)

In [14]:
def make_bold(s):
    if s['P>|z|'] < 0.05:
        return ['font-weight: bold']*8
    else:
        return ['font-weight: normal']*8

logistic_regression_results = pd.read_csv(csv_path, delimiter=';')
logistic_regression_results.style.apply(make_bold, axis=1)

Unnamed: 0,Predictor,coef,Odds Ratio,std err,z,P>|z|,[0.025,0.975]
0,Intercept,16.5632,-,132000.0,0.0,1.0,-259000.0,259000.0
1,version,-0.0889,0.9149370627061898,0.098,-0.903,0.366,-0.282,0.104
2,tags_number,0.0627,1.0647073791009516,0.042,1.483,0.138,-0.02,0.146
3,score,-0.0615,0.9403529457394286,0.003,-18.123,0.0,-0.068,-0.055
4,is_best_time_to_launch_Yes,0.5174,1.6776600581391066,0.156,3.307,0.001,0.21100000000000002,0.824
5,is_best_day_to_launch_Yes,0.8077,2.2427437394679774,0.185,4.376,0.0,0.446,1.169
6,is_weekend_Yes,0.1238,1.1317894904637835,0.189,0.657,0.511,-0.24600000000000002,0.493
7,positive_description_sentiment,0.0833,1.0868678199900736,0.09,0.922,0.356,-0.094,0.26
8,negative_description_sentiment,0.1267,1.1350764437648089,0.101,1.251,0.211,-0.07200000000000001,0.325
9,text_description_length_Medium,-0.1198,0.8870978385440923,0.215,-0.556,0.578,-0.542,0.302
