# Political Labelling

This script determines the political affiliation (left, center, right) of each user in our sample by analyzing the retweets they have made.

We use a list of political influencers previously categorized as left, center, or right by La Silla Vacia, a Colombian news outlet. For each user, we tally the number of retweets they've made (excluding retweets with comments) that correspond to each influencer. From this data, we calculate the total number of tweets associated with each political category.

This process is carried out on tweets from the "Paro Nacional" period and on tweets that are not from this period, across three sections:

1. Paro Nacional tweets
2. Tweets not related to the Paro Nacional
3. Outputs

In [1]:
import pickle
import pandas as pd
import numpy as np
from scipy.sparse import csr_matrix
import scipy.sparse as sp
import os

path = r"/mnt/disk2/Data"

# Cargar Datos de congresistas y partidos

In [2]:
partidos = pd.read_excel(os.path.join(path,"clasificacion_partidos_v1.xlsx"),"Sheet1")
partidos = partidos.loc[:,['codigo_partido','ideologia']]

congresistas = pd.read_excel(os.path.join(path,"Twitter Congresistas.xlsx"),"Sheet1")
congresistas = congresistas.loc[:,('Partido', 'Twitter')]

# We load the tweets_lite DataFrame for the analysis
retweets = pd.read_pickle(os.path.join(path,"Tweets_DataFrames","retweets.gzip"), compression='gzip')

# We load the map that relates an ID to a political Label
with open(os.path.join(path,"Pickle","User_Dicts","mapa.pkl"), "rb") as file:
    mapa = pickle.load(file)

In [3]:
def partidos_dict(x):
    
    # Manualmente, reemplazar el nombre del partido por el ID
    d = {
        "PartidoSocialdeUnidadNacional":20050002,#Partido de la U
        "CentroDemocrático":20130001,#Centro Democrático
        "ListadelaDecencia":20180008,#Lista de la Decencia
        "AlianzaVerde":20090002,#Alianza Verde
        "PartidoConservadorColombiano":18490002,#Partido Conservador Colombiano
        "PartidoLiberalColombiano":18480001,#Partido Liberal Colombiano
        "ColombiaJustaLibres":20170001,#Colombia Justa Libres
        "PoloDemocráticoAlternativo":20050001,#Polo Democrático Alternativo
        "PartidoCambioRadical":20030001,#Partido Cambio Radical
        "ConsejoComunitariodeComunidadesNegrasPlayaRenaciente":20180014,#Consejo Comunitario Playa Renaciente
        "Comunes":20170003,#Partido Comunes
        "MovimientoAlternativoIndígenaySocial":20130002,#MAIS
        "ConsejoComunitarioLaMamuncia":20180029,#ConsejoComunitariolaMamuncia(wrongnameinexternaldatabase)
        "CoaliciónAlternativaSantandereana":20180042,#CoaliciónAlternativaSantandereana
        "MovimientoIndependientedeRenovaciónAbsoluta":20000036,#MIRA
        "OpciónCiudadana":20090001#Partido Opción Ciudadana
    }
    
    # Si no encuentra el partido, entonces el ID por default es 0
    try:
        return d[x]
    except KeyError:
        return 0

def idelogias_dict(x):
    # Agrega la ideologia
    d = {
        1:'Izquierda',
        2:'Derecha',
        3:'Centro',
        4:'Sin Clasificar'
    }
    
    try:
        return d[x]
    # En caso de que el partio no haya sido encontrado por la anterior función, se deja esta bandera de aviso
    except KeyError:
        return 'nada'

In [5]:
# Diccionario con ID Nombre de twittero
user_name = (
    retweets[['Referenced Tweet Author ID', 'Referenced Tweet Author Name']]
    .drop_duplicates()
    .astype({'Referenced Tweet Author ID':'float64'})
    .set_index('Referenced Tweet Author ID')
    .to_dict()['Referenced Tweet Author Name']
)

# Limpiar nombres para agregar el ID de partido
congresistas.Partido = congresistas.Partido.str.replace(' ','')
congresistas['Partido ID'] = congresistas['Partido'].apply(partidos_dict)
congresistas_new = congresistas.merge(partidos,left_on='Partido ID', right_on='codigo_partido', how = 'left')

# Obetenemos la ideología
congresistas_new['Afiliacion'] = congresistas_new.ideologia.apply(idelogias_dict)
congresistas_new[congresistas_new['Afiliacion']=='nada'].Partido.unique()

array(['AutoridadesIndígenasdeColombia',
       'FuerzaAlternativaRevolucionariadelComún'], dtype=object)

In [6]:
# Dado que estos partidos no fueron, se agrega la ideologia a mano
# partido FARC y Autoridades Índigena vistos como izquierda

congresistas_new.loc[congresistas_new['Afiliacion']=='nada','Afiliacion'] = 'Izquierda'

# Pasamos datos importantes a un diccionario
mapa_2 = (
    congresistas_new.merge(retweets, left_on='Twitter', right_on='Referenced Tweet Author Name')
    .loc[:,('Referenced Tweet Author ID','Afiliacion')]
    .drop_duplicates()
    .astype({'Referenced Tweet Author ID':'float64'})
    .set_index('Referenced Tweet Author ID')
    .to_dict()['Afiliacion']
)

common_keys = list(set(mapa.keys()).intersection(set(mapa_2.keys())))
print(f"Hay {len(mapa)} usuarios identificados por la Silla")
print(f"Hay {len(mapa_2)} congresistas identificados según su partido")
print(f"Hay {len(common_keys)} usuarios identificados por ambas fuentes")
print('')
for key in common_keys:
    if mapa[key] != mapa_2[key]:
        # Usar el criterio de la silla vacía
        print(f"{user_name[key]}: Silla dice {mapa[key]} pero partido es {mapa_2[key]}")
    mapa_2.pop(key)

# Unir ambos diccioanrios
mapa_full = mapa_2 | mapa
print('')
print(f"Total de dicionarios {len(mapa_full)}")

# Guardar
with open(os.path.join(path,"Pickle","User_Dicts","mapa_full.pkl"), "wb") as file:
    pickle.dump(mapa_full, file)

Hay 93 usuarios identificados por la Silla
Hay 230 congresistas identificados según su partido
Hay 15 usuarios identificados por ambas fuentes

JERobledo: Silla dice Centro pero partido es Izquierda
RoyBarreras: Silla dice Izquierda pero partido es Derecha
angelamrobledo: Silla dice Centro pero partido es Izquierda
AABenedetti: Silla dice Izquierda pero partido es Derecha
intiasprilla: Silla dice Izquierda pero partido es Centro

Total de dicionarios 308


# CHECKPOINT: Cargar Datos del Paro

Load all pickle files will need

In [36]:
# We load the tweets_lite DataFrame for the analysis
retweets = pd.read_pickle(os.path.join(path,"Tweets_DataFrames",'retweets.gzip'), compression='gzip')
tweets = pd.read_pickle(os.path.join(path,"Tweets_DataFrames",'tweets_lite.gzip'), compression='gzip')

# We load the map that relates an ID to a political Label
with open(os.path.join(path,"Pickle","User_Dicts","mapa_full.pkl"), "rb") as file:
    mapa = pickle.load(file)

In [37]:
# Now we assign each RT a political label according to its influencer's label.
retweets["Party"] = retweets["Referenced Tweet Author ID"].map(mapa)
print(retweets["Party"].value_counts(dropna=False).apply(lambda x: f"{x:,}"))

# We select all non-NA labeled RT.
#retweets = retweets[retweets["Party"].notna()]
retweets.loc[retweets.Party.isna(),"Party"] = "Sin Clasificar"

print(f"Total de twitteros que retwitearon a alguien con clasificación")
print(f"{len(retweets['Author ID'].unique()):,}")
retweets.head()

Party
NaN               25,275,229
Izquierda          3,975,427
Derecha            1,091,764
Centro               570,486
Sin Clasificar         5,105
Name: count, dtype: object
Total de twitteros que retwitearon a alguien con clasificación
36,646


Unnamed: 0,Tweet ID,Author ID,Author Name,Referenced Tweet Author ID,Referenced Tweet Author Name,Referenced Tweet ID,Date,Party
0,1.409515e+18,788250746.0,Laura_Milena98,142491200.0,Jokeraton,1.408756e+18,2021/06/28 09:11:18,Sin Clasificar
1,1.408912e+18,788250746.0,Laura_Milena98,261704700.0,majogomez30,1.408428e+18,2021/06/26 17:15:34,Sin Clasificar
2,1.408233e+18,788250746.0,Laura_Milena98,8.305394e+17,ManuelBeltrn14,1.407308e+18,2021/06/24 20:16:16,Sin Clasificar
3,1.408232e+18,788250746.0,Laura_Milena98,56713270.0,santorendon,1.408212e+18,2021/06/24 20:14:47,Sin Clasificar
4,1.407883e+18,788250746.0,Laura_Milena98,1.140705e+18,PATATAdibujo,1.407883e+18,2021/06/23 21:06:16,Sin Clasificar


We create a 4x1 positive integer vector for every tweeter in the community that registers the number of RTs that the user has based on the political affilation. 

In [38]:
# We create lambda-functions that count the number of RTs for each political label.
a = lambda x: np.sum(x == "Derecha")
b = lambda x: np.sum(x == "Izquierda")
c = lambda x: np.sum(x == "Centro")
d = lambda x: np.sum(x == "Sin Clasificar")

# given per political label for each user using the lambda-functions.
rts_usuario_paro = retweets.groupby("Author ID").agg({"Party": [a,b,c,d]})

rts_usuario_paro.columns = ["Retweets Derecha",
                       "Retweets Izquierda",
                       "Retweets Centro",
                       "Sin Clasificar"]

# Total RTs...
rts_usuario_paro["Retweets Totales"] = rts_usuario_paro.sum(axis=1)

rts_usuario_paro.index = rts_usuario_paro.index.astype('float64')

# Now we determine the political affiliation by checking the index with the maximum.
rts_usuario_paro.sort_index()
print('Vector Database size is: ',rts_usuario_paro.shape)
rts_usuario_paro.head()

Vector Database size is:  (36646, 5)


Unnamed: 0_level_0,Retweets Derecha,Retweets Izquierda,Retweets Centro,Sin Clasificar,Retweets Totales
Author ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
12996.0,2,395,132,1914,2443
777978.0,1,1,1,91,94
784125.0,0,71,13,537,621
1061601.0,0,265,10,968,1243
1488031.0,0,0,0,873,873


In [39]:
# Función de clasificación
def clasificar(row:pd.Series):
    if row.idxmax()=='Sin Clasificar':
        
        # Revisar si segunda afiliación es igual a primera
        if row.nlargest(2).iloc[-1] == row.nlargest(3).iloc[-1]:
            return 'Sin Clasificar'
        else:
            return row.nlargest(2).index[-1]
    else:
        return row.idxmax()

# Now we determine the political affiliation by checking the index with the maximum.
rts_usuario_paro["Afiliacion"] = rts_usuario_paro[["Retweets Centro", 
                                         "Retweets Derecha", 
                                         "Retweets Izquierda", 
                                         "Sin Clasificar"]].apply(clasificar,axis=1)

# rts_usuario_paro["Afiliacion"] = rts_usuario_paro[["Retweets Centro", 
#                                          "Retweets Derecha", 
#                                          "Retweets Izquierda", 
#                                          "Sin Clasificar"]].idxmax(axis=1)

conditions = [
    (rts_usuario_paro['Afiliacion'] == 'Retweets Izquierda'),
    (rts_usuario_paro['Afiliacion'] == 'Retweets Derecha'),
    (rts_usuario_paro['Afiliacion'] == 'Retweets Centro'),
    (rts_usuario_paro['Afiliacion'] == 'Sin Clasificar')
]

choices = ['Izquierda', 'Derecha', 'Centro', 'Sin Clasificar']

rts_usuario_paro['Afiliacion'] = pd.Series(np.select(conditions, choices, default=''), index=rts_usuario_paro.index)

# We generate dummy variables for each political label...
rts_usuario_paro["Dummy Derecha"] = (rts_usuario_paro["Afiliacion"] == 'Derecha').astype('int32')
rts_usuario_paro["Dummy Izquierda"] = (rts_usuario_paro["Afiliacion"] == 'Izquierda').astype('int32')
rts_usuario_paro["Dummy Centro"] = (rts_usuario_paro["Afiliacion"] == 'Centro').astype('int32')
rts_usuario_paro["Dummy Sin Clasificar"] = (rts_usuario_paro["Afiliacion"] == 'Sin Clasificar').astype('int32')

# We see the sizes of our groups
print(rts_usuario_paro['Afiliacion'].value_counts(dropna = False))
rts_usuario_paro.head()

Afiliacion
Retweets Izquierda    23143
Retweets Derecha       6922
Sin Clasificar         3428
Retweets Centro        3153
Name: count, dtype: int64


Unnamed: 0_level_0,Retweets Derecha,Retweets Izquierda,Retweets Centro,Sin Clasificar,Retweets Totales,Afiliacion,Dummy Derecha,Dummy Izquierda,Dummy Centro,Dummy Sin Clasificar
Author ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
12996.0,2,395,132,1914,2443,Retweets Izquierda,0,0,0,0
777978.0,1,1,1,91,94,Sin Clasificar,0,0,0,1
784125.0,0,71,13,537,621,Retweets Izquierda,0,0,0,0
1061601.0,0,265,10,968,1243,Retweets Izquierda,0,0,0,0
1488031.0,0,0,0,873,873,Sin Clasificar,0,0,0,1


El problema es que en el codigo viejo, en esta línea de la segunda celda del CÓDIGO VIEJO no se estab reasignando el DataFrame.
```
tweets[tweets["Party"].notna()]
```
Por lo cual, todos aquellos twitteros que no retwittearon a alguien ya clasificado por el mapa o que simplemente no retwittearon, podian tener tweets cuya variable "Party" era nan

AL hacer groupby en rts_usuario_paro, esos usuarios parecia que no retwittearan a nadie. Por eso se clasificaban como Sin Clasificar en el **CODIGO VIEJO**

En el **CODIGO VIEJO** de una vez se utilizan retweets, más eficiente y si hace la reasignación. Por tanto, esos contribuyentes que no retwittearon a alguien clasificado o simplemente no retwittearon se eliminan. Los 18 contribuyentes en Sin Clasificar son por que Retwittearon a un Partido POlítica cuya clasificación ideologica según el CEDE era "Sin Clasificar"

Si estos no se eliminan

In [69]:
# Finally, we create a dictionary which stores the affiliation for each user.
user_to_party_paro = {}

for index, row in rts_usuario_paro.iterrows():
    author_id = index
    afiliacion = row['Afiliacion']
    
    # Adding the author ID and affiliation to the dictionary
    user_to_party_paro[author_id] = afiliacion

with open(os.path.join(path,"Pickle","User_Dicts","user_to_party_paro.pkl"), 'wb') as file:
    pickle.dump(user_to_party_paro,file)

rts_usuario_paro.to_pickle(os.path.join(path,"Pickle","User_Rts_Vector","rts_usuario_paro.pkl"))

In [70]:
# Cargar todos lo retweets para evaluar la clasificación
retweets = pd.read_pickle('/mnt/disk2/Data/Tweets_DataFrames/retweets.gzip', compression='gzip')

ids_faltantes1 = set(retweets["Author ID"]) - set(user_to_party_paro.keys())
ids_faltantes2 = set(retweets["Referenced Tweet Author ID"]) - set(user_to_party_paro.keys())
ids_faltantes = np.concatenate((list(ids_faltantes1), list(ids_faltantes2)))
print(f"Faltan clasificar {len(np.unique(ids_faltantes)):,} usuarios")

# Los dejamos como inclasificados 
for usuario in ids_faltantes:
    user_to_party_paro[usuario] = np.nan

affilliation_df = pd.DataFrame(list(user_to_party_paro.items()), columns=['User ID', 'Political Affiliation'])
print(affilliation_df['Political Affiliation'].value_counts().apply(lambda x: f"{x:,}"))
print("\n"+"*"*100+"\n")
print(affilliation_df['Political Affiliation'].value_counts(normalize=True) * 100)

Faltan clasificar 590,489 usuarios
Political Affiliation
Izquierda         23,141
Derecha            6,975
Centro             3,735
Sin Clasificar        18
Name: count, dtype: object

****************************************************************************************************

Political Affiliation
Izquierda         68.325017
Derecha           20.594054
Centro            11.027784
Sin Clasificar     0.053146
Name: proportion, dtype: float64


# CHECKPOINT: Cargar `users_information` y `rts_usuario_paro`

# Master Index Construction

In [25]:
rts_usuario_paro

Unnamed: 0_level_0,Retweets Derecha,Retweets Izquierda,Retweets Centro,Sin Clasificar,Retweets Totales,Afiliacion,Dummy Derecha,Dummy Izquierda,Dummy Centro,Dummy Sin Clasificar
Author ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1.299600e+04,2,395,132,0,529,Izquierda,0,1,0,0
7.779780e+05,1,1,1,0,3,Centro,0,0,1,0
7.841250e+05,0,71,13,0,84,Izquierda,0,1,0,0
1.061601e+06,0,265,10,0,275,Izquierda,0,1,0,0
1.981631e+06,0,41,4,0,45,Izquierda,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...
1.389649e+18,0,24,1,0,25,Izquierda,0,1,0,0
1.389722e+18,0,13,1,0,14,Izquierda,0,1,0,0
1.389737e+18,30,1,0,0,31,Derecha,1,0,0,0
1.389769e+18,1,169,16,0,186,Izquierda,0,1,0,0


In [42]:
users_information[users_information["Author ID"] < 1]

Unnamed: 0,Author ID,Author Name,Author Location,Author Description,Author Followers,Author Following,Author Tweets,Author Verified
0,0.0,0,"True, False, True, False","nan, equidad_mujer, mariumega, PattyRosi24",,1.384355e+18,,"nan, https://pbs.twimg.com/media/E2C38-kXEAIkE..."


In [32]:
users_information = pd.read_pickle(os.path.join(path, "Tweets_DataFrames","users_information.gzip"), compression='gzip').reset_index()
rts_usuario_paro = pd.read_pickle(os.path.join(path,"Pickle","User_Rts_Vector","rts_usuario_paro.pkl"))
rts_usuario_paro = rts_usuario_paro.reset_index()
master = pd.merge(users_information,rts_usuario_paro,on='Author ID', how = 'outer',indicator=True)

# # Aquellos 
master.loc[master['Afiliacion'].isna(),'Afiliacion'] = 'Sin Clasificar'
# master = (
#     master.loc[:,('Author ID', 'Author Name', 'Afiliacion')]
#     .rename(columns = {
#         'Author ID':'User ID',
#         'Author Name': 'Label',
#         'Afiliacion': 'Political Affiliation'
#     })
#     .dropna()
#     .drop_duplicates('User ID')
# )

# master.to_csv(os.path.join(path,'Master.csv'),index=False)

In [34]:
rts_usuario_paro.dtypes

Author ID               float64
Retweets Derecha          int64
Retweets Izquierda        int64
Retweets Centro           int64
Sin Clasificar            int64
Retweets Totales          int64
Afiliacion               object
Dummy Derecha             int32
Dummy Izquierda           int32
Dummy Centro              int32
Dummy Sin Clasificar      int32
dtype: object

In [35]:
users_information.dtypes

Author ID             float64
Author Name            object
Author Location        object
Author Description     object
Author Followers      float64
Author Following      float64
Author Tweets         float64
Author Verified        object
dtype: object

In [41]:
rts_usuario_paro[rts_usuario_paro['Author ID'] < 10]

Unnamed: 0,Author ID,Retweets Derecha,Retweets Izquierda,Retweets Centro,Sin Clasificar,Retweets Totales,Afiliacion,Dummy Derecha,Dummy Izquierda,Dummy Centro,Dummy Sin Clasificar


In [38]:
X = set(users_information['Author ID'])
Y = set(rts_usuario_paro['Author ID'])

X-Y

{0.0,
 1.0,
 2.0,
 3.0,
 4.0,
 5.0,
 6.0,
 7.0,
 8.0,
 9.0,
 10.0,
 9633802.0,
 12.0,
 13.0,
 14.0,
 16.0,
 18.0,
 20.0,
 195788822.0,
 23.0,
 24.0,
 291995671.0,
 28.0,
 30.0,
 31.0,
 32.0,
 3458727977.0,
 44.0,
 48.0,
 874020914.0,
 56.0,
 15990841.0,
 67.0,
 422936643.0,
 8.469231511918017e+17,
 97255497.0,
 1139736649.0,
 1.2009441243813435e+18,
 8.990573286029638e+17,
 8.91844805088731e+17,
 1.1461063675744992e+18,
 8.570872691985857e+17,
 8.852565308111174e+17,
 1.1374678113690172e+18,
 1.1618175532762191e+18,
 2176254036.0,
 141066346.0,
 121.0,
 7.931199193364563e+17,
 8.251093464135763e+17,
 8.817336737871955e+17,
 8.825582033844307e+17,
 8.887774403901523e+17,
 8.943558886176851e+17,
 9.059258474832856e+17,
 9.47873743858172e+17,
 9.606128007783384e+17,
 9.638826274123941e+17,
 7.941564251152097e+17,
 1.0471745095880744e+18,
 147.0,
 49119387.0,
 173899965.0,
 800686290.0,
 570491094.0,
 333480183.0,
 202572029.0,
 1.1149992119117784e+18,
 187695369.0,
 9.76067978407088e+17,


In [37]:
master.isna().mean()

Author ID               0.000000
Author Name             0.059274
Author Location         0.059274
Author Description      0.059274
Author Followers        0.060181
Author Following        0.059828
Author Tweets           0.060181
Author Verified         0.059274
Retweets Derecha        0.146812
Retweets Izquierda      0.146812
Retweets Centro         0.146812
Sin Clasificar          0.146812
Retweets Totales        0.146812
Afiliacion              0.146812
Dummy Derecha           0.146812
Dummy Izquierda         0.146812
Dummy Centro            0.146812
Dummy Sin Clasificar    0.146812
_merge                  0.000000
dtype: float64

# CHECKPOINT: Tweets not related to the Paro Nacional

Load all Pickle files needed

In [17]:
# We create an aux empty list to concatenate Tweets from January and October
aux = []

# We load January tweets
tweets_jan = pd.read_pickle(os.join.path(path,"Tweets_DataFrames",'tweets_jan21.gzip'), compression='gzip')

# We load October tweets
tweets_oct = pd.read_pickle(os.join.path(path,"Tweets_DataFrames",'tweets_oct19.gzip'), compression='gzip')

# Append both to the auxiliary list and concat them
aux.append(tweets_jan)
aux.append(tweets_oct)
tweets = pd.concat(aux)
print('October Shape: ', tweets_oct.shape)
print('January Shape: ', tweets_jan.shape)
print('Total Shape: ', tweets.shape)

October Shape:  (5424132, 25)
January Shape:  (5893802, 25)
Total Shape:  (11317934, 25)


In [18]:
# We load the map that relates an ID to a political Label
with open(os.path.join(path,"Pickle","User_Dicts","mapa_full.pkl"), "rb") as file:
    mapa = pickle.load(file)

In [19]:
# Now we assign each RT a political label according to its influencer's label.
retweets["Party"] = retweets["Referenced Tweet Author ID"].map(mapa)

# We select all non-NA labeled RT.
retweets = retweets[retweets["Party"].notna()]
print(retweets["Party"].value_counts())
retweets.head()

Party
Izquierda         3902002
Derecha           1091764
Centro             479654
Sin Clasificar       5105
Name: count, dtype: int64


Unnamed: 0,Tweet ID,Author ID,Author Name,Referenced Tweet Author ID,Referenced Tweet Author Name,Date,Referenced Tweet,Party
20,1405513539427635200,788250746,Laura_Milena98,142092456,JulianRoman,2021/06/17 08:11:55,1.405305e+18,Izquierda
22,1405510167844765696,788250746,Laura_Milena98,237445795,subcantante,2021/06/17 07:58:31,1.405317e+18,Izquierda
27,1404183860339003392,788250746,Laura_Milena98,237445795,subcantante,2021/06/13 16:08:15,1.404126e+18,Izquierda
29,1403881554112360448,788250746,Laura_Milena98,939908874357870592,DonIzquierdo_,2021/06/12 20:07:00,1.403795e+18,Izquierda
34,1403527396733640704,788250746,Laura_Milena98,237445795,subcantante,2021/06/11 20:39:42,1.403517e+18,Izquierda


In [21]:
# We create lambda-functions that count the number of RTs for each political 
# label.
a = lambda x: np.sum(x == "Derecha")
b = lambda x: np.sum(x == "Izquierda")
c = lambda x: np.sum(x == "Centro")

# given per political label for each user using the lambda-functions.
rts_usuario_jan_oct = retweets.groupby("Author ID").agg({"Party": [a,b,c]})

rts_usuario_jan_oct.columns = ["Retweets Derecha", 
                       "Retweets Izquierda", 
                       "Retweets Centro"]

# Total RTs...
rts_usuario_jan_oct["Retweets Totales"] = rts_usuario_jan_oct.sum(axis=1)
# We generate dummy variables for each political label...
rts_usuario_jan_oct["Dummy Derecha"] = (rts_usuario_jan_oct["Retweets Derecha"] != 0).astype('int32')
rts_usuario_jan_oct["Dummy Izquierda"] = (rts_usuario_jan_oct["Retweets Izquierda"] != 0).astype('int32')
rts_usuario_jan_oct["Dummy Centro"] = (rts_usuario_jan_oct["Retweets Centro"] != 0).astype('int32')

# Now we determine the political affiliation by checking the index with the maximum.
rts_usuario_jan_oct["Sin Clasificar"] = (rts_usuario_jan_oct["Retweets Totales"] == 0).astype('int32')
print('Vector Datbase size is: ',rts_usuario_jan_oct.shape)
rts_usuario_jan_oct.head()

Vector Datbase size is:  (33782, 8)


Unnamed: 0_level_0,Retweets Derecha,Retweets Izquierda,Retweets Centro,Retweets Totales,Dummy Derecha,Dummy Izquierda,Dummy Centro,Sin Clasificar
Author ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12996,2,386,126,514,1,1,1,0
777978,1,1,1,3,1,1,1,0
784125,0,71,5,76,0,1,1,0
1061601,0,258,7,265,0,1,1,0
1981631,0,41,4,45,0,1,1,0


In [22]:
# Now we determine the political affiliation by checking the index with the maximum.
rts_usuario_jan_oct["Afiliacion"] = rts_usuario_jan_oct[["Retweets Centro", 
                                         "Retweets Derecha", 
                                         "Retweets Izquierda", 
                                         "Sin Clasificar"]].idxmax(axis=1)

rts_usuario_jan_oct['Afiliacion'].value_counts()

Afiliacion
Retweets Izquierda    23209
Retweets Derecha       7006
Retweets Centro        3562
Sin Clasificar            5
Name: count, dtype: int64

In [23]:
# Finally, we create a dictionary which stores the affiliation for each user.
user_to_party_jan_oct = {}

for index, row in rts_usuario_jan_oct.iterrows():
    author_id = int(index)
    afiliacion = row['Afiliacion']
    
    # Adding the author ID and affiliation to the dictionary
    user_to_party_jan_oct[author_id] = afiliacion

with open(os.path.join(path,"Pickle","user_to_party_jan_oct.pkl"), 'wb') as file:
    pickle.dump(user_to_party_jan_oct,file)

In [24]:
rts_usuario_jan_oct.to_pickle(os.path.join(path,"Pickle","User_Rts_Vector",'rts_usuario_jan_oct.pkl'))