# 3.- Selección intervenciones

En este cuaderno se va a tratar de seleccionar las intervenciones que van a ser objeto de estudio posteriormente. También se seleciconar un subconjunto de los campos.
## Carga dataset

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv("dataset/dataset_v1_1/dataset_v1_1.csv")

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46859 entries, 0 to 46858
Data columns (total 16 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       46859 non-null  int64 
 1   cámara           46859 non-null  object
 2   organismo        46859 non-null  object
 3   numero           46859 non-null  int64 
 4   fecha            46859 non-null  object
 5   orden_interv     46859 non-null  int64 
 6   name1            46859 non-null  object
 7   name2            46859 non-null  object
 8   texto            46859 non-null  object
 9   Grupo.1          26519 non-null  object
 10  Lista.1          26519 non-null  object
 11  Circunscripción  26519 non-null  object
 12  Alta             26519 non-null  object
 13  Baja             1400 non-null   object
 14  Apellidos        26519 non-null  object
 15  Nombre           26519 non-null  object
dtypes: int64(3), object(13)
memory usage: 5.7+ MB


In [4]:
data.head()

Unnamed: 0.1,Unnamed: 0,cámara,organismo,numero,fecha,orden_interv,name1,name2,texto,Grupo.1,Lista.1,Circunscripción,Alta,Baja,Apellidos,Nombre
0,0,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,0,PRESIDENTE DE LA MESA DE EDAD,ZAMARRÓN MORENO,"Señorías, se abre la sesión. En virtud de lo ...",Socialista,PSOE,Burgos,3 de diciembre de 2019,,ZAMARRÓN MORENO,Agustín
1,1,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,1,PRESIDENTE DE LA MESA DE EDAD,ZAMARRÓN MORENO,De conformidad con lo dispuesto en el artícul...,Socialista,PSOE,Burgos,3 de diciembre de 2019,,ZAMARRÓN MORENO,Agustín
2,2,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,2,SECRETARIA DE LA MESA DE EDAD,ROSIQUE I SALTOR,"Artículo 5 del Real Decreto 551/2019, de 24 d...",Republicano,ERC-S,Barcelona,3 de diciembre de 2019,,ROSIQUE I SALTOR,Marta
3,3,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,3,PRESIDENTE DE LA MESA DE EDAD,ZAMARRÓN MORENO,Las señoras secretarias de la Mesa procederán...,Socialista,PSOE,Burgos,3 de diciembre de 2019,,ZAMARRÓN MORENO,Agustín
4,4,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,4,SECRETARIA DE LA MESA DE EDAD,ROSIQUE I SALTOR,"Junqueras i Vies, Oriol; Forn Chiariello, Joa...",Republicano,ERC-S,Barcelona,3 de diciembre de 2019,,ROSIQUE I SALTOR,Marta


## Selección de campos

Dejamos las columnas que nos interesan:
- Número de intervención
- Fecha de la sesion
- Nombre del parlamentario
- Grupo del parlamentario.
- Número de palabras de la intervención.

In [5]:
dataset_df = data[["numero", "fecha", "name2", "Grupo.1", "texto"]].rename(columns={"name2":"apellidos", "Grupo.1":"grupo"})
dataset_df["fecha"] = pd.to_datetime(dataset_df["fecha"], format="%d/%m/%Y")

In [6]:
dataset_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46859 entries, 0 to 46858
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   numero     46859 non-null  int64         
 1   fecha      46859 non-null  datetime64[ns]
 2   apellidos  46859 non-null  object        
 3   grupo      26519 non-null  object        
 4   texto      46859 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 1.8+ MB


## Selección de intervenciones

Se van a seleccionar únicamente las intervenciones de los siguientes partidos:
- PSOE
- Popular
- Vox
- Unidas Podemos
- ERC
- PNV

Se utiliza el nombre del grupo parlamentario, en lugar del partido. Por lo que vamos a acortar algunos nombres.

In [7]:
dataset_df = dataset_df.replace({"Confederal de Unidas Podemos-\nEn Comú Podem-Galicia en Común":"UP-ECP-GeC",
                        "Vasco (EAJ-PNV)": "EAJ-PNV"})

dominio = ["UP-ECP-GeC", "Popular", "Vox", "Socialista", "Republicano", "EAJ-PNV"]

Una vez seleccionadas, se quedan 19773 intervenciones.

In [8]:
dataset_df = dataset_df[dataset_df["grupo"].isin(dominio)]
dataset_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19773 entries, 0 to 46853
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   numero     19773 non-null  int64         
 1   fecha      19773 non-null  datetime64[ns]
 2   apellidos  19773 non-null  object        
 3   grupo      19773 non-null  object        
 4   texto      19773 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 926.9+ KB


Por último, se añade una columna color para identificar el color de cada partido. Se ha seleccionado manualmente el color característico.

In [9]:
colores_partido = {"Socialista": "#e30713",
           "Popular":"#1e4b8f", 
           "Vox":"#5ac036", 
           "UP-ECP-GeC":"#693065", 
           "Republicano":"#fbc259",
           "EAJ-PNV":"#426938"
          }

dataset_df["color"] = dataset_df["grupo"].map(colores_partido)

## Compensar el número de intervenciones

Si comprobamos el número de intervenciones por parlamentario, podemos ver que hay algunos con una gran cantidad de intervencioens (pej. Gomez de Celis). Esto es debido a que es vicepresidente del congreso y se ha cargado como diputado de su partido. 

In [10]:
dataset_df.groupby("apellidos").count().sort_values("numero", ascending=False)

Unnamed: 0_level_0,numero,fecha,grupo,texto,color
apellidos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
RODRÍGUEZ GÓMEZ DE CELIS,6329,6329,6329,6329,6329
ELIZO SERRANO,552,552,552,552,552
SÁNCHEZ PÉREZ-CASTEJÓN,542,542,542,542,542
PASTOR JULIÁN,531,531,531,531,531
MONTERO CUADRADO,356,356,356,356,356
...,...,...,...,...,...
OLANO VELA,1,1,1,1,1
SEVA RUIZ,1,1,1,1,1
GONZÁLEZ LASO,1,1,1,1,1
GONZÁLEZ MUÑOZ,1,1,1,1,1


In [11]:
dataset_df.groupby("grupo").count().sort_values("numero", ascending=False)

Unnamed: 0_level_0,numero,fecha,apellidos,texto,color
grupo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Socialista,9921,9921,9921,9921,9921
Popular,3204,3204,3204,3204,3204
UP-ECP-GeC,2445,2445,2445,2445,2445
Vox,2219,2219,2219,2219,2219
Republicano,1024,1024,1024,1024,1024
EAJ-PNV,960,960,960,960,960


Se prescinde de las intervenciones de todos los compnentes de la mesa del congreso. estos son:

- Batet Lamaña, Meritxell 
- Rodríguez Gómez de Celis, Alfonso
- Pastor Julián, Ana María
- Elizo Serrano, María Gloria 
- Gil Lázaro, Ignacio
- Pisarello Prados, Gerardo 
- Hernanz Costa, Sofía 
- Sánchez Serna, Javier 
- Navarro Lacoba, Carmen

In [12]:
componentes_mesa=[ "BATET LAMAÑA",
                  "RODRÍGUEZ GÓMEZ DE CELIS",
                  "PASTOR JULIÁN",
                  "ELIZO SERRANO",
                  "GIL LÁZARO",
                  "PISARELLO PRADOS",
                  "HERNANZ COSTA",
                  "SÁNCHEZ SERNA",
                  "NAVARRO LACOBA"]

Esto reduce el número de intervenciones a 12.107. Aunque están algo más equilibradas por grupo.

In [13]:
dataset_df_sin_mesa = dataset_df[~dataset_df["apellidos"].isin(componentes_mesa)]
dataset_df_sin_mesa.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12107 entries, 0 to 46853
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   numero     12107 non-null  int64         
 1   fecha      12107 non-null  datetime64[ns]
 2   apellidos  12107 non-null  object        
 3   grupo      12107 non-null  object        
 4   texto      12107 non-null  object        
 5   color      12107 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 662.1+ KB


In [14]:
dataset_df_sin_mesa.groupby("grupo").count().sort_values("numero", ascending=False)

Unnamed: 0_level_0,numero,fecha,apellidos,texto,color
grupo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Socialista,3578,3578,3578,3578,3578
Popular,2648,2648,2648,2648,2648
Vox,2090,2090,2090,2090,2090
UP-ECP-GeC,1807,1807,1807,1807,1807
Republicano,1024,1024,1024,1024,1024
EAJ-PNV,960,960,960,960,960


## Conclusiones

En este cuaderno se han seleccionado los ejemplos que van as er utilizados para el análisis 

- Se han seleccionado los 6 grupos. Los 4 con mayor representacióna nivel nacional y dos de caráter nacionalista.
- Gran parte de las intervenciones estaban protagonizadas por miembros de la mesa del congreso. Puesto que estos puestos son administrativos se ha optado por descartarlos del análisis.

También se han seleccionado los campos a utilizar. El dataset consta de los siguientes campos:

- numero: numero de pleno en la legislatura
- fecha: fecha de celebración
- apellidos: apellidos del interventor     
- grupo: grupo parlamentario del interventor   
- texto: texto íntegro de la intervención      
- color: color identificativo del grupo

El resultado se guarda como dataset_v1_2.csv. Este dataset consta de muchas menos intervenciones (12107)


In [17]:
dataset_df_sin_mesa.to_csv("dataset/dataset_v1_2/dataset_v1_2.csv")