# 2.- Creación del corpus

<a target="_blank" href="https://colab.research.google.com/github/Chiriviki/congreso/blob/7da58a20d115d309fb74f1e790e65941cf560352/2.-%20Crea_corpus.ipynb">
<img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

Este cuaderno toma los textos extraídos y trata de:
- Extraer metadatos y anexarlos a cada intervención.
- Limpiar los textos.
- Cruzar los nombres de políticos con el partido político al que pertenecen.
- Seleccionar las intervenciones y ls campos que forman parte del cospus final.


## Carga corpus

En primer lugar carga el corpus.

In [None]:
import os
import json

carpeta = 'dataset/corpus_v1'
 
corpus = []
for filename in os.listdir(carpeta):
    f = os.path.join(carpeta, filename)
    
    if os.path.isfile(f):
        with open(f, "r") as f_r:
            f_json = json.load(f_r)
            corpus.append(f_json)

            

In [None]:
corpus[0]

{'datos': 'DS. Congreso de los Diputados, Pleno y Dip. Perm., núm. 1, de 03/12/2019',
 'intervenciones': [{'name1': 'PRESIDENTE DE LA MESA DE EDAD',
   'name2': 'Zamarrón Moreno',
   'span': [5107, 5165],
   'texto': ' Señorías, se abre la sesión.\nEn virtud de lo dispuesto en el artículo 2 del Reglamento del Congreso de los Diputados, la Mesa de Edad ha quedado constituida por el diputado electo de mayor edad de los presentes, don Agustín Zamarrón\nMoreno -es decir, yo mismo-, como presidente, y por las dos más jóvenes como secretarias, a saber, doña Marta Rosique i Saltor y doña Lucía Muñoz Dalda, según los datos que constan en la Cámara.\nSeñorías, el artículo 99 de nuestra Constitución expone el artificioso modo para el nombramiento de presidente de Gobierno, dando inicio a un proceso que culmina en un Gobierno legítimo y pleno en sus atribuciones; al hacerlo determina la\ngrave responsabilidad de los intervinientes en el proceso, en lo que afecta a la responsabilidad de las señora

## Extraer metadatos 

Los metadatos se encuentran a en una cadena de caracetres. La siguiente función extrae los distintos metadatos de esta cadena.


In [None]:
from datetime import datetime

# Extraer los datos de la sesión

def extract_data(data_str):
    
    # Separa los elementos por coma
    data_splitted = data_str.split(",")
    
    # Los dos primeros campo los cogemos tal cual
    data ={ "cámara": data_splitted[0],
          "organismo": data_splitted[1]}
    
    # Extrae el número de sesión
    num = int(data_splitted[2][5:])    
    data["numero"] = num
    
    # Extrae fecha - se queda como str para dejarlo a gusto del consumidor
    fecha = data_splitted[3][4:]
    data["fecha"] = fecha
    return data

extract_data(corpus[0]["datos"])

{'cámara': 'DS. Congreso de los Diputados',
 'organismo': ' Pleno y Dip. Perm.',
 'numero': 1,
 'fecha': '03/12/2019'}

Con estos datos ya podemos crear una estrutura tabular.

In [None]:
import pandas as pd
dataset_df = pd.DataFrame([extract_data(sesion["datos"]) | {"orden_interv":i, "name1": interv["name1"], "name2": interv["name2"], "texto":interv["texto"]} for sesion in corpus for i, interv in enumerate(sesion["intervenciones"])])
        

In [None]:
dataset_df.head()

Unnamed: 0,cámara,organismo,numero,fecha,orden_interv,name1,name2,texto
0,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,0,PRESIDENTE DE LA MESA DE EDAD,Zamarrón Moreno,"Señorías, se abre la sesión.\nEn virtud de lo..."
1,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,1,PRESIDENTE DE LA MESA DE EDAD,Zamarrón Moreno,De conformidad con lo dispuesto en el artícul...
2,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,2,SECRETARIA DE LA MESA DE EDAD,Rosique i Saltor,"Artículo 5 del Real Decreto 551/2019, de 24 d..."
3,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,3,PRESIDENTE DE LA MESA DE EDAD,Zamarrón Moreno,Las señoras secretarias de la Mesa procederán...
4,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,4,SECRETARIA DE LA MESA DE EDAD,Rosique i Saltor,"Junqueras i Vies, Oriol; Forn Chiariello, Joa..."


## Limpieza
Lo único que necesaitamos hacer es reemplazar los saltos de líneas por espacios.

In [None]:
dataset_df["texto"] = dataset_df["texto"].str.replace("\n", " ")
dataset_df.head()

Unnamed: 0,cámara,organismo,numero,fecha,orden_interv,name1,name2,texto
0,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,0,PRESIDENTE DE LA MESA DE EDAD,Zamarrón Moreno,"Señorías, se abre la sesión. En virtud de lo ..."
1,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,1,PRESIDENTE DE LA MESA DE EDAD,Zamarrón Moreno,De conformidad con lo dispuesto en el artícul...
2,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,2,SECRETARIA DE LA MESA DE EDAD,Rosique i Saltor,"Artículo 5 del Real Decreto 551/2019, de 24 d..."
3,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,3,PRESIDENTE DE LA MESA DE EDAD,Zamarrón Moreno,Las señoras secretarias de la Mesa procederán...
4,DS. Congreso de los Diputados,Pleno y Dip. Perm.,1,03/12/2019,4,SECRETARIA DE LA MESA DE EDAD,Rosique i Saltor,"Junqueras i Vies, Oriol; Forn Chiariello, Joa..."


In [None]:
dataset_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46062 entries, 0 to 46061
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   cámara        46062 non-null  object
 1   organismo     46062 non-null  object
 2   numero        46062 non-null  int64 
 3   fecha         46062 non-null  object
 4   orden_interv  46062 non-null  int64 
 5   name1         46062 non-null  object
 6   name2         11123 non-null  object
 7   texto         46062 non-null  object
dtypes: int64(2), object(6)
memory usage: 2.8+ MB


## Anexa partido

Los datos de los partidos se encuentran en dos archivos en formato de tabla extraídos de wikipedia.

A continuación se meustran las características que dispone. En nuestro caso solo necesitamos el nombre y el grupo político al que pertenece.

In [None]:
diputados = pd.read_csv("./dataset/Anexo_Diputados_de_la_XIV_legislatura_de_EspaB1a_2.csv")
diputados_baja = pd.read_csv("./dataset/Anexo_Diputados_de_la_XIV_legislatura_de_EspaB1a_causaronbaja.csv")

In [None]:
diputados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 355 entries, 0 to 354
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Nombre y apellidos  355 non-null    object 
 1   Grupo               0 non-null      float64
 2   Grupo.1             355 non-null    object 
 3   Lista               0 non-null      float64
 4   Lista.1             355 non-null    object 
 5   Circunscripción     355 non-null    object 
 6   Alta                355 non-null    object 
dtypes: float64(2), object(5)
memory usage: 19.5+ KB


In [None]:
diputados_baja.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Nombre y apellidos  41 non-null     object 
 1   Grupo               0 non-null      float64
 2   Grupo.1             41 non-null     object 
 3   Lista               0 non-null      float64
 4   Lista.1             41 non-null     object 
 5   Circunscripción     41 non-null     object 
 6   Alta                41 non-null     object 
 7   Baja                41 non-null     object 
 8   Sustituto/a         41 non-null     object 
dtypes: float64(2), object(7)
memory usage: 3.0+ KB


Une ambos conjuntos de datos.

In [None]:
diputados_df = pd.concat([diputados, diputados_baja])[["Nombre y apellidos", "Grupo.1", "Lista.1", "Circunscripción", "Alta", "Baja"]]

El nombre aparece en formato "nombre, apellido1 apellido2". Para curzar los datos necesitamos únicamente los apellidos.

In [None]:
diputados_df[["Apellidos", "Nombre"]] = diputados_df["Nombre y apellidos"].str.split(", ", expand=True)
diputados_df.drop(columns="Nombre y apellidos", inplace=True)

In [None]:
diputados_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 396 entries, 0 to 40
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Grupo.1          396 non-null    object
 1   Lista.1          396 non-null    object
 2   Circunscripción  396 non-null    object
 3   Alta             396 non-null    object
 4   Baja             41 non-null     object
 5   Apellidos        396 non-null    object
 6   Nombre           396 non-null    object
dtypes: object(7)
memory usage: 24.8+ KB


### Unión

Para unirlos se realiza las siguientes tareas:
- Se transofrma todo a mayúsculas.
- Se utiliza name2 si no es nulo, en tal caso se utiliza name1.
- Se curzan mediante Leftjoin

In [None]:
# Si name2 es nulo, lo sustituimos por name1

dataset_df['name2'] = dataset_df['name2'].fillna(dataset_df['name1'])

# Mayus
dataset_df["name2"] = dataset_df["name2"].str.upper()

diputados_df["Apellidos"] = diputados_df["Apellidos"].str.upper()

In [None]:
merged_partidos_name2 = dataset_df.merge(diputados_df, how="left", left_on="name2", right_on="Apellidos")

In [None]:
merged_partidos_name2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 46859 entries, 0 to 46858
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   cámara           46859 non-null  object
 1   organismo        46859 non-null  object
 2   numero           46859 non-null  int64 
 3   fecha            46859 non-null  object
 4   orden_interv     46859 non-null  int64 
 5   name1            46859 non-null  object
 6   name2            46859 non-null  object
 7   texto            46859 non-null  object
 8   Grupo.1          26519 non-null  object
 9   Lista.1          26519 non-null  object
 10  Circunscripción  26519 non-null  object
 11  Alta             26519 non-null  object
 12  Baja             1400 non-null   object
 13  Apellidos        26519 non-null  object
 14  Nombre           26519 non-null  object
dtypes: int64(2), object(13)
memory usage: 5.7+ MB


De las 48000 intervenciones, solo ha podido cruzar unas 26000. Pese a los erroes, el número de itnervenciones es suficiente. La mayoría de los cruces erróneos son de la presidenta del congreso.

In [None]:
errores = merged_partidos_name2[merged_partidos_name2["Grupo.1"].isna()]

In [None]:
errores["name2"].value_counts()

PRESIDENTA              18687
CALVIÑO SANTAMARÍA        308
BOLAÑOS GARCÍA            140
DARIAS SAN SEBASTIÁN      105
ESCRIVÁ BELMONTE           95
                        ...  
LEGARDE URIARTE             1
QUEVEDO IBURBE              1
GRANDE MARLASKA             1
ROMANÍ CANTERA              1
ÁNGULO ROMERO               1
Name: name2, Length: 229, dtype: int64

## Selección

Se va a tratar de seleccionar las intervenciones que van a ser objeto de estudio posteriormente. También se seleciconar un subconjunto de los campos.

### Selección de campos

Dejamos las columnas que nos interesan:
- Número de intervención
- Fecha de la sesion
- Nombre del parlamentario
- Grupo del parlamentario.
- Número de palabras de la intervención.

In [None]:
dataset_df = merged_partidos_name2[["numero", "fecha", "name2", "Grupo.1", "texto"]].rename(columns={"name2":"apellidos", "Grupo.1":"grupo"})
dataset_df["fecha"] = pd.to_datetime(dataset_df["fecha"], format="%d/%m/%Y")

### Selección de intervenciones

Se van a seleccionar únicamente las intervenciones de los siguientes partidos:
- PSOE
- Popular
- Vox
- Unidas Podemos
- ERC
- PNV

Se utiliza el nombre del grupo parlamentario, en lugar del partido. Por lo que vamos a sustituirlo por nombres o siglas conocidas.

In [None]:
dataset_df = dataset_df.replace(
    {"Confederal de Unidas Podemos-\nEn Comú Podem-Galicia en Común":"UP",
     "Vasco (EAJ-PNV)": "PNV",
    "Popular":"PP",
    "Socialista":"PSOE", 
     "Republicano":"ERC"})


dataset_df = dataset_df[dataset_df["grupo"].isin(["UP", "PNV", "PP", "PSOE", "ERC", "Vox"])]
dataset_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19773 entries, 0 to 46853
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   numero     19773 non-null  int64         
 1   fecha      19773 non-null  datetime64[ns]
 2   apellidos  19773 non-null  object        
 3   grupo      19773 non-null  object        
 4   texto      19773 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 926.9+ KB


### Excluir mesa del congreso

Si comprobamos el número de intervenciones por parlamentario, podemos ver que hay algunos con una gran cantidad de intervencioens (pej. Gomez de Celis). Esto es debido a que es vicepresidente del congreso y se ha cargado como diputado de su partido. 

Se prescinde de las intervenciones de todos los compnentes de la mesa del congreso. estos son:

- Batet Lamaña, Meritxell 
- Rodríguez Gómez de Celis, Alfonso
- Pastor Julián, Ana María
- Elizo Serrano, María Gloria 
- Gil Lázaro, Ignacio
- Pisarello Prados, Gerardo 
- Hernanz Costa, Sofía 
- Sánchez Serna, Javier 
- Navarro Lacoba, Carmen

In [None]:
componentes_mesa=[ "BATET LAMAÑA",
                  "RODRÍGUEZ GÓMEZ DE CELIS",
                  "PASTOR JULIÁN",
                  "ELIZO SERRANO",
                  "GIL LÁZARO",
                  "PISARELLO PRADOS",
                  "HERNANZ COSTA",
                  "SÁNCHEZ SERNA",
                  "NAVARRO LACOBA",
                 "ZAMARRÓN MORENO" ]

dataset_df_sin_mesa = dataset_df[~dataset_df["apellidos"].isin(componentes_mesa)]
dataset_df_sin_mesa.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12084 entries, 2 to 46853
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   numero     12084 non-null  int64         
 1   fecha      12084 non-null  datetime64[ns]
 2   apellidos  12084 non-null  object        
 3   grupo      12084 non-null  object        
 4   texto      12084 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 566.4+ KB


## Análisis del corpus

En esta sección se muestran algunas estadísticas básicas del corpus.

In [None]:
# Config

import altair as alt
alt.data_transformers.enable('default', max_rows=None)

color_domain = ['ERC', 'PNV', 'PP', 'PSOE', 'UP', 'Vox']
color_range = ['#fbc259', '#426938', '#1e4b8f', '#e30713', '#693065', '#5ac036']

#### Número de palabras

In [None]:
nwords = pd.DataFrame({"grupo": corpus["grupo"],
                       "fecha":corpus["fecha"],
                       "n_words":corpus["texto"].str.count(pat = r"(?u)\b\w\w+\b")})

nwords["n_words"].sum()

6799086

#### Palabras por intervención

In [None]:
print(f"Palabras/intervención: {nwords['n_words'].mean()} (std: {nwords['n_words'].std()})")

Palabras/intervención: 562.6519364448858 (std: 705.1843761669896)


In [None]:
alt.Chart(nwords).mark_bar().encode(
    x=alt.X("n_words:Q"),
    y='count():Q',
).properties(width=600, height=150)

#### Intervenciones por partido

In [None]:
corpus = dataset_df_sin_mesa

ninterv = corpus.groupby("grupo").count().reset_index()[["grupo", "texto"]].rename(columns={"texto":"count"}).sort_values("count")
ninterv["percent"]=(100*ninterv["count"]/ninterv["count"].sum()).round(2)
ninterv

Unnamed: 0,grupo,count,percent
1,PNV,960,7.94
0,ERC,1024,8.47
4,UP,1807,14.95
5,Vox,2090,17.3
2,PP,2648,21.91
3,PSOE,3555,29.42


In [None]:
base = alt.Chart(ninterv, title="Intervenciones por partido").encode(
    theta=alt.Theta("count:Q", stack=True, sort="descending"),
    radius=alt.Radius("count:Q", scale=alt.Scale(type="sqrt", zero=True, rangeMin=10)),
    #color=alt.Color("grupo:N"),
    order=alt.Order("count:Q", sort="descending"),
    color=alt.Color("grupo:N", scale=alt.Scale(domain=color_domain,range=color_range)).legend(None),
)

c_ip1 = base.mark_arc(innerRadius=40, stroke="#fff").properties(width=400, height=400)

c_ip2 = base.mark_text(radiusOffset=40, lineBreak=r'\n', color="black").transform_calculate(
    label= alt.datum.grupo + "\\n" + alt.datum.count + "(" + alt.datum.percent + "%)"
    ).encode(text="label:N")

c_ip3 = alt.Chart(ninterv).mark_text(fontSize=16,lineBreak=r'\n').encode(
    text="total:Q"
).transform_joinaggregate(
    total="sum(count):Q"
).transform_calculate(
    label= "TOTAL\\n" + alt.datum.total
)

c_ip = c_ip1 + c_ip2 + c_ip3
c_ip

#### Intervenciones en el tiempo

In [None]:
ninterv_fecha = corpus.groupby("fecha").count().reset_index().rename(columns={"texto":"count"})
ninterv_fecha

Unnamed: 0,fecha,numero,apellidos,grupo,count
0,2019-12-03,7,7,7,7
1,2020-01-04,24,24,24,24
2,2020-01-05,20,20,20,20
3,2020-01-07,18,18,18,18
4,2020-02-04,37,37,37,37
...,...,...,...,...,...
234,2023-02-15,72,72,72,72
235,2023-02-16,38,38,38,38
236,2023-02-21,31,31,31,31
237,2023-02-22,71,71,71,71


In [None]:
base = alt.Chart(ninterv_fecha, title="Intervenciones al mes").encode(
    x=alt.X('month(fecha):T', title="mes"),
    y=alt.Y('sum(count):Q', title="nº intervenciones"),
    color=alt.Color('year(fecha):N', title="año")
).properties(
    width=600,
    height=100
)




f1 = base.mark_area(interpolate="linear", opacity=0.6, line={"size":0.5}).properties(width=500, height=200)


f1

## Guardar

In [None]:
corpus.to_csv("dataset/corpus.csv")