# **Gestión de Datos**

## Práctica 3: Anonimización 

*Autores: Pablo López Perez y Daniel Beteta Francisco*

# **0. Librerías utilizadas**

In [None]:
import re

import pandas as pd
import numpy as np

from tabulate import tabulate
from google.colab import drive

In [None]:
drive.mount("/content/drive", force_remount=True)

Mounted at /content/drive


# **1. Explicación anonimización**

Para poder realizar la práctica se debe conocer como están anonimizados los datos. Para ello, se ha buscado información en el mismo lugar de donde se descargaron los datos. Así, los datos están ordenados por bloques diferentes, a los cuales les pertenecen una serie de columnas. La información se ordena de manera que en cada fila solo coinciden para la misma persona aquellos datos que estan dentro del mismo bloque, es decir, por ejemplo si en al bloque 1 pertenecen _des_universidad_ y _anio_ esos datos en cada fila serán de la misma persona mientras que los demás pertenecen a personas diferentes.

# **2. Análisis previo**

En primer lugar, lo que se ha hecho es identificar los bloques que componen el total de columnas del conjunto de datos. Tras ello, se han eliminado aquellas columnas que empiezan por: "cod_", "lat_" o "lon_", como se dice que se haga en el enunciando. Y por último, se ha buscado información identificativa del profesor Ortigosa de forma que se conozca, al menos, el valor de una fila de cada uno de los subconjuntos de columnas. Para mostrar la información hallada se han escrito todos los bloques y las variables que presenta cada uno y, después, entre corchetes se ha indicado la información encontrada. Para hallarla se han utilizado los siguientes links:


*   https://portalcientifico.uam.es/es/ipublic/researcher/261195
*   https://www.icfs-uam.es/miembros/
*   https://atip.es/wp-content/uploads/2018/06/Programa-EAI_2018-2019.pdf
*   https://www.linkedin.com/in/alvaroortigosa/





Bloque 1:
  - des_universidad [Universidad Aútonoma de Madrid]
  - anio [2020]

Bloque 2:
  - des_pais_nacionalidad [Argentina]
  - des_continente_nacionalidad
  - des_agregacion_paises_nacionalidad

Bloque 3:
  - des_comunidad_residencia [Madrid]
  - des_provincia_residencia
  - des_municipio_residencia

Bloque 4:
  - anio_nacimiento [1969] (Ya que empezó la universidad en el 1987)

Bloque 5:
  - des_tipo_personal 
  - des_categoria_cuerpo_escala [Profesor Contratado Doctor]
  - des_tipo_contrato
  - des_dedicacion
  - num_horas_semanales_tiempo_parcial
  - des_situacion_administrativa

Bloque 6:
  - ind_cargo_remunerado [Sí]

Bloque 7:
  - des_titulo_doctorado
  - des_pais_doctorado [España]
  - des_continente_doctorado [Europa]
  - des_agregacion_paises_doctorado
  - des_universidad_doctorado [Universidad Autónoma de Madrid]
  - anio_lectura_tesis [2000] (Web)
  - anio_expedicion_titulo_doctor
  - des_mencion_europea

Bloque 8:
  - des_tipo_unidad_responsable
  - des_area_conocimiento [Lenguajes y Sistemas Informáticos]

Bloque 9:
  - anio_incorporacion_ap
  - anio_incorpora_cuerpo_docente [2001]
  - num_trienios
  - num_quinquenios
  - num_sexenios

Bloque 10:
  - num_tesis [3]

Bloque 11:
  - ind_investigador_principal [Sí]

# **3. Preparación de los datos**

Una vez ya con la información oportuna, ha sido necesario realizar una preparación de los datos para facilitar los posteriores cálculos. Para ello, primero se han obtenido el dataset y después se han desechado aquellas columnas que se deben ignorar (indicadas en el enunciado de la práctica). Para ello:

#### Obtención de los datos

In [None]:
df = pd.read_csv("/content/drive/My Drive/GD/uam-personal-pdi-2020-anonimizado.csv")

df.head()

Unnamed: 0,IMPORTANTE,cod_universidad,des_universidad,anio,cod_pais_nacionalidad,des_pais_nacionalidad,lat_pais_nacionalidad,lon_pais_nacionalidad,cod_continente_nacionalidad,des_continente_nacionalidad,...,des_unidad_responsable,cod_area_conocimiento,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal
0,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,,,7,4,1,,S
1,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,1996.0,2003.0,7,4,2,,N
2,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,,,5,3,0,,N
3,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,,,11,5,0,,N
4,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,,,0,0,0,1.0,N


#### Desechar columnas no deseadas

In [None]:
list_not_desired_columns = [
  column for column in df.columns if re.match(r"(cod_|lat_|lon_)[A-Za-z_]*", column)
]

list_not_desired_columns.append("IMPORTANTE")

df.drop(list_not_desired_columns, axis=1, inplace=True)

df.head()

Unnamed: 0,des_universidad,anio,des_pais_nacionalidad,des_continente_nacionalidad,des_agregacion_paises_nacionalidad,des_comunidad_residencia,des_provincia_residencia,des_municipio_residencia,des_genero,anio_nacimiento,...,des_tipo_unidad_responsable,des_unidad_responsable,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal
0,Universidad Autónoma de Madrid,2020,España,Europa,Europa meridional,Madrid,Madrid,TRES CANTOS,Mujer,1991,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,,,7,4,1,,S
1,Universidad Autónoma de Madrid,2020,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,1963,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,1996.0,2003.0,7,4,2,,N
2,Universidad Autónoma de Madrid,2020,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,1963,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,,,5,3,0,,N
3,Universidad Autónoma de Madrid,2020,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,1987,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,,,11,5,0,,N
4,Universidad Autónoma de Madrid,2020,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,1976,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,,,0,0,0,1.0,N


Después se ha creado un diccionario en el que se incluirá toda aquella información que se sabía previamente. Esta es la siguiente:

In [None]:
DICT_KNOWN_VALUES = {
    "des_universidad": "Universidad Autónoma de Madrid",
    "anio": 2020,
    "des_pais_nacionalidad": "Argentina",
    "des_comunidad_residencia": "Madrid",
    "anio_nacimiento": 1969,
    "des_categoria_cuerpo_escala": "Profesor Contratado Doctor",
    "ind_cargo_remunerado": "S",
    "des_pais_doctorado": "España",
    "des_continente_doctorado": "Europa",
    "des_universidad_doctorado": "Universidad Autónoma de Madrid",
    "anio_lectura_tesis": 2000,
    "des_area_conocimiento": "Lenguajes y Sistemas Informáticos",
    "anio_incorpora_cuerpo_docente": 2001,
    "num_tesis": 3,
    "ind_investigador_principal": "S"
}

for key, value in DICT_KNOWN_VALUES.items():
   set_of_values = set(df[key])
   if value not in set_of_values:
     print("Key {} or value {} not found in DataFrame".format(key, value))

Además, también se ha creado una variable que incluyese los nombres de las columnas por bloques.

In [None]:
LIST_COLUMNS_PER_BLOCK = [
    ["des_universidad", 
     "anio"],
    
    ["des_pais_nacionalidad", 
     "des_continente_nacionalidad", 
     "des_agregacion_paises_nacionalidad"],

    ["des_comunidad_residencia",
     "des_provincia_residencia",
     "des_municipio_residencia"],

    ["anio_nacimiento"],

    ["des_tipo_personal",
     "des_categoria_cuerpo_escala",
     "des_tipo_contrato",
     "des_dedicacion",
     "num_horas_semanales_tiempo_parcial",
     "des_situacion_administrativa"],

    ["ind_cargo_remunerado"],

    ["des_titulo_doctorado",
     "des_pais_doctorado",
     "des_continente_doctorado",
     "des_agregacion_paises_doctorado",
     "des_universidad_doctorado",
     "anio_lectura_tesis",
     "anio_expedicion_titulo_doctor",
     "des_mencion_europea"],

    ["des_tipo_unidad_responsable",
     "des_area_conocimiento"],

    ["anio_incorporacion_ap",
     "anio_incorpora_cuerpo_docente",
     "num_trienios",
     "num_quinquenios",
     "num_sexenios"],

    ["num_tesis"],

    ["ind_investigador_principal"]
]

for columns_per_block in LIST_COLUMNS_PER_BLOCK: 
   for column in columns_per_block:
     if column not in df.columns:
      print("Column: {}, not found in DataFrame".format(column))

# **3. Cálculo de las probabilades condicionadas**

Un a vez se tienen los datos preparados ya se puede realizar el código que resolviese las probabilidades condicionadas, es decir, las inferencias requeridas. Hay que destacar que para los datos ya conocidos no es necesario calcularlo ya que esa información es del 100% puesto que es conocida y segura.

Por otra parte, hay que decir que lo que se ha realizado para todos los bloques y variables es calcular su probabilidad condicionada respecto al número de filas que corresponden con la información conocida. Esto quiere decir que se calculará la probabilidad condicionada con la condición de que esas filas pertenecen a los datos sabidos. Tambien cabe destacar que estas probabilidades se hacen por los datos conocidos por bloque y no para el dataset completo.

Por tanto, aquí tenemos el código escrito:

In [None]:
dict_conditional_probabilities = dict()

for columns_per_block in LIST_COLUMNS_PER_BLOCK: 
  # Get columns of the current block
  df_per_block = df[columns_per_block]

  # Remove rows that does not satisfies the known information
  for column_name, value in DICT_KNOWN_VALUES.items():
    if column_name in df_per_block.columns:
      df_per_block = df_per_block[df_per_block[column_name]==value] 
  amount_rows_per_block = df_per_block.shape[0]

  # Get the columns to infer
  columns_to_infer = [
      column for column in columns_per_block 
      if column not in list(DICT_KNOWN_VALUES.keys())
  ]

  # Get the value of maximum conditional_probability per column to infer
  for column_to_infer in columns_to_infer:
      dict_of_apperances = dict(df_per_block[column_to_infer].value_counts())
      if dict_of_apperances:
        row_value, apperance = sorted(
            dict_of_apperances.items(), key=lambda kv: -kv[1]
        )[0]
      conditional_probability = round(apperance / amount_rows_per_block, 1) * 100
      statement =  "{} con una probabilidad del {}%".format(row_value, conditional_probability)
      dict_conditional_probabilities[column_to_infer] = statement

# Bring together known and infered info
all_info_dict = dict()
for columns_per_block in LIST_COLUMNS_PER_BLOCK:
  for column_per_block in columns_per_block:
    value = DICT_KNOWN_VALUES.get(column_per_block)
    if value:
      all_info_dict[column_per_block] = value
    else:
      all_info_dict[column_per_block] = dict_conditional_probabilities[column_per_block]

En la siguiente tabla se encontrarán los datos relacionados con las inferencias realizadas. Los datos en los que no aparece ningun porcentaje pertenecen a aquellos datos que ya se conocían previamente.

In [None]:
all_info_list = [[k, v] for k, v in all_info_dict.items()]

print(tabulate(all_info_list, headers=["Column name", "Value"], tablefmt='fancy_grid'))

╒════════════════════════════════════╤══════════════════════════════════════════════════════════════╕
│ Column name                        │ Value                                                        │
╞════════════════════════════════════╪══════════════════════════════════════════════════════════════╡
│ des_universidad                    │ Universidad Autónoma de Madrid                               │
├────────────────────────────────────┼──────────────────────────────────────────────────────────────┤
│ anio                               │ 2020                                                         │
├────────────────────────────────────┼──────────────────────────────────────────────────────────────┤
│ des_pais_nacionalidad              │ Argentina                                                    │
├────────────────────────────────────┼──────────────────────────────────────────────────────────────┤
│ des_continente_nacionalidad        │ Américas con una probabilidad del 100.0%   