## Práctica 1: Datos personales y anonimización

**Utilizando los datos recogidos en el fichero de datos abiertos de PDI de la UAM correspondiente al año 2022, realizar, para cada campo del fichero exceptuando aquellos cuyo nombre empieza por "cod_", "lat_" y "lon_", lo siguiente:**

* **Inferir el valor más probable de cada campo para el caso del profesor Ortigosa.**

* **Calcular el nivel de certeza (%) de que cada valor inferido corersponda realmente al profesor Ortigosa.**

* **Una breve descripción de infrencia utilizado en cada caso.**

#### Datos de partida y condiciones
Aseguramos que:
* El profesor Ortigosa estaba en 2022 en la UAM (aparece en el fichero).
* El profesor Ortigosa era de género masculino en 2022.
* El profesor Ortigosa pertenecía al Departamento de Ingeniería Informática en 2022.
* Puede utilizarse para el ejercicio cualquier otra información que se pueda obtener por cualquier vía adicional, pero debe especificarse claramente en la respuesta tanto la información usada como su origen.

In [1]:
!pip install pandas



In [2]:
import pandas as pd
import numpy as np
import os

In [3]:
csv_name = "uam-personal-pdi-2022-anonimizado.csv"

df = pd.read_csv(os.path.join(os.curdir, csv_name))
df = df.loc[:, ~df.columns.str.startswith(("cod_", "lat_", "lon_"))]

df

Unnamed: 0,IMPORTANTE,des_universidad,anio,des_pais_nacionalidad,des_continente_nacionalidad,des_agregacion_paises_nacionalidad,des_comunidad_residencia,des_provincia_residencia,des_municipio_residencia,des_genero,...,des_tipo_unidad_responsable,des_unidad_responsable,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal
0,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,,,7,4,1,,N
1,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,FUENLABRADA,Mujer,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,1996.0,2003.0,8,4,2,,S
2,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,,,12,5,0,,N
3,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,,,6,3,2,,N
4,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,...,Departamento,"Departamento de Educación Física, Deporte y Mo...",Didáctica de la Expresión Corporal,1986.0,2000.0,12,4,3,,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2634,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,...,Departamento,,,1984.0,1988.0,12,6,5,,N
2635,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Islas Baleares,Illes Balears,PALMA,Hombre,...,No consta,,,1971.0,1985.0,12,0,0,,N
2636,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,No consta,,,1987.0,2000.0,6,3,2,,N
2637,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Mujer,...,No consta,,,,,0,0,0,,N


In [4]:
# Primero tenemos que ver donde hay valores de NaN para tenerlos en cuenta de aquí en adelante
columnas_nan = [col for col in df.columns if df[col].isna().any()]
print(columnas_nan)

['des_comunidad_residencia', 'des_provincia_residencia', 'des_municipio_residencia', 'num_horas_semanales_tiempo_parcial', 'des_titulo_doctorado', 'des_pais_doctorado', 'des_continente_doctorado', 'des_agregacion_paises_doctorado', 'des_universidad_doctorado', 'anio_lectura_tesis', 'anio_expedicion_titulo_doctor', 'des_mencion_europea', 'des_unidad_responsable', 'des_area_conocimiento', 'anio_incorporacion_ap', 'anio_incorpora_cuerpo_docente', 'num_tesis']


In [5]:
# Utilizamos las variables pivote (Género y Unidad responsable) para realizar un filtrado inicial de los datos
# No hemos considerado los NaN para des_unidad_responsable ya que viene en el enunciado que el profesor pertenece a dicho grupo por lo que se espera que dicho valor no sea un NaN

df_var_piv = df[(df['des_genero'] == "Hombre") & \
                (df['des_unidad_responsable'] == "Departamento de Ingeniería Informática")]

df_var_piv                           

Unnamed: 0,IMPORTANTE,des_universidad,anio,des_pais_nacionalidad,des_continente_nacionalidad,des_agregacion_paises_nacionalidad,des_comunidad_residencia,des_provincia_residencia,des_municipio_residencia,des_genero,...,des_tipo_unidad_responsable,des_unidad_responsable,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal
207,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,2003.0,2021.0,5,3,2,,N
208,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,Italia,Europa,Europa meridional,Madrid,Madrid,ALCOBENDAS,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,0,0,0,,N
209,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,1999.0,2005.0,7,5,4,,S
210,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,COLMENAR VIEJO,Hombre,...,Departamento,Departamento de Ingeniería Informática,Ciencia de la Computación e Inteligencia Artif...,,,0,0,0,,N
211,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Ciencia de la Computación e Inteligencia Artif...,1995.0,2002.0,8,5,4,,S
212,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,COLMENAR VIEJO,Hombre,...,Departamento,Departamento de Ingeniería Informática,Ciencia de la Computación e Inteligencia Artif...,1982.0,1985.0,13,6,5,,N
213,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,0,0,0,,N
214,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Ciencia de la Computación e Inteligencia Artif...,,,4,1,0,,N
215,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,SAN SEBASTIÁN DE LOS REYES,Hombre,...,Departamento,Departamento de Ingeniería Informática,Ciencia de la Computación e Inteligencia Artif...,,,1,0,0,,S
216,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,2,1,0,,N


In [6]:
# El bloque 1 (Universidad y año del conjunto de datos) no nos aporta información relevante.
# El bloque 2 (Nacionalidad) tampoco nos aporta información relevante.
# El bloque 3 (Residencia) tampoco nos aporta información relevante.
# El bloque 4 (Año nacimiento) no se puede utilizar.
# El bloque 5 (Contrato actual) no lo hemos utilizado.
# El bloque 6 (Cargo remunerado) no se puede utilizar.
# El bloque 7 (Doctorado):

df_blq7 = df_var_piv[((df_var_piv['des_titulo_doctorado'] == "Uno") | (df_var_piv['des_titulo_doctorado'].isna())) & \
                     ((df_var_piv['des_pais_doctorado'] == "España") | (df_var_piv['des_pais_doctorado'].isna())) & \
                     ((df_var_piv['des_continente_doctorado'] == "Europa") | (df_var_piv['des_continente_doctorado'].isna())) & \
                     ((df_var_piv['des_agregacion_paises_doctorado'] == "Europa meridional") | (df_var_piv['des_agregacion_paises_doctorado'].isna())) & \
                     ((df_var_piv['anio_lectura_tesis'] == 2000) | (df_var_piv['anio_lectura_tesis'].isna()))\
                    ]

df_blq7

Unnamed: 0,IMPORTANTE,des_universidad,anio,des_pais_nacionalidad,des_continente_nacionalidad,des_agregacion_paises_nacionalidad,des_comunidad_residencia,des_provincia_residencia,des_municipio_residencia,des_genero,...,des_tipo_unidad_responsable,des_unidad_responsable,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal
213,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,0,0,0,,N
216,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,2,1,0,,N
222,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Ciencia de la Computación e Inteligencia Artif...,,,3,1,1,,N
234,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,Irán (República Islámica del),Asia,Asia meridional,Madrid,Madrid,COLMENAR VIEJO,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,9,2,0,,N
237,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Valencia,Valencia/València,VALÈNCIA,Hombre,...,Departamento,Departamento de Ingeniería Informática,Ciencia de la Computación e Inteligencia Artif...,1998.0,2012.0,8,4,4,,N
241,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,8,2,0,,N
248,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,SAN SEBASTIÁN DE LOS REYES,Hombre,...,Departamento,Departamento de Ingeniería Informática,Ciencia de la Computación e Inteligencia Artif...,,,2,1,0,,N
255,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,Irlanda,Europa,Europa septentrional,Madrid,Madrid,COLMENAR VIEJO,Hombre,...,Departamento,Departamento de Ingeniería Informática,Ciencia de la Computación e Inteligencia Artif...,2005.0,2019.0,5,1,4,,N
261,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,ALCORCÓN,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,3,0,0,,S


In [7]:
# El bloque 8 (Departamento):

df_blq8 = df_blq7[(df_blq7['des_tipo_unidad_responsable'] == "Departamento") & \
                  ((df_blq7['des_area_conocimiento'] == "Lenguajes y Sistemas Informáticos") | \
                   (df_blq7['des_area_conocimiento'].isna()))
                   ]

df_blq8

Unnamed: 0,IMPORTANTE,des_universidad,anio,des_pais_nacionalidad,des_continente_nacionalidad,des_agregacion_paises_nacionalidad,des_comunidad_residencia,des_provincia_residencia,des_municipio_residencia,des_genero,...,des_tipo_unidad_responsable,des_unidad_responsable,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal
213,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,0,0,0,,N
216,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,2,1,0,,N
234,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,Irán (República Islámica del),Asia,Asia meridional,Madrid,Madrid,COLMENAR VIEJO,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,9,2,0,,N
241,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,MADRID,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,8,2,0,,N
261,LOS DATOS DE ESTA FILA NO CORRESPONDEN A UN SÓ...,Universidad Autónoma de Madrid,2022,España,Europa,Europa meridional,Madrid,Madrid,ALCORCÓN,Hombre,...,Departamento,Departamento de Ingeniería Informática,Lenguajes y Sistemas Informáticos,,,3,0,0,,S


In [8]:
# El bloque 9 (Cuerpo docente e investigador): 

df_blq9 = df_blq7[((df_blq7['anio_incorpora_cuerpo_docente'] == 2001) | (df_blq7['anio_incorpora_cuerpo_docente'].isna())) & \
                  (df_blq7['num_sexenios'] == 3) | (df_blq7['num_sexenios'].isna())]

df_blq9

# En algún lado la he liado porque no hay ninguno con esos requisitos 
# Pero tenemos información suficiente creo yo para encontrarlo con bastante bastante seguridad
# Sospecho que sea que se incorpora al cuerpo docente en otro año pero no sé seguro

Unnamed: 0,IMPORTANTE,des_universidad,anio,des_pais_nacionalidad,des_continente_nacionalidad,des_agregacion_paises_nacionalidad,des_comunidad_residencia,des_provincia_residencia,des_municipio_residencia,des_genero,...,des_tipo_unidad_responsable,des_unidad_responsable,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal


In [9]:
# El bloque 10 (Número de tesis) no se puede utilizar.
# El bloque 11 (Investigador principal) no se puede utilizar.
# Los bloques que no se pueden utilizar PARA FILTRAR sí se pueden utilizar para luego inferir información de probabilidad de nacionalidad, residencia, ...
# El bloque 5 no lo hemos utilizdo ya que de momento no he encontrado información y tampoco sé si podremos.