In [None]:
import pandas as pd

Utilizando los datos recogidos en el fichero de datos abiertos de PDI de la UAM correspondiente al año 2020, se realiza, para cada campo del fichero exceptuando aquellos cuyo nombre empieza por "cod_" "lat_" y "lon_", lo siguiente:
* Inferir el valor más probable de cada campo para el caso del profesor Ortigosa
* Calcular el nivel de certeza (%) de que cada valor inferido corresponda realmente al profesor Ortigosa
* Una breve descripción del proceso de inferencia utilizado en cada caso


Para ello, se asegura que:
* El profesor Ortigosa estaba en 2020 en la UAM (=aparece en el fichero)
* El profesor Ortigosa era de género masculino en 2020
* El profesor Ortigosa pertenecía al Departamento de Ingeniería Informática en 2020


Las fuentes externas utilizadas para inferir información sobre Ortigosa son:
1. [https://portalcientifico.uam.es/ipublic/agent-personal/profile/iMarinaID/04-261195](https://portalcientifico.uam.es/ipublic/agent-personal/profile/iMarinaID/04-261195)
2. [https://es.linkedin.com/in/alvaroortigosa](https://es.linkedin.com/in/alvaroortigosa)
3. [https://ieeexplore.ieee.org/author/37668186700](https://ieeexplore.ieee.org/author/37668186700)
4. [https://app.dimensions.ai/discover/publication?and_facet_researcher=ur.010005224621.17](https://app.dimensions.ai/discover/publication?and_facet_researcher=ur.010005224621.17)

$\textbf{Preprocesamiento de los datos}$

Importamos los datos de la UAM y eliminamos la columna de "importantes" ya que no es necesaria para el análisis.

In [None]:
datos = pd.read_csv("uam-personal-pdi-2020-anonimizado.csv")
datos = datos.drop(columns=["IMPORTANTE"])
datos

Unnamed: 0,cod_universidad,des_universidad,anio,cod_pais_nacionalidad,des_pais_nacionalidad,lat_pais_nacionalidad,lon_pais_nacionalidad,cod_continente_nacionalidad,des_continente_nacionalidad,cod_agregacion_paises_nacionalidad,...,des_unidad_responsable,cod_area_conocimiento,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal
0,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,,,7,4,1,,S
1,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,1996.0,2003.0,7,4,2,,N
2,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,,,5,3,0,,N
3,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,,,11,5,0,,N
4,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,"Departamento de Educación Física, Deporte y Mo...",187.0,Didáctica de la Expresión Corporal,,,0,0,0,1.0,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2598,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,,,,1977.0,1986.0,14,6,6,,S
2599,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,,,,1971.0,1985.0,12,0,0,,N
2600,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,,,,1987.0,2000.0,6,3,2,,N
2601,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,,,,,,0,0,0,,N


Debido a la información aportada en el proceso de anonimización por la UAM, sabemos que la variables pivote son des_unidad_responsable y des_genero, y conocemos los valores de Ortigosa para ambos campos, esto es:

- Departamento de Ingeniería Informática

- Hombre

In [None]:
datos_ortigosa = datos.loc[(datos['des_unidad_responsable'] == 'Departamento de Ingeniería Informática') & (datos['des_genero']=='Hombre')]
datos_ortigosa

Unnamed: 0,cod_universidad,des_universidad,anio,cod_pais_nacionalidad,des_pais_nacionalidad,lat_pais_nacionalidad,lon_pais_nacionalidad,cod_continente_nacionalidad,des_continente_nacionalidad,cod_agregacion_paises_nacionalidad,...,des_unidad_responsable,cod_area_conocimiento,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal
200,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,Departamento de Ingeniería Informática,75.0,Ciencia de la Computación e Inteligencia Artif...,,,1,0,0,,N
201,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,Departamento de Ingeniería Informática,75.0,Ciencia de la Computación e Inteligencia Artif...,1995.0,1999.0,8,4,2,,N
202,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,Departamento de Ingeniería Informática,75.0,Ciencia de la Computación e Inteligencia Artif...,,,6,3,4,,N
203,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,Departamento de Ingeniería Informática,75.0,Ciencia de la Computación e Inteligencia Artif...,,,7,0,0,,N
204,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,Departamento de Ingeniería Informática,75.0,Ciencia de la Computación e Inteligencia Artif...,1998.0,2012.0,7,4,3,,N
205,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,Departamento de Ingeniería Informática,570.0,Lenguajes y Sistemas Informáticos,,,3,1,1,,N
206,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,Departamento de Ingeniería Informática,75.0,Ciencia de la Computación e Inteligencia Artif...,,,0,0,0,,N
207,23,Universidad Autónoma de Madrid,2020,380,Italia,41.87194,12.56738,150,Europa,39,...,Departamento de Ingeniería Informática,570.0,Lenguajes y Sistemas Informáticos,,,1,0,0,,N
208,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,Departamento de Ingeniería Informática,75.0,Ciencia de la Computación e Inteligencia Artif...,1997.0,2006.0,7,2,4,,N
209,23,Universidad Autónoma de Madrid,2020,724,España,40.463667,-3.74922,150,Europa,39,...,Departamento de Ingeniería Informática,570.0,Lenguajes y Sistemas Informáticos,2005.0,2019.0,5,1,4,,N


A continuación, se inferirá el valor más probable de cada campo utilizando información del propio dataset (sacando las distintas frecuencias relativas) y utilizando distintas fuentes externas. Dado que las permutaciones en el proceso de anonimización se mantienen para cada bloque, la confianza de inferir el valor más probable dependerá del resto de campos que pertenezcan al mismo bloque.

In [None]:
bloques = {1:['des_universidad','anio'],
           2:['des_pais_nacionalidad','des_continente_nacionalidad', 'des_agregacion_paises_nacionalidad'],
           3:['des_comunidad_residencia','des_provincia_residencia', 'des_municipio_residencia'],
           4:['anio_nacimiento'],
           5:['des_tipo_personal', 'des_categoria_cuerpo_escala', 'des_tipo_contrato', 'des_dedicacion', 'num_horas_semanales_tiempo_parcial', 'des_situacion_administrativa'],
           6:['ind_cargo_remunerado'],
           7:['des_titulo_doctorado', 'des_pais_doctorado', 'des_continente_doctorado', 'des_agregacion_paises_doctorado', 'des_universidad_doctorado', 'anio_lectura_tesis', 'anio_expedicion_titulo_doctor', 'des_mencion_europea'],
           8:['des_tipo_unidad_responsable', 'des_area_conocimiento'],
           9:['anio_incorporacion_ap', 'anio_incorpora_cuerpo_docente', 'num_trienios', 'num_quinquenios', 'num_sexenios'],
          10:['num_tesis'],
          11:['ind_investigador_principal']}

$\textbf{Bloque 1}$

In [None]:
bloque_1 = datos_ortigosa[bloques[1]]
bloque_1.head()

Unnamed: 0,des_universidad,anio
200,Universidad Autónoma de Madrid,2020
201,Universidad Autónoma de Madrid,2020
202,Universidad Autónoma de Madrid,2020
203,Universidad Autónoma de Madrid,2020
204,Universidad Autónoma de Madrid,2020


In [None]:
bloque_1.value_counts(normalize=True, dropna=False)

des_universidad                 anio
Universidad Autónoma de Madrid  2020    1.0
dtype: float64

En la celda anterior se calculan las probabilidades de obtener cada par de valores (probabilidad conjunta) de los campos que pertenecen al primer bloque. De esta manera, los campos más probables para este bloque serán lo que maximicen la probabilidad conjunta.

Como esperábamos por las condiciones dadas, solo existe una posibilidad para la que se obtiene una probabilidad del 100%. Por tanto, inferimos con una confianza del 100% que el profesor Ortigosa era docente en la Universidad Autónoma de Madrid en el año 2020.

$\textbf{Bloque 2}$

In [None]:
bloque_2 = datos_ortigosa[bloques[2]]
bloque_2.head()

Unnamed: 0,des_pais_nacionalidad,des_continente_nacionalidad,des_agregacion_paises_nacionalidad
200,España,Europa,Europa meridional
201,España,Europa,Europa meridional
202,España,Europa,Europa meridional
203,España,Europa,Europa meridional
204,España,Europa,Europa meridional


In [None]:
bloque_2.value_counts(normalize=True, dropna=False)

des_pais_nacionalidad  des_continente_nacionalidad  des_agregacion_paises_nacionalidad
España                 Europa                       Europa meridional                     0.962963
Italia                 Europa                       Europa meridional                     0.037037
dtype: float64

A la vista de los resultados obtenidos, obtenemos con una confianza del 100%, que Álvaro Ortigosa tiene una nacionalidad Europea de la Europa meridional. Respecto al país particular, las dos únicas posibilidades son que tenga nacionalidad Española o Italiana. Dado que lo más probable es que tenga nacionalidad española, concluimos con una confianza del 96.30% que tiene nacionalidad española. Además, en su perfil de Linkedin no aparece ninguna relación con Italia.

$\textbf{Bloque 3}$

In [None]:
bloque_3 = datos_ortigosa[bloques[3]]
bloque_3.head()

Unnamed: 0,des_comunidad_residencia,des_provincia_residencia,des_municipio_residencia
200,Madrid,Madrid,MADRID
201,Madrid,Madrid,MADRID
202,Madrid,Madrid,POZUELO DE ALARCÓN
203,Madrid,Madrid,ALCOBENDAS
204,Madrid,Madrid,ALCOBENDAS


In [None]:
bloque_3.value_counts(normalize=True, dropna=False)

des_comunidad_residencia  des_provincia_residencia  des_municipio_residencia  
Madrid                    Madrid                    MADRID                        0.500000
                                                    COLMENAR VIEJO                0.111111
                                                    ALCOBENDAS                    0.074074
                                                    SAN SEBASTIÁN DE LOS REYES    0.074074
                                                    TRES CANTOS                   0.055556
                                                    ALCALÁ DE HENARES             0.018519
                                                    ALCORCÓN                      0.018519
                                                    ALGETE                        0.018519
                                                    BOALO, EL                     0.018519
                                                    COLMENAREJO                   0.018519
           

Inferimos con una probabilidad del 100% que Ortigosa reside en la Comunidad de Madrid. Respecto al municipio, con una confianza del 50.0% podríamos concluir que Ortigosa pertenece a Madrid o con una confianza del 50.0% que reside en uno de estos municipios (COLMENAR VIEJO, ALCOBENDAS, SAN SEBASTIÁN DE LOS REYES...).

$\textbf{Bloque 4}$

In [None]:
bloque_4 = datos_ortigosa[bloques[4]]
bloque_4.head()

Unnamed: 0,anio_nacimiento
200,1988
201,1980
202,1964
203,1978
204,1985


In [None]:
bloque_4.value_counts(normalize=True, dropna=False)

anio_nacimiento
1967               0.074074
1965               0.074074
1976               0.055556
1982               0.055556
1964               0.055556
1978               0.055556
1968               0.037037
1975               0.037037
1974               0.037037
1984               0.037037
1969               0.037037
1990               0.037037
1966               0.037037
1963               0.037037
1962               0.037037
1977               0.037037
1981               0.018519
1980               0.018519
1985               0.018519
1986               0.018519
1988               0.018519
1950               0.018519
1973               0.018519
1955               0.018519
1971               0.018519
1970               0.018519
1961               0.018519
1960               0.018519
1958               0.018519
1972               0.018519
dtype: float64

A la vista de los resultados de este bloque, no podriamos sacar algo concluyente. Pero debido a su biografía, sabemos que nacio en el año 1968

$\textbf{Bloque 5}$

En Linkedin, y en el portal científico de la Autónoma Ortigosa figuraba como profesor asociado en 2019.

In [None]:
bloque_5 = datos_ortigosa[bloques[5]].loc[datos_ortigosa.des_categoria_cuerpo_escala == 'Profesor Asociado']
bloque_5.head()

Unnamed: 0,des_tipo_personal,des_categoria_cuerpo_escala,des_tipo_contrato,des_dedicacion,num_horas_semanales_tiempo_parcial,des_situacion_administrativa
204,Personal laboral,Profesor Asociado,Contrato de Duración Determinada,Dedicación a Tiempo Parcial,8.0,Servicio Activo
208,Personal laboral,Profesor Asociado,Contrato de Duración Determinada,Dedicación a Tiempo Parcial,8.0,Servicio Activo
211,Personal laboral,Profesor Asociado,Contrato de Duración Determinada,Dedicación a Tiempo Parcial,8.0,Servicio Activo
215,Personal laboral,Profesor Asociado,Contrato de Duración Determinada,Dedicación a Tiempo Parcial,8.0,Servicio Activo
217,Personal laboral,Profesor Asociado,Contrato de Duración Determinada,Dedicación a Tiempo Parcial,8.0,Servicio Activo


In [None]:
bloque_5.value_counts(normalize=True, dropna=False)

des_tipo_personal  des_categoria_cuerpo_escala  des_tipo_contrato                 des_dedicacion               num_horas_semanales_tiempo_parcial  des_situacion_administrativa
Personal laboral   Profesor Asociado            Contrato de Duración Determinada  Dedicación a Tiempo Parcial  8.0                                 Servicio Activo                 1.0
dtype: float64

Con una probabilidad del 100% inferimos de los datos que Ortigosa en 2020 era personal laboral, profesor asociado, con un contrato de Duración Determinada y una dedicación a Tiempo Parcial de 8.0 horas semanales y un servicio activo.

$\textbf{Bloque 6}$

In [None]:
bloque_6 = datos_ortigosa[bloques[6]]
bloque_6.head()

Unnamed: 0,ind_cargo_remunerado
200,N
201,N
202,S
203,N
204,S


In [None]:
bloque_6.value_counts(normalize=True, dropna=False)

ind_cargo_remunerado
N                       0.833333
S                       0.166667
dtype: float64

Los datos nos aportan una mayor evidencia de que Álvaro Ortigosa no ocupa un cargo unipersonal. Pero en el portal científico de la Autónoma figuraba en 2020 como Director del INST. CIENCIAS FORENSES Y DE LA SEGURIDAD. Por tanto, concluimos que si ocupa un cargo unipersonal con una confianza del 100%.

In [None]:
bloque_6 = datos_ortigosa[bloques[6]].loc[datos_ortigosa.ind_cargo_remunerado == 'S']
bloque_6.head()

Unnamed: 0,ind_cargo_remunerado
202,S
204,S
208,S
213,S
231,S


$\textbf{Bloque 7}$

Del portal científico de la autónoma, sabemos que realizó el Doctorado en España en la Universidad Autónoma de Madrid en Enero de 1997 y que lo terminó en Enero del 2000. Además, en la misma fuente indica que lo realizó en Ingeniería Informática y su tesis doctoral se titula: Método para la aplicación de documentación inteligente de frameworks orientados a objetos.

In [None]:
bloque_7 = datos_ortigosa[bloques[7]].loc[(datos_ortigosa.des_titulo_doctorado == "Uno") &
            (datos_ortigosa.anio_lectura_tesis == 2000) &
            (datos_ortigosa.des_universidad_doctorado == "Universidad Autónoma de Madrid")]
bloque_7.head()

Unnamed: 0,des_titulo_doctorado,des_pais_doctorado,des_continente_doctorado,des_agregacion_paises_doctorado,des_universidad_doctorado,anio_lectura_tesis,anio_expedicion_titulo_doctor,des_mencion_europea
213,Uno,España,Europa,Europa meridional,Universidad Autónoma de Madrid,2000.0,2000.0,No
229,Uno,España,Europa,Europa meridional,Universidad Autónoma de Madrid,2000.0,2000.0,No


In [None]:
bloque_7.value_counts(normalize=True, dropna=False)

des_titulo_doctorado  des_pais_doctorado  des_continente_doctorado  des_agregacion_paises_doctorado  des_universidad_doctorado       anio_lectura_tesis  anio_expedicion_titulo_doctor  des_mencion_europea
Uno                   España              Europa                    Europa meridional                Universidad Autónoma de Madrid  2000.0              2000.0                         No                     1.0
dtype: float64

El resto de campos podemos inferirlos de los datos: Ortigosa expidió en título en el 2000 y no consiguió mención europea con una confianza del 100%.

$\textbf{Bloque 8}$

In [None]:
bloque_8 = datos_ortigosa[bloques[8]]
bloque_8.head()

Unnamed: 0,des_tipo_unidad_responsable,des_area_conocimiento
200,Departamento,Ciencia de la Computación e Inteligencia Artif...
201,Departamento,Ciencia de la Computación e Inteligencia Artif...
202,Departamento,Ciencia de la Computación e Inteligencia Artif...
203,Departamento,Ciencia de la Computación e Inteligencia Artif...
204,Departamento,Ciencia de la Computación e Inteligencia Artif...


In [None]:
bloque_8.value_counts(normalize=True, dropna=False)

des_tipo_unidad_responsable  des_area_conocimiento                              
Departamento                 Ciencia de la Computación e Inteligencia Artificial    0.592593
                             Lenguajes y Sistemas Informáticos                      0.407407
dtype: float64

En el mismo sitio que en el bloque anterior, figura que su área de conocimiento es Lenguajes y Sistemas Informáticos. Sin embargo, no sabemos si en 2020 pertenecía a un área distinta. Los resultados son casi uniformes, así que no podemos concluir ninguna de las dos posibles opciones.

$\textbf{Bloque 9}$

También figura que Ortigosa tenía en 2016 un total de 3 quinquenios y que en 2017 tenía 4 sexenios.

In [None]:
bloque_9 = datos_ortigosa[bloques[9]].loc[(datos_ortigosa.num_sexenios == 4) &
            (datos_ortigosa.num_quinquenios == 3)]

In [None]:
bloque_9.value_counts(normalize=True, dropna=False)

anio_incorporacion_ap  anio_incorpora_cuerpo_docente  num_trienios  num_quinquenios  num_sexenios
1996.0                 2020.0                         7             3                4               0.333333
2001.0                 2020.0                         6             3                4               0.333333
NaN                    NaN                            6             3                4               0.333333
dtype: float64

No tenemos evidencia estadística del número de trienios ni del año de incorporación al cuerpo docente y a la administración pública, ya que todos lo posibles valores tienen una probabilidad uniforme.

$\textbf{Bloque 10}$

In [None]:
bloque_10 = datos_ortigosa[bloques[10]]
bloque_10.head()

Unnamed: 0,num_tesis
200,
201,
202,
203,
204,


In [None]:
bloque_10.value_counts(normalize=True, dropna=False)

num_tesis
NaN          0.962963
1.0          0.037037
dtype: float64

De nuevo en el portal, aparece que Ortigosa ha dirigido 3 tesis pero no encontramos cuantas dirigió en 2020. Por tanto, suponiendo que Nan significa que no ha dirigido ninguna tesis, inferimos con una confianza del 96.30% que Álvaro Ortigosa no dirigió ninguna tesis en 2020.

$\textbf{Bloque 11}$

In [None]:
bloque_11 = datos_ortigosa[bloques[11]]
bloque_11.head()

Unnamed: 0,ind_investigador_principal
200,N
201,N
202,N
203,N
204,N


In [None]:
bloque_11.value_counts(normalize=True, dropna=False)

ind_investigador_principal
N                             0.722222
S                             0.277778
dtype: float64

Tanto los porcentajes, como la búsquedad realizada externamente (en el último enlace) nos das una ligera evidencia de que la respuesta a este bloque es que no.