# GESTIÓN DE DATOS: Anonimización
## Alejandro Cabana Suárez y Óscar Gómez Borzdynski

In [1]:
import pandas as pd

## Preparación de los datos

Buscamos a Álvaro Ortigosa en el dataset anonimizado del personal pdi de la UAM en 2018.

Disponemos de la siguiente informacion:

* Álvaro aparece en el fichero
* Álvaro era hombre en 2018 (des_genero == "Hombre")
* Álvaro pertenecía al Departamento de Ingeniería Informática en 2018 (des_unidad_responsable == "Departamento de Ingeniería Informática"

Por tanto filtramos el dataset siguiendo esos criterios y eliminamos las columnas que no usaremos en el análisis.

In [2]:
df = pd.read_csv("uam-personal-pdi-2018-anonimizado_0.csv")
df = df[df.des_unidad_responsable == "Departamento de Ingeniería Informática"]
df = df[df.des_genero == "Hombre"]
drop = [col for col in df.columns if col.startswith(("cod_", "lat_", "lon_"))]
drop.append("IMPORTANTE")
drop.append("des_unidad_responsable")
drop.append("des_genero")
df = df.drop(columns=drop)    

Posteriormente dividimos el dataframe en los bloques de coherencia especificados en la [información del dataset](https://dimetrical.atlassian.net/wiki/spaces/UNC/pages/490799108/Dataset+Personal+Docente+e+Investigador+PDI)

In [3]:
bloque1 = df[["des_universidad", "anio"]]
bloque2 = df[["des_pais_nacionalidad", "des_continente_nacionalidad", "des_agregacion_paises_nacionalidad"]]
bloque3 = df[["des_comunidad_residencia", "des_provincia_residencia", "des_municipio_residencia"]]
bloque4 = df[["anio_nacimiento"]]
bloque5 = df[["des_tipo_personal", "des_categoria_cuerpo_escala", "des_tipo_contrato", "des_dedicacion", "num_horas_semanales_tiempo_parcial", "des_situacion_administrativa"]]
bloque6 = df[["ind_cargo_remunerado"]]
bloque7 = df[["des_titulo_doctorado", "des_pais_doctorado", "des_continente_doctorado", "des_agregacion_paises_doctorado", "des_universidad_doctorado", "anio_lectura_tesis", "anio_expedicion_titulo_doctor", "des_mencion_europea"]]
bloque8 = df[["des_tipo_unidad_responsable", "des_area_conocimiento"]]
bloque9 = df[["anio_incorporacion_ap", "anio_incorpora_cuerpo_docente", "num_trienios", "num_quinquenios", "num_sexenios"]]
bloque10 = df[["num_tesis"]]
bloque11 = df[["ind_investigador_principal"]]

## Bloque 1

In [4]:
bloque1.drop_duplicates()

Unnamed: 0,des_universidad,anio
207,Universidad Autónoma de Madrid,2018


Podemos ver que de este bloque no podemos obtener ninguna información relevante, ya que es básicamente la información que ya poseíamos.

## Bloque 2

In [5]:
bloque2.des_pais_nacionalidad.value_counts()

España    56
Italia     1
Name: des_pais_nacionalidad, dtype: int64

In [6]:
df[df.des_pais_nacionalidad == "España"].head(1)

Unnamed: 0,des_universidad,anio,des_pais_nacionalidad,des_continente_nacionalidad,des_agregacion_paises_nacionalidad,des_comunidad_residencia,des_provincia_residencia,des_municipio_residencia,anio_nacimiento,des_tipo_personal,...,des_mencion_europea,des_tipo_unidad_responsable,des_area_conocimiento,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios,num_tesis,ind_investigador_principal
207,Universidad Autónoma de Madrid,2018,España,Europa,Europa meridional,Madrid,Madrid,MADRID,1980,Funcionario de carrera,...,No,Departamento,Lenguajes y Sistemas Informáticos,1999.0,2005.0,6,4,3,,N


En este bloque vemos que sólo disponemos de 2 posibles valores para la nacionalidad: Española e Italiana. En este momento podríamos decir con una seguridad del $98,24\%$ que Álvaro tiene nacionalidad Española.

Consultando fuentes externas [1](https://www.linkedin.com/in/alvaroortigosa/), [2](https://ieeexplore.ieee.org/author/37668186700) podemos  ver que Álvaro no tiene relación alguna con Italia y que tal y como afirma él mismo, no tiene conocimientos de Italiano. Con ello, podemos asegurar prácticamente con total seguridad que Ortigosa tiene nacionalidad Española.

## Bloque 3

In [7]:
bloque3.des_comunidad_residencia.unique()

array(['Madrid'], dtype=object)

Dado que sólo aparecen datos de residentes en la Comunidad de Madrid, podemos estar seguros de que reside en ella.

In [8]:
bloque3.des_municipio_residencia.value_counts()

MADRID                        28
ALCOBENDAS                     6
SAN SEBASTIÁN DE LOS REYES     5
COLMENAR VIEJO                 5
ALCORCÓN                       2
MORALZARZAL                    1
BOALO, EL                      1
MAJADAHONDA                    1
ALCALÁ DE HENARES              1
SAN AGUSTÍN DEL GUADALIX       1
COLMENAREJO                    1
HOYO DE MANZANARES             1
POZUELO DE ALARCÓN             1
LEGANÉS                        1
GALAPAGAR                      1
ALGETE                         1
Name: des_municipio_residencia, dtype: int64

Respecto al municipio, podemos decir que no tenemos demasiada información al respecto. Podemos decir con un $49,12\%$ de seguridad que vive en la ciudad de Madrid o con un $28,07\%$ que vive en alguna de las grandes ciudades de la zona norte (Alcobendas, San Sebastián de los Reyes o Colmenar Viejo)

## Bloque 4

In [9]:
bloque4.columns

Index(['anio_nacimiento'], dtype='object')

En este bloque encontramos el año de nacimiento de los profesores. Según la fuente [2](https://ieeexplore.ieee.org/author/37668186700), Álvaro nació en 1968 en San Carlos de Bariloche, Argentina.

In [10]:
bloque4[bloque4.anio_nacimiento == 1968]

Unnamed: 0,anio_nacimiento
218,1968
219,1968


En el dataset tenemos a 2 profesores que nacieron en ese año.

Dado que este dato está aislado dentro del bloque no podemos inferir más información.

## Bloque 5 

Según las fuentes [1](https://www.linkedin.com/in/alvaroortigosa/) y [3](https://portalcientifico.uam.es/ipublic/agent-personal/profile/iMarinaID/04-261195), podemos pensar que en 2018, Álvaro era Profesor Asociado de la UAM.

In [11]:
bloque5[bloque5.des_categoria_cuerpo_escala == "Profesor Asociado"].drop_duplicates()

Unnamed: 0,des_tipo_personal,des_categoria_cuerpo_escala,des_tipo_contrato,des_dedicacion,num_horas_semanales_tiempo_parcial,des_situacion_administrativa
216,Personal laboral,Profesor Asociado,Contrato de Duración Determinada,Dedicación a Tiempo Parcial,8.0,Servicio Activo


Podemos ver entonces que su contrato es de duración determinada a tiempo parcial, dedicándole 8 horas semanales a labores docentes.

## Bloque 6

In [12]:
bloque6.ind_cargo_remunerado.value_counts()

N    47
S    10
Name: ind_cargo_remunerado, dtype: int64

In [13]:
bloque5.des_categoria_cuerpo_escala.value_counts()

Profesor Contratado Doctor         17
Profesor Titular de Universidad    14
Profesor Asociado                  10
Ayudante                            6
Catedrático de Universidad          6
Profesor Ayudante Doctor            4
Name: des_categoria_cuerpo_escala, dtype: int64

Nos parece extraño que sólo cobren 10 profesores de los 57 que aparecen en nuestra muestra. 
Al compararlo con las categorías de empleado, vemos que el valor de Profesores Asociados coincide con el número de profesores con cargo remunerado. Esto nos hace pensar que el resto de profesores cobran por sus labores de investigación en lugar de por sus horas de docencia.

Por lo mismo, intuimos que Álvaro sí que cobra por sus labores docentes al estar incluido dentro del grupo de Profesores Asociados.

## Bloque 7

Según la fuente [4](https://dialnet.unirioja.es/servlet/tesis?codigo=11586), podemos ver que Álvaro leyó su tesis en la Universidad Autónoma de Madrid en el año 2000 bajo el título `Método para la aplicación de documentación inteligente de frameworks orientados a objetos`

In [14]:
bloque7.loc[(bloque7.des_titulo_doctorado == "Uno") &
            (bloque7.anio_lectura_tesis == 2000) &
            (bloque7.des_universidad_doctorado == "Universidad Autónoma de Madrid")].drop_duplicates()

Unnamed: 0,des_titulo_doctorado,des_pais_doctorado,des_continente_doctorado,des_agregacion_paises_doctorado,des_universidad_doctorado,anio_lectura_tesis,anio_expedicion_titulo_doctor,des_mencion_europea
220,Uno,España,Europa,Europa meridional,Universidad Autónoma de Madrid,2000.0,2000.0,No


De aquí obtenemos que Álvaro no obtuvo la mención europea en su tesis doctoral.

## Bloque 8

Según [3](https://portalcientifico.uam.es/ipublic/agent-personal/profile/iMarinaID/04-261195), podemos asegurar que Álvaro pertenece al área de conocimiento `Lenguajes y Sistemas Informáticos`. Área que aparece en el conjunto de datos como se puede ver a continuación:

In [15]:
bloque8.des_area_conocimiento.value_counts()

Ciencia de la Computación e Inteligencia Artificial    32
Lenguajes y Sistemas Informáticos                      25
Name: des_area_conocimiento, dtype: int64

En este caso, los profesores están distribuidos de manera muy uniforme, por lo que no nos decantamos por ninguna de las opciones.

## Bloque 9

Según [3](https://portalcientifico.uam.es/ipublic/agent-personal/profile/iMarinaID/04-261195), podemos ver que Álvaro cuenta con 3 quinquenios y 4 sexenios. Además, vemos que comenzó su docencia en 2001 como Profesor Asociado Tipo 3.

In [16]:
bloque9.loc[(bloque9.num_sexenios == 4) &
            (bloque9.num_quinquenios == 3)]

Unnamed: 0,anio_incorporacion_ap,anio_incorpora_cuerpo_docente,num_trienios,num_quinquenios,num_sexenios
262,,,5,3,4


Con este dato inferimos que Álvaro cuenta con 5 trienios (a fecha de 31 de diciembre de 2018).

## Bloque 10

In [17]:
bloque10.num_tesis.unique()

array([nan,  1.])

En este bloque vamos a suponer que NaN implica que el profesor no ha dirigido ninguna tesis leída en 2018. Según [3](https://portalcientifico.uam.es/ipublic/agent-personal/profile/iMarinaID/04-261195), Álvaro sólo ha dirigido tesis en los años 2008 y 2010, por lo que debería ser uno de los NaN.

In [18]:
bloque10.num_tesis.value_counts()

1.0    3
Name: num_tesis, dtype: int64

Aún así, de no conocer esta información, sólo encontramos 3 profesores que hayan dirigido una tesis leída ese año, por lo que la probabilidad de que Álvaro no perteneciera a ese grupo es de $94.74\%$

## Bloque 11

Según [3](https://portalcientifico.uam.es/ipublic/agent-personal/profile/iMarinaID/04-261195), Álvaro participó como Investigador Principal en el proyecto `Criminal justice access to digital evidences in the cloud` entre los años 2016 y 2018.

In [19]:
bloque11.ind_investigador_principal.value_counts()

N    43
S    14
Name: ind_investigador_principal, dtype: int64

De no conocer la información nos podríamos decantar por que no ha sido Investigador Principal en un proyecto ya que es el grupo mayoritario ($75.44\%$).