### Desafío Integrador
#### Análisis de las producciones del personal de Ciencia y Tecnología

El personal de CyT en una unidad estadística incluye a todas las personas involucradas directamente en I+D así como a aquellas que brindan servicios directos para las actividades de I + D (como gerentes de I + D, administradores, técnicos y personal de oficina). 

### Etapa 1: Limpieza de las bases de datos

#### 1. Lectura e interpretación de la Personas 2017

In [1]:
#Se importa la funcionalidad necesaria
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [2]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
#Se lee la tabla Personas 2016
personas_2017=pd.read_csv('personas_2017.csv',sep=";")
#Se guarda la tabla original por si se necesita posteriormente
personas_2017_original=personas_2017

In [4]:
personas_2017.head()

Unnamed: 0,persona_id,anio,sexo_id,edad,maximo_grado_academico_id,disciplina_maximo_grado_academico_id,disciplina_titulo_grado_id,disciplina_experticia_id,tipo_personal_id,producciones_ult_anio,...,producciones_ult_3_anios,producciones_ult_4_anios,institucion_trabajo_id,seniority_level,categoria_conicet_id,categoria_incentivos,max_dedicacion_horaria_docente_id,institucion_cargo_docente_id,clase_cargo_docente_id,tipo_condicion_docente_id
0,1,2017,2,42,-1,-1,-1,64,1,0,...,0,1,4488,D,11.0,-1.0,3.0,116.0,22.0,1.0
1,5,2017,1,54,1,255,255,255,3,1,...,6,8,118,B,3.0,3.0,3.0,118.0,17.0,2.0
2,7,2017,2,36,1,158,111,158,3,9,...,16,20,587,C,1.0,-1.0,2.0,3507.0,20.0,2.0
3,9,2017,2,67,1,256,256,157,3,0,...,0,6,5191,B,,,,,,
4,10,2017,2,57,5,248,248,29,3,4,...,6,9,44,C,-1.0,4.0,3.0,101.0,21.0,1.0


In [5]:
personas_2017[['persona_id','edad','producciones_ult_anio','producciones_ult_2_anios', 'producciones_ult_3_anios',
       'producciones_ult_4_anios']].head()

Unnamed: 0,persona_id,edad,producciones_ult_anio,producciones_ult_2_anios,producciones_ult_3_anios,producciones_ult_4_anios
0,1,42,0,0,0,1
1,5,54,1,4,6,8
2,7,36,9,12,16,20
3,9,67,0,0,0,6
4,10,57,4,5,6,9


In [6]:
personas_2017.shape

(66685, 21)

In [7]:
personas_2017.columns

Index(['persona_id', 'anio', 'sexo_id', 'edad', 'maximo_grado_academico_id',
       'disciplina_maximo_grado_academico_id', 'disciplina_titulo_grado_id',
       'disciplina_experticia_id', 'tipo_personal_id', 'producciones_ult_anio',
       'producciones_ult_2_anios', 'producciones_ult_3_anios',
       'producciones_ult_4_anios', 'institucion_trabajo_id', 'seniority_level',
       'categoria_conicet_id', 'categoria_incentivos',
       'max_dedicacion_horaria_docente_id', 'institucion_cargo_docente_id',
       'clase_cargo_docente_id', 'tipo_condicion_docente_id'],
      dtype='object')

#### 2. Unión de la tabla Personas 2017 con las tablas de referencias

La base de datos original tiene la mayoría de sus datos con códigos, para poder interpretar a qué corresponde cada código se cuenta con tablas de referencias que los describen. Se procede a unir cada código con su identificación.

In [8]:
#Analizamos las referencias de sexo:
sexo=pd.read_csv('ref_sexo.csv',sep=";")
sexo

Unnamed: 0,sexo_id,sexo_descripcion
0,1,FEMENINO
1,2,MASCULINO


In [9]:
#Se cambian los números por "F" y "M" para hacer más simple la identificación de dummies
personas_2017['sexo_id']= personas_2017['sexo_id'].apply(lambda x: 'F' if x ==1 else 'M')
personas_2017.rename(columns={"sexo_id": "sexo"},inplace=True)
personas_2017.head()

Unnamed: 0,persona_id,anio,sexo,edad,maximo_grado_academico_id,disciplina_maximo_grado_academico_id,disciplina_titulo_grado_id,disciplina_experticia_id,tipo_personal_id,producciones_ult_anio,...,producciones_ult_3_anios,producciones_ult_4_anios,institucion_trabajo_id,seniority_level,categoria_conicet_id,categoria_incentivos,max_dedicacion_horaria_docente_id,institucion_cargo_docente_id,clase_cargo_docente_id,tipo_condicion_docente_id
0,1,2017,M,42,-1,-1,-1,64,1,0,...,0,1,4488,D,11.0,-1.0,3.0,116.0,22.0,1.0
1,5,2017,F,54,1,255,255,255,3,1,...,6,8,118,B,3.0,3.0,3.0,118.0,17.0,2.0
2,7,2017,M,36,1,158,111,158,3,9,...,16,20,587,C,1.0,-1.0,2.0,3507.0,20.0,2.0
3,9,2017,M,67,1,256,256,157,3,0,...,0,6,5191,B,,,,,,
4,10,2017,M,57,5,248,248,29,3,4,...,6,9,44,C,-1.0,4.0,3.0,101.0,21.0,1.0


In [10]:
#Analizamos las referencias de grado académico
grado=pd.read_csv('ref_grado_academico.csv',sep=";")
grado

Unnamed: 0,grado_academico_id,descripcion
0,-1,Sin datos
1,1,Universitario de posgrado/doctorado
2,2,Universitario de posgrado/maestría
3,3,Universitario de posgrado/especialización
4,4,Universitario de posgrado/perfeccionamiento
5,5,Universitario de grado
6,6,Terciario no universitario
7,7,Medio
8,8,Básico
9,9,Universitario de posdoctorado


In [11]:
#Se hace un merge con la tabla original
personas_2017=pd.merge(personas_2017, grado, how='left',left_on='maximo_grado_academico_id',right_on='grado_academico_id')
#Se Se renombra la columna "descripcion" para mejor interpretación
personas_2017.rename(columns={"descripcion": "max_grado_academico"},inplace=True)
#Se eliminan las columnas que ya no se necesitan
personas_2017.drop(columns=['maximo_grado_academico_id','grado_academico_id'],inplace=True)

In [12]:
#Analizamos las referenicas de diciplinas
disciplina=pd.read_csv('ref_disciplina.csv',sep=";")
disciplina.head()

Unnamed: 0,disciplina_id,gran_area_codigo,gran_area_descripcion,area_codigo,area_descripcion,disciplina_codigo,disciplina_descripcion
0,-1,-1,SIN DATOS,-1.0,SIN DATOS,-1,SIN DATOS
1,1,1,CIENCIAS NATURALES Y EXACTAS,1.0,SIN DATOS,1.0.0,SIN DATOS
2,2,1,CIENCIAS NATURALES Y EXACTAS,1.1,Matemáticas,1.1.0,SIN DATOS
3,3,1,CIENCIAS NATURALES Y EXACTAS,1.1,Matemáticas,1.1.1,Matemática Pura
4,4,1,CIENCIAS NATURALES Y EXACTAS,1.1,Matemáticas,1.1.2,Matemática Aplicada


In [13]:
#Nos quedamos con Gran Área expertis
disciplina=disciplina[['disciplina_id','gran_area_descripcion']]
disciplina.head()

Unnamed: 0,disciplina_id,gran_area_descripcion
0,-1,SIN DATOS
1,1,CIENCIAS NATURALES Y EXACTAS
2,2,CIENCIAS NATURALES Y EXACTAS
3,3,CIENCIAS NATURALES Y EXACTAS
4,4,CIENCIAS NATURALES Y EXACTAS


In [14]:
disciplina['gran_area_descripcion'].value_counts()

CIENCIAS MÉDICAS Y DE LA SALUD    70
INGENIERÍAS Y TECNOLOGÍAS         65
CIENCIAS NATURALES Y EXACTAS      59
CIENCIAS SOCIALES                 42
HUMANIDADES                       28
CIENCIAS AGRÍCOLAS                24
SIN DATOS                          1
Name: gran_area_descripcion, dtype: int64

In [15]:
#Hacemos merge con disciplina_experticia_id, renombramos columnas y eliminamos las que no se necesitan
personas_2017=pd.merge(personas_2017, disciplina, how='left',left_on='disciplina_experticia_id',right_on='disciplina_id')
personas_2017.rename(columns={"gran_area_descripcion": "gran_area_experticia"},inplace=True)
personas_2017.drop(columns=['disciplina_experticia_id','disciplina_id'],inplace=True)

In [16]:
#Analizamos las referencias de tipo de personal
personal=pd.read_csv('ref_tipo_personal.csv',sep=";")
personal

Unnamed: 0,tipo_personal_id,tipo_personal_descripcion
0,-1,SIN DATOS
1,1,BECARIO DE I+D
2,2,OTRO PERSONAL DE LA INSTITUCION
3,3,INVESTIGADOR
4,4,DOCENTE


In [17]:
#Se hace un merge con la tabla original
personas_2017=pd.merge(personas_2017, personal, how='left',left_on='tipo_personal_id',right_on='tipo_personal_id')
#Se Se renombra la columna "Tipo_personal_descripcion" para simplificar
personas_2017.rename(columns={"tipo_personal_descripcion": "tipo_personal"},inplace=True)
#Se eliminan las columnas que ya no se necesitan
personas_2017.drop(columns='tipo_personal_id',inplace=True)

In [18]:
#Analizamos las referencias de tipo condicion docente
condicion=pd.read_csv('ref_tipo_condicion_docente.csv',sep=";")
condicion.head()

Unnamed: 0,tipo_condicion_docente_id,tipo_condicion_docente_descripcion
0,-1,Sin datos
1,1,Regular o por concurso
2,2,Interino
3,3,Por contrato


In [19]:
#Hacemos merge con tipo_condicion_docente_id, renombramos columnas y eliminamos las que no se necesitan
personas_2017=pd.merge(personas_2017, condicion, how='left',left_on='tipo_condicion_docente_id',right_on='tipo_condicion_docente_id')
personas_2017.rename(columns={"tipo_condicion_docente_descripcion": "condicion_docente"},inplace=True)
personas_2017.drop(columns=['tipo_condicion_docente_id'],inplace=True)

In [20]:
#Analizamos dedicacion horaria semanal
dedicacion=pd.read_csv('ref_dedicacion_horaria.csv',sep=";")
dedicacion

Unnamed: 0,tipo_dedicacion_horaria_semanal_id,tipo_dedicacion_horaria_semanal_descripcion
0,-1,Sin datos
1,1,40 horas o más
2,2,De 20 hasta 39 horas
3,3,De 0 hasta 19 horas


In [21]:
#Hacemos merge con tipo_max_dedicacion_horaria_dicente_id, renombramos columnas y eliminamos las que no se necesitan
personas_2017=pd.merge(personas_2017, dedicacion, how='left',left_on='max_dedicacion_horaria_docente_id',right_on='tipo_dedicacion_horaria_semanal_id')
personas_2017.rename(columns={"tipo_dedicacion_horaria_semanal_descripcion": "ded_horaria_docente"},inplace=True)
personas_2017.drop(columns=['max_dedicacion_horaria_docente_id','tipo_dedicacion_horaria_semanal_id'],inplace=True)

In [22]:
#Analizamos el cargo docente
cargo=pd.read_csv('ref_clase_cargo.csv',sep=";")
cargo.head()

Unnamed: 0,clase_cargo_id,tipo_cargo_descripcion,grupo_cargo_descripcion,clase_cargo_descripcion,equivalencia_cargo_docente_descripcion
0,1,VACIO/NULO,VACIO/NULO,VACIO/NULO,
1,2,ERRONEO,ERRONEO,ERRONEO,
2,3,Docente nivel superior universitario y/o posgrado,Cargos docentes de nivel superior universitari...,VACIO/NULO,
3,4,Cargos de I+D - En organismos científico-tecno...,Cargos de I+D en OCTs - CONICET,Investigador asistente,
4,5,Cargos de I+D - En organismos científico-tecno...,Cargos de I+D en OCTs - CONICET,Investigador adjunto,


In [23]:
#Nos quedamos con tipo, grupo y clase de cargo
cargo=cargo[['clase_cargo_id','tipo_cargo_descripcion','grupo_cargo_descripcion','clase_cargo_descripcion']]

In [24]:
#Hacemos merge con clase_cargo_docente_id, renombramos columnas y eliminamos las que no se necesitan
personas_2017=pd.merge(personas_2017, cargo, how='left',left_on='clase_cargo_docente_id',right_on='clase_cargo_id')
personas_2017.rename(columns={'tipo_cargo_descripcion':'tipo_cargo_docente','grupo_cargo_descripcion': 'grupo_cargo_docente',
                  'clase_cargo_descripcion':'clase_cargo_docente'},inplace=True)
personas_2017.drop(columns=['clase_cargo_docente_id','clase_cargo_id'],inplace=True)

In [25]:
#Analizamos categoria conicet
conicet=pd.read_csv('ref_categoria_conicet.csv',sep=";")
conicet

Unnamed: 0,categoria_conicet_id,categoria_conicet_descripcion
0,-1,No pertenece a Conicet
1,1,Investigador asistente
2,2,Investigador adjunto
3,3,Investigador independiente
4,4,Investigador principal
5,5,Investigador superior
6,6,Becario doctoral
7,7,Becario postdoctoral
8,8,Personal de apoyo
9,9,Gestión CyT


In [26]:
#Hacemos merge con categoria_conicet_id renombramos columnas y eliminamos las que no se necesitan
personas_2017=pd.merge(personas_2017, conicet, how='left',left_on='categoria_conicet_id',right_on='categoria_conicet_id')
personas_2017.rename(columns={"categoria_conicet_descripcion": "categoria_conicet"},inplace=True)
personas_2017.drop(columns=['categoria_conicet_id'],inplace=True)

#### 3. Se lleva la edad a rangos de edades

In [27]:
personas_2017['rango_edad']=pd.cut(personas_2017['edad'],[0,10,20,30,40,50,60,70,80,90,100])
personas_2017.drop(columns='edad',inplace=True)

#### 4. Transformación de los datos de producciones de los últimos años

Los datos de producciones de los último 2, 3 y 4 años incluyen las producciones del último año. Como lo que se busca es determinar si una persona hará una producción durante el transcurso del año, hay que restarle a los datos mencionados anteriormente  las producciones del último año.

In [28]:
#Primero se analizan los datos de cada columnas para ver si hay errores
#Producciones último año. 
#Son todos int, no hay NaN, pero se identifican 4686 valores negativos. Se detecta que son todos -1
print('Tipo de datos: ',personas_2017['producciones_ult_anio'].dtypes)
print('Nan: ',personas_2017['producciones_ult_anio'].isnull().value_counts())
print('Cantidad valores negativos: ',personas_2017.loc[personas_2017['producciones_ult_anio']<0].shape)
print('Valores negativos: ',personas_2017.loc[personas_2017['producciones_ult_anio']<0].producciones_ult_anio.unique())


Tipo de datos:  int64
Nan:  False    66685
Name: producciones_ult_anio, dtype: int64
Cantidad valores negativos:  (4686, 23)
Valores negativos:  [-1]


In [29]:
#Producciones últimos 2, 3 y 4 años 
#Son todos int, no hay NaN, y se identifican la misma cantidad de valores negativos. Además son todos -1

print('\n Nan producciones_ult_2_anios: ',personas_2017['producciones_ult_2_anios'].isnull().value_counts(),
      '\n Nan producciones_ult_3_anios: ',personas_2017['producciones_ult_3_anios'].isnull().value_counts(),
      '\n Nan producciones_ult_4_anios: ',personas_2017['producciones_ult_4_anios'].isnull().value_counts(),'\n')


print('Cantidad valores negativos:\n',
      'producciones_ult_2_anios: ',personas_2017.loc[personas_2017['producciones_ult_2_anios']<0].shape,'\n',
      'producciones_ult_3_anios: ',personas_2017.loc[personas_2017['producciones_ult_3_anios']<0].shape,'\n',
      'producciones_ult_4_anios: ',personas_2017.loc[personas_2017['producciones_ult_4_anios']<0].shape,'\n')


print('Valores negativos: \n',
      'producciones_ult_2_anios: ',personas_2017.loc[personas_2017['producciones_ult_2_anios']<0].producciones_ult_2_anios.unique(),'\n',
      'producciones_ult_3_anios: ',personas_2017.loc[personas_2017['producciones_ult_3_anios']<0].producciones_ult_3_anios.unique(),'\n',
      'producciones_ult_4_anios: ',personas_2017.loc[personas_2017['producciones_ult_4_anios']<0].producciones_ult_4_anios.unique(),'\n')
    


 Nan producciones_ult_2_anios:  False    66685
Name: producciones_ult_2_anios, dtype: int64 
 Nan producciones_ult_3_anios:  False    66685
Name: producciones_ult_3_anios, dtype: int64 
 Nan producciones_ult_4_anios:  False    66685
Name: producciones_ult_4_anios, dtype: int64 

Cantidad valores negativos:
 producciones_ult_2_anios:  (4686, 23) 
 producciones_ult_3_anios:  (4686, 23) 
 producciones_ult_4_anios:  (4686, 23) 

Valores negativos: 
 producciones_ult_2_anios:  [-1] 
 producciones_ult_3_anios:  [-1] 
 producciones_ult_4_anios:  [-1] 



In [30]:
#Se comprueba que los valores negativos son todos de los mismo registros:
personas_2017.loc[(personas_2017['producciones_ult_anio']<0) &
       (personas_2017['producciones_ult_2_anios']<0) &
       (personas_2017['producciones_ult_3_anios']<0) &
       (personas_2017['producciones_ult_4_anios']<0)].shape

(4686, 23)

In [31]:
#Se asume que son 0 producciones y se cambian los datos
personas_2017['producciones_ult_anio']= personas_2017['producciones_ult_anio'].apply(lambda x: x if x >=0 else 0)
personas_2017['producciones_ult_2_anios']= personas_2017['producciones_ult_2_anios'].apply(lambda x: x if x >=0 else 0)
personas_2017['producciones_ult_3_anios']= personas_2017['producciones_ult_3_anios'].apply(lambda x: x if x >=0 else 0)
personas_2017['producciones_ult_4_anios']= personas_2017['producciones_ult_4_anios'].apply(lambda x: x if x >=0 else 0)

In [32]:
#Se comprueba que se hayan eliminado los valores negativos
print('Cantidad valores negativos producciones_ult_anio: ',personas_2017.loc[personas_2017['producciones_ult_anio']<0].shape)
print('Cantidad valores negativos:\n',
      'producciones_ult_2_anios: ',personas_2017.loc[personas_2017['producciones_ult_2_anios']<0].shape,'\n',
      'producciones_ult_3_anios: ',personas_2017.loc[personas_2017['producciones_ult_3_anios']<0].shape,'\n',
      'producciones_ult_4_anios: ',personas_2017.loc[personas_2017['producciones_ult_4_anios']<0].shape,'\n')

Cantidad valores negativos producciones_ult_anio:  (0, 23)
Cantidad valores negativos:
 producciones_ult_2_anios:  (0, 23) 
 producciones_ult_3_anios:  (0, 23) 
 producciones_ult_4_anios:  (0, 23) 



In [33]:
#Se le resta a cada año las producciones de los otros años

personas_2017['producciones_ult_4_anios']=personas_2017['producciones_ult_4_anios']-personas_2017['producciones_ult_3_anios']
personas_2017['producciones_ult_3_anios']=personas_2017['producciones_ult_3_anios']-personas_2017['producciones_ult_2_anios']
personas_2017['producciones_ult_2_anios']=personas_2017['producciones_ult_2_anios']-personas_2017['producciones_ult_anio']

#se renombran las columnas

personas_2017.rename(columns={"producciones_ult_4_anios": "prod_3_años_ant",
                              "producciones_ult_3_anios": "prod_2_años_ant",
                             "producciones_ult_2_anios": "prod_año_ant",
                             "producciones_ult_anio": "prod_ultimo_año"},inplace=True)

In [34]:
print(personas_2017["prod_3_años_ant"].sum())
print(personas_2017["prod_2_años_ant"].sum())
print(personas_2017["prod_año_ant"].sum())
print(personas_2017["prod_ultimo_año"].sum())

134292
122306
100920
81372


In [35]:
134292+122306+100920+81372


438890

#### 5. Se eliminan columnas que no se usarán

In [36]:
personas_2017=personas_2017.drop(columns=['anio','disciplina_maximo_grado_academico_id',
       'disciplina_titulo_grado_id','institucion_cargo_docente_id','categoria_incentivos','institucion_trabajo_id'])

#### 5. Análisis de NaN y valores erróneos

In [37]:
#Sexo. No se identifican NaN ni valores erróneos
personas_2017['sexo'].value_counts()

F    38628
M    28057
Name: sexo, dtype: int64

In [38]:
personas_2017['sexo'].isnull().value_counts()

False    66685
Name: sexo, dtype: int64

In [39]:
#Edad. No hay valores erróneos
personas_2017['rango_edad'].value_counts()

(30, 40]     20478
(40, 50]     16061
(50, 60]     14285
(20, 30]      8123
(60, 70]      6592
(70, 80]      1034
(80, 90]        81
(10, 20]        28
(90, 100]        2
(0, 10]          0
Name: rango_edad, dtype: int64

In [40]:
#Se identifica 1 NaN
personas_2017['rango_edad'].isnull().value_counts()

False    66684
True         1
Name: rango_edad, dtype: int64

In [41]:
#Se elimina, es un solo registro
personas_2017=personas_2017.loc[personas_2017['rango_edad'].isnull()==False]

In [42]:
#Se analiza seniority, no se identifican NaN
personas_2017['seniority_level'].isnull().value_counts()

False    66684
Name: seniority_level, dtype: int64

In [43]:
#Se analizan los datos y se ve que hay muchos faltantes, se analizan
personas_2017['seniority_level'].value_counts()

       29179
C      13939
D       7817
S/D     5795
B       5713
A       4241
Name: seniority_level, dtype: int64

In [44]:
#Se elimina la columna seniority level porque hay muchos registros sin datos
personas_2017.drop(columns='seniority_level',inplace=True)

In [45]:
#Se analiza max_grado_academico, No hay Null pero hay 760 registros sin datos. 
personas_2017['max_grado_academico'].isnull().value_counts()

False    66684
Name: max_grado_academico, dtype: int64

In [46]:
personas_2017['max_grado_academico'].value_counts()

Universitario de grado                       23925
Universitario de posgrado/doctorado          23057
Universitario de posgrado/maestría            9217
Universitario de posgrado/especialización     8166
Medio                                         1119
Sin datos                                      760
Terciario no universitario                     421
Básico                                          19
Name: max_grado_academico, dtype: int64

In [47]:
#Se decide eliminar esos registros
personas_2017=personas_2017.loc[(personas_2017['max_grado_academico'] !='Sin datos')]

In [48]:
#Se analiza tipo_personal. No hay NaN ni valores erróneos
personas_2017['tipo_personal'].isnull().value_counts()

False    65924
Name: tipo_personal, dtype: int64

In [49]:
personas_2017['tipo_personal'].value_counts()

INVESTIGADOR                       26948
DOCENTE                            26146
BECARIO DE I+D                     10326
OTRO PERSONAL DE LA INSTITUCION     2504
Name: tipo_personal, dtype: int64

In [50]:
#Gran area experticia. No hay Nan pero hay 1203 registros sin datos
personas_2017['gran_area_experticia'].value_counts()

CIENCIAS SOCIALES                 18741
CIENCIAS NATURALES Y EXACTAS      18122
HUMANIDADES                        8835
INGENIERÍAS Y TECNOLOGÍAS          7539
CIENCIAS MÉDICAS Y DE LA SALUD     6848
CIENCIAS AGRÍCOLAS                 4636
SIN DATOS                          1203
Name: gran_area_experticia, dtype: int64

In [51]:
#Se eliminan los 1203 casos en los que no hay datos
personas_2017=personas_2017.loc[(personas_2017['gran_area_experticia']!="SIN DATOS")]

In [52]:
#Analizamos si hay NaN en areas experticia. No se detecta ninguno
print(personas_2017['gran_area_experticia'].isnull().value_counts())


False    64721
Name: gran_area_experticia, dtype: int64


In [53]:
#Analizamos condición docente. Hay 58 registros sin datos.
personas_2017['condicion_docente'].value_counts()

Regular o por concurso    29616
Interino                  20994
Por contrato               5655
Sin datos                    58
Name: condicion_docente, dtype: int64

In [54]:
#Se eliminan ya que no es un valor representativo
personas_2017=personas_2017.loc[personas_2017['condicion_docente']!="Sin datos"]

In [55]:
#Analizamos los NaN. Son 8398 datos NaN.
personas_2017['condicion_docente'].isnull().value_counts()

False    56265
True      8398
Name: condicion_docente, dtype: int64

In [56]:
#Se detecta que hay la misma cantidad de Null en condicion docente, dedicacion horaria docente, tipo cargo docente,
#grupo cargo docente y clase cargo docente. 
personas_2017[['tipo_personal', 'condicion_docente',
       'ded_horaria_docente', 'tipo_cargo_docente', 'grupo_cargo_docente',
       'clase_cargo_docente']].loc[
    (personas_2017['condicion_docente'].isnull()==True) &
    (personas_2017['ded_horaria_docente'].isnull()==True) &
    (personas_2017['tipo_cargo_docente'].isnull()==True) &
    (personas_2017['grupo_cargo_docente'].isnull()==True) &
    (personas_2017['clase_cargo_docente'].isnull()==True)].shape
    

(8398, 6)

In [57]:
#Se analiza el tipo de personal y se detecta que se trata de casos que no son docentes
personas_2017[['tipo_personal', 'condicion_docente',
       'ded_horaria_docente', 'tipo_cargo_docente', 'grupo_cargo_docente',
       'clase_cargo_docente']].loc[
    personas_2017['condicion_docente'].isnull()==True]['tipo_personal'].value_counts()

BECARIO DE I+D                     3243
INVESTIGADOR                       2701
OTRO PERSONAL DE LA INSTITUCION    2454
Name: tipo_personal, dtype: int64

In [58]:
#Se le asigna a esos NaN el dato: "no docente"
personas_2017.fillna({'condicion_docente':'no docente',
           'ded_horaria_docente':0,
           'tipo_cargo_docente':'no docente',
           'grupo_cargo_docente':'no docente',
           'clase_cargo_docente':'no docente'},inplace=True)

In [59]:
#Se analizan los datos de ded_horaria_docente. No hay datos erróneos
personas_2017['ded_horaria_docente'].value_counts()

De 0 hasta 19 horas     29496
40 horas o más          14123
De 20 hasta 39 horas    12646
0                        8398
Name: ded_horaria_docente, dtype: int64

In [60]:
#Se analizan los datos de tipo_cargo_docente. No hay datos erróneos
personas_2017['tipo_cargo_docente'].value_counts()

Docente nivel superior universitario y/o posgrado    56265
no docente                                            8398
Name: tipo_cargo_docente, dtype: int64

In [61]:
#Tipo cargo docente no aporta demasiada información, se decide eliminar la columna
personas_2017.drop(columns='tipo_cargo_docente',inplace=True)

In [62]:
#Se analizan los datos de grupo_cargo_docente. No hay datos erróneos
personas_2017['grupo_cargo_docente'].value_counts()

Cargos docentes de nivel superior universitario y/o posgrado    56265
no docente                                                       8398
Name: grupo_cargo_docente, dtype: int64

In [63]:
#Grupo cargo docente no aporta demasiada información, se decide eliminar la columna
personas_2017.drop(columns='grupo_cargo_docente',inplace=True)

In [64]:
#Se analizan los datos de clase_cargo_docente. No hay datos erróneos
personas_2017['clase_cargo_docente'].value_counts()

Profesor adjunto                             15270
Jefe de trabajos prácticos                   12876
Profesor titular                              9415
no docente                                    8398
Ayudante de primera                           6715
Profesor asociado                             2509
Ayudante diplomado                            1923
Ayudante de segunda                            974
Auxiliar de primera categoría                  748
Docente autorizado                             641
Profesor contratado                            557
Otro de nivel superior                         432
Ayudante alumno                                423
Auxiliar docente de primera categoría          408
Ayudante Docente A                             296
Asistente de docencia                          288
Ayudante de trabajos prácticos de primera      272
Asistente docente                              255
Profesor invitado                              250
Profesor instructor            

In [65]:
#Se analiza la categoría conicet. Hay 8398 registros Null, se asume que no pertenecen a Conicet
personas_2017['categoria_conicet'].isnull().value_counts()

False    56265
True      8398
Name: categoria_conicet, dtype: int64

In [66]:
#Se asume que no poseen categoría Conicet
personas_2017.fillna({'categoria_conicet':'No pertenece a Conicet'},inplace =True)

In [67]:
#Se analizan los datos de la categoría conicet. No hay valores erróneos
personas_2017['categoria_conicet'].value_counts()

No pertenece a Conicet          51524
Becario doctoral                 3158
Investigador adjunto             2625
Investigador asistente           2324
Investigador independiente       1860
Becario postdoctoral             1617
Investigador principal            873
Personal de apoyo                 445
Investigador superior             224
Otro personal Conicet              12
Investigador correspondiente        1
Name: categoria_conicet, dtype: int64

In [68]:
print('Se eliminaron: ',personas_2017_original.shape[0]-personas_2017.shape[0],'registros. El ',
      round((personas_2017_original.shape[0]-personas_2017.shape[0])/personas_2017_original.shape[0],2),'% de los registros totales.')

Se eliminaron:  2022 registros. El  0.03 % de los registros totales.


In [69]:
personas_2017.shape

(64663, 14)

#### 7. Lectura e interpretación de la personas_indicadores_genero_2017

In [70]:
ind_gen_2017=pd.read_csv('personas_indicadores_genero_2017.csv',sep=";")

In [71]:
ind_gen_2017.head()

Unnamed: 0,persona_id,anio_id,movilidad_posgrado_exterior,movilidad_estancias_exterior,produccion_cantidad_articulos_total,produccion_cantidad_articulos_SJR_Q1,produccion_cantidad_articulos_SJR_Q2,produccion_cantidad_articulos_SJR_Q3,produccion_cantidad_articulos_SJR_Q4,produccion_cantidad_articulos_NBR,...,actividad_evaluacion_comite_editorial_internacional,actividad_evaluacion_referato_internacional,actividad_evaluacion_proyectos,proyectos_direccion,formacion_participacion_taller,formacion_participacion_conferencia,produccion_publicacion_congreso,membresia_asociaciones_cyt,movilidad_posdoctorado_exterior,proyectos_financiamiento_externo
0,1,2017,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,5,2017,0,0,5,1,0,1,0,0,...,0,1,1,0,0,0,0,0,0,0
2,7,2017,0,1,15,7,0,0,0,0,...,0,1,0,0,0,0,0,1,0,1
3,9,2017,0,0,5,2,2,0,0,1,...,0,0,1,0,0,0,0,0,0,0
4,10,2017,0,0,9,5,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0


#### 8. Análisis de valores erróneos o nulos

In [72]:
#La columna actividad_evaluacion_comite_editorial debería ser la suma de las columnas
# actividad_evaluacion_comite_editorial_internacional y actividad_evaluacion_comite_editorial_nacional
#Se comprueba si hay casos que no lo sean

ind_gen_2017[['actividad_evaluacion_comite_editorial',
              'actividad_evaluacion_comite_editorial_nacional',
             'actividad_evaluacion_comite_editorial_internacional']].loc[ind_gen_2017['actividad_evaluacion_comite_editorial']!=
                (ind_gen_2017['actividad_evaluacion_comite_editorial_nacional'] +
                 ind_gen_2017['actividad_evaluacion_comite_editorial_internacional'])]

Unnamed: 0,actividad_evaluacion_comite_editorial,actividad_evaluacion_comite_editorial_nacional,actividad_evaluacion_comite_editorial_internacional
4004,1,1,1
6052,1,1,1
18172,1,1,1
26977,1,1,1
27264,1,1,1
28225,1,1,1
37107,1,1,1
55414,1,1,1
64348,1,1,1


In [73]:
#Hay 9 casos que no coinciden, se eliminan porque no hay forma de saber cuál es el correcto
ind_gen_2017=ind_gen_2017.loc[ind_gen_2017['actividad_evaluacion_comite_editorial']==
                (ind_gen_2017['actividad_evaluacion_comite_editorial_nacional'] +
                 ind_gen_2017['actividad_evaluacion_comite_editorial_internacional'])]

In [74]:
#Se elimina la columna actividad_evaluacion_comite_editorial porque es la suma de las otras dos
ind_gen_2017.drop(columns='actividad_evaluacion_comite_editorial',inplace=True)

In [75]:
#Se elimina la columna actividad_evaluacion_referato porque es la suma de las otras dos
ind_gen_2017.drop(columns='actividad_evaluacion_referato',inplace=True)

In [76]:
#Se analizan NaN
print(ind_gen_2017['actividad_evaluacion_comite_editorial_internacional'].value_counts())
print(ind_gen_2017['actividad_evaluacion_comite_editorial_internacional'].isnull().value_counts())

0    65333
1       14
Name: actividad_evaluacion_comite_editorial_internacional, dtype: int64
False    65347
Name: actividad_evaluacion_comite_editorial_internacional, dtype: int64


In [77]:
print(ind_gen_2017['actividad_evaluacion_comite_editorial_nacional'].value_counts())
print(ind_gen_2017['actividad_evaluacion_comite_editorial_nacional'].isnull().value_counts())

0    65285
1       62
Name: actividad_evaluacion_comite_editorial_nacional, dtype: int64
False    65347
Name: actividad_evaluacion_comite_editorial_nacional, dtype: int64


In [78]:
print(ind_gen_2017['actividad_evaluacion_proyectos'].value_counts())
print(ind_gen_2017['actividad_evaluacion_proyectos'].isnull().value_counts())

0    54655
1    10692
Name: actividad_evaluacion_proyectos, dtype: int64
False    65347
Name: actividad_evaluacion_proyectos, dtype: int64


In [79]:
print(ind_gen_2017['actividad_evaluacion_referato_internacional'].value_counts())
print(ind_gen_2017['actividad_evaluacion_referato_internacional'].isnull().value_counts())

0    51974
1    13373
Name: actividad_evaluacion_referato_internacional, dtype: int64
False    65347
Name: actividad_evaluacion_referato_internacional, dtype: int64


In [80]:
print(ind_gen_2017['actividad_evaluacion_rrhh_becarios'].value_counts())
print(ind_gen_2017['actividad_evaluacion_rrhh_becarios'].isnull().value_counts())

0    60924
1     4423
Name: actividad_evaluacion_rrhh_becarios, dtype: int64
False    65347
Name: actividad_evaluacion_rrhh_becarios, dtype: int64


In [81]:
print(ind_gen_2017['actividad_evaluacion_rrhh_investigadores'].value_counts())
print(ind_gen_2017['actividad_evaluacion_rrhh_investigadores'].isnull().value_counts())

0    59185
1     6162
Name: actividad_evaluacion_rrhh_investigadores, dtype: int64
False    65347
Name: actividad_evaluacion_rrhh_investigadores, dtype: int64


In [82]:
print(ind_gen_2017['actividad_evaluacion_rrhh_premios'].value_counts())
print(ind_gen_2017['actividad_evaluacion_rrhh_premios'].isnull().value_counts())

0    62654
1     2693
Name: actividad_evaluacion_rrhh_premios, dtype: int64
False    65347
Name: actividad_evaluacion_rrhh_premios, dtype: int64


In [83]:
print(ind_gen_2017['formacion_participacion_conferencia'].value_counts())
print(ind_gen_2017['formacion_participacion_conferencia'].isnull().value_counts())

0    64612
1      735
Name: formacion_participacion_conferencia, dtype: int64
False    65347
Name: formacion_participacion_conferencia, dtype: int64


In [84]:
print(ind_gen_2017['formacion_participacion_taller'].value_counts())
print(ind_gen_2017['formacion_participacion_taller'].isnull().value_counts())

0    64308
1     1039
Name: formacion_participacion_taller, dtype: int64
False    65347
Name: formacion_participacion_taller, dtype: int64


In [85]:
print(ind_gen_2017['membresia_asociaciones_cyt'].value_counts())
print(ind_gen_2017['membresia_asociaciones_cyt'].isnull().value_counts())

0    45933
1    19414
Name: membresia_asociaciones_cyt, dtype: int64
False    65347
Name: membresia_asociaciones_cyt, dtype: int64


In [86]:
print(ind_gen_2017['movilidad_estancias_exterior'].value_counts())
print(ind_gen_2017['movilidad_estancias_exterior'].isnull().value_counts())

0    60322
1     5025
Name: movilidad_estancias_exterior, dtype: int64
False    65347
Name: movilidad_estancias_exterior, dtype: int64


In [87]:
print(ind_gen_2017['movilidad_posdoctorado_exterior'].value_counts())
print(ind_gen_2017['movilidad_posdoctorado_exterior'].isnull().value_counts())

0    61125
1     4222
Name: movilidad_posdoctorado_exterior, dtype: int64
False    65347
Name: movilidad_posdoctorado_exterior, dtype: int64


In [88]:
print(ind_gen_2017['movilidad_posgrado_exterior'].value_counts())
print(ind_gen_2017['movilidad_posgrado_exterior'].isnull().value_counts())

0    60278
1     5069
Name: movilidad_posgrado_exterior, dtype: int64
False    65347
Name: movilidad_posgrado_exterior, dtype: int64


In [89]:
print(ind_gen_2017['produccion_cantidad_libros'].value_counts())
print(ind_gen_2017['produccion_cantidad_libros'].isnull().value_counts())

0     54526
1      6525
2      2299
3       916
4       463
5       245
6       143
7        83
8        44
9        34
10       19
11       14
15        6
18        5
14        4
12        3
13        3
17        3
16        2
20        2
22        2
24        2
26        1
23        1
32        1
27        1
Name: produccion_cantidad_libros, dtype: int64
False    65347
Name: produccion_cantidad_libros, dtype: int64


In [90]:
print(ind_gen_2017['produccion_patentes_otorgadas'].value_counts())
print(ind_gen_2017['produccion_patentes_otorgadas'].isnull().value_counts())

0    65229
1      118
Name: produccion_patentes_otorgadas, dtype: int64
False    65347
Name: produccion_patentes_otorgadas, dtype: int64


In [91]:
print(ind_gen_2017['produccion_patentes_solicitadas'].value_counts())
print(ind_gen_2017['produccion_patentes_solicitadas'].isnull().value_counts())

0    64701
1      646
Name: produccion_patentes_solicitadas, dtype: int64
False    65347
Name: produccion_patentes_solicitadas, dtype: int64


In [92]:
print(ind_gen_2017['produccion_publicacion_congreso'].value_counts())
print(ind_gen_2017['produccion_publicacion_congreso'].isnull().value_counts())

0    59873
1     5474
Name: produccion_publicacion_congreso, dtype: int64
False    65347
Name: produccion_publicacion_congreso, dtype: int64


In [93]:
print(ind_gen_2017['proyectos_direccion'].value_counts())
print(ind_gen_2017['proyectos_direccion'].isnull().value_counts())

0    64674
1      673
Name: proyectos_direccion, dtype: int64
False    65347
Name: proyectos_direccion, dtype: int64


In [94]:
print(ind_gen_2017['proyectos_financiamiento_externo'].value_counts())
print(ind_gen_2017['proyectos_financiamiento_externo'].isnull().value_counts())

0    62256
1     3091
Name: proyectos_financiamiento_externo, dtype: int64
False    65347
Name: proyectos_financiamiento_externo, dtype: int64


In [95]:
#No se encontraron valores nulos o erróneos. 

In [96]:
ind_gen_2017.columns

Index(['persona_id', 'anio_id', 'movilidad_posgrado_exterior',
       'movilidad_estancias_exterior', 'produccion_cantidad_articulos_total',
       'produccion_cantidad_articulos_SJR_Q1',
       'produccion_cantidad_articulos_SJR_Q2',
       'produccion_cantidad_articulos_SJR_Q3',
       'produccion_cantidad_articulos_SJR_Q4',
       'produccion_cantidad_articulos_NBR',
       'produccion_cantidad_capitulos_libro', 'produccion_cantidad_libros',
       'produccion_patentes_solicitadas', 'produccion_patentes_otorgadas',
       'actividad_evaluacion_rrhh_becarios',
       'actividad_evaluacion_rrhh_investigadores',
       'actividad_evaluacion_rrhh_premios',
       'actividad_evaluacion_comite_editorial_nacional',
       'actividad_evaluacion_referato_nacional',
       'actividad_evaluacion_comite_editorial_internacional',
       'actividad_evaluacion_referato_internacional',
       'actividad_evaluacion_proyectos', 'proyectos_direccion',
       'formacion_participacion_taller', 'formacio

In [97]:
#Se eliminan columnas que no se utilizarán
ind_gen_2017.drop(columns=['anio_id','produccion_cantidad_capitulos_libro',
                          'produccion_cantidad_articulos_SJR_Q1',
       'produccion_cantidad_articulos_SJR_Q2',
       'produccion_cantidad_articulos_SJR_Q3',
       'produccion_cantidad_articulos_SJR_Q4',
       'produccion_cantidad_articulos_NBR','produccion_cantidad_articulos_total'],inplace=True)

#Se hace un merge con personas_2017

In [98]:
personas_2017=pd.merge(ind_gen_2017, personas_2017, how='left',left_on='persona_id',right_on='persona_id')

In [99]:
#revisamos si se encontraron todas las personas. Hay 2794 personas que estaban en la base de ind_gen_2017 que no se
#encontraron en la base de personas 2017. 
null_columns=personas_2017.columns[personas_2017.isnull().any()]
personas_2017[null_columns].isnull().sum()

sexo                    2794
prod_ultimo_año         2794
prod_año_ant            2794
prod_2_años_ant         2794
prod_3_años_ant         2794
max_grado_academico     2794
gran_area_experticia    2794
tipo_personal           2794
condicion_docente       2794
ded_horaria_docente     2794
clase_cargo_docente     2794
categoria_conicet       2794
rango_edad              2794
dtype: int64

In [100]:
personas_2017.shape

(65347, 34)

In [101]:
#Se eliminan
personas_2017=personas_2017.dropna()

In [102]:
personas_2017.shape

(62553, 34)

In [103]:
#Se lee la tabla de personas 2012 para comparar las columnas y ver si están en el mismo orden
personas_2012=pd.read_csv('personas_2012_2016.csv',sep=",")

In [104]:
personas_2012.head()

Unnamed: 0.1,Unnamed: 0,persona_id,publico_articulos,cant_articulos_prestigio,publico_prestigio,produccion_cantidad_articulos_total,movilidad_posgrado_exterior,movilidad_estancias_exterior,produccion_cantidad_libros,produccion_patentes_solicitadas,...,prod_2_años_ant,prod_3_años_ant,max_grado_academico,gran_area_experticia,tipo_personal,condicion_docente,ded_horaria_docente,clase_cargo_docente,categoria_conicet,rango_edad
0,2,7,1,7,1,8,0.0,0.0,0.0,0.0,...,2.0,0.0,Universitario de grado,CIENCIAS MÉDICAS Y DE LA SALUD,BECARIO DE I+D,no docente,0,no docente,No pertenece a Conicet,"(30, 40]"
1,3,9,1,8,1,8,0.0,0.0,0.0,0.0,...,9.0,2.0,Universitario de posgrado/doctorado,CIENCIAS MÉDICAS Y DE LA SALUD,INVESTIGADOR,no docente,0,no docente,No pertenece a Conicet,"(60, 70]"
2,4,10,1,7,1,8,0.0,0.0,0.0,0.0,...,1.0,2.0,Universitario de grado,CIENCIAS NATURALES Y EXACTAS,DOCENTE,Regular o por concurso,De 0 hasta 19 horas,Ayudante de primera,No pertenece a Conicet,"(50, 60]"
3,6,12,1,1,1,1,0.0,0.0,0.0,0.0,...,1.0,0.0,Universitario de posgrado/doctorado,INGENIERÍAS Y TECNOLOGÍAS,DOCENTE,Regular o por concurso,40 horas o más,Profesor asociado,No pertenece a Conicet,"(40, 50]"
4,7,13,1,0,0,1,0.0,0.0,0.0,0.0,...,0.0,0.0,Universitario de grado,CIENCIAS SOCIALES,DOCENTE,Regular o por concurso,De 0 hasta 19 horas,Ayudante de primera,No pertenece a Conicet,"(40, 50]"


In [105]:
personas_2012.shape

(56052, 39)

In [106]:
personas_2017.columns

Index(['persona_id', 'movilidad_posgrado_exterior',
       'movilidad_estancias_exterior', 'produccion_cantidad_libros',
       'produccion_patentes_solicitadas', 'produccion_patentes_otorgadas',
       'actividad_evaluacion_rrhh_becarios',
       'actividad_evaluacion_rrhh_investigadores',
       'actividad_evaluacion_rrhh_premios',
       'actividad_evaluacion_comite_editorial_nacional',
       'actividad_evaluacion_referato_nacional',
       'actividad_evaluacion_comite_editorial_internacional',
       'actividad_evaluacion_referato_internacional',
       'actividad_evaluacion_proyectos', 'proyectos_direccion',
       'formacion_participacion_taller', 'formacion_participacion_conferencia',
       'produccion_publicacion_congreso', 'membresia_asociaciones_cyt',
       'movilidad_posdoctorado_exterior', 'proyectos_financiamiento_externo',
       'sexo', 'prod_ultimo_año', 'prod_año_ant', 'prod_2_años_ant',
       'prod_3_años_ant', 'max_grado_academico', 'gran_area_experticia',
      

In [107]:
personas_2017.shape

(62553, 34)

In [108]:
personas_2012.shape

(56052, 39)

In [109]:
personas_2012.columns

Index(['Unnamed: 0', 'persona_id', 'publico_articulos',
       'cant_articulos_prestigio', 'publico_prestigio',
       'produccion_cantidad_articulos_total', 'movilidad_posgrado_exterior',
       'movilidad_estancias_exterior', 'produccion_cantidad_libros',
       'produccion_patentes_solicitadas', 'produccion_patentes_otorgadas',
       'actividad_evaluacion_rrhh_becarios',
       'actividad_evaluacion_rrhh_investigadores',
       'actividad_evaluacion_rrhh_premios',
       'actividad_evaluacion_comite_editorial_nacional',
       'actividad_evaluacion_referato_nacional',
       'actividad_evaluacion_comite_editorial_internacional',
       'actividad_evaluacion_referato_internacional',
       'actividad_evaluacion_proyectos', 'proyectos_direccion',
       'formacion_participacion_taller', 'formacion_participacion_conferencia',
       'produccion_publicacion_congreso', 'membresia_asociaciones_cyt',
       'movilidad_posdoctorado_exterior', 'proyectos_financiamiento_externo',
       'sex

In [110]:
#Las columnas son las mismas, sólo se diferencias en las target que, para el caso de la estimación, no las necesitaremos.
#Se generan las dummies
df=personas_2017

In [111]:
#Se generan dummies para sexo 
df_dummies = pd.get_dummies(df['sexo'], prefix='sexo',drop_first=True)
df=pd.concat([df,df_dummies], axis=1)
df.drop(columns='sexo',inplace=True)

In [112]:
#Se generan dummies para rango_edad 
df_dummies = pd.get_dummies(df['rango_edad'], prefix='edad',drop_first=True)
df=pd.concat([df,df_dummies], axis=1)
df.drop(columns='rango_edad',inplace=True)

In [113]:
#Se generan dummies para tipo_personal
df_dummies = pd.get_dummies(df['tipo_personal'], prefix='t_personal',drop_first=True)
df=pd.concat([df,df_dummies], axis=1)
df.drop(columns='tipo_personal',inplace=True)

In [114]:
#Se generan dummies para condicion_docente
df_dummies = pd.get_dummies(df['condicion_docente'], prefix='cond_docente',drop_first=True)
df=pd.concat([df,df_dummies], axis=1)
df.drop(columns='condicion_docente',inplace=True)

In [115]:
#Se generan dummies para ded_horaria_docente
df_dummies = pd.get_dummies(df['ded_horaria_docente'], prefix='ded_horaria',drop_first=True)
df=pd.concat([df,df_dummies], axis=1)
df.drop(columns='ded_horaria_docente',inplace=True)

In [116]:
#Se generan dummies para max_grado_academico
df_dummies = pd.get_dummies(df['max_grado_academico'], prefix='grado_acad',drop_first=True)
df=pd.concat([df,df_dummies], axis=1)
df.drop(columns='max_grado_academico',inplace=True)

In [117]:
#Se generan dummies para categoria_conicet
df_dummies = pd.get_dummies(df['categoria_conicet'], prefix='cat_conicet',drop_first=True)
df=pd.concat([df,df_dummies], axis=1)
df.drop(columns='categoria_conicet',inplace=True)

In [118]:
#Se generan dummies para clase_cargo_docente
df_dummies = pd.get_dummies(df['clase_cargo_docente'], prefix='clase_cargo_docente',drop_first=True)
df=pd.concat([df,df_dummies], axis=1)
df.drop(columns='clase_cargo_docente',inplace=True)

In [119]:
#Se generan dummies para 'gran_area_experticia'
df_dummies = pd.get_dummies(df['gran_area_experticia'], prefix='area_exp',drop_first=True)
df=pd.concat([df,df_dummies], axis=1)
df.drop(columns='gran_area_experticia',inplace=True)

In [120]:
df.head()

Unnamed: 0,persona_id,movilidad_posgrado_exterior,movilidad_estancias_exterior,produccion_cantidad_libros,produccion_patentes_solicitadas,produccion_patentes_otorgadas,actividad_evaluacion_rrhh_becarios,actividad_evaluacion_rrhh_investigadores,actividad_evaluacion_rrhh_premios,actividad_evaluacion_comite_editorial_nacional,...,clase_cargo_docente_Profesor por convenio,clase_cargo_docente_Profesor titular,clase_cargo_docente_Profesor titular plenario,clase_cargo_docente_Profesor visitante,clase_cargo_docente_no docente,area_exp_CIENCIAS MÉDICAS Y DE LA SALUD,area_exp_CIENCIAS NATURALES Y EXACTAS,area_exp_CIENCIAS SOCIALES,area_exp_HUMANIDADES,area_exp_INGENIERÍAS Y TECNOLOGÍAS
1,5,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,1,0,0,0
2,7,0,1,0,0,0,0,0,1,0,...,0,0,0,0,0,1,0,0,0,0
3,9,0,0,0,0,0,0,1,0,0,...,0,0,0,0,1,1,0,0,0,0
4,10,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
5,11,0,0,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,1,0,0


In [121]:
df["produccion_cantidad_libros"].sum()

19546

In [123]:
#se guarda nel archivo antes de estandarizan variables numericas
personas_2017_sin_estandarizar=df
personas_2017_sin_estandarizar.to_csv('personas_2017_sin_estandarizar.csv')

In [None]:
#Se estandarizan las variables numericas
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df['prod_ultimo_año']=scaler.fit_transform(df[['prod_ultimo_año']])
df['prod_año_ant']=scaler.fit_transform(df[['prod_año_ant']])
df['prod_2_años_ant']=scaler.fit_transform(df[['prod_2_años_ant']])
df['prod_3_años_ant']=scaler.fit_transform(df[['prod_3_años_ant']])
df['produccion_cantidad_libros']=scaler.fit_transform(df[['produccion_cantidad_libros']])
df['produccion_patentes_otorgadas']=scaler.fit_transform(df[['produccion_patentes_otorgadas']])
df['produccion_patentes_solicitadas']=scaler.fit_transform(df[['produccion_patentes_solicitadas']])

In [None]:
personas_2017_para_estimar=df

In [None]:
personas_2017_para_estimar.shape

In [None]:
personas_2017_para_estimar.to_csv('personas_2017_para_estimar.csv')