In [1]:
import pandas as pd
import numpy as np
import openpyxl
from upper_case_dict import D_dict
from upper_case_dict import D_describe
from traduce import leyenda
from traduce import traduce
import traduce as tr 
pd.options.display.max_columns=None
pd.options.display.max_colwidth=300

# Objetivo: Inspección y ajustes

**Objetivo**: Inspección del dataset, imputación de valores perdidos debido a los itinerarios de la encuesta y creación de variables nuevas para análisis descriptivo y predictivo.   

De esta etapa del proceso se obtienen **dos datasets**:    

1- Un dataset con las **variables originales** (designadas con nombres en mayúsculas) a las que, a lo sumo, se aplica alguna de las transformaciones siguientes:  

- Imputación de valores perdidos que pueden deducirse de los itinerarios de la encuesta. 

- Sustitución de las no respuestas y las respuestas NS/NC por el valor None.  

2- Un **dataset nuevo** formado por algunas de las variables originales escogidas como candidatas a formar parte de los modelos descriptivos o predictivos y por algunas variables nuevas creadas a partir de las originales. Las variables de este dataset se designan por nombres en minúsculas para facilitar su identificación. Algunas de las transformaciones que dan lugar a este conjunto de variables son:  

- Sustitución del valor asociado a la respuesta No en las preguntas de respuesta Sí o No: se cambia el valor 2 asociado al No en el dataset original por el valor 0.  

- Creación de variables binarias para algunas de las variables cualitativas del dataset original.  

- Creación de variables nuevas para información que puede deducirse de una o varias de las columnas del dataset original.  

- Creación de variables con información de la encuesta asociada a este dataset (año de la encuesta, población objeto de muestreo, etc.) con el fin de que sea posible identificar la procedencia de cada observación del el dataset que resulte de reunir todas las encuestas empleadas en este estudio.  

En esta etapa **no se imputan valores a las no respuestas o a las respuestas NS/NC** que no puedan deducirse de los itinerarios de la encuesta. Solo se sustituyen por el valor None. Se procede así para evitar que los valores imputados interfieran en los resultados del análisis descriptivo. 

# Diccionarios de variables categóricas  

Los **diccionarios de las variables originales** en la encuesta se importan del **módulo upper_case_dict**:  

- **D_dict**; diccionarios de traducción de las variables categóricas. Construidos de acuerdo con los códigos facilitados en el archivo de diseño de la encuesta 'dr_EILU_GRAD_2019.xlsx'. Para cada variable: D_dict[variable][código_categórico]=interpretación_código. 
- **D_describe**; diccionario de interpretación de las variables: D_describe[variable]=interpretación_variable.  

El proceso de construcción de estos diccionarios se detalla en el fichero upper_case_dict.py.

En el proceso de inspección se redefinen algunas variables originales y se definen otras nuevas. Estas se añaden a los diccionarios D_dict y D_describe para ser recuperados con el módulo lower_case_dict. 

### Funciones de traducción

Se importan las funciones traduce y leyenda del módulo traduce. 

# Recuperación del dataset
Dataset 'Encuesta_insercion_laboral_titulados_universitarios_2019' en formato csv.   

Enlace a fuente (INE): https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176991&menu=resultados&idp=1254735573113#!tabs-1254736195339

In [2]:
ruta_dataset='data/EILU_GRAD_2019.csv'

In [3]:
df_raw=pd.read_csv(ruta_dataset,sep='\t', low_memory=False)

In [4]:
df=df_raw.copy()

### Declaración de variables globales en en módulo traduce (tr):

In [5]:
tr.D_dict=D_dict
tr.df=df

In [6]:
df.shape

(31651, 299)

In [7]:
for n,col in enumerate(df.columns):
    print(n,col,df[col].dtype)

0 IDENT int64
1 SEXO int64
2 EDAD int64
3 NACIO int64
4 NACIO1 object
5 NACIO2 object
6 PAIS_NACI int64
7 TITU int64
8 RAMA int64
9 AMBITO int64
10 T_UNIV int64
11 DISCA int64
12 PROXY int64
13 LUG_RES_PAIS int64
14 PAIS_NAC_PADRE int64
15 ESTUDIOS_PADRE int64
16 PAIS_NAC_MADRE int64
17 ESTUDIOS_MADRE int64
18 EST_B1 int64
19 EST_B2_1 object
20 EST_B2_2 object
21 EST_B2_3 object
22 EST_B2_4 object
23 EST_B2_5 object
24 EST_M1 int64
25 EST_M2 object
26 EST_M3 object
27 EST_M4 object
28 EST_MES int64
29 EST_B8 int64
30 SAT1 int64
31 SAT2 object
32 EST_B11_1 int64
33 EST_B11_2 int64
34 EST_B11_3 int64
35 EST_B11_4 int64
36 EST_B11_5 int64
37 EST_B11_6 int64
38 EST_B11_7 int64
39 EST_B12 object
40 EST_B13_AMB1 object
41 EST_B14_1 object
42 EST_B15_1 object
43 EST_B13_AMB2 object
44 EST_B14_2 object
45 EST_B15_2 object
46 EST_B13_AMB3 object
47 EST_B14_3 object
48 EST_B15_3 object
49 EST_B16 object
50 EST_B17_M1 object
51 EST_B18_1 object
52 EST_B19_1 object
53 EST_B17_M2 object
54 EST_B18_

In [8]:
for k,v in D_describe.items():
    print (k,'\t',v)

SEXO 	 Sexo
EDAD 	 Grupo de edad (a 31-dic-2019)
NACIO 	 Nacionalidad
NACIO1 	 País de nacionalidad 1 
NACIO2 	 País de nacionalidad 2
PAIS_NACI 	 País de nacimiento
TITU 	 Titulación
RAMA 	 Rama de conocimiento de la titulación
AMBITO 	 Ámbito de estudio
T_UNIV 	 Tipo de Universidad
DISCA 	 Tiene discapacidad reconocida superior al 33%
PROXY 	 Tipo de entrevista (directa o proxy)
LUG_RES_PAIS 	 País de residencia actual
PAIS_NAC_PADRE 	 País de nacimiento del padre
ESTUDIOS_PADRE 	 Nivel de formación máximo alcanzado por el padre
PAIS_NAC_MADRE 	 País de nacimiento de la madre
ESTUDIOS_MADRE 	 Nivel de formación máximo alcanzado por la madre
EST_B1 	 Disfrutó de alguna beca durante sus estudios
EST_B2_1 	 Disfrutó de alguna beca: Beca general para el estudio
EST_B2_2 	 Disfrutó de alguna beca: Premio o beca de excelencia
EST_B2_3 	 Disfrutó de alguna beca: Beca de colaboración en la Universidad
EST_B2_4 	 Disfrutó de alguna beca: Beca de prácticas externas, para prestar un servicio o 

RECHA_M8 	 Motivo de rechazarlo: estaba preparando oposiciones
RECHA_M9 	 Motivo de rechazarlo: otros motivos
HO_F1 	 Estado civil
HO_PAREJ 	 Convive en pareja
HO_NPER 	 Número de personas que viven en el hogar (incluido el entrevistado)
HO_NPER_TR 	 Número de personas que viven en el hogar y estan trabajando actualmente (incluido el entrevistado)
HO_TIPO 	 Tipo de hogar
ALSSM15 	 Afiliado a la Seguridad Social en algún día de Marzo de 2015
COTIZ15 	 Cotización a la SS en marzo de 2015 (cuenta propia o ajena)
BCOTC15 	 Base de cotización a la SS en marzo de 2015 de los empleados por cuenta ajena (Quintiles). Las bases de cotización se han calculado prorrateando las correspondientes a contratos con duración inferior a 31 días. Los límites inferiores y medianas de cada quintil se pueden consultar en la tabla 13.15 de cifras absolutas de la publicación de la encuesta en la página web del INE.
ALSSM16 	 Afiliado a la Seguridad Social en algún día de Marzo de 2016
COTIZ16 	 Cotización a la 

# Análisis exploratorio: funciones 

Funciones definidas para facilitar la inspección de variables categóricas: distribución de frecuencias relativas, distribuciones condicionadas, etc.    

In [9]:
def proporciones(col,dropna=False):
    """ Frecuencias relativas de los valores que toma una variable categórica en orden ascendente.
    Si dropna=False, incluye los valores NaN."""
    out=df[col].value_counts(normalize=True,ascending=False,dropna=dropna)
    out=pd.DataFrame(out)
    return out

In [10]:
def dist_condicionada(col,cond,df=df,rev=False,dropna=True):
    """ Distribución de la columna col condicionada por la columna cond y diferencias relativas con la 
    distribución no condicionada de la variable col. 
    Si rev=True, distribución de cond condicionada por col.
    Si dropna=True, prescinde de registros NaN."""
    # Permutación de col y cond con rev=True: 
    if rev==True: 
        temp=col
        col=cond
        cond=temp
    # Frecuencias relativas condicionadas: 
    out=df[[cond,col]].groupby([cond,col],dropna=dropna).agg({col:'count'})\
                .div(df[[cond,col]].groupby(cond,dropna=dropna).agg({col:'count'}),level=cond)
    # Columna con distribución no condicionada de variable col (frecuencias relativas): 
    out['no_cond']=0
    out['no_cond']=out['no_cond'].\
                                add(df[col].value_counts(normalize=True,dropna=dropna),level=col)
    # Columna de diferencias entre distribuciones condicionadas y no condicionada: 
    out['dif']=out[col].sub(out['no_cond'],level=col)
    # Columna auxiliar de diferencias relativas (respecto a frecuencias no condicionadas):
    out['3. dif relativas']=out['dif'].div(df[col].value_counts(normalize=True,dropna=dropna),level=col)
    # Renombra columna de frecuencias condicionadas (evita conflictos índice fila y columna en pivot table):
    out.rename(columns={col:'1. fr. relativas condicionadas'},inplace=True)
    
    pt=pd.pivot_table(data=out,index=col,columns=[cond],\
                      values=['1. fr. relativas condicionadas','3. dif relativas'])
    pt.sort_index(inplace=True)
 
    # Nueva columna de frecuencias no condicionadas (más sencillo que ajustar la auxiliar): 
    pt['2. fr relativas '+str(col)]=0
    pt['2. fr relativas '+str(col)]=pt['2. fr relativas '+str(col)].\
                                        add(df[col].value_counts(normalize=True,dropna=dropna),level=col)
    # Reordenación de columnas: 
    pt=pt[pt.sort_index(axis=1,level=[0,1],ascending=[True,False]).columns]
    
    # Formato de columnas con diferencias relativas: 
    if dropna==False: 
        n=len(df[cond].unique())
    else:
        n=len(df[cond][df[cond].notna()].unique())
    d_style=dict()
    for i in range(n):
        d_style[pt.columns[-i-1]]='{:+,.2%}'
    pt=pt.style.format(d_style)

    return pt

# Herramientas para el proceso de datos 

Funciones definidas para facilitar el tratamiento de no respuestas, la definición de variables nuevas, la ordenación de variables y la reversión de las funciones anteriores. 

In [11]:
# Lista de variables originales. Permite recuperar el dataset original después de imputar los valores perdidos ...
# ... como consecuencia de los itinerarios de la encuesta. 
v_originales=df.columns.tolist()
# Lista a la que se agregarán las variables candidatas a ser incluidas en el modelo predictivo
v_modelos=list()
# Listas de variables literales (interpretación de códigos de variables categóricas)
v_originales_L=list()
v_modelos_L=list()

# Declaración de variables globales en en módulo traduce (tr):
tr.v_originales_L=v_originales_L
tr.v_modelos=v_modelos
tr.v_modelos_L=v_modelos_L

In [12]:
def no_respuesta(col,blank=' ',nsnc='9',tipo=None):
    """ Sustituye respuestas en blanco y NS/NC por None y establece tipo 'float' si es posible'.
    """
    if tipo=='int':
        blank=None
        nsnc=int(nsnc)
    try: df[col].replace({blank:None,nsnc:None},inplace=True)
    except: 
        serie=df[col].astype('O') # Evita conflictos cuando se aplica más de una vez
        serie.replace({blank:None,str(nsnc):None},inplace=True)
    try:df[col]=df[col].astype('float')
    except:pass # Algunas variables categóricas tienen valores no numéricos (e.g. CNAE)
    try:traduce(col,check=False)
    except:pass # Para variables no categóricas (sin diccionario)
    print (df[col].sort_values().unique())
    return

In [13]:
def redefine(col,nuevo=True,cat=True,si_no=False):
    """ Crea una columna denominada 'nuevo' (por defecto, el nombre original en minúsculas) a partir 
    de la columna 'col', la añade a la lista de variables para los modelos descriptivos y predictivos. 
    Si 'cat' True, asocia la variable a su diccionario, traduce y conserva la variable traducida.
    Si si_no=True, modifica el valor asociado a respuesta No (0 en lugar de 2).  
    """
    if nuevo==True:
        nuevo=col.lower()
    df[nuevo]=df[col]
    D_describe[nuevo]=D_describe[col]
    if str(nuevo) not in v_modelos: 
        v_modelos.append(nuevo)
    if cat==True: 
        D_dict[nuevo]=D_dict[col]
        traduce(nuevo,check=False)
        if str(nuevo)+'_' not in v_modelos_L: 
            v_modelos_L.append(str(nuevo)+'_')
    if si_no==True: 
        df[nuevo].replace({2:0},inplace=True)
        D_dict[nuevo]=D_dict['si_no']
        traduce(nuevo)
    return

In [14]:
def a_lista(col):
    if col==col.lower() and col==col.strip('_') and str(col) not in v_modelos:
        v_modelos.append(col)
    return

In [15]:
def print_listas():
    print ('v_originales_L:','\t',v_originales_L)
    print ('v_modelos:','\t',v_modelos,'\nv_modelos_L:','\t',v_modelos_L)
    return

In [16]:
def reset(col_or_list):
    """ Argumentos: columna o lista de columnas.
    Elimina la variable col y su literal col_ de las listas de variables redefinidas o literales.
    Si col es una variable en el dataset original, reestablece sus valores iniciales. 
    Si el argumento es una lista de columnas, aplica reset a cada columna de la lista.
    """
    global v_originales_L, v_modelos, v_modelos_L
    if type(col_or_list)!=list:
        L=[col_or_list]
    else: 
        L=col_or_list
    for col in L:
        if col==col.upper() and str(col)+'_' in v_originales_L:
            v_originales_L.remove(str(col)+'_')
        if col==col.lower() and str(col) in v_modelos:
            v_modelos.remove(str(col))
        if col==col.lower() and str(col)+'_' in LM_:
            v_modelos_L.remove(str(col)+'_')
        try:
            df[col]=df_raw[col]
            del df[str(col)+'_']
        except:pass
    return

# BLOQUE A. DATOS PERSONALES Y SOCIODEMOGRÁFICOS

## 'IDENT' 
**Índice** único del entrevistado.

In [17]:
df['IDENT'].nunique()

31651

## Nueva variable: 'año' 
**Año** en el que se realizó la encuesta.  
Se añade para que las observaciones de este dataset sean identificables cuando se reunan varios datasets.

In [18]:
df['año']=2019 
df['año'].unique() # Comprobación

array([2019])

In [19]:
a_lista('año')
D_describe['año']='Año en que se realizó la encuesta'

## Nueva variable: 'est_encuesta' 
**Estudios** oficiales objeto de la encuesta (los que definen la población objeto de muestreo).   
Se añade para que las observaciones de este dataset sean identificables cuando se reunan varios datasets.

In [20]:
df['est_encuesta']=1 
D_dict['est_encuesta']=dict()
D_dict['est_encuesta'][1]='Grado universitario'  

In [21]:
a_lista('est_encuesta')
D_describe['est_encuesta']='Estudios oficiales objeto de la encuesta (los que definen la población objeto \
de muestreo)'

## 'SEXO' (redefinida como 'sexo')
**Sexo** del entrevistado.  

**'fem'**: 1= Mujer, 0=Hombre. 

In [22]:
df['SEXO'].unique() # Sin valores no informados

array([1, 2])

In [23]:
traduce('SEXO')

     aux_traduce
          unique
SEXO            
1       [Hombre]
2        [Mujer]


In [24]:
df['sexo']=0
df['sexo'].mask(df['SEXO']==2,1,inplace=True)
df[['SEXO_','sexo']].groupby('sexo').agg(['unique']) # Comprobación

Unnamed: 0_level_0,SEXO_
Unnamed: 0_level_1,unique
sexo,Unnamed: 1_level_2
0,[Hombre]
1,[Mujer]


In [25]:
D_describe['sexo']='Mujer u hombre'
D_dict['sexo']={1:'Mujer',0:'Hombre'}
traduce('sexo')

     aux_traduce
          unique
sexo            
0       [Hombre]
1        [Mujer]


In [26]:
proporciones('sexo_')

Unnamed: 0,sexo_
Mujer,0.570472
Hombre,0.429528


## 'EDAD' (redefinida como 'edad')
**Edad** del entrevistado.

In [27]:
D_describe['EDAD']

'Grupo de edad (a 31-dic-2019)'

In [28]:
D_describe['EDAD']='Grupo de edad en el momento de la encuesta'

In [29]:
df['EDAD'].unique() # Sin valores no informados

array([1, 2, 3])

In [30]:
traduce('EDAD')

               aux_traduce
                    unique
EDAD                      
1     [Menores de 30 años]
2        [De 30 a 34 años]
3       [De 35 y más años]


In [31]:
redefine('EDAD')

In [32]:
proporciones('edad_')

Unnamed: 0,edad_
Menores de 30 años,0.496256
De 30 a 34 años,0.278822
De 35 y más años,0.224922


## 'NACIO'
**Nacionalidad** del entrevistado.

In [33]:
df['NACIO'].unique() # Sin valores no informados

array([1, 2, 3])

In [34]:
traduce('NACIO')

               aux_traduce
                    unique
NACIO                     
1               [Española]
2        [Española y otra]
3      [Otra nacionalidad]


In [35]:
proporciones('NACIO_')

Unnamed: 0,NACIO_
Española,0.978137
Otra nacionalidad,0.011027
Española y otra,0.010837


## Nueva variable: 'nacionalidad'
**Nacionalidad española** u otra: 0=Nacionalidad no española, 1=Nacionalidad española. 

In [36]:
df['nacionalidad']=1
df['nacionalidad'].mask(df['NACIO']==3,0,inplace=True)
df[['nacionalidad','NACIO']].groupby(['NACIO']).agg(['unique']) # Comprobación

Unnamed: 0_level_0,nacionalidad
Unnamed: 0_level_1,unique
NACIO,Unnamed: 1_level_2
1,[1]
2,[1]
3,[0]


In [37]:
D_describe['nacionalidad']='Nacionalidad española u otra'
D_dict['nacionalidad']={0:'Nacionalidad no española',1:'Nacionalidad española'}
traduce('nacionalidad')

                             aux_traduce
                                  unique
nacionalidad                            
0             [Nacionalidad no española]
1                [Nacionalidad española]


In [38]:
proporciones('nacionalidad_')

Unnamed: 0,nacionalidad_
Nacionalidad española,0.988973
Nacionalidad no española,0.011027


In [39]:
# Distribución condicionada de sexos condicionada por nacionalidad española u otra: 
dist_condicionada('sexo_','nacionalidad')
# La mayor presencia femenina entre los graduados se acentúa en el caso quienes no tienen nacionalidad española

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas
nacionalidad,1,0,Unnamed: 3_level_1,1,0
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Hombre,0.430484,0.34384,0.429528,+0.22%,-19.95%
Mujer,0.569516,0.65616,0.570472,-0.17%,+15.02%


## 'NACIO1'

(Solo a quienes declaran nacionalidad distinta de 'Española' -respuesta distinta a 1 en 'NACIO'-)  

**País de primera nacionalidad**.

In [40]:
df['NACIO1'].unique() # Valores no informados: ' ' o '9'

array([' ', '2', '9', '1'], dtype=object)

In [41]:
traduce('NACIO1')

                     aux_traduce
                          unique
NACIO1                          
                  [No aplicable]
1             [Un país de la UE]
2       [Un país fuera de la UE]
9                        [NS/NC]


In [42]:
df[['NACIO_','NACIO1_']].groupby('NACIO_',dropna=False).agg(['unique'])
# No informado para quienes declararon solo nacionalidad española en 'NACIO'

Unnamed: 0_level_0,NACIO1_
Unnamed: 0_level_1,unique
NACIO_,Unnamed: 1_level_2
Española,[No aplicable]
Española y otra,"[Un país fuera de la UE, Un país de la UE, NS/NC]"
Otra nacionalidad,"[NS/NC, Un país fuera de la UE, Un país de la UE]"


In [43]:
# Se imputa provisionalmente None a no informados
no_respuesta('NACIO1')

[ 1.  2. nan]


In [44]:
# Se imputa nacionalidad de un país de la UE (1) a quien declaró solo nacionalidad española en variable 'NACIO'
# (Pueden quedar nacionales españoles con doble nacionalidad sin identificar como EU en NACIO1)
df['NACIO1'].mask(df['NACIO']==1,1,inplace=True)
traduce('NACIO1',check=False)
df[['NACIO_','NACIO1_']].groupby('NACIO_').agg(['unique']) # Comprobación

Unnamed: 0_level_0,NACIO1_
Unnamed: 0_level_1,unique
NACIO_,Unnamed: 1_level_2
Española,[Un país de la UE]
Española y otra,"[Un país fuera de la UE, Un país de la UE, nan]"
Otra nacionalidad,"[nan, Un país fuera de la UE, Un país de la UE]"


In [45]:
proporciones('NACIO1_')

Unnamed: 0,NACIO1_
Un país de la UE,0.985751
Un país fuera de la UE,0.012511
,0.001738


## 'NACIO2'

(Solo a algunos de los que declaran 'Otra nacionalidad' -respuesta 3 en variable 'NACIO')  

**País de segunda nacionalidad**.

In [46]:
df['NACIO2'].unique() # No informados como ' '

array([' ', '1', '2'], dtype=object)

In [47]:
traduce('NACIO2')

                     aux_traduce
                          unique
NACIO2                          
                  [No aplicable]
1             [Un país de la UE]
2       [Un país fuera de la UE]


In [48]:
df[['NACIO_','NACIO1_','NACIO2_']].groupby(['NACIO_','NACIO1_']).agg(['unique'])
# Sin respuesta para quienes declaran 'nacionalidad española' y 'nacionalidad española y otra' (1 y 2 en 'NACIO').
# No se consigue afinar por completo el criterio para establecer cuándo es 'No aplicable'.

Unnamed: 0_level_0,Unnamed: 1_level_0,NACIO2_
Unnamed: 0_level_1,Unnamed: 1_level_1,unique
NACIO_,NACIO1_,Unnamed: 2_level_2
Española,Un país de la UE,[No aplicable]
Española y otra,Un país de la UE,[No aplicable]
Española y otra,Un país fuera de la UE,[No aplicable]
Otra nacionalidad,Un país de la UE,"[No aplicable, Un país de la UE, Un país fuera de la UE]"
Otra nacionalidad,Un país fuera de la UE,"[No aplicable, Un país de la UE]"


In [49]:
# Provisionalmente se imputa None a las no respuestas:
no_respuesta('NACIO2')

[ 1.  2. nan]


In [50]:
# Se imputa 'NACIO2'=1 (UE)  a quienes declararon 'nacionalidad española y otra' (2 en 'NACIO') y la primera ...
# ... no es nacionalidad EU ('NACIO1' distinta de 1), ya que la española es su segunda nacionalidad:
df['NACIO2'].mask((df['NACIO']==2)&(df['NACIO1']!=1),1,inplace=True)
traduce('NACIO2',check=False)
df[['NACIO_','NACIO2_']].groupby('NACIO_').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,NACIO2_
Unnamed: 0_level_1,unique
NACIO_,Unnamed: 1_level_2
Española,[nan]
Española y otra,"[Un país de la UE, nan]"
Otra nacionalidad,"[nan, Un país de la UE, Un país fuera de la UE]"


In [51]:
proporciones('NACIO2_')

Unnamed: 0,NACIO2_
,0.991406
Un país de la UE,0.008341
Un país fuera de la UE,0.000253


In [52]:
proporciones('NACIO2_',dropna=True)

Unnamed: 0,NACIO2_
Un país de la UE,0.970588
Un país fuera de la UE,0.029412


## 'PAIS_NACI'
**País de nacimiento**.

In [53]:
df['PAIS_NACI'].unique() # Sin valores no informados

array([1, 3, 2])

In [54]:
traduce('PAIS_NACI')

                          aux_traduce
                               unique
PAIS_NACI                            
1                            [España]
2                [Otro país de la UE]
3          [Otro país fuera de la UE]


In [55]:
proporciones('PAIS_NACI_')

Unnamed: 0,PAIS_NACI_
España,0.971786
Otro país fuera de la UE,0.019462
Otro país de la UE,0.008752


## Nueva variable 'eu27'
**Nacido en EU27**: 1=Nacido en EU27, 0=No nacido en EU27

In [56]:
df['eu27']=0
df['eu27'].mask((df['PAIS_NACI']==1)|(df['PAIS_NACI']==2),1,inplace=True)
df[['eu27','PAIS_NACI_']].groupby('eu27').agg(['unique']) # Comprobación

Unnamed: 0_level_0,PAIS_NACI_
Unnamed: 0_level_1,unique
eu27,Unnamed: 1_level_2
0,[Otro país fuera de la UE]
1,"[España, Otro país de la UE]"


In [57]:
D_describe['eu27']='Nacido o no en EU27'
D_dict['eu27']={0:'No nacido en EU27',1:'Nacido en EU27'}
traduce('eu27')

              aux_traduce
                   unique
eu27                     
0     [No nacido en EU27]
1        [Nacido en EU27]


In [58]:
proporciones('eu27')

Unnamed: 0,eu27
1,0.980538
0,0.019462


## 'TITU' (redefinida como 'titulo_g1')
**Titulación** de grado universitario, diplomatura, licenciatura o equivalente.

In [59]:
df['TITU'].unique() # Sin valores no informados

array([ 11101,  11201,  11301,  11401,  11901,  21101,  21201,  21301,
        21302,  21401,  21502,  22201,  22202,  22301,  22901,  23101,
        23102,  23103,  23104,  23201,  23202,  23901,  31101,  31201,
        31202,  31301,  31401,  31402,  31404,  31406,  32101,  32102,
        32201,  41201,  41202,  41301,  41302,  41303,  41401,  41402,
        41403,  41601,  42101,  51101,  51201,  51202,  51901,  52101,
        53101,  53201,  53202,  53203,  53301,  54101,  54201,  61301,
        61901,  71101,  71301,  71302,  71401,  71402,  71403,  71404,
        71405,  71501,  71502,  71503,  71601,  71603,  71901,  72101,
        72102,  72201,  72401,  73101,  73102,  73201,  73202,  81102,
        81103,  81201,  82101,  84101,  91101,  91201,  91301,  91401,
        91402,  91501,  91502,  91503,  91504,  91505,  91601,  92301,
       101401, 101501, 104101, 104103, 109999])

In [60]:
df['TITU'].nunique()

101

In [61]:
leyenda('TITU')

011101 	 Pedagogía
011201 	 Educación infantil
011301 	 Educación primaria
011401 	 Otros maestros
011901 	 Educación social
021101 	 Audiovisual, imagen y multimedia
021201 	 Diseño
021301 	 Bellas artes
021302 	 Historia del arte
021401 	 Conservación y restauración
021502 	 Música y Artes escénicas
022201 	 Arqueología
022202 	 Historia
022301 	 Filosofía
022901 	 Humanidades
023101 	 Lengua inglesa
023102 	 Lenguas clásicas
023103 	 Otras lenguas extranjeras
023104 	 Traducción e interpretación
023201 	 Lenguas y dialectos españoles
023202 	 Literatura
023901 	 Lenguas modernas y aplicadas
031101 	 Economía
031201 	 Política y gestión pública
031202 	 Relaciones internacionales
031301 	 Psicología
031401 	 Antropología social y cultural y Estudios y gestión de la cultura
031402 	 Criminología
031404 	 Geografía
031406 	 Sociología e Igualdad de género
032101 	 Comunicación
032102 	 Periodismo
032201 	 Información y documentación
041201 	 Financiera y actuarial
041202 	 Finanzas y c

In [62]:
traduce('TITU',check=False)

In [63]:
redefine('TITU','titulo_g1')

In [64]:
# Se añade indicador de título de grado para distinguirlos de títulos de máster con idéntica denominación: 
df['titulo_g1_']='Grado '+df['titulo_g1_']

In [65]:
# Actualización diccionario para filas no informadas en datasets de máster o doctorado:
D_dict['titulo_g1'][0]='No tiene'
D_dict['titulo_g1'][str(0)]='No tiene'
D_dict['titulo_g1'][1]='Título no conocido'
D_dict['titulo_g1'][str(1)]='Título no conocido'

In [66]:
proporciones('titulo_g1_').head(20)

Unnamed: 0,titulo_g1_
Grado Administración y empresa,0.06281
Grado Educación primaria,0.060251
Grado Derecho,0.054343
Grado Educación infantil,0.043127
Grado Enfermería,0.039019
Grado Informática,0.033553
Grado Psicología,0.032132
Grado Trabajo social,0.025592
Grado Medicina,0.024233
Grado Economía,0.024107


In [67]:
D_describe['titulo_g1']='Titulación del primer grado universitario, diplomatura, licenciatura o equivalente'

## 'RAMA' (redefinida como 'rama_g1')
**Rama de conocimiento** de la titulación.

In [68]:
df['RAMA'].unique() # Sin valores no informados

array([3, 1, 4, 5, 2])

In [69]:
traduce('RAMA')

                          aux_traduce
                               unique
RAMA                                 
1               [Artes y humanidades]
2                          [Ciencias]
3     [Ciencias sociales y jurídicas]
4         [Ingeniería y arquitectura]
5              [Ciencias de la salud]


In [70]:
redefine('RAMA',nuevo='rama_g1')
D_describe['rama_g1']='Rama de conocimiento del primer grado universitario, diplomatura, licenciatura o \
equivalente'

### Inspección de relación entre titulación y rama de conocimento: 

In [71]:
# Algunas titulaciones adscritas a más de una rama del conocimiento 
df[['rama_g1_','titulo_g1_']].groupby('titulo_g1_').agg(['value_counts'])

Unnamed: 0_level_0,Unnamed: 1_level_0,rama_g1_
Unnamed: 0_level_1,Unnamed: 1_level_1,value_counts
titulo_g1_,rama_g1_,Unnamed: 2_level_2
Grado Actividad física y del deporte,Ciencias sociales y jurídicas,519
Grado Actividad física y del deporte,Ciencias de la salud,84
Grado Administración y empresa,Ciencias sociales y jurídicas,1988
Grado Antropología social y cultural y Estudios y gestión de la cultura,Artes y humanidades,87
Grado Antropología social y cultural y Estudios y gestión de la cultura,Ciencias sociales y jurídicas,20
...,...,...
Grado Traducción e interpretación,Ciencias sociales y jurídicas,6
Grado Turismo,Ciencias sociales y jurídicas,585
Grado Veterinaria,Ciencias de la salud,422
Grado Óptica y optometría,Ciencias de la salud,68


### Corrección de títulos adscritos a varias ramas  

Se les asigna la más correcta de acuerdo las clasificaciones en ámbitos de los títulos de grado: la clasificación de los títulos es una subclasificación en ámbitos de títulos de grado (los códigos de ámbito se corresponden, con dos excepciones, con los dos, tres o cuatro primeros dígitos de los códigos de los títulos). Se usa la clasificación en ámbitos para corregir la clasificación en ramas para aquellos títulos que figuran asociados a más de una rama. 
  
Se crea una rama nueva de 'Servicios' para clasificar los títulos que han sido agregados en la categoria Servicios (otros estudios), para los que no se conoce la denominación del título. Se añaden a la categoría de servicios los asociados a la actividad física y el deporte, al turismo y al transporte (de acuerdo con la clasificación en ámbitos).   

Se crea un diccionario de títulos de grado a ramas de conocimiento para aplicar a los títulos de grado de la encuesta de 2014. De ese modo se garantiza que se emplea la misma clasificación. 

In [72]:
aux_ramas=df[['rama_g1_','titulo_g1']].groupby(['titulo_g1']).agg(['nunique'])
aux_ramas.columns=aux_ramas.columns.to_flat_index()
aux_ramas.rename(columns={aux_ramas.columns[-1]:'num_ramas'},inplace=True)
aux_ramas[aux_ramas['num_ramas']>1]

Unnamed: 0_level_0,num_ramas
titulo_g1,Unnamed: 1_level_1
11101,2
21101,3
21201,2
23104,2
31301,2
31401,2
31404,2
32101,2
32102,2
32201,2


In [73]:
lista_titulos_corregir=aux_ramas[aux_ramas['num_ramas']>1].index.tolist()
#lista_titulos_corregir

In [74]:
df[['titulo_g1','titulo_g1_','rama_g1_']][df['titulo_g1'].isin(lista_titulos_corregir)]\
        .groupby(['titulo_g1','titulo_g1_']).agg(['value_counts'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,rama_g1_
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,value_counts
titulo_g1,titulo_g1_,rama_g1_,Unnamed: 3_level_2
11101,Grado Pedagogía,Ciencias sociales y jurídicas,567
11101,Grado Pedagogía,Artes y humanidades,1
21101,"Grado Audiovisual, imagen y multimedia",Ciencias sociales y jurídicas,515
21101,"Grado Audiovisual, imagen y multimedia",Artes y humanidades,10
21101,"Grado Audiovisual, imagen y multimedia",Ingeniería y arquitectura,4
21201,Grado Diseño,Artes y humanidades,80
21201,Grado Diseño,Ingeniería y arquitectura,19
23104,Grado Traducción e interpretación,Artes y humanidades,202
23104,Grado Traducción e interpretación,Ciencias sociales y jurídicas,6
31301,Grado Psicología,Ciencias de la salud,629


In [75]:
# Inicialmente se asigna a todos los títulos la rama que se les imputa con más frecuencia: 
aux_corrige=df[['titulo_g1','titulo_g1_','rama_g1']][df['titulo_g1'].isin(lista_titulos_corregir)]\
        .groupby(['titulo_g1','titulo_g1_']).agg(['value_counts']).groupby(['titulo_g1','titulo_g1_'])\
        .rank(ascending=False)
aux_corrige.columns=aux_corrige.columns.to_flat_index()
aux_corrige.rename(columns={aux_corrige.columns[-1]:'rank'},inplace=True)
aux_corrige=aux_corrige[aux_corrige['rank']==1]
aux_corrige.reset_index(inplace=True)
#aux_corrige

In [76]:
# Diccionario de códigos de título (los títulos a corregir) a códigos de rama (asignación inicial): 
D_corrige_titulos=dict(zip(aux_corrige['titulo_g1'],aux_corrige['rama_g1']))
#D_corrige_titulos

In [77]:
# Diccionario de códigos de título (modificación de excepciones en reasignación por duplicidades): 

D_corrige_titulos[31301]=3  # Psicología a rama Ciencias sociales y jurídicas
D_corrige_titulos[31401]=3  # Antropología social y cultural a rama Ciencias sociales y jurídicas
D_corrige_titulos[31404]=3  # Geografía a rama Cc sociales y jurídicas (código 31*** asociado al ...
# ... ambito 31, 'Ciencias sociales y del comportamiento (Otros estudios)'') 
D_corrige_titulos[53202]=2  # Geografía y ordenación del territorio a rama Ciencias (código 53*** asociado al ...
# ... ambito 53, 'Ciencias químicas, físicas y geológicas') 
D_corrige_titulos[72101]=4  # Grado Ciencia y tecnología de los alimentos e Ingeniería alimentaria a rama ...
# Ingeniería y arquitectura (código 72*** asociado al ámbito 'Industria manufacturera y producción')
D_corrige_titulos[101401]=6  # Actividad física y del deporte a rama Servicios
D_corrige_titulos[104103]=6  # Servicio de transporte a rama Servicios
D_corrige_titulos[109999]=6  # Servicios (otros estudios) a rama Servicios

In [78]:
# Correcciones de ramas por coherencia con clasificación en ámbitos (aunque no había duplicidad de ramas):

D_corrige_titulos[72102]=4  # Grado Enología a rama Ingeniería y arquitectura (código 72*** asociado al ámbito ...
# ...'Industria manufacturera y producción') 
D_corrige_titulos[91401]=5 # Ingeniería biomédica y de la salud a rama Ciencias de la salud (código 91*** ...
# ... asociado al ámbito Salud (Otros estudios))
#D_corrige_titulos

In [79]:
# Otras ramas corregidas sin duplicidad porque corresponden a la rama 'Servicios' añadida: 

D_corrige_titulos[101501]=6 # Turismo a rama Servicios
D_corrige_titulos[104101]=6 # Náutica a rama Servicios

In [80]:
# Actualización diccionario de ramas: 
D_dict['rama_g1'][6]='Servicios'
D_dict['rama_g1']['6']='Servicios'

In [81]:
# Corrección rama por coherencia con clasfificación en ámbitos sin que hubiera duplicidad:
lista_titulos_corregir=lista_titulos_corregir+[72102,91401,101501,104101]

In [82]:
# Variables 'rama_g1' numérica y literal:
df['rama_g1'].mask(df['titulo_g1'].isin(lista_titulos_corregir),
                   df['titulo_g1'].replace(D_corrige_titulos),inplace=True)
df['rama_g1_']=df['rama_g1'].astype('O').replace(D_dict['rama_g1'])

In [83]:
# Inspección: 
df[['rama_g1_','titulo_g1_']].groupby('rama_g1_').agg(['unique'])

Unnamed: 0_level_0,titulo_g1_
Unnamed: 0_level_1,unique
rama_g1_,Unnamed: 1_level_2
Artes y humanidades,"[Grado Diseño, Grado Bellas artes, Grado Historia del arte, Grado Conservación y restauración, Grado Música y Artes escénicas, Grado Arqueología, Grado Historia, Grado Filosofía, Grado Humanidades, Grado Lengua inglesa, Grado Lenguas clásicas, Grado Otras lenguas extranjeras, Grado Traducción e ..."
Ciencias,"[Grado Biología, Grado Bioquímica, Grado Biotecnología, Grado Biomedicina, Grado Ciencias ambientales, Grado Química, Grado Ciencias del mar, Grado Geografía y ordenación del territorio, Grado Geología, Grado Física, Grado Matemáticas, Grado Estadística]"
Ciencias de la salud,"[Grado Veterinaria, Grado Odontología, Grado Medicina, Grado Enfermería, Grado Ingeniería biomédica y de la salud, Grado Óptica y optometría, Grado Fisioterapia, Grado Logopedia, Grado Nutrición humana y dietética, Grado Podología, Grado Terapia ocupacional, Grado Farmacia]"
Ciencias sociales y jurídicas,"[Grado Pedagogía, Grado Educación infantil, Grado Educación primaria, Grado Otros maestros, Grado Educación social, Grado Audiovisual, imagen y multimedia, Grado Economía, Grado Política y gestión pública, Grado Relaciones internacionales, Grado Psicología, Grado Antropología social y cultural y..."
Ingeniería y arquitectura,"[Grado Desarrollo de software y de aplicaciones e Ingeniería multimedia, Grado Informática, Grado Ingeniería química industrial e Ingeniería medioambiental, Grado Ingeniería de la energía, Grado Ingeniería eléctrica, Grado Ingeniería de computadores, Grado Ingeniería de sonido e imagen, Grado In..."
Servicios,"[Grado Actividad física y del deporte, Grado Turismo, Grado Náutica y transporte marítimo, Grado Servicio de transporte terrestre y Servicio de transporte aéreo, Grado Servicios (otros estudios)]"


In [84]:
# Comprobación: 
df_comprobacion=df[['rama_g1_','titulo_g1']].groupby(['titulo_g1']).agg(['nunique'])
df_comprobacion[df_comprobacion.columns[-1]].unique()

array([1])

In [85]:
# Diccionario de títulos de grado a ramas de conocimiento: 
D_titulo_grado_a_rama=dict(zip(df['titulo_g1'],df['rama_g1']))
#D_titulo_grado_a_rama

In [86]:
# Distribucion de sexos condicionada por ramas de conocimiento: 
dist_condicionada('rama_g1_','sexo_',rev=True)
# La rama ciencias es la que tiene una distribución de sexos más parecida a la general entre los graduados. 
# La mayor presencia femenina se da en ciencias de la salud. La menor, en ingeniería y arquitectura. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
Hombre,0.579545,0.661934,0.341055,0.293651,0.465461,0.392341,0.429528,+34.93%,+54.11%,-20.60%,-31.63%,+8.37%,-8.66%
Mujer,0.420455,0.338066,0.658945,0.706349,0.534539,0.607659,0.570472,-26.30%,-40.74%,+15.51%,+23.82%,-6.30%,+6.52%


In [87]:
# Distribucion de ramas de conocimiento condicionada por sexos: 
dist_condicionada('rama_g1_','sexo_')
# La mayor presencia femenina en Ciencias se debe a la mayor presencia de mujeres entre los graduados, ... 
# ... que compensa que las mujeres son menos propensas que los hombres a elegir estudios de Ciencias.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas rama_g1_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
rama_g1_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Artes y humanidades,0.100188,0.085914,0.094057,+6.52%,-8.66%
Ciencias,0.081856,0.094667,0.087359,-6.30%,+8.37%
Ciencias de la salud,0.147873,0.081648,0.119428,+23.82%,-31.63%
Ciencias sociales y jurídicas,0.512018,0.351968,0.443272,+15.51%,-20.60%
Ingeniería y arquitectura,0.125277,0.325782,0.211399,-40.74%,+54.11%
Servicios,0.032787,0.060022,0.044485,-26.30%,+34.93%


In [88]:
# Distribucion de nacionalidad española y otras condicionada por ramas de conocimiento: 
dist_condicionada('rama_g1_','nacionalidad_',rev=True)
# Artes y humanidades y ciencias de la salud son las ramas de conocimiento en las que la presencia de ...
# ... nacionalidades no españolas es superior a la general entre los graduados. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas nacionalidad_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
nacionalidad_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
Nacionalidad española,0.985085,0.992677,0.989522,0.986243,0.991682,0.980853,0.988973,-0.39%,+0.37%,+0.06%,-0.28%,+0.27%,-0.82%
Nacionalidad no española,0.014915,0.007323,0.010478,0.013757,0.008318,0.019147,0.011027,+35.26%,-33.58%,-4.98%,+24.76%,-24.56%,+73.64%


In [89]:
# Distribucion de ramas de conocimiento según nacionalidad española u otras: 
dist_condicionada('rama_g1_','nacionalidad_')

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas rama_g1_,3. dif relativas,3. dif relativas
nacionalidad_,Nacionalidad no española,Nacionalidad española,Unnamed: 3_level_1,Nacionalidad no española,Nacionalidad española
rama_g1_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Artes y humanidades,0.163324,0.093285,0.094057,+73.64%,-0.82%
Ciencias,0.065903,0.087598,0.087359,-24.56%,+0.27%
Ciencias de la salud,0.148997,0.119098,0.119428,+24.76%,-0.28%
Ciencias sociales y jurídicas,0.421203,0.443518,0.443272,-4.98%,+0.06%
Ingeniería y arquitectura,0.140401,0.212191,0.211399,-33.58%,+0.37%
Servicios,0.060172,0.04431,0.044485,+35.26%,-0.39%


## Nuevas variables: 'n_art_hum', 'n_ciencias', 'n_cc_soc_ju', 'n_ing_arq', 'n_cc_salud', 'n_servicios'
**'n_art_hum'**: Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de artes y humanidades    
**'n_ciencias'**: Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de Ciencias  
**'n_cc_soc_ju'**: Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de ciencias sociales y jurídicas  
**'n_ing_arq'**: Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de ingeniería y arquitectura  
**'n_cc_salud'**: Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de ciencias de la salud  
**'n_servicios'**: Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de servicios  

Nota: Se crean a partir de la rama asociada al título de grado que motiva esta encuesta y se actualizan con las respuestas a preguntas posteriores.  

In [90]:
L_ramas=['n_art_hum','n_ciencias','n_cc_soc_ju','n_ing_arq','n_cc_salud','n_servicios']
for i,rama in enumerate (L_ramas): 
    df[rama]=0
    df[rama].mask(df['rama_g1']==i+1,1,inplace=True)

D_describe['n_art_hum']='Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de \
artes y humanidades'  
D_describe['n_ciencias']='Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de \
Ciencias'
D_describe['n_cc_soc_ju']='Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama \
de ciencias sociales y jurídicas'  
D_describe['n_ing_arq']='Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de \
ingeniería y arquitectura'  
D_describe['n_cc_salud']='Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de \
ciencias de la salud'  
D_describe['n_servicios']='Número de títulos universitarios (grado, máster, doctorado o equivalente) en la rama de \
servicios'
    
df[L_ramas+['rama_g1_']].groupby('rama_g1_').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,n_art_hum,n_ciencias,n_cc_soc_ju,n_ing_arq,n_cc_salud,n_servicios
Unnamed: 0_level_1,unique,unique,unique,unique,unique,unique
rama_g1_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Artes y humanidades,[1],[0],[0],[0],[0],[0]
Ciencias,[0],[1],[0],[0],[0],[0]
Ciencias de la salud,[0],[0],[0],[0],[1],[0]
Ciencias sociales y jurídicas,[0],[0],[1],[0],[0],[0]
Ingeniería y arquitectura,[0],[0],[0],[1],[0],[0]
Servicios,[0],[0],[0],[0],[0],[1]


In [91]:
for vble in L_ramas: 
    a_lista(vble)

In [92]:
def actualiza_ramas(col):
    """Actualiza los valores de las variables 'n_art_hum', 'n_ciencias', 'n_cc_soc_ju', 'n_ing_arq', 'n_cc_salud',
    'n_servicios' de acuerdo con la información proporcionada por la columna 'col'.
    """
    for i,rama in enumerate(L_ramas): 
        df['incremento']=0 
        # Para cada rama, +1 si el título asociado a 'col' pertenece a la rama:
        df['incremento'].mask(df[col]==i+1,1,inplace=True) 
        df[rama]=df[rama]+df['incremento']
    return

## 'AMBITO' (redefinida como 'ambito_g1')
**Ámbito de estudio**.  

Se crea un diccionario de títulos de grado a ámbito para aplicarlo en la encuesta de grado de 2014, para garantizar que se emplea la misma correspondencia en ambas encuestas. 

También se crea un diccionario de ámbitos de grado a ramas de conocimiento para identificar las ramas de conocimiento de otros títulos de grado de los encuestados, sobre los que solo se informa del ámbito de estudios. 

In [93]:
df['AMBITO'].sort_values().unique() # Sin valores no informados

array([  11,   21,   22,   23,   31,   32,   41,   42,   51,   52,   53,
         54,   61,   71,   72,   73,   81,   82,   84,   91,   92,  109,
        112,  113,  211,  311,  313,  413,  912,  913, 1014, 1015])

In [94]:
df['AMBITO'].nunique()

32

In [95]:
leyenda('AMBITO')

0112 	 Formación de docentes de enseñanza infantil 
0113 	 Formación de docentes de enseñanza primaria 
011 	 Educación (Otros estudios) 
0211 	 Técnicas audiovisuales y medios de comunicación 
021 	 Artes (Otros estudios) 
022 	 Humanidades 
023 	 Lenguas 
0311 	 Economía 
0313 	 Psicología 
031 	 Ciencias sociales y del comportamiento (Otros estudios) 
032 	 Periodismo y documentación 
0413 	 Dirección y administración 
041 	 Negocios y administración (Otros estudios) 
042 	 Derecho 
051 	 Ciencias de la vida 
052 	 Medio ambiente 
053 	 Ciencias químicas, físicas y geológicas 
054 	 Matemáticas y estadística 
061 	 Informática
071 	 Ingeniería y profesiones afines 
072 	 Industria manufacturera y producción 
073 	 Arquitectura y construcción 
081 	 Agricultura y ganadería 
082 	 Silvicultura 
084 	 Veterinaria 
0912 	 Medicina 
0913 	 Enfermería 
091 	 Salud (Otros estudios) 
092 	 Servicios sociales 
1014 	 Actividades físicas y deportivas 
1015 	 Viajes, turismo y ocio 
109 	 Serv

In [96]:
traduce('AMBITO',check=False)

In [97]:
redefine('AMBITO','ambito_g1')
D_describe['ambito_g1']='Ámbito de conocimiento del primer grado universitario, diplomatura, licenciatura o \
equivalente'

In [98]:
proporciones('ambito_g1_')

Unnamed: 0,ambito_g1_
Ingeniería y profesiones afines,0.08243
Dirección y administración,0.07946
Formación de docentes de enseñanza primaria,0.060251
Derecho,0.054343
Arquitectura y construcción,0.048719
Formación de docentes de enseñanza infantil,0.043127
Salud (Otros estudios),0.042842
Enfermería,0.039019
Lenguas,0.036492
Informática,0.035765


In [99]:
# Distribucion de ámbito de conocimiento condicionada por sexo: 
dist_condicionada('ambito_g1_','sexo_')
# Las mayores diferencias con mayor presencia de mujeres, en educación (especialmente infantil), sanitarias  ...
# ... (especialmente enfermería), servicios sociales, psicología, lenguas y turismo (no en orden)
# Las mayores diferencias con mayor presencia de hombres, en informática, deportes, ingenierías, arquitectura, ...
# ... servicios (náutica, etc.), silvicultura (no en orden)
# La menor diferencia con distribución general, en derecho

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas ambito_g1_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
ambito_g1_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Actividades físicas y deportivas,0.0072,0.034792,0.019052,-62.21%,+82.62%
Agricultura y ganadería,0.013181,0.022582,0.017219,-23.45%,+31.14%
Arquitectura y construcción,0.033396,0.06907,0.048719,-31.45%,+41.77%
Artes (Otros estudios),0.032842,0.023023,0.028625,+14.73%,-19.57%
Ciencias de la vida,0.032621,0.026039,0.029794,+9.49%,-12.60%
"Ciencias químicas, físicas y geológicas",0.023704,0.033836,0.028056,-15.51%,+20.60%
Ciencias sociales y del comportamiento (Otros estudios),0.019606,0.025965,0.022337,-12.23%,+16.24%
Derecho,0.054331,0.054358,0.054343,-0.02%,+0.03%
Dirección y administración,0.075709,0.084443,0.07946,-4.72%,+6.27%
Economía,0.02016,0.029349,0.024107,-16.37%,+21.75%


In [100]:
dist_condicionada('ambito_g1_','sexo_')
# Las mayores diferencias con mayor presencia de mujeres, en educación (especialmente infantil), sanitarias  ...
# ... (especialmente enfermería), servicios sociales, psicología, lenguas y turismo (no en orden)
# Las mayores diferencias con mayor presencia de hombres, en informática, deportes, ingenierías, arquitectura, ...
# ... servicios (náutica, etc.), silvicultura (no en orden)
# La menor diferencia con distribución general, en derecho

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas ambito_g1_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
ambito_g1_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Actividades físicas y deportivas,0.0072,0.034792,0.019052,-62.21%,+82.62%
Agricultura y ganadería,0.013181,0.022582,0.017219,-23.45%,+31.14%
Arquitectura y construcción,0.033396,0.06907,0.048719,-31.45%,+41.77%
Artes (Otros estudios),0.032842,0.023023,0.028625,+14.73%,-19.57%
Ciencias de la vida,0.032621,0.026039,0.029794,+9.49%,-12.60%
"Ciencias químicas, físicas y geológicas",0.023704,0.033836,0.028056,-15.51%,+20.60%
Ciencias sociales y del comportamiento (Otros estudios),0.019606,0.025965,0.022337,-12.23%,+16.24%
Derecho,0.054331,0.054358,0.054343,-0.02%,+0.03%
Dirección y administración,0.075709,0.084443,0.07946,-4.72%,+6.27%
Economía,0.02016,0.029349,0.024107,-16.37%,+21.75%


### Inspección de relaciones entre títulos, ámbitos de estudio y ramas de conocimiento

In [101]:
# 'AMBITO' determinado por 2, 3 o 4 primeros dígitos del código del título excepto los siguientes casos: 
cond1=(df['ambito_g1'].astype('str')!=df['titulo_g1'].astype('str').str[:2])
cond2=(df['ambito_g1'].astype('str')!=df['titulo_g1'].astype('str').str[:3])
cond3=(df['ambito_g1'].astype('str')!=df['titulo_g1'].astype('str').str[:4])
df[['ambito_g1_','titulo_g1_','rama_g1_']][cond1&cond2&cond3].groupby('titulo_g1_').agg(['unique'])

Unnamed: 0_level_0,ambito_g1_,rama_g1_
Unnamed: 0_level_1,unique,unique
titulo_g1_,Unnamed: 1_level_2,Unnamed: 2_level_2
Grado Náutica y transporte marítimo,[Servicios (Otros estudios) ],[Servicios]
Grado Servicio de transporte terrestre y Servicio de transporte aéreo,[Servicios (Otros estudios) ],[Servicios]


In [102]:
# Todas las titulaciones están asociadas a un único ámbito de estudio: 
aux_inspecciona=df[['titulo_g1_','ambito_g1_']].groupby('titulo_g1_').nunique()
aux_inspecciona[aux_inspecciona.columns[-1]].unique()

array([1])

In [103]:
# Inspección de relaciones título, ámbito y rama (instrumental para la corrección de ramas): 
aux_inspecciona=df[['titulo_g1','titulo_g1_','ambito_g1_','ambito_g1','rama_g1_']]\
           .groupby(['titulo_g1','titulo_g1_','ambito_g1','ambito_g1_']).agg(['unique'])
aux_inspecciona.reset_index(inplace=True)
aux_inspecciona[:30]

Unnamed: 0_level_0,titulo_g1,titulo_g1_,ambito_g1,ambito_g1_,rama_g1_
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,unique
0,11101,Grado Pedagogía,11,Educación (Otros estudios),[Ciencias sociales y jurídicas]
1,11201,Grado Educación infantil,112,Formación de docentes de enseñanza infantil,[Ciencias sociales y jurídicas]
2,11301,Grado Educación primaria,113,Formación de docentes de enseñanza primaria,[Ciencias sociales y jurídicas]
3,11401,Grado Otros maestros,11,Educación (Otros estudios),[Ciencias sociales y jurídicas]
4,11901,Grado Educación social,11,Educación (Otros estudios),[Ciencias sociales y jurídicas]
5,21101,"Grado Audiovisual, imagen y multimedia",211,Técnicas audiovisuales y medios de comunicación,[Ciencias sociales y jurídicas]
6,21201,Grado Diseño,21,Artes (Otros estudios),[Artes y humanidades]
7,21301,Grado Bellas artes,21,Artes (Otros estudios),[Artes y humanidades]
8,21302,Grado Historia del arte,21,Artes (Otros estudios),[Artes y humanidades]
9,21401,Grado Conservación y restauración,21,Artes (Otros estudios),[Artes y humanidades]


In [104]:
# Inspección de relaciones título, ámbito y rama: 
aux_inspecciona[30:60]

Unnamed: 0_level_0,titulo_g1,titulo_g1_,ambito_g1,ambito_g1_,rama_g1_
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,unique
30,32101,Grado Comunicación,32,Periodismo y documentación,[Ciencias sociales y jurídicas]
31,32102,Grado Periodismo,32,Periodismo y documentación,[Ciencias sociales y jurídicas]
32,32201,Grado Información y documentación,32,Periodismo y documentación,[Ciencias sociales y jurídicas]
33,41201,Grado Financiera y actuarial,41,Negocios y administración (Otros estudios),[Ciencias sociales y jurídicas]
34,41202,Grado Finanzas y contabilidad,41,Negocios y administración (Otros estudios),[Ciencias sociales y jurídicas]
35,41301,Grado Administración y empresa,413,Dirección y administración,[Ciencias sociales y jurídicas]
36,41302,Grado Ciencias del trabajo,413,Dirección y administración,[Ciencias sociales y jurídicas]
37,41303,Grado Gestión y administración pública,413,Dirección y administración,[Ciencias sociales y jurídicas]
38,41401,Grado Marketing,41,Negocios y administración (Otros estudios),[Ciencias sociales y jurídicas]
39,41402,Grado Protocolo y eventos,41,Negocios y administración (Otros estudios),[Ciencias sociales y jurídicas]


In [105]:
# Inspección de relaciones título, ámbito y rama: 
aux_inspecciona[60:90]

Unnamed: 0_level_0,titulo_g1,titulo_g1_,ambito_g1,ambito_g1_,rama_g1_
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,unique
60,71401,Grado Ingeniería de computadores,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]
61,71402,Grado Ingeniería de sonido e imagen,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]
62,71403,Grado Ingeniería de telecomunicación,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]
63,71404,Grado Ingeniería electrónica industrial y automática,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]
64,71405,Grado Ingeniería en electrónica,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]
65,71501,Grado Ingeniería en diseño industrial y desarrollo del producto,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]
66,71502,Grado Ingeniería en tecnologías industriales,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]
67,71503,Grado Ingeniería mecánica,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]
68,71601,Grado Ingeniería aeronáutica,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]
69,71603,Grado Ingeniería naval y oceánica,71,Ingeniería y profesiones afines,[Ingeniería y arquitectura]


In [106]:
# Inspección de relaciones título, ámbito y rama: 
aux_inspecciona[90:]

Unnamed: 0_level_0,titulo_g1,titulo_g1_,ambito_g1,ambito_g1_,rama_g1_
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,unique
90,91502,Grado Logopedia,91,Salud (Otros estudios),[Ciencias de la salud]
91,91503,Grado Nutrición humana y dietética,91,Salud (Otros estudios),[Ciencias de la salud]
92,91504,Grado Podología,91,Salud (Otros estudios),[Ciencias de la salud]
93,91505,Grado Terapia ocupacional,91,Salud (Otros estudios),[Ciencias de la salud]
94,91601,Grado Farmacia,91,Salud (Otros estudios),[Ciencias de la salud]
95,92301,Grado Trabajo social,92,Servicios sociales,[Ciencias sociales y jurídicas]
96,101401,Grado Actividad física y del deporte,1014,Actividades físicas y deportivas,[Servicios]
97,101501,Grado Turismo,1015,"Viajes, turismo y ocio",[Servicios]
98,104101,Grado Náutica y transporte marítimo,109,Servicios (Otros estudios),[Servicios]
99,104103,Grado Servicio de transporte terrestre y Servicio de transporte aéreo,109,Servicios (Otros estudios),[Servicios]


In [107]:
# Todos los ámbitos de estudios asociados a una única rama de conocimiento: 
aux_num_ramas=df[['rama_g1_','ambito_g1','ambito_g1_']].groupby(['ambito_g1','ambito_g1_']).nunique()
aux_num_ramas[aux_num_ramas.columns[-1]].unique()

array([1])

In [108]:
## Diccionario de título de grado a ámbito de conocimiento: útil para aplicar la misma correspondencia a los ...
# ... títulos de grado de la encuesta de 2014, cuya codificación en ámbitos original emplea un conjunto de ...
# ... códigos distinto al utilizado en el resto de encuestas: 

D_titulo_grado_a_ambito=dict(zip(df['titulo_g1'], df['ambito_g1']))
#D_titulo_grado_a_ambito

In [109]:
## Diccionario de ámbito a rama de conocimiento: útil para identificar ramas de otros títulos de grado de los ...
# ... que se informa en esta y en otras encuestas y de los que solo se conoce el ámbito: 

D_ambito_a_rama=dict(zip(df['ambito_g1'], df['rama_g1']))
#D_ambito_a_rama

## 'T_UNIV'
**Tipo de universidad**.

In [110]:
df['T_UNIV'].unique() # Sin valores no informados

array([2, 1, 4, 3])

In [111]:
traduce('T_UNIV')

                              aux_traduce
                                   unique
T_UNIV                                   
1        [Universidad Pública presencial]
2       [Universidad Pública a distancia]
3        [Universidad Privada presencial]
4       [Universidad Privada a distancia]


In [112]:
proporciones('T_UNIV')

Unnamed: 0,T_UNIV
1,0.818236
3,0.119838
2,0.034122
4,0.027803


## Nueva variable: 'tipo_centro'
**Tipo de centro educativo**: 1=Centros públicos, 0=Centros privados  

Variable proxi (en otros datasets las preguntas sobre tipo de centro están referidas a niveles educativos diferentes).

In [113]:
df['tipo_centro']=0
df['tipo_centro'].mask((df['T_UNIV']==1)|(df['T_UNIV']==2),1,inplace=True)
df[['T_UNIV','tipo_centro']].groupby('tipo_centro').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,T_UNIV
Unnamed: 0_level_1,unique
tipo_centro,Unnamed: 1_level_2
0,"[4, 3]"
1,"[2, 1]"


In [114]:
D_describe['tipo_centro']='Tipo de centro educativo: público o privado'
D_dict['tipo_centro']={0:'Privado',1:'Público'}
traduce('tipo_centro')

            aux_traduce
                 unique
tipo_centro            
0             [Privado]
1             [Público]


In [115]:
proporciones('tipo_centro_')

Unnamed: 0,tipo_centro_
Público,0.852359
Privado,0.147641


In [116]:
# Distribucion de centros públicos y privados condicionada por nacionalidad española u otras: 
dist_condicionada('nacionalidad_','tipo_centro_',rev=True)
# La mayor frecuencia de elección de centros públicos en general se acentúa en el caso de aquellos cuya ...
# ... nacionalidad no es española. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas tipo_centro_,3. dif relativas,3. dif relativas
nacionalidad_,Nacionalidad no española,Nacionalidad española,Unnamed: 3_level_1,Nacionalidad no española,Nacionalidad española
tipo_centro_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Privado,0.097421,0.148201,0.147641,-34.02%,+0.38%
Público,0.902579,0.851799,0.852359,+5.89%,-0.07%


## Nueva variable: 'tipo_docencia'
**Formación presencial o a distancia**: 1=Formación a distancia, 0=Formación presencial  

In [117]:
df['tipo_docencia']=0
df['tipo_docencia'].mask((df['T_UNIV']==2)|(df['T_UNIV']==4),1,inplace=True)
df[['T_UNIV','tipo_docencia']].groupby('tipo_docencia').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,T_UNIV
Unnamed: 0_level_1,unique
tipo_docencia,Unnamed: 1_level_2
0,"[1, 3]"
1,"[2, 4]"


In [118]:
D_describe['tipo_docencia']='Tipo de formación: a distancia o presencial'
D_dict['tipo_docencia']={0:'Formación presencial',1:'Formación a distancia'}
traduce('tipo_docencia')

                           aux_traduce
                                unique
tipo_docencia                         
0               [Formación presencial]
1              [Formación a distancia]


In [119]:
proporciones('tipo_docencia_')

Unnamed: 0,tipo_docencia_
Formación presencial,0.938075
Formación a distancia,0.061925


## 'DISCA' (redefinida como 'discapacidad')
Tiene **discapacidad reconocida** superior al 33 %.  
Nota: Se modifica en 'disca' el valor No: 0=No. 

In [120]:
df['DISCA'].unique() # Sin valores no informados

array([2, 1])

In [121]:
traduce('DISCA')

      aux_traduce
           unique
DISCA            
1            [Sí]
2            [No]


In [122]:
redefine('DISCA',nuevo='discapacidad',si_no=True)

             aux_traduce
                  unique
discapacidad            
0                   [No]
1                   [Sí]


In [123]:
proporciones('discapacidad_')

Unnamed: 0,discapacidad_
No,0.987804
Sí,0.012196


In [124]:
# Distribución de discapacidad según sexos: 
dist_condicionada('sexo_','discapacidad_',rev=True)
# La proporción de estudiantes con discapacidad es mayor entre los hombres que entre las mujeres. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas discapacidad_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
discapacidad_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.988646,0.986686,0.987804,+0.09%,-0.11%
Sí,0.011354,0.013314,0.012196,-6.90%,+9.17%


In [125]:
# Distribución de tipo de enseñanza según discapacidad: 
dist_condicionada('discapacidad_','tipo_docencia_',rev=True)
# Los estudiantes con discapacidad se forman a distancia con el doble de frecuencia que el resto de estudiantes.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas tipo_docencia_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
tipo_docencia_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Formación a distancia,0.124352,0.061155,0.061925,+100.81%,-1.24%
Formación presencial,0.875648,0.938845,0.938075,-6.65%,+0.08%


In [126]:
# Distribución discapacidad segun el tipo de centro: 
dist_condicionada('discapacidad_','tipo_centro_')
# Los centros públicos tienen mayor proporción de estudiantes con discapacidad que los privados.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas discapacidad_,3. dif relativas,3. dif relativas
tipo_centro_,Público,Privado,Unnamed: 3_level_1,Público,Privado
discapacidad_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.987249,0.991012,0.987804,-0.06%,+0.32%
Sí,0.012751,0.008988,0.012196,+4.56%,-26.30%


In [127]:
# Distribución discapacidad segun la nacionalidad: 
dist_condicionada('discapacidad_','nacionalidad_')

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas discapacidad_,3. dif relativas,3. dif relativas
nacionalidad_,Nacionalidad no española,Nacionalidad española,Unnamed: 3_level_1,Nacionalidad no española,Nacionalidad española
discapacidad_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.997135,0.9877,0.987804,+0.94%,-0.01%
Sí,0.002865,0.0123,0.012196,-76.51%,+0.85%


## 'PROXY'
**Tipo de entrevista**.

In [128]:
df['PROXY'].unique() # Sin valores no informados

array([1, 2])

In [129]:
traduce('PROXY',save=False) # No conserva la columna traducida

                                            aux_traduce
                                                 unique
PROXY                                                  
1      [Entrevista directa con la persona seleccionada]
2                                    [Entrevista proxy]


In [130]:
proporciones('PROXY')

Unnamed: 0,PROXY
1,0.987647
2,0.012353


## 'LUG_RES_PAIS' (redefinida como 'reside')
**País de residencia actual**.

In [131]:
df['LUG_RES_PAIS'].sort_values().unique() # Sin valores no informados

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [132]:
traduce('LUG_RES_PAIS')

                                                 aux_traduce
                                                      unique
LUG_RES_PAIS                                                
1                                                   [España]
2                                              [Reino Unido]
3                                                 [Alemania]
4                                                  [Francia]
5                            [Otro país de la Unión Europea]
6                       [Otro país europeo (fuera de la UE)]
7                             [Un país de América del Norte]
8             [Un país de América Central o América del Sur]
9                                          [Un país de Asia]
10                                       [Un país de África]
11                                      [Un país de Oceanía]


In [133]:
redefine('LUG_RES_PAIS','reside')

In [134]:
proporciones('reside_')

Unnamed: 0,reside_
España,0.944109
Reino Unido,0.015987
Otro país de la Unión Europea,0.013586
Alemania,0.006793
Un país de América del Norte,0.004644
Francia,0.004486
Otro país europeo (fuera de la UE),0.003791
Un país de América Central o América del Sur,0.002591
Un país de Asia,0.002117
Un país de Oceanía,0.001517


## 'PAIS_NAC_PADRE'
**País de nacimiento del padre**.

In [135]:
df['PAIS_NAC_PADRE'].unique() # No informados como 9

array([1, 9, 2, 3])

In [136]:
traduce('PAIS_NAC_PADRE')

                               aux_traduce
                                    unique
PAIS_NAC_PADRE                            
1                                 [España]
2                     [Otro país de la UE]
3               [Otro país fuera de la UE]
9                                  [NS/NC]


In [137]:
# Se imputa None a NS/NC:
no_respuesta('PAIS_NAC_PADRE',tipo='int')

[ 1.  2.  3. nan]


In [138]:
proporciones('PAIS_NAC_PADRE_')

Unnamed: 0,PAIS_NAC_PADRE_
España,0.954567
Otro país fuera de la UE,0.026855
Otro país de la UE,0.011848
,0.00673


In [139]:
redefine('PAIS_NAC_PADRE','origen_pa')

In [140]:
dist_condicionada('origen_pa_','nacionalidad_',rev=True,dropna=True)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas nacionalidad_,3. dif relativas,3. dif relativas,3. dif relativas
origen_pa_,Otro país fuera de la UE,Otro país de la UE,España,Unnamed: 4_level_1,Otro país fuera de la UE,Otro país de la UE,España
nacionalidad_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Nacionalidad española,0.767059,0.637333,0.999537,0.988973,-22.44%,-35.56%,+1.07%
Nacionalidad no española,0.232941,0.362667,0.000463,0.011027,"+2,012.56%","+3,189.04%",-95.80%


## 'ESTUDIOS_PADRE' (redefinida como 'estudios_pa')
**Nivel de formación máximo alcanzado por el padre**.

In [141]:
df['ESTUDIOS_PADRE'].unique() # No informados como 9

array([2, 3, 7, 8, 5, 4, 6, 9, 1])

In [142]:
traduce('ESTUDIOS_PADRE')

                                                                                                 aux_traduce
                                                                                                      unique
ESTUDIOS_PADRE                                                                                              
1                                                                                  [No sabe leer o escribir]
2                                 [Educación primaria incompleta (ha asistido menos de 5 años a la escuela)]
3                                                                              [Educación primaria completa]
4               [Primera etapa de Enseñanza Secundaria, con o sin título (ESO, EGB, Bachillerato Elemental)]
5                                            [Estudios de Bachillerato (Bachillerato LOGSE, BUP, COU, Preu)]
6                                                   [Enseñanzas profesionales de grado medio o equivalentes]
7                  

In [143]:
# Se imputa None a NS/NC (9):
no_respuesta('ESTUDIOS_PADRE',tipo='int')

[ 1.  2.  3.  4.  5.  6.  7.  8. nan]


In [144]:
redefine('ESTUDIOS_PADRE',nuevo='estudios_pa')

In [145]:
proporciones('estudios_pa_')
# El grupo más numeroso es el de padres con estudios universitarios. 
# Los nivele de formación más bajos son menos frecuentes que la falta de respuesta. 

Unnamed: 0,estudios_pa_
"Estudios universitarios (Diplomatura, Licenciatura, Doctorado) o equivalentes",0.285109
Educación primaria completa,0.166219
"Primera etapa de Enseñanza Secundaria, con o sin título (ESO, EGB, Bachillerato Elemental)",0.159458
"Estudios de Bachillerato (Bachillerato LOGSE, BUP, COU, Preu)",0.114025
Enseñanzas profesionales de grado medio o equivalentes,0.076111
Enseñanzas profesionales de grado superior o equivalentes,0.073078
,0.069508
Educación primaria incompleta (ha asistido menos de 5 años a la escuela),0.052921
No sabe leer o escribir,0.00357


In [146]:
# Distribución de estudios del padre condicionada por país de nacimiento del padre: 
dist_condicionada('estudios_pa_','origen_pa_')
# Estudios universitarios del padre más frecuentes entre procedentes de países no UE
# Padre sin alfabetización básica más frecuentes entre los procedentes de países no UE
# Padres con estudios profesionales superiores más frecuentes entre los extranjeros UE

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas estudios_pa_,3. dif relativas,3. dif relativas,3. dif relativas
origen_pa_,Otro país fuera de la UE,Otro país de la UE,España,Unnamed: 4_level_1,Otro país fuera de la UE,Otro país de la UE,España
estudios_pa_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Educación primaria completa,0.107232,0.137427,0.181041,0.178636,-39.97%,-23.07%,+1.35%
Educación primaria incompleta (ha asistido menos de 5 años a la escuela),0.024938,0.02924,0.057983,0.056874,-56.15%,-48.59%,+1.95%
Enseñanzas profesionales de grado medio o equivalentes,0.061097,0.105263,0.082098,0.081797,-25.31%,+28.69%,+0.37%
Enseñanzas profesionales de grado superior o equivalentes,0.086035,0.128655,0.07763,0.078537,+9.55%,+63.81%,-1.16%
"Estudios de Bachillerato (Bachillerato LOGSE, BUP, COU, Preu)",0.144638,0.128655,0.12203,0.122543,+18.03%,+4.99%,-0.42%
"Estudios universitarios (Diplomatura, Licenciatura, Doctorado) o equivalentes",0.457606,0.298246,0.302433,0.306407,+49.35%,-2.66%,-1.30%
No sabe leer o escribir,0.004988,0.002924,0.003759,0.003837,+29.99%,-23.79%,-2.03%
"Primera etapa de Enseñanza Secundaria, con o sin título (ESO, EGB, Bachillerato Elemental)",0.113466,0.169591,0.173026,0.171369,-33.79%,-1.04%,+0.97%


In [147]:
# Distribución de estudios del padre condicionada por lugar de nacimiento del hijo: 
dist_condicionada('estudios_pa_','eu27_')
# Entre los no nacidos en UE aumentan, por un lado, los padres sin alfabetización básica (+0.8) y, por otro, ...
# ... los padres con estudios de bachillerato, profesionales superiores o universitarios (aprox +0.65)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas estudios_pa_,3. dif relativas,3. dif relativas
eu27_,No nacido en EU27,Nacido en EU27,Unnamed: 3_level_1,No nacido en EU27,Nacido en EU27
estudios_pa_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Educación primaria completa,0.132404,0.179555,0.178636,-25.88%,+0.51%
Educación primaria incompleta (ha asistido menos de 5 años a la escuela),0.034843,0.057312,0.056874,-38.74%,+0.77%
Enseñanzas profesionales de grado medio o equivalentes,0.050523,0.082419,0.081797,-38.23%,+0.76%
Enseñanzas profesionales de grado superior o equivalentes,0.092334,0.078263,0.078537,+17.57%,-0.35%
"Estudios de Bachillerato (Bachillerato LOGSE, BUP, COU, Preu)",0.144599,0.122104,0.122543,+18.00%,-0.36%
"Estudios universitarios (Diplomatura, Licenciatura, Doctorado) o equivalentes",0.398955,0.304568,0.306407,+30.20%,-0.60%
No sabe leer o escribir,0.006969,0.003775,0.003837,+81.62%,-1.62%
"Primera etapa de Enseñanza Secundaria, con o sin título (ESO, EGB, Bachillerato Elemental)",0.139373,0.172005,0.171369,-18.67%,+0.37%


In [148]:
# Distribución del sexo del graduado condicionada por estudios del padre: 
dist_condicionada('estudios_pa_','sexo_',rev=True)
# La mayor diferencia con la distribución general, entre los padres sin alfabetización básica

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
estudios_pa_,"Primera etapa de Enseñanza Secundaria, con o sin título (ESO, EGB, Bachillerato Elemental)",No sabe leer o escribir,"Estudios universitarios (Diplomatura, Licenciatura, Doctorado) o equivalentes","Estudios de Bachillerato (Bachillerato LOGSE, BUP, COU, Preu)",Enseñanzas profesionales de grado superior o equivalentes,Enseñanzas profesionales de grado medio o equivalentes,Educación primaria incompleta (ha asistido menos de 5 años a la escuela),Educación primaria completa,Unnamed: 9_level_1,"Primera etapa de Enseñanza Secundaria, con o sin título (ESO, EGB, Bachillerato Elemental)",No sabe leer o escribir,"Estudios universitarios (Diplomatura, Licenciatura, Doctorado) o equivalentes","Estudios de Bachillerato (Bachillerato LOGSE, BUP, COU, Preu)",Enseñanzas profesionales de grado superior o equivalentes,Enseñanzas profesionales de grado medio o equivalentes,Educación primaria incompleta (ha asistido menos de 5 años a la escuela),Educación primaria completa
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2
Hombre,0.404597,0.530973,0.484264,0.440565,0.40294,0.378995,0.426866,0.408097,0.429528,-5.80%,+23.62%,+12.74%,+2.57%,-6.19%,-11.76%,-0.62%,-4.99%
Mujer,0.595403,0.469027,0.515736,0.559435,0.59706,0.621005,0.573134,0.591903,0.570472,+4.37%,-17.78%,-9.59%,-1.93%,+4.66%,+8.86%,+0.47%,+3.76%


## Nueva variable: 'grado_med_pa'
**Padre** con o sin **estudios de enseñanzas medias o superiores**, incluidos los universitarios: 1=Con estudios de enseñanzas medias o superiores, 0=Sin estudios de enseñanzas medias o superiores.  

In [149]:
df['grad_med_pa']=0
df['grad_med_pa'].mask(df['ESTUDIOS_PADRE']>=5,1,inplace=True)
df[['ESTUDIOS_PADRE','grad_med_pa']].groupby('grad_med_pa').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,ESTUDIOS_PADRE
Unnamed: 0_level_1,unique
grad_med_pa,Unnamed: 1_level_2
0,"[2.0, 3.0, 4.0, nan, 1.0]"
1,"[7.0, 8.0, 5.0, 6.0]"


In [150]:
D_describe['grad_med_pa']='Padre con o sin estudios de enseñanzas medias o superiores, inluidos los universitarios'
D_dict['grad_med_pa']={0:'Sin estudios de enseñanzas medias o superiores',1:'Con estudios de enseñanzas medias \
o superiores'}
traduce('grad_med_pa')

                                                  aux_traduce
                                                       unique
grad_med_pa                                                  
0            [Sin estudios de enseñanzas medias o superiores]
1            [Con estudios de enseñanzas medias o superiores]


In [151]:
# Distribucion de estudios medios o superiores del padre según nacionalidad española u otras: 
dist_condicionada('grad_med_pa_','nacionalidad_')
# La frecuencia de padre con estudios medios o superiores es mayor entre los graduados extranjeros

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas grad_med_pa_,3. dif relativas,3. dif relativas
nacionalidad_,Nacionalidad no española,Nacionalidad española,Unnamed: 3_level_1,Nacionalidad no española,Nacionalidad española
grad_med_pa_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Con estudios de enseñanzas medias o superiores,0.65043,0.547185,0.548324,+18.62%,-0.21%
Sin estudios de enseñanzas medias o superiores,0.34957,0.452815,0.451676,-22.61%,+0.25%


In [152]:
# Distribucion de estudios medios o superiores del padre según nacionalidad UE27 u otras: 
dist_condicionada('grad_med_pa_','eu27_')
# La frecuencia de padre con estudios medios o superiores es mayor entre los graduados no EU

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas grad_med_pa_,3. dif relativas,3. dif relativas
eu27_,No nacido en EU27,Nacido en EU27,Unnamed: 3_level_1,No nacido en EU27,Nacido en EU27
grad_med_pa_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Con estudios de enseñanzas medias o superiores,0.63961,0.546512,0.548324,+16.65%,-0.33%
Sin estudios de enseñanzas medias o superiores,0.36039,0.453488,0.451676,-20.21%,+0.40%


## Nueva variable: 'univ_pa'
**Padre** con o sin **estudios universitarios**: 1=Con estudios universitarios, 0=Sin estudios universitarios 

In [153]:
df['univ_pa']=0
df['univ_pa'].mask(df['ESTUDIOS_PADRE']==8,1,inplace=True)
df[['ESTUDIOS_PADRE','univ_pa']].groupby('univ_pa').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,ESTUDIOS_PADRE
Unnamed: 0_level_1,unique
univ_pa,Unnamed: 1_level_2
0,"[2.0, 3.0, 7.0, 5.0, 4.0, 6.0, nan, 1.0]"
1,[8.0]


In [154]:
D_describe['univ_pa']='Padre con o sin estudios universitarios'
D_dict['univ_pa']={0:'Sin estudios universitarios',1:'Con estudios universitarios'}
traduce('univ_pa')

                           aux_traduce
                                unique
univ_pa                               
0        [Sin estudios universitarios]
1        [Con estudios universitarios]


In [155]:
# Distribucion de padre universitario o no según nacionalidad española u otras: 
dist_condicionada('univ_pa_','nacionalidad_')
# La frecuencia de padre universitario es mayor entre los graduados con nacionalidad no española.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas univ_pa_,3. dif relativas,3. dif relativas
nacionalidad_,Nacionalidad no española,Nacionalidad española,Unnamed: 3_level_1,Nacionalidad no española,Nacionalidad española
univ_pa_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Con estudios universitarios,0.326648,0.284646,0.285109,+14.57%,-0.16%
Sin estudios universitarios,0.673352,0.715354,0.714891,-5.81%,+0.06%


In [156]:
# Distribucion de padre universitario o no según nacidos o no en EU27: 
dist_condicionada('univ_pa_','eu27_')
# La frecuencia de padre universitario es aun mayor entre los no nacidos en EU27. Puede reflejar mayores ...
# ... barreras de acceso a la universidad española para los estudiantes no europeos. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas univ_pa_,3. dif relativas,3. dif relativas
eu27_,No nacido en EU27,Nacido en EU27,Unnamed: 3_level_1,No nacido en EU27,Nacido en EU27
univ_pa_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Con estudios universitarios,0.371753,0.28339,0.285109,+30.39%,-0.60%
Sin estudios universitarios,0.628247,0.71661,0.714891,-12.12%,+0.24%


In [157]:
# Distribucion de sexos según estudios universitarios del padre: 
dist_condicionada('univ_pa_','sexo_',rev=True)
# La presencia de mujeres es mayor en el conjunto de graduados con padres no universitarios que entre los ...
# ... universitarios.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas
univ_pa_,Sin estudios universitarios,Con estudios universitarios,Unnamed: 3_level_1,Sin estudios universitarios,Con estudios universitarios
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Hombre,0.407699,0.484264,0.429528,-5.08%,+12.74%
Mujer,0.592301,0.515736,0.570472,+3.83%,-9.59%


## 'PAIS_NAC_MADRE'
**País de nacimiento de la madre**.

In [158]:
df['PAIS_NAC_MADRE'].unique() # No informados como 9

array([1, 3, 9, 2])

In [159]:
traduce('PAIS_NAC_MADRE')

                               aux_traduce
                                    unique
PAIS_NAC_MADRE                            
1                                 [España]
2                     [Otro país de la UE]
3               [Otro país fuera de la UE]
9                                  [NS/NC]


In [160]:
# Se imputa None a NS/NC (9):
no_respuesta('PAIS_NAC_MADRE',tipo='int')

[ 1.  2.  3. nan]


In [161]:
redefine('PAIS_NAC_MADRE','origen_ma')

In [162]:
proporciones('origen_ma_')

Unnamed: 0,origen_ma_
España,0.94749
Otro país fuera de la UE,0.025908
Otro país de la UE,0.014249
,0.012353


## 'ESTUDIOS_MADRE'  (redefinida como 'estudios_ma')
**Nivel de formación máximo alcanzado por la madre**.

In [163]:
df['ESTUDIOS_MADRE'].unique() # Missing values as 9

array([3, 7, 2, 4, 5, 6, 8, 9, 1])

In [164]:
traduce('ESTUDIOS_MADRE')

                                                                                                 aux_traduce
                                                                                                      unique
ESTUDIOS_MADRE                                                                                              
1                                                                                  [No sabe leer o escribir]
2                                 [Educación primaria incompleta (ha asistido menos de 5 años a la escuela)]
3                                                                              [Educación primaria completa]
4               [Primera etapa de Enseñanza Secundaria, con o sin título (ESO, EGB, Bachillerato Elemental)]
5                                            [Estudios de Bachillerato (Bachillerato LOGSE, BUP, COU, Preu)]
6                                                   [Enseñanzas profesionales de grado medio o equivalentes]
7                  

In [165]:
# Se imputa None a NS/NC (9):
no_respuesta('ESTUDIOS_MADRE',tipo='int')

[ 1.  2.  3.  4.  5.  6.  7.  8. nan]


In [166]:
redefine('ESTUDIOS_MADRE','estudios_ma')

In [167]:
proporciones('estudios_ma_')
# La proporción de madres universitarias es solo un poco menor que la de padres universitarios. 
# La proporción de madres que no saben leer o escribir es solo un poco superior a la de padres en la misma sit.
# Lo mismo ocurre en cuanto a la educación primaria incompleta. 

Unnamed: 0,estudios_ma_
"Estudios universitarios (Diplomatura, Licenciatura, Doctorado) o equivalentes",0.272977
"Primera etapa de Enseñanza Secundaria, con o sin título (ESO, EGB, Bachillerato Elemental)",0.183849
Educación primaria completa,0.16742
"Estudios de Bachillerato (Bachillerato LOGSE, BUP, COU, Preu)",0.12344
Enseñanzas profesionales de grado medio o equivalentes,0.091498
Enseñanzas profesionales de grado superior o equivalentes,0.059177
Educación primaria incompleta (ha asistido menos de 5 años a la escuela),0.051341
,0.046349
No sabe leer o escribir,0.003949


In [168]:
# Distribución de los estudios de la madre condicionados por origen geográfico: 
dist_condicionada('estudios_ma_','origen_ma_') 

# Madres procedentes de paises no UE:
# Incremento (x 2.7) de madres sin alfabetización básica
# Incremento de enseñanzas profesionales superiores (x 1.5), estudios universitarios (x 1.37) y bachillerato ...
# ... (x 1.35) 

# Madres procedentes de otros países UE:
# No hay madres que no saben leer o escribir procedentes de otros países de la UE
# Menores frecuencias de estudios de secundaria o inferiores, y mayor frecuencia desde bachillerato y ...
# ... enseñanzas profesionales medias en adelante. 
# Las menores diferencias con distribución para España, en los extremos (alfabetización y universidad)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas estudios_ma_,3. dif relativas,3. dif relativas,3. dif relativas
origen_ma_,Otro país fuera de la UE,Otro país de la UE,España,Unnamed: 4_level_1,Otro país fuera de la UE,Otro país de la UE,España
estudios_ma_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Educación primaria completa,0.076155,0.094118,0.17971,0.175557,-56.62%,-46.39%,+2.37%
Educación primaria incompleta (ha asistido menos de 5 años a la escuela),0.028714,0.032941,0.054374,0.053836,-46.66%,-38.81%,+1.00%
Enseñanzas profesionales de grado medio o equivalentes,0.081149,0.131765,0.095966,0.095945,-15.42%,+37.33%,+0.02%
Enseñanzas profesionales de grado superior o equivalentes,0.093633,0.094118,0.060904,0.062053,+50.89%,+51.67%,-1.85%
"Estudios de Bachillerato (Bachillerato LOGSE, BUP, COU, Preu)",0.174782,0.176471,0.127327,0.129439,+35.03%,+36.33%,-1.63%
"Estudios universitarios (Diplomatura, Licenciatura, Doctorado) o equivalentes",0.39201,0.296471,0.283779,0.286244,+36.95%,+3.57%,-0.86%
No sabe leer o escribir,0.011236,,0.003981,0.004141,+171.32%,+nan%,-3.87%
"Primera etapa de Enseñanza Secundaria, con o sin título (ESO, EGB, Bachillerato Elemental)",0.142322,0.174118,0.193958,0.192784,-26.18%,-9.68%,+0.61%


In [169]:
df[['estudios_ma_','origen_ma_']].groupby('estudios_ma_').agg(['value_counts']) # Inspección

Unnamed: 0_level_0,Unnamed: 1_level_0,origen_ma_
Unnamed: 0_level_1,Unnamed: 1_level_1,value_counts
estudios_ma_,origen_ma_,Unnamed: 2_level_2
Educación primaria completa,España,5146
Educación primaria completa,Otro país fuera de la UE,61
Educación primaria completa,Otro país de la UE,40
Educación primaria incompleta (ha asistido menos de 5 años a la escuela),España,1557
Educación primaria incompleta (ha asistido menos de 5 años a la escuela),Otro país fuera de la UE,23
Educación primaria incompleta (ha asistido menos de 5 años a la escuela),Otro país de la UE,14
Enseñanzas profesionales de grado medio o equivalentes,España,2748
Enseñanzas profesionales de grado medio o equivalentes,Otro país fuera de la UE,65
Enseñanzas profesionales de grado medio o equivalentes,Otro país de la UE,56
Enseñanzas profesionales de grado superior o equivalentes,España,1744


## Nueva variable: 'grado_med_ma'
**Madre** con o sin **estudios de enseñanzas medias o superiores**, incluidos los universitarios: 1=Con estudios de enseñanzas medias o superiores, 0=Sin estudios de enseñanzas medias o superiores.  

In [170]:
df['grad_med_ma']=0
df['grad_med_ma'].mask(df['ESTUDIOS_MADRE']>=5,1,inplace=True)
df[['ESTUDIOS_MADRE','grad_med_ma']].groupby('grad_med_ma').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,ESTUDIOS_MADRE
Unnamed: 0_level_1,unique
grad_med_ma,Unnamed: 1_level_2
0,"[3.0, 2.0, 4.0, nan, 1.0]"
1,"[7.0, 5.0, 6.0, 8.0]"


In [171]:
D_describe['grad_med_ma']='Madre con o sin estudios de enseñanzas medias o superiores, inluidos los universitarios'
D_dict['grad_med_ma']=D_dict['grad_med_pa']
traduce('grad_med_ma')

                                                  aux_traduce
                                                       unique
grad_med_ma                                                  
0            [Sin estudios de enseñanzas medias o superiores]
1            [Con estudios de enseñanzas medias o superiores]


In [172]:
# Distribucion de estudios medios o superiores de la madre según nacionalidad española u otras: 
dist_condicionada('grad_med_ma_','nacionalidad_')
# La frecuencia de madre con estudios medios o superiores es mayor entre los graduados extranjeros

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas grad_med_ma_,3. dif relativas,3. dif relativas
nacionalidad_,Nacionalidad no española,Nacionalidad española,Unnamed: 3_level_1,Nacionalidad no española,Nacionalidad española
grad_med_ma_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Con estudios de enseñanzas medias o superiores,0.713467,0.545237,0.547092,+30.41%,-0.34%
Sin estudios de enseñanzas medias o superiores,0.286533,0.454763,0.452908,-36.73%,+0.41%


In [173]:
# Distribucion de estudios medios o superiores de la madre según nacionalidad UE27 u otras: 
dist_condicionada('grad_med_ma_','eu27_')
# La frecuencia de madre con estudios medios o superiores es mayor entre los graduados no EU

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas grad_med_ma_,3. dif relativas,3. dif relativas
eu27_,No nacido en EU27,Nacido en EU27,Unnamed: 3_level_1,No nacido en EU27,Nacido en EU27
grad_med_ma_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Con estudios de enseñanzas medias o superiores,0.676948,0.544514,0.547092,+23.74%,-0.47%
Sin estudios de enseñanzas medias o superiores,0.323052,0.455486,0.452908,-28.67%,+0.57%


## Nueva variable: 'univ_ma'
**Madre** con o sin **estudios universitarios**: 1=Con estudios universitarios, 0=Sin estudios universitarios 

In [174]:
df['univ_ma']=0
df['univ_ma'].mask(df['ESTUDIOS_MADRE']==8,1,inplace=True)
df[['ESTUDIOS_MADRE','univ_ma']].groupby('univ_ma').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,ESTUDIOS_MADRE
Unnamed: 0_level_1,unique
univ_ma,Unnamed: 1_level_2
0,"[3.0, 7.0, 2.0, 4.0, 5.0, 6.0, nan, 1.0]"
1,[8.0]


In [175]:
D_describe['univ_ma']='Madre con o sin estudios universitarios'
D_dict['univ_ma']=D_dict['univ_pa']
traduce('univ_ma')

                           aux_traduce
                                unique
univ_ma                               
0        [Sin estudios universitarios]
1        [Con estudios universitarios]


In [176]:
# Distribucion de madre universitaria o no según nacionalidad española u otras: 
dist_condicionada('univ_ma_','nacionalidad_')
# La frecuencia de madre universitaria es mayor entre los graduados con nacionalidad no española.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas univ_ma_,3. dif relativas,3. dif relativas
nacionalidad_,Nacionalidad no española,Nacionalidad española,Unnamed: 3_level_1,Nacionalidad no española,Nacionalidad española
univ_ma_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Con estudios universitarios,0.329513,0.272347,0.272977,+20.71%,-0.23%
Sin estudios universitarios,0.670487,0.727653,0.727023,-7.78%,+0.09%


In [177]:
# Distribucion de madre universitaria o no según nacidos o no en EU27: 
dist_condicionada('univ_ma_','eu27_')
# De nuevo, la frecuencia de madre universitaria es aun mayor entre los no nacidos en EU27, aunque con menor ...
# ... diferencia que en el caso de los padres. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas univ_ma_,3. dif relativas,3. dif relativas
eu27_,No nacido en EU27,Nacido en EU27,Unnamed: 3_level_1,No nacido en EU27,Nacido en EU27
univ_ma_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Con estudios universitarios,0.339286,0.271661,0.272977,+24.29%,-0.48%
Sin estudios universitarios,0.660714,0.728339,0.727023,-9.12%,+0.18%


In [178]:
# Distribucion de sexos según estudios universitarios de la madre: 
dist_condicionada('univ_ma_','sexo_',rev=True)
# Misma relación que en el caso de los padres, aunque con menor distancia entre grupos. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas
univ_ma_,Sin estudios universitarios,Con estudios universitarios,Unnamed: 3_level_1,Sin estudios universitarios,Con estudios universitarios
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Hombre,0.413759,0.471528,0.429528,-3.67%,+9.78%
Mujer,0.586241,0.528472,0.570472,+2.76%,-7.36%


# BLOQUE B. EDUCACIÓN Y APRENDIZAJE DEL GRADUADO UNIVERSITARIO

## 'EST_B1' (redefinida como 'beca')
¿Disfrutó de **alguna beca** durante sus estudios?: 1=Sí, 2=No, 9=NS/NC.  

Nota: se modifica en 'beca' el valor asociado a No: 0=No

In [179]:
df['EST_B1'].unique() # No informados como 9

array([2, 1, 9])

In [180]:
traduce('EST_B1')

       aux_traduce
            unique
EST_B1            
1             [Sí]
2             [No]
9          [NS/NC]


In [181]:
# Se imputa None a NS/NC:
no_respuesta('EST_B1',tipo='int')

[ 1.  2. nan]


In [182]:
redefine('EST_B1','beca',si_no=True)

     aux_traduce
          unique
beca            
0.0         [No]
1.0         [Sí]


In [183]:
proporciones('beca_')

Unnamed: 0,beca_
No,0.532874
Sí,0.466304
,0.000821


In [184]:
# Distribución de becas condicionadas por el sexo: 
dist_condicionada('beca_','sexo_',dropna=True)
# La proporción de becas de estudios es superior entre las mujeres que entre los hombres. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas beca_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
beca_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.506817,0.568505,0.533312,-4.97%,+6.60%
Sí,0.493183,0.431495,0.466688,+5.68%,-7.54%


In [185]:
# Distribucion de becas condicionadas por nacionalidad española u otras: 
dist_condicionada('beca_','nacionalidad_',dropna=True)
# La proporción de becas de estudios es superior entre aquellos cuya nacionalidad es no española

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas beca_,3. dif relativas,3. dif relativas
nacionalidad_,Nacionalidad no española,Nacionalidad española,Unnamed: 3_level_1,Nacionalidad no española,Nacionalidad española
beca_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.363897,0.535203,0.533312,-31.77%,+0.35%
Sí,0.636103,0.464797,0.466688,+36.30%,-0.41%


In [186]:
# Distribucion de becas condicionadas por continente de nacimento:  
dist_condicionada('beca_','eu27_',dropna=True)
# La proporción de becas de estudios es superior entre los no nacidos en EU27. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas beca_,3. dif relativas,3. dif relativas
eu27_,No nacido en EU27,Nacido en EU27,Unnamed: 3_level_1,No nacido en EU27,Nacido en EU27
beca_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.331169,0.537328,0.533312,-37.90%,+0.75%
Sí,0.668831,0.462672,0.466688,+43.31%,-0.86%


In [187]:
# Distribucion de becas condicionadas por discapacidad:  
dist_condicionada('beca_','discapacidad_',dropna=True)
# La proporción de becas de estudios es superior entre los estudiantes sin discapacidad reconocida.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas beca_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
beca_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.563636,0.532939,0.533312,+5.69%,-0.07%
Sí,0.436364,0.467061,0.466688,-6.50%,+0.08%


## 'EST_B2_1' (redefinida como 'beca_general')
(Solo para respuesta Sí (1) en variable 'EST_B1' (beca))  

¿Disfrutó de una **beca general para el estudio**?: 1=Sí, 2=No, 9=NS/NC.

Nota: se modifica en 'beca_general' el valor asociado a No: 0=No

In [188]:
df['EST_B2_1'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [189]:
traduce('EST_B2_1')

             aux_traduce
                  unique
EST_B2_1                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [190]:
def re_beca(col):
    """Inspeccion e imputación de valores de variables condicionadas por respuesta a 'EST_B1' cuando pueden 
    deducirse de los itinerarios de la encuesta.
    """
    print (df[['EST_B1',col]].groupby('EST_B1').agg(['unique']))
    # Se imputa respuesta No (2) a quienes manifestaron no haber disfrutado de beca (2 en 'EST_B1')
    df[col].mask(df['EST_B1']==2,2,inplace=True)
    # Se imputa None al resto de respuestas en blanco y a NS/NC:
    try: df[col].replace({' ':None,'9':None,},inplace=True)
    except:
        df[col]=df[col].astype('O')
        df[col].replace({' ':None,'9':None,},inplace=True) # Resuelve conflictos cuando se aplica más de una vez
    try: df[col]=df[col].astype('int')
    except: df[col]=df[col].astype('float')
    traduce(col,check=False)
    print (df[['EST_B1',col]].groupby('EST_B1').agg(['unique']))
    return

In [191]:
re_beca('EST_B2_1')

         EST_B2_1
           unique
EST_B1           
1.0     [1, 2, 9]
2.0           [ ]
               EST_B2_1
                 unique
EST_B1                 
1.0     [1.0, 2.0, nan]
2.0               [2.0]


In [192]:
redefine('EST_B2_1','beca_general',si_no=True)

             aux_traduce
                  unique
beca_general            
0.0                 [No]
1.0                 [Sí]


In [193]:
proporciones('beca_general_')

Unnamed: 0,beca_general_
No,0.613156
Sí,0.381536
,0.005308


## 'EST_B2_2' (redefinida como 'beca_excel')
(Solo para respuesta Sí (1) en variable 'beca')  

¿Disfrutó de algún **premio o beca de excelencia**?: 1=Sí, 2=No, 9=NS/NC.  

Nota: se modifica en 'beca_excel' el valor asociado a No: 0=No.

In [194]:
df['EST_B2_2'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [195]:
traduce('EST_B2_2')

             aux_traduce
                  unique
EST_B2_2                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [196]:
re_beca('EST_B2_2')

         EST_B2_2
           unique
EST_B1           
1.0     [2, 1, 9]
2.0           [ ]
               EST_B2_2
                 unique
EST_B1                 
1.0     [2.0, 1.0, nan]
2.0               [2.0]


In [197]:
redefine('EST_B2_2','beca_excel',si_no=True)

           aux_traduce
                unique
beca_excel            
0.0               [No]
1.0               [Sí]


In [198]:
proporciones('beca_excel_')

Unnamed: 0,beca_excel_
No,0.950554
Sí,0.044138
,0.005308


## 'EST_B2_3' (redefinida como 'beca_colab')
(Solo para respuesta Sí (1) en variable 'beca')  

¿Disfrutó de alguna **beca de colaboración** en la universidad?: 1=Sí, 2=No, 9=NS/NC.  

Nota: se modifica en 'beca_colab' el valor asociado a No: 0=No.

In [199]:
df['EST_B2_3'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [200]:
traduce('EST_B2_3')

             aux_traduce
                  unique
EST_B2_3                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [201]:
re_beca('EST_B2_3')

         EST_B2_3
           unique
EST_B1           
1.0     [2, 1, 9]
2.0           [ ]
               EST_B2_3
                 unique
EST_B1                 
1.0     [2.0, 1.0, nan]
2.0               [2.0]


In [202]:
redefine('EST_B2_3','beca_colab',si_no=True)

           aux_traduce
                unique
beca_colab            
0.0               [No]
1.0               [Sí]


In [203]:
proporciones('beca_colab_')

Unnamed: 0,beca_colab_
No,0.959401
Sí,0.035291
,0.005308


## 'EST_B2_4' (redefinida como 'beca_pract')
(Solo para respuesta Sí (1) en variable 'beca')  

¿Disfrutó de alguna **beca de prácticas externas** o para prestar un servicio o desempeñar un trabajo fuera de la Universidad?: 1=Sí, 2=No, 9=NS/NC.  


Nota: se modifica en 'beca_pract' el valor asociado a No: 0=No.

In [204]:
df['EST_B2_4'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [205]:
traduce('EST_B2_4')

             aux_traduce
                  unique
EST_B2_4                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [206]:
re_beca('EST_B2_4')

         EST_B2_4
           unique
EST_B1           
1.0     [2, 1, 9]
2.0           [ ]
               EST_B2_4
                 unique
EST_B1                 
1.0     [2.0, 1.0, nan]
2.0               [2.0]


In [207]:
redefine('EST_B2_4','beca_pract',si_no=True)

           aux_traduce
                unique
beca_pract            
0.0               [No]
1.0               [Sí]


In [208]:
proporciones('beca_pract_')

Unnamed: 0,beca_pract_
No,0.957
Sí,0.037692
,0.005308


## 'EST_B2_5' (redefinida como 'beca_extr')
(Solo para respuesta Sí (1) en variable 'beca')  

¿Disfrutó de alguna **beca para realizar estudios fuera de España** (incluidas becas complemento a programas Erasmus)?: 1=Sí, 2=No, 9=NS/NC.  

Nota: se modifica en 'beca_extr' el valor asociado a No: 0=No.

In [209]:
df['EST_B2_5'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [210]:
traduce('EST_B2_5')

             aux_traduce
                  unique
EST_B2_5                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [211]:
re_beca('EST_B2_5')

         EST_B2_5
           unique
EST_B1           
1.0     [2, 1, 9]
2.0           [ ]
               EST_B2_5
                 unique
EST_B1                 
1.0     [2.0, 1.0, nan]
2.0               [2.0]


In [212]:
redefine('EST_B2_5','beca_extr',si_no=True)

          aux_traduce
               unique
beca_extr            
0.0              [No]
1.0              [Sí]


In [213]:
proporciones('beca_extr_')
# La beca más frecuente es la general de estudios, seguida de las destinadas a estudiar fuera de España.

Unnamed: 0,beca_extr_
No,0.88904
Sí,0.105652
,0.005308


## 'EST_M1' (redefinida como 'extr')
(Solo para respuesta distinta de Sí (1) en variable 'EST_B2_5')  

¿Realizó parte de sus **estudios en el extranjero**?: 1=Sí, 2=No, 9=NS/NC.  

Nota: se modifica el valor asociado a No: 0=No.

In [214]:
df['EST_M1'].unique() # No informados como '9'

array([2, 1, 9])

In [215]:
traduce('EST_M1')

       aux_traduce
            unique
EST_M1            
1             [Sí]
2             [No]
9          [NS/NC]


In [216]:
df[['EST_B2_5_','EST_M1_']].groupby('EST_B2_5_').agg(['unique']) # Inspección
# Imputada por el encuestador respuesta Si (1) a quienes manifestaron haber disfrutado de beca para ...
# ... estudiar fuera de España ('EST_B2_5')

Unnamed: 0_level_0,EST_M1_
Unnamed: 0_level_1,unique
EST_B2_5_,Unnamed: 1_level_2
No,"[No, Sí, NS/NC]"
Sí,[Sí]


In [217]:
# Se imputa None a NS/NC: 
no_respuesta('EST_M1',tipo='int')

[ 1.  2. nan]


In [218]:
df[['EST_B2_5_','EST_M1_']].groupby('EST_B2_5_').agg(['unique']) # Comprobacion: 

Unnamed: 0_level_0,EST_M1_
Unnamed: 0_level_1,unique
EST_B2_5_,Unnamed: 1_level_2
No,"[No, Sí, nan]"
Sí,[Sí]


In [219]:
redefine('EST_M1','extr',si_no=True)

     aux_traduce
          unique
extr            
0.0         [No]
1.0         [Sí]


In [220]:
proporciones('extr_')

Unnamed: 0,extr_
No,0.832201
Sí,0.167167
,0.000632


In [221]:
# Proporción de beca específica para estudiar fuera entre quienes estudiaron en el extranjero: 
df['beca_extr_'][df['extr']==1].value_counts(normalize=True)

Sí    0.634054
No    0.365946
Name: beca_extr_, dtype: float64

## Nueva variable: 'extr_sin_beca'
¿Realizó parte de sus **estudios en el extranjero sin beca** específica?: 1=Si, 0=No.  

Variable proxi de renta familiar alta.  

In [222]:
df['extr_sin_beca']=0
df['extr_sin_beca'].mask((df['extr']==1)&(df['EST_B2_5']!=1),1,inplace=True)
df[['extr_sin_beca','extr','EST_B2_5']].groupby(['extr','EST_B2_5']).agg(['unique']) # Comprobación

Unnamed: 0_level_0,Unnamed: 1_level_0,extr_sin_beca
Unnamed: 0_level_1,Unnamed: 1_level_1,unique
extr,EST_B2_5,Unnamed: 2_level_2
0.0,2.0,[0]
1.0,1.0,[0]
1.0,2.0,[1]


In [223]:
D_describe['extr_sin_beca']='Realizó parte de sus estudios en el extranjero sin beca específica (proxy renta \
familiar)'
D_dict['extr_sin_beca']=D_dict['si_no']
traduce('extr_sin_beca')

              aux_traduce
                   unique
extr_sin_beca            
0                    [No]
1                    [Sí]


In [224]:
proporciones('extr_sin_beca_')

Unnamed: 0,extr_sin_beca_
No,0.938485
Sí,0.061515


## 'EST_M2' (redefinida como 'tipo_beca_extr')

(Solo para respuesta Sí (1) en variable 'EST_B2_5' (o 'beca_extr'))  

**Programa o beca de movilidad**.

In [225]:
df['EST_M2'].unique() # No informados como ' ' o '9'

array([' ', '3', '1', '2', '9'], dtype=object)

In [226]:
traduce('EST_M2')

                                      aux_traduce
                                           unique
EST_M2                                           
                                   [No aplicable]
1                              [Programa Erasmus]
2       [Otros programas o becas dentro de la UE]
3        [Otros programas o becas fuera de la UE]
9                                         [NS/NC]


In [227]:
df[['beca_extr_','EST_M2_']].groupby('beca_extr_',dropna=False).agg(['unique']) # Inspección

Unnamed: 0_level_0,EST_M2_
Unnamed: 0_level_1,unique
beca_extr_,Unnamed: 1_level_2
No,[No aplicable]
Sí,"[Otros programas o becas fuera de la UE, Programa Erasmus, Otros programas o becas dentro de la UE, NS/NC]"
,[No aplicable]


In [228]:
# Se imputa None a NS/NC (9) y a respuesta en blanco: 
no_respuesta('EST_M2')

[ 1.  2.  3. nan]


In [229]:
redefine('EST_M2','tipo_beca_extr')

In [230]:
df[['beca_extr_','tipo_beca_extr_']].groupby('beca_extr_',dropna=False).agg(['unique']) # Comprobación

Unnamed: 0_level_0,tipo_beca_extr_
Unnamed: 0_level_1,unique
beca_extr_,Unnamed: 1_level_2
No,[nan]
Sí,"[Otros programas o becas fuera de la UE, Programa Erasmus, Otros programas o becas dentro de la UE, nan]"
,[nan]


In [231]:
proporciones('tipo_beca_extr_')

Unnamed: 0,tipo_beca_extr_
,0.894379
Programa Erasmus,0.091687
Otros programas o becas fuera de la UE,0.008594
Otros programas o becas dentro de la UE,0.005339


In [232]:
# Distribución de tipos de becas de estudios en el extranjero entre quienes manifestaron haber disfrutado alguna: 
proporciones('tipo_beca_extr_',dropna=True)

Unnamed: 0,tipo_beca_extr_
Programa Erasmus,0.868083
Otros programas o becas fuera de la UE,0.081364
Otros programas o becas dentro de la UE,0.050553


## 'EST_M3'  (redefinida como 'pais_beca_extr')  

(Solo para respuesta Sí (1) en variable 'EST_M1' (o 'extr')) 

**País de destino** cuando estudió fuera de España.

In [233]:
df['EST_M3'].sort_values().unique() # No informados como '  ' o '99'

array(['  ', '01', '02', '03', '04', '05', '06', '07', '08', '11', '12',
       '21', '31', '41', '99'], dtype=object)

In [234]:
traduce('EST_M3')

                                                                 aux_traduce
                                                                      unique
EST_M3                                                                      
                                                              [No aplicable]
01                                                             [Reino Unido]
02                                                                [Alemania]
03                                                                 [Francia]
04                                                                  [Italia]
05                                                                [Portugal]
06      [Países Nórdicos (Suecia, Noruega, Finlandia, Dinamarca e Islandia)]
07                                           [Otro país de la Unión Europea]
08                                                       [Otro país europeo]
11                                            [Un país de América del Norte]

In [235]:
df[['extr_','EST_M3_']].groupby('extr_',dropna=False).agg(['unique']) # Inspección

Unnamed: 0_level_0,EST_M3_
Unnamed: 0_level_1,unique
extr_,Unnamed: 1_level_2
No,[No aplicable]
Sí,"[Un país de América Central o América del Sur, Francia, Otro país europeo, Portugal, Italia, Alemania, Un país de América del Norte, Países Nórdicos (Suecia, Noruega, Finlandia, Dinamarca e Islandia), Reino Unido, Otro país de la Unión Europea, Un país de Asia, NS/NC, Un país de África, Un país ..."
,[No aplicable]


In [236]:
# Se imputa None a respuestas en blanco y NS/NC: 
no_respuesta('EST_M3',blank='  ',nsnc='99')

[ 1.  2.  3.  4.  5.  6.  7.  8. 11. 12. 21. 31. 41. nan]


In [237]:
df[['extr_','EST_M3_']].groupby('extr_',dropna=False).agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,EST_M3_
Unnamed: 0_level_1,unique
extr_,Unnamed: 1_level_2
No,[nan]
Sí,"[Un país de América Central o América del Sur, Francia, Otro país europeo, Portugal, Italia, Alemania, Un país de América del Norte, Países Nórdicos (Suecia, Noruega, Finlandia, Dinamarca e Islandia), Reino Unido, Otro país de la Unión Europea, Un país de Asia, nan, Un país de África, Un país de..."
,[nan]


In [238]:
redefine('EST_M3','pais_beca_extr')

In [239]:
# Distribución de países extranjeros donde se realiza una parte de los estudios entre quienes han estudiado fuera: 
proporciones('pais_beca_extr_',dropna=True)
# Italia y Reino Unido son los destinos más frecuentes (excluyendo la categoría 'Otros países de la UE')

Unnamed: 0,pais_beca_extr_
Otro país de la Unión Europea,0.214326
Italia,0.172715
Reino Unido,0.127874
Francia,0.089303
Alemania,0.088543
"Países Nórdicos (Suecia, Noruega, Finlandia, Dinamarca e Islandia)",0.076572
Un país de América Central o América del Sur,0.057192
Portugal,0.054722
Un país de América del Norte,0.049211
Otro país europeo,0.047691


In [240]:
# Distribución de países de destino para estudiar en el extranjero condicionada por sexo: 
dist_condicionada('pais_beca_extr_','sexo_')
# Oceanía, Reino Unido, Francia e Italia, más elegidos como destino por las mujeres

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas pais_beca_extr_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
pais_beca_extr_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Alemania,0.080354,0.098882,0.088543,-9.25%,+11.68%
Francia,0.096697,0.079966,0.089303,+8.28%,-10.46%
Italia,0.178754,0.16509,0.172715,+3.50%,-4.41%
Otro país de la Unión Europea,0.210759,0.218831,0.214326,-1.66%,+2.10%
Otro país europeo,0.043922,0.052451,0.047691,-7.90%,+9.98%
"Países Nórdicos (Suecia, Noruega, Finlandia, Dinamarca e Islandia)",0.069459,0.085555,0.076572,-9.29%,+11.73%
Portugal,0.053115,0.05675,0.054722,-2.94%,+3.71%
Reino Unido,0.142663,0.1092,0.127874,+11.57%,-14.60%
Un país de América Central o América del Sur,0.057542,0.05675,0.057192,+0.61%,-0.77%
Un país de América del Norte,0.048349,0.050301,0.049211,-1.75%,+2.21%


## 'EST_M4'
(Solo para respuesta Sí (1) en variable 'EST_M1' (o 'extr'))  

**Duración** en meses del periodo en el que estudió fuera de España.

In [241]:
df['EST_M4'].unique() # No informados como ' ' o '9'

array([' ', '1', '4', '3', '2', '5', '9'], dtype=object)

In [242]:
traduce('EST_M4')

               aux_traduce
                    unique
EST_M4                    
            [No aplicable]
1         [De 1 a 3 meses]
2         [De 4 a 6 meses]
3         [De 7 a 9 meses]
4       [De 10 a 12 meses]
5          [Más de un año]
9                  [NS/NC]


In [243]:
df[['extr_','EST_M4_']].groupby('extr_',dropna=False).agg(['unique']) # Inspección: 

Unnamed: 0_level_0,EST_M4_
Unnamed: 0_level_1,unique
extr_,Unnamed: 1_level_2
No,[No aplicable]
Sí,"[De 1 a 3 meses, De 10 a 12 meses, De 7 a 9 meses, De 4 a 6 meses, Más de un año, NS/NC]"
,[No aplicable]


In [244]:
# Se imputa None a respuestas en blanco y NS/NC
no_respuesta('EST_M4')

[ 1.  2.  3.  4.  5. nan]


In [245]:
df[['extr_','EST_M4_']].groupby('extr_',dropna=False).agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,EST_M4_
Unnamed: 0_level_1,unique
extr_,Unnamed: 1_level_2
No,[nan]
Sí,"[De 1 a 3 meses, De 10 a 12 meses, De 7 a 9 meses, De 4 a 6 meses, Más de un año, nan]"
,[nan]


## 'EST_MES' 
¿Realizó parte de sus estudios para obtener su título de grado en **otra universidad española**? 1=Sí, 2=No, 9=NS/NC.  

In [246]:
df['EST_MES'].unique() # No informados como '9'

array([2, 1, 9])

In [247]:
traduce('EST_MES')

        aux_traduce
             unique
EST_MES            
1              [Sí]
2              [No]
9           [NS/NC]


In [248]:
# Se imputa None a NS/NC:
no_respuesta('EST_MES',tipo='int')

[ 1.  2. nan]


In [249]:
proporciones('EST_MES_')

Unnamed: 0,EST_MES_
No,0.902626
Sí,0.096679
,0.000695


## 'EST_B8' (redefinida como 'motivacion')
**Motivo principal** por el que ha realizado sus **estudios** de grado.

In [250]:
df['EST_B8'].unique() # No informados como '9'

array([1, 2, 3, 9])

In [251]:
traduce('EST_B8')

                                              aux_traduce
                                                   unique
EST_B8                                                   
1                [Formarse pensando en su futuro laboral]
2       [Ampliar conocimientos por satisfacción personal]
3                                         [Otros motivos]
9                                                 [NS/NC]


In [252]:
# Se imputa None a NS/NC:
no_respuesta('EST_B8',tipo='int')

[ 1.  2.  3. nan]


In [253]:
redefine('EST_B8','motivacion')

In [254]:
proporciones('motivacion_')

Unnamed: 0,motivacion_
Formarse pensando en su futuro laboral,0.747938
Ampliar conocimientos por satisfacción personal,0.160816
Otros motivos,0.087612
,0.003633


In [255]:
# Distribución de la motivación condicionada por la rama de conocimiento de la titulación (1=Artes y humanidades,
# ...  2=Ciencias, 3=Ciencias sociales y jurídicas, 4=Ingeniería y arquitectura, 5=Ciencias de la salud):
dist_condicionada('motivacion_','rama_g1_',dropna=True)
# La motivación principal son las expectativas laborales para todas las ramas de conocimiento.
# Artes y humanidades es la rama que menos se escoge pensando en las expectativas laborales, seguida por Ciencias.
# También son estas, en ese orden, las que más se escogen para ampliar conocimientos por satisfacción personal. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas motivacion_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
motivacion_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
Ampliar conocimientos por satisfacción personal,0.137562,0.114853,0.1333,0.144977,0.242997,0.354784,0.161403,-14.77%,-28.84%,-17.41%,-10.18%,+50.55%,+119.81%
Formarse pensando en su futuro laboral,0.764077,0.796603,0.787435,0.729393,0.684613,0.556267,0.750666,+1.79%,+6.12%,+4.90%,-2.83%,-8.80%,-25.90%
Otros motivos,0.098361,0.088545,0.079265,0.125629,0.07239,0.088949,0.087931,+11.86%,+0.70%,-9.86%,+42.87%,-17.67%,+1.16%


## 'SAT1' (redefinida como 'sat_est_u')
¿Si tuviera que empezar de nuevo **volvería a cursar estudios universitarios**?  1=Sí, 2=No, 9=NS/NC.  

Nota: Se modifica en 'sat_est_u' el valor asociado a la respuesta No: 0=No.

In [256]:
df['SAT1'].unique() # No informados como '9'

array([1, 2, 9])

In [257]:
traduce('SAT1')

     aux_traduce
          unique
SAT1            
1           [Sí]
2           [No]
9        [NS/NC]


In [258]:
# Se imputa None a NS/NC:
no_respuesta('SAT1',tipo='int')

[ 1.  2. nan]


In [259]:
redefine('SAT1','sat_est_u',si_no=True)

          aux_traduce
               unique
sat_est_u            
0.0              [No]
1.0              [Sí]


In [260]:
proporciones('sat_est_u_')

Unnamed: 0,sat_est_u_
Sí,0.857919
No,0.12641
,0.015671


In [261]:
# Distribución de la disposición a estudiar si tuviera que hacerlo de nuevo según ...
# ... la rama de conocimiento de la titulación:
dist_condicionada('sat_est_u_','rama_g1_',dropna=True)
# La disposición a estudiar de nuevo es similar para todas las ramas excepto para los graduados ...
# ... en ciencias de la salud, más dispuestos a estudiar de nuevo que el resto. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sat_est_u_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
sat_est_u_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
No,0.173063,0.137032,0.130936,0.059521,0.148866,0.144365,0.128422,+34.76%,+6.70%,+1.96%,-53.65%,+15.92%,+12.41%
Sí,0.826937,0.862968,0.869064,0.940479,0.851134,0.855635,0.871578,-5.12%,-0.99%,-0.29%,+7.91%,-2.35%,-1.83%


In [262]:
# Distribución de la disposición a estudiar si tuviera que hacerlo de nuevo según el sexo: 
dist_condicionada('sat_est_u_','sexo_',dropna=True)
# Las diferencias entre sexos son pequeñas. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sat_est_u_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
sat_est_u_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.124091,0.134148,0.128422,-3.37%,+4.46%
Sí,0.875909,0.865852,0.871578,+0.50%,-0.66%


In [263]:
# Distribución de la disposición a estudiar si tuviera que hacerlo de nuevo según el discapacidad: 
dist_condicionada('sat_est_u_','discapacidad_',dropna=True)
# Las diferencias según discapacidad son pequeñas. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sat_est_u_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
sat_est_u_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.120419,0.128522,0.128422,-6.23%,+0.08%
Sí,0.879581,0.871478,0.871578,+0.92%,-0.01%


In [264]:
# Distribución de la disposición a estudiar según las motivaciones para estudiar un grado: 
dist_condicionada('sat_est_u_','motivacion_',dropna=True)
# La disposición a estudiar de nuevo más alta se da entre quienes estudiaron ... 
# ... principalmente para ampliar conocimientos por satisfacción personal. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sat_est_u_,3. dif relativas,3. dif relativas,3. dif relativas
motivacion_,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal,Unnamed: 4_level_1,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal
sat_est_u_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
No,0.122749,0.133345,0.109275,0.128422,-4.42%,+3.83%,-14.91%
Sí,0.877251,0.866655,0.890725,0.871578,+0.65%,-0.56%,+2.20%


## 'SAT2' (redefinida como 'sat_titulo')  
(Solo para respuesta Sí (1) en 'SAT1' (o 'sat_est_u')) 

¿Si tuviera que empezar de nuevo **volvería a estudiar la misma titulación**?  1=Sí, 2=No, 9=NS/NC.  

Nota: Se modifica en 'sat_titulo' el valor asociado a la respuesta No: 0=No.

In [265]:
df['SAT2'].unique() # No informados como ' ' o '9'

array(['2', '1', ' ', '9'], dtype=object)

In [266]:
traduce('SAT2')

         aux_traduce
              unique
SAT2                
      [No aplicable]
1               [Sí]
2               [No]
9            [NS/NC]


In [267]:
df[['SAT1_','SAT2_']].groupby('SAT1_',dropna=False).agg(['unique']) # Inspección

Unnamed: 0_level_0,SAT2_
Unnamed: 0_level_1,unique
SAT1_,Unnamed: 1_level_2
No,[No aplicable]
Sí,"[No, Sí, NS/NC]"
,[No aplicable]


In [268]:
# Se imputa respuesta No (2) a quienes declararon que no volverían a cursar estudios universitarios: 
df['SAT2'].mask(df['sat_est_u']==0,2,inplace=True)
# Se imputa None a resto de respuestas en blanco y NS/NC:
no_respuesta('SAT2')

[ 1.  2. nan]


In [269]:
df[['SAT1_','SAT2_']].groupby('SAT1_',dropna=False).agg(['unique'])

Unnamed: 0_level_0,SAT2_
Unnamed: 0_level_1,unique
SAT1_,Unnamed: 1_level_2
No,[No]
Sí,"[No, Sí, nan]"
,[nan]


In [270]:
redefine('SAT2','sat_titulo',si_no=True)

           aux_traduce
                unique
sat_titulo            
0.0               [No]
1.0               [Sí]


In [271]:
proporciones('sat_titulo_'), proporciones ('sat_est_u_')
# La disposición a estudiar de nuevo algún grado universitario es muy superior a la disposición a ...
# ... volver a elegir los mismos estudios. 

(     sat_titulo_
 Sí      0.615115
 No      0.365612
 NaN     0.019273,
      sat_est_u_
 Sí     0.857919
 No     0.126410
 NaN    0.015671)

In [272]:
# Distribución de la disposición a estudiar la misma titulación si tuviera que hacerlo de nuevo según ...
# ... la rama de conocimiento de la titulación:
dist_condicionada('sat_titulo_','rama_g1_',dropna=True)
# La mayor disposición a estudiar de nuevo la misma titulación se da entre los graduados en ciencias de la salud. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sat_titulo_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
sat_titulo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
No,0.489424,0.397655,0.379882,0.248311,0.405941,0.355654,0.372797,+31.28%,+6.67%,+1.90%,-33.39%,+8.89%,-4.60%
Sí,0.510576,0.602345,0.620118,0.751689,0.594059,0.644346,0.627203,-18.59%,-3.96%,-1.13%,+19.85%,-5.28%,+2.73%


In [273]:
# Distribución de la disposición a estudiar de nuevo la misma titulación según las motivaciones para ...
# ... estudiar un grado: 
dist_condicionada('sat_titulo_','motivacion_',dropna=True)
# Quienes estudiaron principalmente para ampliar conocimientos por satifacción personal se muestran más ...
# ... dispuestos a estudiar de nuevo la misma titulación. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sat_titulo_,3. dif relativas,3. dif relativas,3. dif relativas
motivacion_,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal,Unnamed: 4_level_1,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal
sat_titulo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
No,0.373842,0.387373,0.304096,0.372797,+0.28%,+3.91%,-18.43%
Sí,0.626158,0.612627,0.695904,0.627203,-0.17%,-2.32%,+10.95%


## Variables sobre otra formación realizada: variables  'EST_B11_1' a 'EST_B11_7'
Nota: Debe tenerse en cuenta que se pregunta sobre otros estudios completados, no sobre los iniciados, y que para los graduados recientes se pueden estar subestimando las titulaciones posteriores por no haber habido tiempo suficiente para terminarlas. 

## 'EST_B11_1'  (redefinida como 'varios_grados')
¿Ha completado **otros estudios de grado**, diplomatura, licenciatura o equivalente?  1=Sí, 2=No.  

In [274]:
df['EST_B11_1'].unique() # Sin no informados

array([1, 2])

In [275]:
traduce('EST_B11_1')

          aux_traduce
               unique
EST_B11_1            
1                [Sí]
2                [No]


In [276]:
redefine('EST_B11_1','varios_grados',si_no=True)

              aux_traduce
                   unique
varios_grados            
0                    [No]
1                    [Sí]


In [277]:
proporciones('varios_grados_')

Unnamed: 0,varios_grados_
No,0.765505
Sí,0.234495


In [278]:
# Distribución de uno o varios grados según rama de conocimiento de la titulación:
dist_condicionada('varios_grados_','rama_g1_')
# Los graduados en ciencias sociales y jurídicas, y en ingeniería y arquitectura son los que ...
# ... tienen más de un grado con mayor frecuencia. 
# Los graduados en ciencias de la salud son los que con menos frecuencia tienen más de un grado, a pesar de que ...
# ... también son los que con más frecuencia manifiestan su disposición a estudiar si tuvieran que hacerlo ...
# ... de nuevo (el mismo u otro grado) (variables 'SAT1' y 'SAT2'). 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas varios_grados_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
varios_grados_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
No,0.805398,0.726349,0.714825,0.872487,0.877396,0.833725,0.765505,+5.21%,-5.12%,-6.62%,+13.98%,+14.62%,+8.91%
Sí,0.194602,0.273651,0.285175,0.127513,0.122604,0.166275,0.234495,-17.01%,+16.70%,+21.61%,-45.62%,-47.72%,-29.09%


In [279]:
# Distribución de la disposición a estudiar si tuvieran que empezar de nuevo según se tengan uno o varios grados: 
dist_condicionada('sat_est_u_','varios_grados_')
# La disposición a estudiar si tuvieran que hacerlo de nuevo es algo mayor entre quienes tienen más de un grado. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sat_est_u_,3. dif relativas,3. dif relativas
varios_grados_,Sí,No,Unnamed: 3_level_1,Sí,No
sat_est_u_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.099465,0.137266,0.128422,-22.55%,+6.89%
Sí,0.900535,0.862734,0.871578,+3.32%,-1.01%


In [280]:
# Distribución de uno o varios grados según sexos:
dist_condicionada('varios_grados_','sexo_')
# No hay diferencias significativas 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas varios_grados_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
varios_grados_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.768775,0.761162,0.765505,+0.43%,-0.57%
Sí,0.231225,0.238838,0.234495,-1.39%,+1.85%


In [281]:
# Distribución de uno o varios grados según discapacidad:
dist_condicionada('varios_grados_','discapacidad_')
# La proporción de graduados en más de una titulación es superior entre quienes declaran discapacidad reconocida.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas varios_grados_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
varios_grados_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.702073,0.766288,0.765505,-8.29%,+0.10%
Sí,0.297927,0.233712,0.234495,+27.05%,-0.33%


In [282]:
# Distribución de uno o varios grados según las motivaciones para estudiar: 
dist_condicionada('varios_grados_','motivacion_',dropna=True)
# Tener más de un grado es más frecuente entre quienes estudiaron principalmente para ampliar conocimientos ...
# ... por satifacción personal que entre quienes estudiaron principalmente por las espectativas profesionales. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas varios_grados_,3. dif relativas,3. dif relativas,3. dif relativas
motivacion_,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal,Unnamed: 4_level_1,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal
varios_grados_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
No,0.756581,0.785916,0.681729,0.765505,-1.17%,+2.67%,-10.94%
Sí,0.243419,0.214084,0.318271,0.234495,+3.81%,-8.70%,+35.73%


## 'EST_B11_2'  (redefinida como 'master')   
¿Ha completado otros estudios de **máster universitario**?  1=Sí, 2=No.  

Nota: Se modifica en 'master' el valor asociado a la respuesta No: 0=No.

In [283]:
df['EST_B11_2'].unique() # Sin no informados

array([2, 1])

In [284]:
traduce('EST_B11_2')

          aux_traduce
               unique
EST_B11_2            
1                [Sí]
2                [No]


In [285]:
redefine('EST_B11_2','master',si_no=True)

       aux_traduce
            unique
master            
0             [No]
1             [Sí]


In [286]:
df[['varios_grados','master']].mean()
# La proporcion de graduados con un máster universitario ronda el 50 %. 
# La frecuencia de estudios de máster es el doble que la de una segunda titulación de grado. 

varios_grados    0.234495
master           0.474740
dtype: float64

In [287]:
# Distribución de estudios de máster universitario según uno o varios grados:
dist_condicionada('master_','varios_grados_')
# Es más frecuente tener un máster universitario entre quienes tienen solo un título de grado. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas master_,3. dif relativas,3. dif relativas
varios_grados_,Sí,No,Unnamed: 3_level_1,Sí,No
master_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.610482,0.499154,0.52526,+16.22%,-4.97%
Sí,0.389518,0.500846,0.47474,-17.95%,+5.50%


In [288]:
# Distribución de estudios de máster universitario según las motivaciones para estudiar: 
dist_condicionada('master_','motivacion_',dropna=True)
# Diferencias pequeñas entre quienes declaran motivacion por expectativas profesionales y por ...
# ... adquirir conocimientos.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas master_,3. dif relativas,3. dif relativas,3. dif relativas
motivacion_,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal,Unnamed: 4_level_1,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal
master_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
No,0.5467,0.524902,0.521415,0.52526,+4.08%,-0.07%,-0.73%
Sí,0.4533,0.475098,0.478585,0.47474,-4.52%,+0.08%,+0.81%


In [289]:
# Distribución de estudios de máster universitario según rama de conocimiento de la titulación:
dist_condicionada('master_','rama_g1_')
# Los graduados en ciencias y en artes y humanidades son quienes con mayor frecuencia tienen estudios de máster. 
# La menor frecuencia se da entre los graduados en ingeniería y arquitectura.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas master_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
master_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
No,0.518466,0.595277,0.578332,0.548148,0.267631,0.331206,0.52526,-1.29%,+13.33%,+10.10%,+4.36%,-49.05%,-36.94%
Sí,0.481534,0.404723,0.421668,0.451852,0.732369,0.668794,0.47474,+1.43%,-14.75%,-11.18%,-4.82%,+54.27%,+40.88%


In [290]:
# Distribución de estudios de máster universitario según sexos:
dist_condicionada('master_','sexo_')
# Diferencias por sexos muy pequeñas.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas master_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
master_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.52459,0.526149,0.52526,-0.13%,+0.17%
Sí,0.47541,0.473851,0.47474,+0.14%,-0.19%


In [291]:
# Distribución del sexo según se tengan o no estudios de máster universitario:
dist_condicionada('master_','sexo_',rev=True)
# Las mujeres también son mayoría entre los graduados. En consecuencia, el número de mujeres con estudios de ...
# ... máster es algo superior al de hombres. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas
master_,Sí,No,Unnamed: 3_level_1,Sí,No
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Hombre,0.428724,0.430256,0.429528,-0.19%,+0.17%
Mujer,0.571276,0.569744,0.570472,+0.14%,-0.13%


In [292]:
# Distribución de estudios de máster universitario según discapacidad:
dist_condicionada('master_','discapacidad_')
# Entre los graduados, los que tienen discapacidad reconocida tienen estudios de máster con menos frecuencia ...
# ... que el resto (al contrario de lo que ocurre con la titulación en más de un grado universitario).

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas master_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
master_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.569948,0.524708,0.52526,+8.51%,-0.11%
Sí,0.430052,0.475292,0.47474,-9.41%,+0.12%


## 'EST_B11_3'   (redefinida como 'doctor')  
¿Ha completado otros estudios de **doctorado universitario**?  1=Sí, 2=No.  

Nota: Se modifica en 'doctor' el valor asociado a la respuesta No: 0=No.

In [293]:
df['EST_B11_3'].unique() # Sin no informados

array([2, 1])

In [294]:
traduce('EST_B11_3')

          aux_traduce
               unique
EST_B11_3            
1                [Sí]
2                [No]


In [295]:
redefine('EST_B11_3','doctor',si_no=True)

       aux_traduce
            unique
doctor            
0             [No]
1             [Sí]


In [296]:
df[['varios_grados','master','doctor']].mean()
# Tener un doctorado universitario es mucho menos frecuente que tener un máster universitario o más de un grado. 

varios_grados    0.234495
master           0.474740
doctor           0.015355
dtype: float64

In [297]:
# Distribución de estudios de doctorado según el sexo: 
dist_condicionada('doctor_','sexo_')
# Tener un doctorado es más frecuente entre los hombres graduados que entre las mujeres graduadas. 
# La diferencia es suficiente para contrarestar que hay más mujeres entre los graduados, haciendo que ...
# ... la proporción de doctores sea mayor que la de doctoras. En efecto, (celda siguiente)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas doctor_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
doctor_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.987373,0.981022,0.984645,+0.28%,-0.37%
Sí,0.012627,0.018978,0.015355,-17.76%,+23.59%


In [298]:
dist_condicionada('doctor_','sexo_',rev=True)
# Entre los doctores, la proporción hombres es superior a la de mujeres. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas
doctor_,Sí,No,Unnamed: 3_level_1,Sí,No
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Hombre,0.530864,0.427948,0.429528,+23.59%,-0.37%
Mujer,0.469136,0.572052,0.570472,-17.76%,+0.28%


In [299]:
dist_condicionada('doctor_','discapacidad_')
# La proporción de doctores es ligeramente inferior entre los estudiantes con discapacidad.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas doctor_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
doctor_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.987047,0.984615,0.984645,+0.24%,-0.00%
Sí,0.012953,0.015385,0.015355,-15.64%,+0.19%


In [300]:
# Distribucion de estudios de doctorado según la motivación para estudiar: 
dist_condicionada('doctor_','motivacion_')
# La mayor propensión a terminar un doctorado se da entre los que declaran estudiar para adquirir conocimientos

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas doctor_,3. dif relativas,3. dif relativas,3. dif relativas
motivacion_,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal,Unnamed: 4_level_1,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal
doctor_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
No,0.990624,0.98682,0.972692,0.984645,+0.61%,+0.22%,-1.21%
Sí,0.009376,0.01318,0.027308,0.015355,-38.94%,-14.17%,+77.85%


In [301]:
# Distribucion de las motivaciones para estudiar según se tenga o no el título de doctor: 
dist_condicionada('doctor_','motivacion_',rev=True)
# La motivación para estudiar más frecuente de quienes terminan un doctorado son las expectativas laborales. 
# Sin embargo, esta motivación es menos frecuente entre los doctores que entre los no doctores. Ocurre lo ...
# ... contrario con la motivación de adquirir conocimientos por satisfacción personal. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas motivacion_,3. dif relativas,3. dif relativas
doctor_,Sí,No,Unnamed: 3_level_1,Sí,No
motivacion_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Ampliar conocimientos por satisfacción personal,0.291405,0.159406,0.161403,+80.54%,-1.24%
Formarse pensando en su futuro laboral,0.654088,0.752149,0.750666,-12.87%,+0.20%
Otros motivos,0.054507,0.088445,0.087931,-38.01%,+0.58%


In [302]:
# Distribucion de estudios de doctorado según las ramas de conocimiento: 
dist_condicionada('doctor_','rama_g1_')
# La frecuencia más alta de doctores se da entre los graduados en ciencias. También son los que ...
# ... terminan un máster universitario con mayor frecuencia (véase la celda siguiente). 
# Los graduados en ciencias sociales y jurídicas con los menos propensos a terminar un doctorado. También ...
# ... son los segundos menos propensos a estudiar un máster universitario. 
# Para interpretar estos resultados debe tenerse en cuenta la mayor duración de los estudios de doctorado ...
# ... (incluyendo el tiempo dedicado a la tesis). Hace más probable que haya encuestados que cursan estos ...
# ... estudios sin haberlos concluido. 
# Con los datos disponibles no podemos inferir cuántos de los estudios de máster son habilitantes para el ...
# ... doctorado, que podrían considerarse estudios de doctorado no terminados. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas doctor_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
doctor_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
No,0.988636,0.985503,0.99387,0.985714,0.937071,0.980181,0.984645,+0.41%,+0.09%,+0.94%,+0.11%,-4.83%,-0.45%
Sí,0.011364,0.014497,0.00613,0.014286,0.062929,0.019819,0.015355,-25.99%,-5.59%,-60.08%,-6.96%,+309.83%,+29.07%


In [303]:
# Distribucion de estudios de máster universitario según las ramas de conocimiento: 
dist_condicionada('master_','rama_g1_')
# Para facilitar comparación con resultados de la celda anterior. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas master_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
master_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
No,0.518466,0.595277,0.578332,0.548148,0.267631,0.331206,0.52526,-1.29%,+13.33%,+10.10%,+4.36%,-49.05%,-36.94%
Sí,0.481534,0.404723,0.421668,0.451852,0.732369,0.668794,0.47474,+1.43%,-14.75%,-11.18%,-4.82%,+54.27%,+40.88%


## Variable nueva:  'varios_titulos_u'

No informada en este dataset. Se añade por homogeneidad con la encuesta de grado de 2014.  

Se imputa valor 1 (Sí) a quienes declaran tener varios títulos de grado o un título de máster universitario o un título de doctor. 

In [304]:
D_describe ['varios_titulos_u']='Tiene otros estudios universitarios además de un título de grado'
D_dict['varios_titulos_u']=D_dict['si_no']

In [305]:
df['varios_titulos_u']=0
df['varios_titulos_u'].mask((df['varios_grados']==1) | (df['master']==1) | (df['doctor']==1),1,inplace=True)
df['varios_titulos_u'].unique()

array([1, 0])

In [306]:
traduce('varios_titulos_u')
df[['varios_titulos_u_','varios_grados','master','doctor']].groupby(['varios_grados','master','doctor'])\
        .agg(['unique']) # Comprobación

                 aux_traduce
                      unique
varios_titulos_u            
0                       [No]
1                       [Sí]


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,varios_titulos_u_
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,unique
varios_grados,master,doctor,Unnamed: 3_level_2
0,0,0,[No]
0,0,1,[Sí]
0,1,0,[Sí]
0,1,1,[Sí]
1,0,0,[Sí]
1,0,1,[Sí]
1,1,0,[Sí]
1,1,1,[Sí]


## 'EST2_2'  (redefinida como 'est_art')
¿Ha completado otros **estudios artísticos superiores** (artes plásticas, diseño, música y danza, arte dramático o conservación y restauración de bienes culturales)?  1=Sí, 2=No.  

Nota: Se modifica en 'est_art' el valor asociado a la respuesta No: 0=No.

In [307]:
df['EST_B11_4'].unique() # Sin no informados

array([2, 1])

In [308]:
traduce('EST_B11_4')

          aux_traduce
               unique
EST_B11_4            
1                [Sí]
2                [No]


In [309]:
redefine('EST_B11_4','est_art',si_no=True)

        aux_traduce
             unique
est_art            
0              [No]
1              [Sí]


In [310]:
df[['varios_grados','master','doctor','est_art']].mean()
# Los estudios artísticos superiores son menos frecuentes que los de doctorado. 

varios_grados    0.234495
master           0.474740
doctor           0.015355
est_art          0.007993
dtype: float64

In [311]:
# Distribución de estudios artísticos superiores según las ramas de conocimiento: 
dist_condicionada('est_art_','rama_g1_')
# La frecuencia más alta corresponde a los graduados en artes y humanidades (la única superior al 1 %). 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas est_art_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
est_art_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
No,0.997869,0.995068,0.992659,0.996032,0.993128,0.973127,0.992007,+0.59%,+0.31%,+0.07%,+0.41%,+0.11%,-1.90%
Sí,0.002131,0.004932,0.007341,0.003968,0.006872,0.026873,0.007993,-73.34%,-38.30%,-8.16%,-50.36%,-14.03%,+236.18%


In [312]:
# Distribución de las ramas de conocimiento según se tengan o no estudios artísticos superiores: 
dist_condicionada('est_art_','rama_g1_',rev=True)
# Sin embargo, la rama de conocimiento más frecuente entre quienes tienen estudios artísticos superiores ...
# ... son las ciencias sociales y jurídicas. Esto se debe a que representan casi la mitad de los ...
# ... graduados.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas rama_g1_,3. dif relativas,3. dif relativas
est_art_,Sí,No,Unnamed: 3_level_1,Sí,No
rama_g1_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Artes y humanidades,0.316206,0.092267,0.094057,+236.18%,-1.90%
Ciencias,0.075099,0.087458,0.087359,-14.03%,+0.11%
Ciencias de la salud,0.059289,0.119912,0.119428,-50.36%,+0.41%
Ciencias sociales y jurídicas,0.407115,0.443563,0.443272,-8.16%,+0.07%
Ingeniería y arquitectura,0.130435,0.212052,0.211399,-38.30%,+0.31%
Servicios,0.011858,0.044748,0.044485,-73.34%,+0.59%


In [313]:
# Distribución de estudios artísticos superiores según las motivaciones para estudiar: 
dist_condicionada('est_art_','motivacion_')
# La menor frecuencia de estudios artísticos superiores corresponde a quienes estudian para mejorar sus ...
# ... expectativas profesionales. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas est_art_,3. dif relativas,3. dif relativas,3. dif relativas
motivacion_,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal,Unnamed: 4_level_1,Otros motivos,Formarse pensando en su futuro laboral,Ampliar conocimientos por satisfacción personal
est_art_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
No,0.98846,0.99341,0.987426,0.992007,-0.36%,+0.14%,-0.46%
Sí,0.01154,0.00659,0.012574,0.007993,+44.37%,-17.56%,+57.30%


In [314]:
# Distribución de las motivaciones para estudiar según se tengan o no estudios artísticos superiores: 
dist_condicionada('est_art_','motivacion_',rev=True)
# La motivación mayoritaria para estudiar de quienes tienen estudios artísticos superiores son las ...
# ... expectativas profesionales, aunque en proporción inferior a la general. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas motivacion_,3. dif relativas,3. dif relativas
est_art_,Sí,No,Unnamed: 3_level_1,Sí,No
motivacion_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Ampliar conocimientos por satisfacción personal,0.253968,0.160657,0.161403,+57.35%,-0.46%
Formarse pensando en su futuro laboral,0.619048,0.751726,0.750666,-17.53%,+0.14%
Otros motivos,0.126984,0.087617,0.087931,+44.41%,-0.36%


In [315]:
# Distribución de estudios artísticos superiores según el sexo: 
dist_condicionada('est_art_','sexo_')
# La proporcion de estudios artísticos superiores entre los graduados es mayor para las mujeres 
# ... que para los hombres. En consecuencia, (celda siguiente)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas est_art_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
est_art_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.990862,0.993527,0.992007,-0.12%,+0.15%
Sí,0.009138,0.006473,0.007993,+14.32%,-19.02%


In [316]:
# Distribución del sexo según se tengan o no estudios artísticos superiores: 
dist_condicionada('est_art_','sexo_',rev=True)
# El número de mujeres casi dobla el de hombres entre quienes tienen estudios artísticos superiores. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas
est_art_,Sí,No,Unnamed: 3_level_1,Sí,No
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Hombre,0.347826,0.430187,0.429528,-19.02%,+0.15%
Mujer,0.652174,0.569813,0.570472,+14.32%,-0.12%


In [317]:
# Distribución de estudios artísticos superiores según discapacidad: 
dist_condicionada('est_art_','discapacidad_')
# Diferencias no significativas

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas est_art_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
est_art_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.992228,0.992004,0.992007,+0.02%,-0.00%
Sí,0.007772,0.007996,0.007993,-2.77%,+0.03%


## 'EST_B11_5'   (redefinida como 'g_sup')
¿Ha completado algún **ciclo formativo de grado superior** (formación profesional, artes plásticas y diseño) o **enseñanzas deportivas de grado superior**?  1=Sí, 2=No.  

Nota: Se modifica en 'g_sup' el valor asociado a la respuesta No: 0=No.

In [318]:
df['EST_B11_5'].unique() # Sin no informados

array([2, 1])

In [319]:
traduce('EST_B11_5')

          aux_traduce
               unique
EST_B11_5            
1                [Sí]
2                [No]


In [320]:
redefine('EST_B11_5','g_sup',si_no=True)

      aux_traduce
           unique
g_sup            
0            [No]
1            [Sí]


In [321]:
df[['varios_grados','master','doctor','est_art','g_sup']].mean()
# La proporción de graduados con ciclos formativos o enseñanzas deportivas de grado superior es menor ...
# ... que la de un segundo título de grado y muy superior a la de estudios de doctorado. 

varios_grados    0.234495
master           0.474740
doctor           0.015355
est_art          0.007993
g_sup            0.128242
dtype: float64

In [322]:
# Distribución de ciclos formativos y enseñanzas deportivas de grado superior según el sexo: 
dist_condicionada('g_sup_','sexo_')
# La proporcion de ciclos formativos y enseñanzas deportivas de grado superior entre los graduados es mayor ...
# ... para las mujeres que para los hombres. En consecuencia, y puesto que las mujeres son mayoria entre ...
# ... los graduados, (celda siguiente)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas g_sup_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
g_sup_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.867579,0.877308,0.871758,-0.48%,+0.64%
Sí,0.132421,0.122692,0.128242,+3.26%,-4.33%


In [323]:
# Distribución del sexo según se tengan o no ciclos formativos y enseñanzas deportivas de grado superior: 
dist_condicionada('g_sup_','sexo_',rev=True)
# El número de mujeres es superior al de hombres entre quienes tienen ciclos formativos o enseñanzas ...
# ... deportivas de grado superior.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas
g_sup_,Sí,No,Unnamed: 3_level_1,Sí,No
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Hombre,0.410939,0.432263,0.429528,-4.33%,+0.64%
Mujer,0.589061,0.567737,0.570472,+3.26%,-0.48%


In [324]:
# Distribución de ciclos formativos y enseñanzas deportivas de grado superior según discapacidad: 
dist_condicionada('g_sup_','discapacidad_')
# La proporcion de ciclos formativos y enseñanzas deportivas de grado superior es mayor entre los graduados ...
# ... con discapacidad.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas g_sup_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
g_sup_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.823834,0.872349,0.871758,-5.50%,+0.07%
Sí,0.176166,0.127651,0.128242,+37.37%,-0.46%


In [325]:
# Distribución de ciclos formativos y enseñanzas deportivas de grado superior según la rama de conocimiento: 
dist_condicionada('g_sup_','rama_g1_')
# Los graduados en ciencias de la salud y en ciencias sociales y jurídicas son los que con mayor frecuencia ...
# ... han completado ciclos formativos y enseñanzas deportivas de grado superior.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas g_sup_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
rama_g1_,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades,Unnamed: 7_level_1,Servicios,Ingeniería y arquitectura,Ciencias sociales y jurídicas,Ciencias de la salud,Ciencias,Artes y humanidades
g_sup_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
No,0.801847,0.883425,0.862509,0.837566,0.927306,0.914007,0.871758,-8.02%,+1.34%,-1.06%,-3.92%,+6.37%,+4.85%
Sí,0.198153,0.116575,0.137491,0.162434,0.072694,0.085993,0.128242,+54.51%,-9.10%,+7.21%,+26.66%,-43.31%,-32.95%


In [326]:
# Distribución de ciclos formativos y enseñanzas deportivas de grado superior según doctorado: 
dist_condicionada('g_sup_','doctor_')
# La presencia de graduados con ciclos formativos y enseñanzas deportivas de grado superior es más de tres ..
# ... veces superior entre los no doctores que entre los doctores. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas g_sup_,3. dif relativas,3. dif relativas
doctor_,Sí,No,Unnamed: 3_level_1,Sí,No
g_sup_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.960905,0.870367,0.871758,+10.23%,-0.16%
Sí,0.039095,0.129633,0.128242,-69.52%,+1.08%


In [327]:
# Distribución de ciclos formativos y enseñanzas deportivas de grado superior según estudios de máster: 
dist_condicionada('g_sup_','master_')
# La presencia de graduados con ciclos formativos y enseñanzas deportivas de grado superior entre quienes ...
# ... no tienen un título de máster. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas g_sup_,3. dif relativas,3. dif relativas
master_,Sí,No,Unnamed: 3_level_1,Sí,No
g_sup_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.91721,0.830677,0.871758,+5.21%,-4.71%
Sí,0.08279,0.169323,0.128242,-35.44%,+32.03%


In [328]:
# Distribución de las motivaciones para estudiar según se tengan o no ciclos formativos y enseñanzas ...
# ... deportivas de grado superior: 
dist_condicionada('g_sup_','motivacion_',rev=True)
# No hay diferencias muy notables. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas motivacion_,3. dif relativas,3. dif relativas
g_sup_,Sí,No,Unnamed: 3_level_1,Sí,No
motivacion_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Ampliar conocimientos por satisfacción personal,0.166543,0.160646,0.161403,+3.18%,-0.47%
Formarse pensando en su futuro laboral,0.730665,0.753611,0.750666,-2.66%,+0.39%
Otros motivos,0.102792,0.085743,0.087931,+16.90%,-2.49%


In [329]:
# Distribución de los ciclos formativos y enseñanzas deportivas de grado superior según la edad: 
dist_condicionada('g_sup_','edad_')
# El grupo de gradudados de edad de 30 a 34 es el que con mayor frecuencia tiene un título de ciclos formativos ...
# ... o enseñanzas deportivas de grado superior. 
# La diferencia de frecuencia es suficiente para contrarestar que los graduados de menos de 30 años son muchos ...
# ... más. En efecto, (celda siguiente)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas g_sup_,3. dif relativas,3. dif relativas,3. dif relativas
edad_,Menores de 30 años,De 35 y más años,De 30 a 34 años,Unnamed: 4_level_1,Menores de 30 años,De 35 y más años,De 30 a 34 años
g_sup_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
No,0.952505,0.804186,0.78255,0.871758,+9.26%,-7.75%,-10.23%
Sí,0.047495,0.195814,0.21745,0.128242,-62.96%,+52.69%,+69.56%


In [330]:
dist_condicionada('g_sup_','edad_',rev=True)
# La edad más frecuente entre los graduados que tienen un título de ciclos formativos o enseñanzas deportivas ...
# ... de grado superior es el grupo de 30 a 34 años. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas edad_,3. dif relativas,3. dif relativas
g_sup_,Sí,No,Unnamed: 3_level_1,Sí,No
edad_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
De 30 a 34 años,0.472777,0.25029,0.278822,+69.56%,-10.23%
De 35 y más años,0.343434,0.207488,0.224922,+52.69%,-7.75%
Menores de 30 años,0.183789,0.542222,0.496256,-62.96%,+9.26%


## 'EST_B11_6'   (redefinida como 'g_medio')
¿Ha completado algún **ciclo formativo de grado medio** (formación profesional, artes plásticas y diseño) o **enseñanzas deportivas de grado medio**?  1=Sí, 2=No.  

Nota: Se modifica en 'g_medio' el valor asociado a la respuesta No: 0=No.

In [331]:
df['EST_B11_6'].unique() # Sin no informados

array([2, 1])

In [332]:
traduce('EST_B11_6')

          aux_traduce
               unique
EST_B11_6            
1                [Sí]
2                [No]


In [333]:
redefine('EST_B11_6','g_medio',si_no=True)

        aux_traduce
             unique
g_medio            
0              [No]
1              [Sí]


In [334]:
df[['varios_grados','master','doctor','est_art','g_sup','g_medio']].mean()
# Menos frecuentes que los mismos estudios de grado superior, más frecuentes que estudios artisticos superiores ...
# ... y que estudios de doctorado.

varios_grados    0.234495
master           0.474740
doctor           0.015355
est_art          0.007993
g_sup            0.128242
g_medio          0.033332
dtype: float64

In [335]:
# Distribución de los ciclos formativos y educación deportiva de grado medio según esos estudios en su ...
# ... grado superior: 
dist_condicionada('g_medio_','g_sup_')
# Casi el 90 % de los graduados universitarios que terminan ciclos formativos ...
# ... o educación deportiva de grado superior acceden a esos estudios sin haber cursado los de grado medio. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas g_medio_,3. dif relativas,3. dif relativas
g_sup_,Sí,No,Unnamed: 3_level_1,Sí,No
g_medio_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.892092,0.977638,0.966668,-7.71%,+1.13%
Sí,0.107908,0.022362,0.033332,+223.74%,-32.91%


In [336]:
# Distribución de los ciclos formativos y educación deportiva de grado medio según el sexo: 
dist_condicionada('g_medio_','sexo_')
# Las distribuciones condicionadas por el sexo son casi idénticas.  

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas g_medio_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
g_medio_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.966936,0.966311,0.966668,+0.03%,-0.04%
Sí,0.033064,0.033689,0.033332,-0.81%,+1.07%


In [337]:
# Distribución de los ciclos formativos y educación deportiva de grado medio según discapacidad: 
dist_condicionada('g_medio_','discapacidad_')
# Mayor proporción de estudios de ciclos de grado medio entre los graduados con discapacidad.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas g_medio_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
g_medio_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
No,0.950777,0.966864,0.966668,-1.64%,+0.02%
Sí,0.049223,0.033136,0.033332,+47.67%,-0.59%


## 'EST_B11_7'     
No ha completado **ninguno de los estudios anteriores**: 1=Sí, 2=No.  

In [338]:
df['EST_B11_7'].unique() # Sin no informados

array([2, 1])

In [339]:
traduce('EST_B11_7',save=False)

          aux_traduce
               unique
EST_B11_7            
1                [Sí]
2                [No]


In [340]:
df[['varios_grados','master','doctor','est_art','g_sup','g_medio','EST_B11_7']].groupby(
        ['EST_B11_7']).agg(['unique'])
# Comprobación: solo toma valor 1 cuando todas las variables de otros estudios anteriores toman valor 0. 

Unnamed: 0_level_0,varios_grados,master,doctor,est_art,g_sup,g_medio
Unnamed: 0_level_1,unique,unique,unique,unique,unique,unique
EST_B11_7,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1,[0],[0],[0],[0],[0],[0]
2,"[1, 0]","[0, 1]","[0, 1]","[0, 1]","[0, 1]","[0, 1]"


## 'EST_B12' 
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-)  

**Número de otros estudios de grado**, diplomatura, licenciatura o equivalente (aparte de aquel al que se refiere la encuesta).

In [341]:
df['EST_B12'].unique() # No informados como ' '

array(['2', '1', ' ', '3'], dtype=object)

In [342]:
traduce('EST_B12')

            aux_traduce
                 unique
EST_B12                
         [No aplicable]
1                 [Uno]
2                [Dos ]
3          [Tres o más]


In [343]:
df[['varios_grados_','EST_B12_']].groupby('varios_grados_').agg(['unique']) # Inspección

Unnamed: 0_level_0,EST_B12_
Unnamed: 0_level_1,unique
varios_grados_,Unnamed: 1_level_2
No,[No aplicable]
Sí,"[Dos , Uno, Tres o más]"


##  Nueva variable 'n_grados'     
**Número de títulos de grado**, diplomatura, licenciatura o equivalente (incluyendo aquella que motiva esta encuesta).

In [344]:
df['n_grados']=df['EST_B12'].replace({' ':0}).astype('int')+1
df[['n_grados','EST_B12']].groupby('n_grados').agg(['unique']) # Comprobación

Unnamed: 0_level_0,EST_B12
Unnamed: 0_level_1,unique
n_grados,Unnamed: 1_level_2
1,[ ]
2,[1]
3,[2]
4,[3]


In [345]:
D_describe['n_grados']='Número de títulos de grado, diplomatura, licenciatura o equivalente'
a_lista('n_grados')

In [346]:
proporciones('n_grados')

Unnamed: 0,n_grados
1,0.765505
2,0.204133
3,0.025181
4,0.005182


In [347]:
# Distribución de doctores y no doctores según el número de títulos de grado:  
dist_condicionada('n_grados','doctor_',rev=True)
# Terminar los estudios de doctorado es más frecuente cuanto mayor es el número de títulos de grado. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas doctor_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
n_grados,4,3,2,1,Unnamed: 5_level_1,4,3,2,1
doctor_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
No,0.95122,0.963614,0.980808,0.986586,0.984645,-3.39%,-2.14%,-0.39%,+0.20%
Sí,0.04878,0.036386,0.019192,0.013414,0.015355,+217.69%,+136.97%,+24.99%,-12.64%


In [348]:
# Distribución de número de grados universitarios según se tenga o no un título de doctor: 
dist_condicionada('n_grados','doctor_')
# Los doctores tienen más de un grado universitario con más frecuencia que los no doctores. En concreto, ...
# ... ser doctor multiplica por más de 2 la probabilidad de tener 3 grados y por 3 la de tener 4 o más títulos ...
# ... de grado (incluyendo aquel al que se refiere la encuesta). 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas n_grados,3. dif relativas,3. dif relativas
doctor_,Sí,No,Unnamed: 3_level_1,Sí,No
n_grados,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,0.668724,0.767014,0.765505,-12.64%,+0.20%
2,0.255144,0.203337,0.204133,+24.99%,-0.39%
3,0.059671,0.024643,0.025181,+136.97%,-2.14%
4,0.016461,0.005006,0.005182,+217.69%,-3.39%


In [349]:
# Distribución de títulos de máster universitario según el número de títulos de grado:  
dist_condicionada('n_grados','master_',rev=True)
# Los titulados en un único grado universitario son los que con más frecuencia terminan estudios de máster ...
# ... universitario. Les siguen quienes tienen 4 o más títulos de grado. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas master_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
n_grados,4,3,2,1,Unnamed: 5_level_1,4,3,2,1
master_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
No,0.579268,0.636136,0.60811,0.499154,0.52526,+10.28%,+21.11%,+15.77%,-4.97%
Sí,0.420732,0.363864,0.39189,0.500846,0.47474,-11.38%,-23.36%,-17.45%,+5.50%


In [350]:
# Distribución de número de grados universitarios según se tenga o no un título de máster universitario: 
dist_condicionada('n_grados','master_')
# Quienes terminan un máster universitario tienen solo un título de grado con más frecuencia que quienes ...
# ... no tienen un título de máster. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas n_grados,3. dif relativas,3. dif relativas
master_,Sí,No,Unnamed: 3_level_1,Sí,No
n_grados,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,0.8076,0.727459,0.765505,+5.50%,-4.97%
2,0.168508,0.236331,0.204133,-17.45%,+15.77%
3,0.0193,0.030496,0.025181,-23.36%,+21.11%
4,0.004592,0.005714,0.005182,-11.38%,+10.28%


In [351]:
# Distribución de número de grados universitarios según el sexo: 
dist_condicionada('n_grados','sexo_')
# Las diferencias entre sexos son pequeñas. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas n_grados,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
n_grados,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,0.768775,0.761162,0.765505,+0.43%,-0.57%
2,0.20082,0.208533,0.204133,-1.62%,+2.16%
3,0.025809,0.024347,0.025181,+2.49%,-3.31%
4,0.004597,0.005958,0.005182,-11.28%,+14.99%


In [352]:
# Distribución de número de grados universitarios según la edad: 
dist_condicionada('n_grados','edad_')
# Como es esperabe, a medida que aumenta la edad aumenta también la frecuencia de titulados en un número ...
# ... mayor de grados. 

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas n_grados,3. dif relativas,3. dif relativas,3. dif relativas
edad_,Menores de 30 años,De 35 y más años,De 30 a 34 años,Unnamed: 4_level_1,Menores de 30 años,De 35 y más años,De 30 a 34 años
n_grados,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
1,0.881072,0.533361,0.747082,0.765505,+15.10%,-30.33%,-2.41%
2,0.111988,0.381093,0.225382,0.204133,-45.14%,+86.69%,+10.41%
3,0.005857,0.068268,0.024816,0.025181,-76.74%,+171.11%,-1.45%
4,0.001082,0.017278,0.00272,0.005182,-79.11%,+233.45%,-47.51%


In [353]:
# Distribución de número de grados universitarios según discapacidad: 
dist_condicionada('n_grados','discapacidad_')
# La proporción de graduados en 3 o 4 titulaciones es muy superior entre quienes tienen discapacidad.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas n_grados,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
n_grados,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,0.702073,0.766288,0.765505,-8.29%,+0.10%
2,0.238342,0.20371,0.204133,+16.76%,-0.21%
3,0.036269,0.025044,0.025181,+44.04%,-0.54%
4,0.023316,0.004958,0.005182,+349.99%,-4.32%


## 'EST_B13_AMB1' (redefinida como 'ambito_g2')
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-) 

**Ambito de estudio del segundo grado**, diplomatura, licenciatura o equivalente en el que está titulado.

In [354]:
reset('EST_B13_AMB1')

In [355]:
df['EST_B13_AMB1'].sort_values().unique() # No informados como '    ' o '9999'

array(['    ', '011 ', '0112', '0113', '021 ', '0211', '022 ', '023 ',
       '031 ', '0311', '0313', '032 ', '041 ', '0413', '042 ', '051 ',
       '052 ', '053 ', '054 ', '061 ', '071 ', '072 ', '073 ', '081 ',
       '082 ', '084 ', '091 ', '0912', '0913', '092 ', '1014', '1015',
       '109 ', '9999'], dtype=object)

In [356]:
df['EST_B13_AMB1'].nunique()

34

In [357]:
df['EST_B13_AMB1']=df['EST_B13_AMB1'].str.strip()
traduce('EST_B13_AMB1')

                                                             aux_traduce
                                                                  unique
EST_B13_AMB1                                                            
                                                                      []
011                                        [Educación (Otros estudios) ]
0112                      [Formación de docentes de enseñanza infantil ]
0113                      [Formación de docentes de enseñanza primaria ]
021                                            [Artes (Otros estudios) ]
0211                  [Técnicas audiovisuales y medios de comunicación ]
022                                                       [Humanidades ]
023                                                           [Lenguas ]
031           [Ciencias sociales y del comportamiento (Otros estudios) ]
0311                                                         [Economía ]
0313                                               

In [358]:
def re_otros_estudios(col,nuevo='',n=0,blank=' ',nsnc='9',trad=True):
    """Inspección e imputación de valores de col. condicionadas por la respuesta sobre los estudios otros_estudios
    Si se especifica un valor n y un nombre 'nuevo', crea una variable 'nuevo' para la que define 
    valor 0 = No tiene n títulos de otros_estudios. Se añade la variable nueva a la lista de variables para 
    modelos descriptivos o predicctivos.
    """
    # Se imputa None a respuestas en blanco y NS/NC:
    try: df[col].replace({blank:None,nsnc:None},inplace=True)
    except: 
        df[col]=df[col].astype('O')
        df[col].replace({blank:None,nsnc:None},inplace=True) # Resuelve conflictos cuando se aplica varias veces
    try: df[col]=df[col].astype('float')
    except:pass
    if trad==True: traduce(col,check=False)
    if len(nuevo)>0 and n>0:
        df[nuevo]=df[col]
        D_dict[nuevo]=D_dict[col]
        traduce(nuevo,check=False)
        print(df[[str(nuevo)+'_',otros_estudios]].groupby(otros_estudios).agg(['unique']))
        # Se imputa valor 0 ('No tiene') a quienes tienen menos de n títulos: 
        df[nuevo].mask(df[otros_estudios]<n,0,inplace=True)
        D_dict[nuevo][0]='No tiene'
        D_dict[nuevo][str(0)]='No tiene'
        # Se imputa valor 1 ('No conocido') a las observaciones no informadas con al menos n títulos: 
        df[nuevo].mask((df[nuevo].isna()) & (df[otros_estudios]>=n),1,inplace=True)
        D_dict[nuevo][1]='No conocido'
        D_dict[nuevo][str(1)]='No conocido'
        traduce(nuevo,check=False)
        print(df[[str(nuevo)+'_',otros_estudios]].groupby(otros_estudios).agg(['unique']))
        if str(nuevo) not in v_modelos:
            v_modelos.append(nuevo)
        if str(nuevo)+'_' not in v_modelos_L:
            v_modelos_L.append(str(nuevo)+'_')
    else: print (df[col].sort_values().unique())
    return

In [359]:
# Se establece la variable otros_estudios referida a otros estudios de grado: 
otros_estudios='n_grados'

In [360]:
re_otros_estudios('EST_B13_AMB1',nuevo='ambito_g2',n=2,blank='',nsnc='9999')

                                                                                                                                                                                                                                                                                                           ambito_g2_
                                                                                                                                                                                                                                                                                                               unique
n_grados                                                                                                                                                                                                                                                                                                             
1                                                                     

In [361]:
traduce('ambito_g2')

                                                          aux_traduce
                                                               unique
ambito_g2                                                            
0.0                                                        [No tiene]
1.0                                                     [No conocido]
11.0                                    [Educación (Otros estudios) ]
21.0                                        [Artes (Otros estudios) ]
22.0                                                   [Humanidades ]
23.0                                                       [Lenguas ]
31.0       [Ciencias sociales y del comportamiento (Otros estudios) ]
32.0                                    [Periodismo y documentación ]
41.0                    [Negocios y administración (Otros estudios) ]
42.0                                                       [Derecho ]
51.0                                           [Ciencias de la vida ]
52.0                

In [362]:
# El ámbito de estudio es menos manejable (muchas categorías) que la rama de conocimiento (5 valores).
# Para estudios de máster y doctorado, solo info de rama (no de ámbito).
# Por homogeneidad y por evitar matrices dispersas, se cuenta número de titulos de cada tipo usando rama en ...
# ... lugar de ámbito.
# Para identificar la rama que corresponde a cada ámbito (info del primer grado o licenciatura): 
df[['rama_g1_','ambito_g1_']].groupby('ambito_g1_').agg(['value_counts']).head(15)

Unnamed: 0_level_0,Unnamed: 1_level_0,rama_g1_
Unnamed: 0_level_1,Unnamed: 1_level_1,value_counts
ambito_g1_,rama_g1_,Unnamed: 2_level_2
Actividades físicas y deportivas,Servicios,603
Agricultura y ganadería,Ingeniería y arquitectura,545
Arquitectura y construcción,Ingeniería y arquitectura,1542
Artes (Otros estudios),Artes y humanidades,906
Ciencias de la vida,Ciencias,943
"Ciencias químicas, físicas y geológicas",Ciencias,888
Ciencias sociales y del comportamiento (Otros estudios),Ciencias sociales y jurídicas,707
Derecho,Ciencias sociales y jurídicas,1720
Dirección y administración,Ciencias sociales y jurídicas,2515
Economía,Ciencias sociales y jurídicas,763


## Nueva variable 'rama_g2'
**Rama de conocimiento de la segunda titulación de grado** universitario.

In [363]:
# Columna nueva: rama de conocimiento asociada al ámbito declarado: 
df['rama_g2']=df['ambito_g2'].astype('float').replace(D_ambito_a_rama)

In [364]:
df['rama_g2'].unique()

array([3., 0., 1., 6., 5., 4., 2.])

In [365]:
D_dict['rama_g1'][0]='No tiene o no informada'
D_dict['rama_g2']=D_dict['rama_g1']
traduce('rama_g2')

                             aux_traduce
                                  unique
rama_g2                                 
0.0            [No tiene o no informada]
1.0                [Artes y humanidades]
2.0                           [Ciencias]
3.0      [Ciencias sociales y jurídicas]
4.0          [Ingeniería y arquitectura]
5.0               [Ciencias de la salud]
6.0                          [Servicios]


In [366]:
df[['EST_B13_AMB1_','rama_g2_']].groupby('EST_B13_AMB1_').agg(['unique']).head() # Comprobación 

Unnamed: 0_level_0,rama_g2_
Unnamed: 0_level_1,unique
EST_B13_AMB1_,Unnamed: 1_level_2
Actividades físicas y deportivas,[Servicios]
Agricultura y ganadería,[Ingeniería y arquitectura]
Arquitectura y construcción,[Ingeniería y arquitectura]
Artes (Otros estudios),[Artes y humanidades]
Ciencias de la vida,[Ciencias]


In [367]:
# Comprobación:
df[['ambito_g2_','rama_g2_','EST_B13_AMB1_']].count()

ambito_g2_       31651
rama_g2_         31651
EST_B13_AMB1_     7341
dtype: int64

In [368]:
# Actualización variables 'n_rama' (rama=art_hum, ciencias, cc_soc_ju, ing_arq, cc_salud)
actualiza_ramas('rama_g2')

In [369]:
df[L_ramas+['rama_g2_']].groupby(L_ramas).agg(['unique']) # Comprobación

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,rama_g2_
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,unique
n_art_hum,n_ciencias,n_cc_soc_ju,n_ing_arq,n_cc_salud,n_servicios,Unnamed: 6_level_2
0,0,0,0,0,1,[No tiene o no informada]
0,0,0,0,0,2,[Servicios]
0,0,0,0,1,0,[No tiene o no informada]
0,0,0,0,1,1,"[Servicios, Ciencias de la salud]"
0,0,0,0,2,0,[Ciencias de la salud]
0,0,0,1,0,0,[No tiene o no informada]
0,0,0,1,0,1,"[Servicios, Ingeniería y arquitectura]"
0,0,0,1,1,0,"[Ciencias de la salud, Ingeniería y arquitectura]"
0,0,0,2,0,0,[Ingeniería y arquitectura]
0,0,1,0,0,0,[No tiene o no informada]


## 'EST_B14_1'     
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-)   

**Momento en que terminó la segunda titulación de grado**, diplomatura, licenciatura o equivalente mencionada.

In [370]:
df['EST_B14_1'].sort_values().unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3', '9'], dtype=object)

In [371]:
traduce('EST_B14_1',save=False)

                                                                              aux_traduce
                                                                                   unique
EST_B14_1                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]
9                                                                                 [NS/NC]


In [372]:
re_otros_estudios('EST_B14_1',trad=False)

[ 1.  2.  3. nan]


## 'EST_B15_1'     
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-) 

**Dónde estudió la segunda titulación de grado**, diplomatura, licenciatura o equivalente mencionada.

In [373]:
df['EST_B15_1'].sort_values().unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3', '9'], dtype=object)

In [374]:
traduce('EST_B15_1')

                                                   aux_traduce
                                                        unique
EST_B15_1                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]
3                             [Completamente en el extranjero]
9                                                      [NS/NC]


In [375]:
re_otros_estudios('EST_B15_1')

[ 1.  2.  3. nan]


## Nueva variable: 'extr_proxy'
Variable proxy de **estudios al menos en parte en el extranjero**. 

In [376]:
df['extr_proxy']=0
df['extr_proxy'].mask((df['EST_B15_1']==2)|(df['EST_B15_1']==3),1,inplace=True)
df[['EST_B15_1_','extr_proxy']].groupby('EST_B15_1_',dropna=False).agg(['unique']) # Comprobación

Unnamed: 0_level_0,extr_proxy
Unnamed: 0_level_1,unique
EST_B15_1_,Unnamed: 1_level_2
Completamente en España,[0]
Completamente en el extranjero,[1]
Una parte en España y otra parte en el extranjero,[1]
,[0]


In [377]:
D_describe['extr_proxy']='Cursó al menos parte de sus estudios en el extranjero'
D_dict['extr_proxy']={0:'No estudió fuera de España',1:'Al menos parte de los estudios en el extranjero'}
traduce('extr_proxy')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]


In [378]:
def actualiza_extr_proxy(col):
    """Actualiza la variable 'extr_proxy' añadiendo los estudios en el extranjero declarados en la variable col. 
    """
    df['extr_proxy'].mask((df[col]==2)|(df[col]==3),1,inplace=True)
    traduce('extr_proxy')
    print (df[[str(col),'extr_proxy_']].groupby(str(col),dropna=False).agg(['unique'])) # Comprobación
    return

## 'EST_B13_AMB2' (redefinida como 'ambito_g3')     
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-) 

**Ambito de estudio del tercer grado**, diplomatura, licenciatura o equivalente en el que está titulado.

In [379]:
df['EST_B13_AMB2'].sort_values().unique() # No informados como '    ' o '9999'

array(['    ', '011 ', '0112', '0113', '021 ', '0211', '022 ', '023 ',
       '031 ', '0311', '0313', '032 ', '041 ', '0413', '042 ', '051 ',
       '052 ', '053 ', '054 ', '061 ', '071 ', '072 ', '073 ', '081 ',
       '082 ', '084 ', '091 ', '0912', '0913', '092 ', '1014', '1015',
       '109 ', '9999'], dtype=object)

In [380]:
df['EST_B13_AMB2']=df['EST_B13_AMB2'].str.strip()
traduce('EST_B13_AMB2')

                                                             aux_traduce
                                                                  unique
EST_B13_AMB2                                                            
                                                                      []
011                                        [Educación (Otros estudios) ]
0112                      [Formación de docentes de enseñanza infantil ]
0113                      [Formación de docentes de enseñanza primaria ]
021                                            [Artes (Otros estudios) ]
0211                  [Técnicas audiovisuales y medios de comunicación ]
022                                                       [Humanidades ]
023                                                           [Lenguas ]
031           [Ciencias sociales y del comportamiento (Otros estudios) ]
0311                                                         [Economía ]
0313                                               

In [381]:
re_otros_estudios('EST_B13_AMB2','ambito_g3',3,blank='',nsnc='9999')

                                                                                                                                                                                                                                                                                                           ambito_g3_
                                                                                                                                                                                                                                                                                                               unique
n_grados                                                                                                                                                                                                                                                                                                             
1                                                                     

In [382]:
D_dict['ambito_g3']=D_dict['ambito_g2']
traduce('ambito_g3',check=False)

## Nueva variable 'rama_g3'
**Rama de conocimiento de la tercera titulación de grado** universitario.

In [383]:
# Columna nueva: rama de conocimiento asociada al ámbito declarado: 
df['rama_g3']=df['ambito_g3'].replace(D_ambito_a_rama)

In [384]:
df['rama_g3'].unique()

array([3., 0., 1., 6., 4., 5., 2.])

In [385]:
D_dict['rama_g3']=D_dict['rama_g2']
traduce('rama_g3')

                             aux_traduce
                                  unique
rama_g3                                 
0.0            [No tiene o no informada]
1.0                [Artes y humanidades]
2.0                           [Ciencias]
3.0      [Ciencias sociales y jurídicas]
4.0          [Ingeniería y arquitectura]
5.0               [Ciencias de la salud]
6.0                          [Servicios]


In [386]:
# Actualización variables 'n_rama' (rama=art_hum, ciencias, cc_soc_ju, ing_arq, cc_salud)
actualiza_ramas('rama_g3')

In [387]:
for rama in L_ramas:
    print (rama,df[rama].unique()) # Inspección (comprobación no rigurosa)

n_art_hum [0 1 2 3]
n_ciencias [0 1 2 3]
n_cc_soc_ju [3 2 1 0]
n_ing_arq [0 1 2 3]
n_cc_salud [0 1 2 3]
n_servicios [0 1 2 3]


## 'EST_B14_2'     
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-)  

**Momento en que terminó la tercera titulación de grado**, diplomatura, licenciatura o equivalente mencionada.

In [388]:
df['EST_B14_2'].sort_values().unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3', '9'], dtype=object)

In [389]:
traduce('EST_B14_2')

                                                                              aux_traduce
                                                                                   unique
EST_B14_2                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]
9                                                                                 [NS/NC]


In [390]:
re_otros_estudios('EST_B14_2')

[ 1.  2.  3. nan]


In [391]:
proporciones('EST_B14_2_',dropna=True)

Unnamed: 0,EST_B14_2_
Antes de comenzar los estudios de la titulación que finalizó en 2014,0.6
Después de obtener la titulación que finalizó en 2014,0.213542
Durante la realización de los estudios de la titulación que finalizó en 2014,0.186458


## 'EST_B15_2'     
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-) 

**Dónde estudió la tercera titulación de grado**, diplomatura, licenciatura o equivalente mencionada.

In [392]:
df['EST_B15_2'].sort_values().unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3', '9'], dtype=object)

In [393]:
traduce('EST_B15_2')

                                                   aux_traduce
                                                        unique
EST_B15_2                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]
3                             [Completamente en el extranjero]
9                                                      [NS/NC]


In [394]:
re_otros_estudios('EST_B15_2')

[ 1.  2.  3. nan]


In [395]:
actualiza_extr_proxy('EST_B15_2') 

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B15_2                                                                               
1.0        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]
2.0                                    [Al menos parte de los estudios en el extranjero]
3.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


## 'EST_B13_AMB3' (redefinida como 'ambito_g4') 
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-) 

**Ambito de estudio del cuarto grado**, diplomatura, licenciatura o equivalente en el que está titulado.

In [396]:
reset('EST_B13_AMB3')

In [397]:
df['EST_B13_AMB3'].sort_values().unique() # No informados como '    ' o '9999'

array(['    ', '011 ', '0112', '0113', '021 ', '022 ', '023 ', '031 ',
       '0311', '032 ', '041 ', '0413', '042 ', '054 ', '061 ', '071 ',
       '072 ', '073 ', '082 ', '091 ', '0913', '1014', '109 ', '9999'],
      dtype=object)

In [398]:
df['EST_B13_AMB3']=df['EST_B13_AMB3'].str.strip()
traduce('EST_B13_AMB3')

                                                             aux_traduce
                                                                  unique
EST_B13_AMB3                                                            
                                                                      []
011                                        [Educación (Otros estudios) ]
0112                      [Formación de docentes de enseñanza infantil ]
0113                      [Formación de docentes de enseñanza primaria ]
021                                            [Artes (Otros estudios) ]
022                                                       [Humanidades ]
023                                                           [Lenguas ]
031           [Ciencias sociales y del comportamiento (Otros estudios) ]
0311                                                         [Economía ]
032                                        [Periodismo y documentación ]
041                        [Negocios y administraci

In [399]:
re_otros_estudios('EST_B13_AMB3','ambito_g4',4,blank='',nsnc='9999')

                                                                                                                                                                                                                                                                                                           ambito_g4_
                                                                                                                                                                                                                                                                                                               unique
n_grados                                                                                                                                                                                                                                                                                                             
1                                                                     

In [400]:
D_dict['ambito_g4']=D_dict['ambito_g2']
traduce('ambito_g4',check=False)

## Nueva variable 'rama_g4'
**Rama de conocimiento de la cuarta titulación de grado** universitario.

In [401]:
# Columna nueva: rama de conocimiento asociada al ámbito declarado: 
df['rama_g4']=df['ambito_g4'].replace(D_ambito_a_rama)

In [402]:
df['rama_g4'].unique()

array([0., 3., 1., 6., 5., 4., 2.])

In [403]:
D_dict['rama_g4']=D_dict['rama_g2']
traduce('rama_g4')

                             aux_traduce
                                  unique
rama_g4                                 
0.0            [No tiene o no informada]
1.0                [Artes y humanidades]
2.0                           [Ciencias]
3.0      [Ciencias sociales y jurídicas]
4.0          [Ingeniería y arquitectura]
5.0               [Ciencias de la salud]
6.0                          [Servicios]


In [404]:
# Actualización variables 'n_rama' (rama=art_hum, ciencias, cc_soc_ju, ing_arq, cc_salud)
actualiza_ramas('rama_g4')

In [405]:
for rama in L_ramas:
    print (rama,df[rama].unique()) # Inspección (comprobación no rigurosa)

n_art_hum [0 1 3 2 4]
n_ciencias [0 1 2 3]
n_cc_soc_ju [3 2 1 4 0]
n_ing_arq [0 1 2 3 4]
n_cc_salud [0 1 2 3 4]
n_servicios [0 1 2 3]


## 'EST_B14_3'     
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-) 

**Momento en que terminó la cuarta titulación de grado**, diplomatura, licenciatura o equivalente mencionada.

In [406]:
df['EST_B14_3'].sort_values().unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3'], dtype=object)

In [407]:
traduce('EST_B14_3')

                                                                              aux_traduce
                                                                                   unique
EST_B14_3                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]


In [408]:
re_otros_estudios('EST_B14_3')

[ 1.  2.  3. nan]


## 'EST_B15_3'     
(Solo para quienes declaran haber terminado otros estudios de grado, diplomatura, licenciatura o equivalente -respuesta 1 en variable 'EST_B11_1' (o 'varios_grados')-)   

**Dónde estudió la cuarta titulación de grado**, diplomatura, licenciatura o equivalente mencionada.

In [409]:
df['EST_B15_3'].sort_values().unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3'], dtype=object)

In [410]:
traduce('EST_B15_3')

                                                   aux_traduce
                                                        unique
EST_B15_3                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]
3                             [Completamente en el extranjero]


In [411]:
re_otros_estudios('EST_B15_3')

[ 1.  2.  3. nan]


In [412]:
actualiza_extr_proxy('EST_B15_3')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B15_3                                                                               
1.0        [Al menos parte de los estudios en el extranjero, No estudió fuera de España]
2.0                                    [Al menos parte de los estudios en el extranjero]
3.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


In [413]:
L_ordinal=['primer','segundo','tercer','cuarto']
for i in range(1,5):
    D_describe['rama_g'+str(i)]='Rama de conocimiento del '+L_ordinal[i-1]+ ' titulo de grado'
    D_describe['ambito_g'+str(i)]='Ámbito de estudio del '+L_ordinal[i-1]+  ' titulo de grado'

## 'EST_B16'  (redefinida como 'n_master')   
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-)  

**Número de títulos de máster** universitario que ha completado.

In [414]:
df['EST_B16'].unique() # No informados como ' '

array([' ', '1', '2', '3'], dtype=object)

In [415]:
traduce('EST_B16')

            aux_traduce
                 unique
EST_B16                
         [No aplicable]
1                 [Uno]
2                [Dos ]
3          [Tres o más]


In [416]:
df[['EST_B16','master']].groupby('master',dropna=False).agg(['unique'])

Unnamed: 0_level_0,EST_B16
Unnamed: 0_level_1,unique
master,Unnamed: 1_level_2
0,[ ]
1,"[1, 2, 3]"


In [417]:
redefine('EST_B16','n_master')

In [418]:
# Se imputa valor 0 en 'n_master' a quienes declaran no tener títulos de máster:
df['n_master'].mask(df['master']==0,0,inplace=True)
df['n_master']=df['n_master'].astype('int')
traduce('n_master')
df[['n_master_','master_']].groupby('master_',dropna=False).agg(['unique']) # Comprobación

           aux_traduce
                unique
n_master              
0                  [0]
1                [Uno]
2               [Dos ]
3         [Tres o más]


Unnamed: 0_level_0,n_master_
Unnamed: 0_level_1,unique
master_,Unnamed: 1_level_2
No,[0]
Sí,"[Uno, Dos , Tres o más]"


In [419]:
proporciones('n_master')

Unnamed: 0,n_master
0,0.52526
1,0.382421
2,0.083031
3,0.009289


In [420]:
D_describe['n_master']='Número de títulos de máster universitario completados'

In [421]:
# Establece el valor de 'otros_estudios' referido a estudios de máster para función re_otros_estudios
otros_estudios='n_master'

## 'EST_B17_M1'  (redefinida como 'rama_m1')   
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-) 

**Rama de conocimiento del primer título de máster** mencionado como completado.

In [422]:
df['EST_B17_M1'].unique() # No informados como ' '

array([' ', '1', '5', '3', '2', '4'], dtype=object)

In [423]:
traduce('EST_B17_M1')

                                aux_traduce
                                     unique
EST_B17_M1                                 
                                        [ ]
1                     [Artes y humanidades]
2                                [Ciencias]
3           [Ciencias sociales y jurídicas]
4               [Ingeniería y arquitectura]
5                    [Ciencias de la salud]


In [424]:
re_otros_estudios('EST_B17_M1','rama_m1',1)

                                                                                                                 rama_m1_
                                                                                                                   unique
n_master                                                                                                                 
0                                                                                                                   [nan]
1         [Artes y humanidades, Ciencias de la salud, Ciencias sociales y jurídicas, Ciencias, Ingeniería y arquitectura]
2         [Ciencias sociales y jurídicas, Artes y humanidades, Ciencias, Ciencias de la salud, Ingeniería y arquitectura]
3         [Ciencias sociales y jurídicas, Ciencias, Ciencias de la salud, Artes y humanidades, Ingeniería y arquitectura]
                                                                                                         rama_m1_
                                

In [425]:
D_dict['rama_m1']=D_dict['rama_g1']
traduce('rama_m1')

                             aux_traduce
                                  unique
rama_m1                                 
0.0            [No tiene o no informada]
1.0                [Artes y humanidades]
2.0                           [Ciencias]
3.0      [Ciencias sociales y jurídicas]
4.0          [Ingeniería y arquitectura]
5.0               [Ciencias de la salud]


In [426]:
proporciones('rama_m1_')

Unnamed: 0,rama_m1_
No tiene o no informada,0.52526
Ciencias sociales y jurídicas,0.189725
Ciencias de la salud,0.088718
Ciencias,0.066696
Artes y humanidades,0.065748
Ingeniería y arquitectura,0.063853


In [427]:
# Actualización variables 'n_rama' (rama=art_hum, ciencias, cc_soc_ju, ing_arq, cc_salud)
actualiza_ramas('rama_m1')

In [428]:
for rama in L_ramas:
    print (rama, df[rama].unique()) # Inspección (comprobación no rigurosa)

n_art_hum [0 1 2 3 4]
n_ciencias [0 1 2 3 4]
n_cc_soc_ju [3 2 1 4 5 0]
n_ing_arq [0 1 2 3 4 5]
n_cc_salud [0 1 2 3 4 5]
n_servicios [0 1 2 3]


## 'EST_B18_1'  
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-)  

**Momento en que terminó el primer título de máster** mencionado como completado.

In [429]:
df['EST_B18_1'].unique() # No informados como ' ' o '9'

array([' ', '3', '2', '1', '9'], dtype=object)

In [430]:
traduce('EST_B18_1')

                                                                              aux_traduce
                                                                                   unique
EST_B18_1                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]
9                                                                                 [NS/NC]


In [431]:
re_otros_estudios('EST_B18_1')

[ 1.  2.  3. nan]


## 'EST_B19_1'     
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-)

**Dónde estudió el primer título de máster** mencionado como completado.

In [432]:
df['EST_B19_1'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3', '9'], dtype=object)

In [433]:
traduce('EST_B19_1')

                                                   aux_traduce
                                                        unique
EST_B19_1                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]
3                             [Completamente en el extranjero]
9                                                      [NS/NC]


In [434]:
re_otros_estudios('EST_B19_1')

[ 1.  2.  3. nan]


In [435]:
actualiza_extr_proxy('EST_B19_1')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B19_1                                                                               
1.0        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]
2.0                                    [Al menos parte de los estudios en el extranjero]
3.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


## 'EST_B17_M2'  ( redefinida como 'rama_m2')   
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-)  

**Rama de conocimiento del segundo título de máster** mencionado como completado.  

In [436]:
df['EST_B17_M2'].unique() # No informados como ' '

array([' ', '3', '1', '2', '5', '4'], dtype=object)

In [437]:
traduce('EST_B17_M2')

                                aux_traduce
                                     unique
EST_B17_M2                                 
                                        [ ]
1                     [Artes y humanidades]
2                                [Ciencias]
3           [Ciencias sociales y jurídicas]
4               [Ingeniería y arquitectura]
5                    [Ciencias de la salud]


In [438]:
re_otros_estudios('EST_B17_M2','rama_m2',2)

                                                                                                                 rama_m2_
                                                                                                                   unique
n_master                                                                                                                 
0                                                                                                                   [nan]
1                                                                                                                   [nan]
2         [Ciencias sociales y jurídicas, Artes y humanidades, Ciencias de la salud, Ciencias, Ingeniería y arquitectura]
3         [Artes y humanidades, Ciencias, Ciencias sociales y jurídicas, Ciencias de la salud, Ingeniería y arquitectura]
                                                                                                         rama_m2_
                                

In [439]:
D_dict['rama_m2']=D_dict['rama_g2']
traduce('rama_m2')

                             aux_traduce
                                  unique
rama_m2                                 
0.0            [No tiene o no informada]
1.0                [Artes y humanidades]
2.0                           [Ciencias]
3.0      [Ciencias sociales y jurídicas]
4.0          [Ingeniería y arquitectura]
5.0               [Ciencias de la salud]


In [440]:
# Actualización variables 'n_rama' (rama=art_hum, ciencias, cc_soc_ju, ing_arq, cc_salud)
actualiza_ramas('rama_m2')

In [441]:
for rama in L_ramas:
    print (rama, df[rama].unique()) # Inspección (comprobación no rigurosa)

n_art_hum [0 1 2 3 4 5]
n_ciencias [0 1 2 3 4]
n_cc_soc_ju [3 2 1 4 6 5 0]
n_ing_arq [0 1 2 4 3 5]
n_cc_salud [0 1 2 3 4 5]
n_servicios [0 1 2 3]


## 'EST_B18_2'  
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-) 

**Momento en que terminó el segundo título de máster** mencionado como completado.

In [442]:
df['EST_B18_2'].unique() # No informados como ' ' o '9'

array([' ', '3', '2', '1', '9'], dtype=object)

In [443]:
traduce('EST_B18_2')

                                                                              aux_traduce
                                                                                   unique
EST_B18_2                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]
9                                                                                 [NS/NC]


In [444]:
re_otros_estudios('EST_B18_2')

[ 1.  2.  3. nan]


## 'EST_B19_2'     
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-)

**Dónde estudió el segundo título de máster** mencionado como completado.

In [445]:
df['EST_B19_2'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3', '9'], dtype=object)

In [446]:
traduce('EST_B19_2')

                                                   aux_traduce
                                                        unique
EST_B19_2                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]
3                             [Completamente en el extranjero]
9                                                      [NS/NC]


In [447]:
re_otros_estudios('EST_B19_2')

[ 1.  2.  3. nan]


In [448]:
actualiza_extr_proxy('EST_B19_2')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B19_2                                                                               
1.0        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]
2.0                                    [Al menos parte de los estudios en el extranjero]
3.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


## 'EST_B17_M3'  (redefinida como 'rama_m3')   
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-) 

**Rama de conocimiento del tercer título de máster** mencionado como completado.

In [449]:
df['EST_B17_M3'].unique() # No informados como ' '

array([' ', '3', '2', '5', '1', '4'], dtype=object)

In [450]:
traduce('EST_B17_M3')

                                aux_traduce
                                     unique
EST_B17_M3                                 
                                        [ ]
1                     [Artes y humanidades]
2                                [Ciencias]
3           [Ciencias sociales y jurídicas]
4               [Ingeniería y arquitectura]
5                    [Ciencias de la salud]


In [451]:
re_otros_estudios('EST_B17_M3','rama_m3',3)

                                                                                                                 rama_m3_
                                                                                                                   unique
n_master                                                                                                                 
0                                                                                                                   [nan]
1                                                                                                                   [nan]
2                                                                                                                   [nan]
3         [Ciencias sociales y jurídicas, Ciencias, Ciencias de la salud, Artes y humanidades, Ingeniería y arquitectura]
                                                                                                         rama_m3_
                                

In [452]:
D_dict['rama_m3']=D_dict['rama_g2']
traduce('rama_m3')

                             aux_traduce
                                  unique
rama_m3                                 
0.0            [No tiene o no informada]
1.0                [Artes y humanidades]
2.0                           [Ciencias]
3.0      [Ciencias sociales y jurídicas]
4.0          [Ingeniería y arquitectura]
5.0               [Ciencias de la salud]


In [453]:
# Actualización variables 'n_rama' (rama=art_hum, ciencias, cc_soc_ju, ing_arq, cc_salud)
actualiza_ramas('rama_m3')

In [454]:
for rama in L_ramas:
    print (rama, df[rama].unique()) # Inspección (comprobación no rigurosa)

n_art_hum [0 1 2 3 4 6 5]
n_ciencias [0 1 3 2 4]
n_cc_soc_ju [3 2 1 4 6 5 0 7]
n_ing_arq [0 1 2 4 3 5]
n_cc_salud [0 1 2 3 4 5]
n_servicios [0 1 2 3]


## 'EST_B18_3'  
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-)  

**Momento en que terminó el tercer título de máster** mencionado como completado.

In [455]:
df['EST_B18_3'].unique() # No informados como ' '

array([' ', '3', '1', '2'], dtype=object)

In [456]:
traduce('EST_B18_3')

                                                                              aux_traduce
                                                                                   unique
EST_B18_3                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]


In [457]:
re_otros_estudios('EST_B18_3')

[ 1.  2.  3. nan]


## 'EST_B19_3'     
(Solo para quienes declaran haber terminado estudios de máster -respuesta 1 en variable 'EST_B11_2' (o 'master')-)

**Dónde estudió el tercer título de máster** mencionado como completado.

In [458]:
df['EST_B19_3'].unique() # No informados como ' '

array([' ', '1', '3', '2'], dtype=object)

In [459]:
traduce('EST_B19_3')

                                                   aux_traduce
                                                        unique
EST_B19_3                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]
3                             [Completamente en el extranjero]


In [460]:
re_otros_estudios('EST_B19_3')

[ 1.  2.  3. nan]


In [461]:
actualiza_extr_proxy('EST_B19_3')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B19_3                                                                               
1.0        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]
2.0                                    [Al menos parte de los estudios en el extranjero]
3.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


In [462]:
for i in range(1,4):
    D_describe['rama_m'+str(i)]='Rama de conocimiento del '+L_ordinal[i-1]+ ' titulo de master'

## 'EST_B21'  (redefinida como 'rama_doc')   
(Solo para quienes declaran haber terminado estudios de doctorado -respuesta 1 en variable 'EST_B11_3' (o'doctor')-)  

**Rama de conocimiento de sus estudios de doctorado** (si tiene más de un título de doctor, del que considere el principal).

In [463]:
df['EST_B21'].unique() # No informados como ' '

array([' ', '3', '1', '5', '2', '4'], dtype=object)

In [464]:
traduce('EST_B21')

                             aux_traduce
                                  unique
EST_B21                                 
                                     [ ]
1                  [Artes y humanidades]
2                             [Ciencias]
3        [Ciencias sociales y jurídicas]
4            [Ingeniería y arquitectura]
5                 [Ciencias de la salud]


In [465]:
# Establece otros_estudios referido al título de doctor: 
otros_estudios='doctor'

In [466]:
re_otros_estudios('EST_B21','rama_doc',1)

                                                                                                              rama_doc_
                                                                                                                 unique
doctor                                                                                                                 
0                                                                                                                 [nan]
1       [Ciencias sociales y jurídicas, Artes y humanidades, Ciencias de la salud, Ciencias, Ingeniería y arquitectura]
                                                                                                      rama_doc_
                                                                                                         unique
doctor                                                                                                         
0                                                               

In [467]:
D_dict['rama_doc']=D_dict['rama_g2']
D_describe['rama_doc']='Rama de conocimiento de los estudios de doctorado'
traduce('rama_doc')

                              aux_traduce
                                   unique
rama_doc                                 
0.0             [No tiene o no informada]
1.0                 [Artes y humanidades]
2.0                            [Ciencias]
3.0       [Ciencias sociales y jurídicas]
4.0           [Ingeniería y arquitectura]
5.0                [Ciencias de la salud]


In [468]:
# Actualización variables 'n_rama' (rama=art_hum, ciencias, cc_soc_ju, ing_arq, cc_salud)
actualiza_ramas('rama_doc')

In [469]:
for rama in L_ramas:
    print (df[rama].unique()) # Inspección (comprobación no rigurosa)

[0 1 2 3 5 4 6]
[0 1 3 2 4 5]
[3 2 1 4 6 5 7 0]
[0 1 2 3 4 5 6]
[0 1 2 3 4 5 6]
[0 1 2 3]


## 'EST_B22'  
(Solo para quienes declaran haber terminado estudios de doctorado -respuesta 1 en variable 'EST_B11_3' (o'doctor')-)  

**Momento en que terminó sus estudios de doctorado** (si tiene más de un título de doctor, el que considere el principal).

In [470]:
df['EST_B22'].unique() # No informados como ' '

array([' ', '3', '1', '2'], dtype=object)

In [471]:
traduce('EST_B22')

                                                                            aux_traduce
                                                                                 unique
EST_B22                                                                                
                                                                         [No aplicable]
1                [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2        [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                               [Después de obtener la titulación que finalizó en 2014]


In [472]:
re_otros_estudios('EST_B22')

[ 1.  2.  3. nan]


## 'EST_B23'  
(Solo para quienes declaran haber terminado estudios de doctorado -respuesta 1 en variable 'EST_B11_3' (o'doctor')-)   

**Donde cursó sus estudios de doctorado** (si tiene más de un título de doctor, el que considere el principal).

In [473]:
df['EST_B23'].unique() # No informados como ' '

array([' ', '1', '2', '9', '3'], dtype=object)

In [474]:
traduce('EST_B23')

                                                 aux_traduce
                                                      unique
EST_B23                                                     
                                              [No aplicable]
1                                  [Completamente en España]
2        [Una parte en España y otra parte en el extranjero]
3                           [Completamente en el extranjero]
9                                                    [NS/NC]


In [475]:
re_otros_estudios('EST_B23')

[ 1.  2.  3. nan]


In [476]:
actualiza_extr_proxy('EST_B23')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                           extr_proxy_
                                                                                unique
EST_B23                                                                               
1.0      [No estudió fuera de España, Al menos parte de los estudios en el extranjero]
2.0                                  [Al menos parte de los estudios en el extranjero]
3.0                                  [Al menos parte de los estudios en el extranjero]
NaN      [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


## 'EST_B24'  (redefinida como 'n_gsup')   
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)  

**Número de ciclos formativos de grado superior o estudios artísticos superiores** que ha completado.

In [477]:
df['EST_B24'].unique() # No informados como ' '

array([' ', '1', '2', '3'], dtype=object)

In [478]:
traduce('EST_B24')

            aux_traduce
                 unique
EST_B24                
         [No aplicable]
1                 [Uno]
2                [Dos ]
3          [Tres o más]


In [479]:
# Se imputa 0 a no respuesta: 
df['EST_B24'].replace({' ':0},inplace=True)
df['EST_B24']=df['EST_B24'].astype('int')
df['EST_B24'].unique()

array([0, 1, 2, 3])

In [480]:
redefine('EST_B24','n_gsup')

In [481]:
df[['n_gsup','g_sup_','est_art_']].groupby(['g_sup_','est_art_'],dropna=False).agg(['unique']) # Inspección: 

Unnamed: 0_level_0,Unnamed: 1_level_0,n_gsup
Unnamed: 0_level_1,Unnamed: 1_level_1,unique
g_sup_,est_art_,Unnamed: 2_level_2
No,No,[0]
No,Sí,"[1, 2, 3]"
Sí,No,"[1, 2, 3]"
Sí,Sí,"[2, 3, 1]"


In [482]:
# Se establece 'otros_estudios' referido a ciclos formativos o estudios artísticos superiores: 
otros_estudios='n_gsup'

## 'EST_B25_FA1'  (redefinida como 'fam_gsup1')   
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)  

**Familia de estudios** del primer ciclo formativo de grado superior (formación profesional, artes plásticas y diseño) o enseñanzas deportivas de grado superior mencionado.

In [483]:
df['EST_B25_FA1'].unique() # No informados como '  ' o '99'

array(['  ', '88', '23', '19', '04', '21', '22', '25', '14', '24', '05',
       '20', '07', '10', '06', '99', '08', '18', '16', '26', '02', '01',
       '09', '12', '15', '17', '11', '03'], dtype=object)

In [484]:
leyenda('EST_B25_FA1')

01 	 Agraria
02 	 Marítimo-pesquera
03 	 Industrias alimentarias 
04 	 Química
05 	 Imagen personal 
06 	 Sanidad 
07 	 Seguridad y medio ambiente
08 	 Fabricación mecánica 
09 	 Instalación y mantenimiento
10 	 Electricidad y electrónica
11 	 Energía y agua
12 	 Transporte y mantenimiento de vehículos 
14 	 Edificación y obra civil 
15 	 Vidrio y cerámica 
16 	 Madera, mueble y corcho 
17 	 Textil, confección y piel
18 	 Artes gráficas 
19 	 Imagen y sonido
20 	 Informática y comunicaciones
21 	 Administración y gestión 
22 	 Comercio y marketing
23 	 Servicios socioculturales y a la comunidad 
24 	 Hostelería y turismo 
25 	 Actividades físicas y deportivas (incluidas enseñanzas deportivas de grado superior)
26 	 Artes y artesanías
88 	 Estudios artísticos superiores (artes plásticas, diseño, música y danza, arte dramático o conservación y restauración de bienes culturales)
99 	 NS/NC
   	 No aplicable


In [485]:
traduce('EST_B25_FA1',check=False)

In [486]:
re_otros_estudios('EST_B25_FA1','fam_gsup1',1,blank='  ',nsnc='99')

                                                                                                                                                                                                                                                                                                         fam_gsup1_
                                                                                                                                                                                                                                                                                                             unique
n_gsup                                                                                                                                                                                                                                                                                                             
0                                                                           

In [487]:
D_dict['fam_gsup1'][0]='No tiene'
traduce('fam_gsup1')

                                                                                                                                             aux_traduce
                                                                                                                                                  unique
fam_gsup1                                                                                                                                               
0.0                                                                                                                                           [No tiene]
1.0                                                                                                                                        [No conocido]
2.0                                                                                                                                  [Marítimo-pesquera]
3.0                                                                               

## 'EST_B26_1'  
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)   

**Momento en que terminó** el primer ciclo formativo de grado superior (formación profesional, artes plásticas y diseño) o enseñanzas deportivas de grado superior mencionado.

In [488]:
df['EST_B26_1'].unique() # No informados como ' ' o '9'

array([' ', '1', '3', '2', '9'], dtype=object)

In [489]:
traduce('EST_B26_1')

                                                                              aux_traduce
                                                                                   unique
EST_B26_1                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]
9                                                                                 [NS/NC]


In [490]:
re_otros_estudios('EST_B26_1')

[ 1.  2.  3. nan]


## 'EST_B27_1'  
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)   

**Dónde cursó** el primer ciclo formativo de grado superior (formación profesional, artes plásticas y diseño) o enseñanzas deportivas de grado superior mencionado.

In [491]:
df['EST_B27_1'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3', '9'], dtype=object)

In [492]:
traduce('EST_B27_1')

                                                   aux_traduce
                                                        unique
EST_B27_1                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]
3                             [Completamente en el extranjero]
9                                                      [NS/NC]


In [493]:
re_otros_estudios('EST_B27_1')

[ 1.  2.  3. nan]


In [494]:
actualiza_extr_proxy('EST_B27_1')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B27_1                                                                               
1.0        [Al menos parte de los estudios en el extranjero, No estudió fuera de España]
2.0                                    [Al menos parte de los estudios en el extranjero]
3.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


## 'EST_B25_FA2'  (redefinida como 'fam_gsup2')   
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)  

**Familia de estudios** del segundo ciclo formativo de grado superior (formación profesional, artes plásticas y diseño) o enseñanzas deportivas de grado superior mencionado.

In [495]:
df['EST_B25_FA2'].unique() # No informados como '  ' o '99'

array(['  ', '06', '22', '05', '21', '23', '88', '18', '14', '24', '20',
       '10', '25', '04', '19', '26', '17', '01', '07', '08', '99', '12',
       '09', '03', '02', '16'], dtype=object)

In [496]:
leyenda('EST_B25_FA2')

01 	 Agraria
02 	 Marítimo-pesquera
03 	 Industrias alimentarias 
04 	 Química
05 	 Imagen personal 
06 	 Sanidad 
07 	 Seguridad y medio ambiente
08 	 Fabricación mecánica 
09 	 Instalación y mantenimiento
10 	 Electricidad y electrónica
11 	 Energía y agua
12 	 Transporte y mantenimiento de vehículos 
14 	 Edificación y obra civil 
15 	 Vidrio y cerámica 
16 	 Madera, mueble y corcho 
17 	 Textil, confección y piel
18 	 Artes gráficas 
19 	 Imagen y sonido
20 	 Informática y comunicaciones
21 	 Administración y gestión 
22 	 Comercio y marketing
23 	 Servicios socioculturales y a la comunidad 
24 	 Hostelería y turismo 
25 	 Actividades físicas y deportivas (incluidas enseñanzas deportivas de grado superior)
26 	 Artes y artesanías
88 	 Estudios artísticos superiores (artes plásticas, diseño, música y danza, arte dramático o conservación y restauración de bienes culturales)
99 	 NS/NC
   	 No aplicable


In [497]:
traduce('EST_B25_FA2',check=False)

In [498]:
re_otros_estudios('EST_B25_FA2','fam_gsup2',2,blank='  ',nsnc='99')

                                                                                                                                                                                                                                                                                                         fam_gsup2_
                                                                                                                                                                                                                                                                                                             unique
n_gsup                                                                                                                                                                                                                                                                                                             
0                                                                           

In [499]:
D_dict['fam_gsup2']=D_dict['fam_gsup1']
traduce('fam_gsup2',check=False)

## 'EST_B26_2'  
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)  

**Momento en que terminó** el segundo ciclo formativo de grado superior (formación profesional, artes plásticas y diseño) o enseñanzas deportivas de grado superior mencionado.

In [500]:
df['EST_B26_2'].unique() # No informados como ' ' 

array([' ', '1', '3', '2'], dtype=object)

In [501]:
traduce('EST_B26_2')

                                                                              aux_traduce
                                                                                   unique
EST_B26_2                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]


In [502]:
re_otros_estudios('EST_B26_2')

[ 1.  2.  3. nan]


## 'EST_B27_2'  
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)  

**Dónde cursó** el segundo ciclo formativo de grado superior (formación profesional, artes plásticas y diseño) o enseñanzas deportivas de grado superior mencionado.

In [503]:
df['EST_B27_2'].unique() # No informado como ' ' 

array([' ', '1', '3', '2'], dtype=object)

In [504]:
traduce('EST_B27_2')

                                                   aux_traduce
                                                        unique
EST_B27_2                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]
3                             [Completamente en el extranjero]


In [505]:
re_otros_estudios('EST_B27_2')

[ 1.  2.  3. nan]


In [506]:
actualiza_extr_proxy('EST_B27_2')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B27_2                                                                               
1.0        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]
2.0                                    [Al menos parte de los estudios en el extranjero]
3.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


## 'EST_B25_FA3'  (redefinida como 'fam_gsup3')   
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)   

**Familia de estudios** del tercer ciclo formativo de grado superior (formación profesional, artes plásticas y diseño) o enseñanzas deportivas de grado superior mencionado.

In [507]:
df['EST_B25_FA3'].unique() # No informados como '  ' o '99'

array(['  ', '23', '19', '88', '14', '99', '06', '16', '10', '20', '09',
       '04', '03', '25', '22'], dtype=object)

In [508]:
leyenda('EST_B25_FA3')

01 	 Agraria
02 	 Marítimo-pesquera
03 	 Industrias alimentarias 
04 	 Química
05 	 Imagen personal 
06 	 Sanidad 
07 	 Seguridad y medio ambiente
08 	 Fabricación mecánica 
09 	 Instalación y mantenimiento
10 	 Electricidad y electrónica
11 	 Energía y agua
12 	 Transporte y mantenimiento de vehículos 
14 	 Edificación y obra civil 
15 	 Vidrio y cerámica 
16 	 Madera, mueble y corcho 
17 	 Textil, confección y piel
18 	 Artes gráficas 
19 	 Imagen y sonido
20 	 Informática y comunicaciones
21 	 Administración y gestión 
22 	 Comercio y marketing
23 	 Servicios socioculturales y a la comunidad 
24 	 Hostelería y turismo 
25 	 Actividades físicas y deportivas (incluidas enseñanzas deportivas de grado superior)
26 	 Artes y artesanías
88 	 Estudios artísticos superiores (artes plásticas, diseño, música y danza, arte dramático o conservación y restauración de bienes culturales)
99 	 NS/NC
   	 No aplicable


In [509]:
traduce('EST_B25_FA3',check=False)

In [510]:
re_otros_estudios('EST_B25_FA3','fam_gsup3',3,blank='  ',nsnc='99')

                                                                                                                                                                                                                                                                                                         fam_gsup3_
                                                                                                                                                                                                                                                                                                             unique
n_gsup                                                                                                                                                                                                                                                                                                             
0                                                                           

In [511]:
D_dict['fam_gsup3']=D_dict['fam_gsup1']
traduce('fam_gsup3',check=False)

## 'EST_B26_3'  
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)    

**Momento en que terminó** el tercer ciclo formativo de grado superior (formación profesional, artes plásticas y diseño) o enseñanzas deportivas de grado superior mencionado.

In [512]:
df['EST_B26_3'].unique() # No informados como ' ' 

array([' ', '1', '2', '3'], dtype=object)

In [513]:
traduce('EST_B26_3')

                                                                              aux_traduce
                                                                                   unique
EST_B26_3                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]


In [514]:
re_otros_estudios('EST_B26_3')

[ 1.  2.  3. nan]


## 'EST_B27_3'  
(Solo para quienes declaran haber terminado ciclos formativos de grado superior y/o estudios artísticos
superiores -respuesta 1 en variable 'EST_B11_5' (o 'g_sup') o  en 'EST_B11_4' (o 'est_art')-)    

**Dónde cursó** el tercer ciclo formativo de grado superior (formación profesional, artes plásticas y diseño) o enseñanzas deportivas de grado superior mencionado.

In [515]:
df['EST_B27_3'].unique() # No informados como ' ' 

array([' ', '1', '2'], dtype=object)

In [516]:
traduce('EST_B27_3')

                                                   aux_traduce
                                                        unique
EST_B27_3                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]


In [517]:
re_otros_estudios('EST_B27_3')

[ 1.  2. nan]


In [518]:
actualiza_extr_proxy('EST_B27_3')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B27_3                                                                               
1.0        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]
2.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


In [519]:
for i in range(1,4):
    D_describe['fam_gsup'+str(i)]='Familia de estudios del '+L_ordinal[i-1]+ \
    ' titulo de ciclo formativo o enseñanzas deportivas de grado superior'

## 'EST_B28'  (redefinida como 'n_gmedio')   
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-)  

**Número de ciclos formativos de grado medio** que ha completado.

In [520]:
df['EST_B28'].unique() # No informados como ' '

array([' ', '1', '2', '3'], dtype=object)

In [521]:
traduce('EST_B28')

            aux_traduce
                 unique
EST_B28                
         [No aplicable]
1                 [Uno]
2                [Dos ]
3          [Tres o más]


In [522]:
redefine('EST_B28','n_gmedio')

In [523]:
df[['n_gmedio','g_medio']].groupby('g_medio',dropna=False).agg(['unique']) # Inspección: 

Unnamed: 0_level_0,n_gmedio
Unnamed: 0_level_1,unique
g_medio,Unnamed: 1_level_2
0,[ ]
1,"[1, 2, 3]"


In [524]:
# Se imputa valor 0 a quienes declararon no haber completado ciclos formativos de grado medio: 
df['n_gmedio'].mask(df['g_medio']==0,0,inplace=True)
df['n_gmedio']=df['n_gmedio'].astype('int')
df[['n_gmedio','g_medio']].groupby('g_medio',dropna=False).agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,n_gmedio
Unnamed: 0_level_1,unique
g_medio,Unnamed: 1_level_2
0,[0]
1,"[1, 2, 3]"


In [525]:
# Se establece otros_estudios referido a ciclos formativos de grado medio: 
otros_estudios='n_gmedio'

## 'EST_B29_FA1'  (redefinida como 'fam_gmedio1')   
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-) 

**Familia de estudios** del primer ciclo formativo de grado medio mencionado.

In [526]:
df['EST_B29_FA1'].sort_values().unique() # No informados como '  ' 

array(['  ', '01', '02', '03', '04', '05', '06', '07', '08', '09', '10',
       '12', '13', '14', '16', '17', '18', '19', '20', '21', '22', '23',
       '24', '25', '88', '99'], dtype=object)

In [527]:
traduce('EST_B29_FA1')

                                                                                     aux_traduce
                                                                                          unique
EST_B29_FA1                                                                                     
                                                                                  [No aplicable]
01                                                                                     [Agraria]
02                                                                           [Marítimo-pesquera]
03                                                                    [Industrias alimentarias ]
04                                                                                     [Química]
05                                                                            [Imagen personal ]
06                                                                                    [Sanidad ]
07                            

In [528]:
re_otros_estudios('EST_B29_FA1','fam_gmedio1',1,blank='  ',nsnc='99')

                                                                                                                                                                                                                                                                                                         fam_gmedio1_
                                                                                                                                                                                                                                                                                                               unique
n_gmedio                                                                                                                                                                                                                                                                                                             
0                                                                     

In [529]:
D_dict['fam_gmedio1'][0]='No tiene'
traduce('fam_gmedio1')

                                                                                     aux_traduce
                                                                                          unique
fam_gmedio1                                                                                     
0.0                                                                                   [No tiene]
1.0                                                                                [No conocido]
2.0                                                                          [Marítimo-pesquera]
3.0                                                                   [Industrias alimentarias ]
4.0                                                                                    [Química]
5.0                                                                           [Imagen personal ]
6.0                                                                                   [Sanidad ]
7.0                           

## 'EST_B30_1'  
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-)  

**Momento en que terminó** el primer ciclo formativo de grado medio mencionado.

In [530]:
df['EST_B30_1'].unique() # No informados como ' ' o '9'

array([' ', '1', '3', '2', '9'], dtype=object)

In [531]:
traduce('EST_B30_1')

                                                                              aux_traduce
                                                                                   unique
EST_B30_1                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]
9                                                                                 [NS/NC]


In [532]:
re_otros_estudios('EST_B30_1')

[ 1.  2.  3. nan]


## 'EST_B31_1'  
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-) 

**Dónde cursó** el primer ciclo formativo de grado medio mencionado.

In [533]:
df['EST_B31_1'].unique() # No informados como ' ' o '9'

array([' ', '1', '3', '2', '9'], dtype=object)

In [534]:
traduce('EST_B31_1')

                                                   aux_traduce
                                                        unique
EST_B31_1                                                     
                                                [No aplicable]
1                                    [Completamente en España]
2          [Una parte en España y otra parte en el extranjero]
3                             [Completamente en el extranjero]
9                                                      [NS/NC]


In [535]:
re_otros_estudios('EST_B31_1')

[ 1.  2.  3. nan]


In [536]:
actualiza_extr_proxy('EST_B31_1')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B31_1                                                                               
1.0        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]
2.0                                    [Al menos parte de los estudios en el extranjero]
3.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


## 'EST_B29_FA2'  (redesignada como 'fam_gmedio2')   
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-) 

**Familia de estudios** del segundo ciclo formativo de grado medio mencionado.

In [537]:
df['EST_B29_FA2'].sort_values().unique() # No informados como '  '

array(['  ', '03', '04', '05', '06', '09', '10', '12', '14', '18', '19',
       '21', '22', '23', '24', '25', '88'], dtype=object)

In [538]:
traduce('EST_B29_FA2')

                                                                                     aux_traduce
                                                                                          unique
EST_B29_FA2                                                                                     
                                                                                  [No aplicable]
03                                                                    [Industrias alimentarias ]
04                                                                                     [Química]
05                                                                            [Imagen personal ]
06                                                                                    [Sanidad ]
09                                                                 [Instalación y mantenimiento]
10                                                                  [Electricidad y electrónica]
12                            

In [539]:
re_otros_estudios('EST_B29_FA2','fam_gmedio2',2,blank='  ')

                                                                                                                                                                                                                                                                                                         fam_gmedio2_
                                                                                                                                                                                                                                                                                                               unique
n_gmedio                                                                                                                                                                                                                                                                                                             
0                                                                     

In [540]:
D_dict['fam_gmedio2']=D_dict['fam_gmedio1']
traduce('fam_gmedio2',check=False)

## 'EST_B30_2'  
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-)  

**Momento en que terminó** el segundo ciclo formativo de grado medio mencionado.

In [541]:
df['EST_B30_2'].unique() # No informados como ' ' 

array([' ', '1', '3', '2'], dtype=object)

In [542]:
traduce('EST_B30_2')

                                                                              aux_traduce
                                                                                   unique
EST_B30_2                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]


In [543]:
re_otros_estudios('EST_B30_2')

[ 1.  2.  3. nan]


## 'EST_31_2'  
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-)  

**Dónde cursó** el segundo ciclo formativo de grado medio mencionado.

In [544]:
df['EST_B31_2'].unique() # No informados como ' ' o '9'

array([' ', '1', '3', '9'], dtype=object)

In [545]:
traduce('EST_B31_2')

                                aux_traduce
                                     unique
EST_B31_2                                  
                             [No aplicable]
1                 [Completamente en España]
3          [Completamente en el extranjero]
9                                   [NS/NC]


In [546]:
re_otros_estudios('EST_B31_2')

[ 1.  3. nan]


In [547]:
actualiza_extr_proxy('EST_B31_2')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B31_2                                                                               
1.0        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]
3.0                                    [Al menos parte de los estudios en el extranjero]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


## 'EST_B29_FA3'  (redefinida como 'fam_gmedio3')   
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-) 

**Familia de estudios** del tercer ciclo formativo de grado medio mencionado.

In [548]:
df['EST_B29_FA3'].unique() # No informados como '  '

array(['  ', '06', '23', '25'], dtype=object)

In [549]:
traduce('EST_B29_FA3')

                                                                                     aux_traduce
                                                                                          unique
EST_B29_FA3                                                                                     
                                                                                  [No aplicable]
06                                                                                    [Sanidad ]
23                                                 [Servicios socioculturales y a la comunidad ]
25           [Actividades físicas y deportivas (incluidas enseñanzas deportivas de grado medio)]


In [550]:
re_otros_estudios('EST_B29_FA3','fam_gmedio3',3,blank='  ')

                                                                                                                                        fam_gmedio3_
                                                                                                                                              unique
n_gmedio                                                                                                                                            
0                                                                                                                                              [nan]
1                                                                                                                                              [nan]
2                                                                                                                                              [nan]
3         [Sanidad , Servicios socioculturales y a la comunidad , Actividades físicas y deportivas (inclui

In [551]:
D_dict['fam_gmedio3']=D_dict['fam_gmedio1']
traduce('fam_gmedio3')

                                                                                     aux_traduce
                                                                                          unique
fam_gmedio3                                                                                     
0.0                                                                                   [No tiene]
6.0                                                                                   [Sanidad ]
23.0                                               [Servicios socioculturales y a la comunidad ]
25.0         [Actividades físicas y deportivas (incluidas enseñanzas deportivas de grado medio)]


## 'EST_B30_3'  
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-) 

**Momento en que terminó** el tercer ciclo formativo de grado medio mencionado

In [552]:
df['EST_B30_3'].unique() # No informados como ' ' 

array([' ', '3', '2', '1'], dtype=object)

In [553]:
traduce('EST_B30_3')

                                                                              aux_traduce
                                                                                   unique
EST_B30_3                                                                                
                                                                           [No aplicable]
1                  [Antes de comenzar los estudios de la titulación que finalizó en 2014]
2          [Durante la realización de los estudios de la titulación que finalizó en 2014]
3                                 [Después de obtener la titulación que finalizó en 2014]


In [554]:
re_otros_estudios('EST_B30_3')

[ 1.  2.  3. nan]


## 'EST_B31_3'  
(Solo para quienes declaran haber terminado ciclos formativos de grado medio -respuesta 1 en variable 'EST_B11_6' (o 'g_medio')-)  

**Dónde cursó** el tercer ciclo formativo de grado medio mencionado.

In [555]:
df['EST_B31_3'].unique() # No informados como ' ' 

array([' ', '1'], dtype=object)

In [556]:
traduce('EST_B31_3')

                         aux_traduce
                              unique
EST_B31_3                           
                      [No aplicable]
1          [Completamente en España]


In [557]:
re_otros_estudios('EST_B31_3')

[ 1. nan]


In [558]:
actualiza_extr_proxy('EST_B31_3')

                                                  aux_traduce
                                                       unique
extr_proxy                                                   
0                                [No estudió fuera de España]
1           [Al menos parte de los estudios en el extranjero]
                                                                             extr_proxy_
                                                                                  unique
EST_B31_3                                                                               
1.0                                                         [No estudió fuera de España]
NaN        [No estudió fuera de España, Al menos parte de los estudios en el extranjero]


In [559]:
for i in range(1,4):
    D_describe['fam_gmedio'+str(i)]='Familia de estudios del '+L_ordinal[i-1]+ \
    ' titulo de ciclo formativo de grado medio'

## 'EST2_SA'   

¿Ha realizado o está realizando alguna **formación sanitaria especializada** (MIR, EIR, FIR, PIR, BIR, RFIR, QIR, etc.)?

In [560]:
df['EST2_SA'].unique()

array([' ', '4', '3', '2', '1', '9'], dtype=object)

In [561]:
traduce('EST2_SA')

                                                   aux_traduce
                                                        unique
EST2_SA                                                       
                      [No aplicable (Titulación no sanitaria)]
1                         [Sí, ya ha completado esa formación]
2        [Sí, esta realizando el MIR o EIR o FIR o PIR, … etc]
3               [No, pero está preparando el examen de acceso]
4                                                         [No]
9                                                      [NS/NC]


In [562]:
no_respuesta('EST2_SA')

[ 1.  2.  3.  4. nan]


## 'EST2_NC'   

**Estudios en curso**.

In [563]:
df['EST2_NC'].unique()

array([99,  9,  7,  4,  2,  1,  5,  3,  8,  6])

In [564]:
traduce('EST2_NC',check=False)

In [565]:
leyenda('EST2_NC')

01 	 Grado universitario de 180 créditos (3 años)
02 	 Grado universitario de 240 créditos (4 años)
03 	 Grado universitario de más de 240 créditos (5 años o más)
04 	 Máster universitario
05 	 Doctorado universitario
06 	 Estudios artísticos superiores (artes plásticas, diseño, música y danza, arte dramático o conservación y restauración de bienes culturales)
07 	 Ciclos Formativos de grado superior (formación profesional, artes plásticas y diseño) o Enseñanzas Deportivas de Grado Superior
08 	 Ciclos Formativos de grado medio (formación profesional, artes plásticas y diseño) o Enseñanzas Deportivas de Grado Medio
09 	 No estoy cursando ninguno de los estudios anteriores
99 	 NS/NC


In [566]:
no_respuesta('EST2_NC',nsnc=99, tipo='int')

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. nan]


## 'IDI_MT1'   (redefinida como 'idioma_m1')

**Primer idioma materno**.

In [567]:
df['IDI_MT1'].unique() # Sin no informados

array([ 1,  2,  3,  6,  8,  5,  4, 10, 15, 12,  7,  9, 11, 14, 13])

In [568]:
traduce('IDI_MT1')

             aux_traduce
                  unique
IDI_MT1                 
1              [Español]
2              [Catalán]
3              [Euskera]
4              [Gallego]
5           [Valenciano]
6               [Inglés]
7              [Francés]
8               [Alemán]
9             [Italiano]
10           [Portugués]
11              [Rumano]
12               [Árabe]
13               [Chino]
14                [Ruso]
15       [Otros idiomas]


In [569]:
redefine('IDI_MT1','idioma_m1')

In [570]:
proporciones('IDI_MT1_')

Unnamed: 0,IDI_MT1_
Español,0.857603
Catalán,0.073047
Gallego,0.02139
Euskera,0.020694
Valenciano,0.016461
Otros idiomas,0.003096
Inglés,0.001643
Rumano,0.001137
Francés,0.000948
Árabe,0.000821


## 'IDI_MT2'   (redefinida como 'idioma_m2')

**Segundo idioma materno**.

In [571]:
df['IDI_MT2'].unique() # No informados como '  '

array(['  ', '02', '04', '01', '06', '15', '03', '05', '07', '12', '08',
       '09', '10', '14', '13', '11'], dtype=object)

In [572]:
traduce('IDI_MT2')

             aux_traduce
                  unique
IDI_MT2                 
          [No aplicable]
01             [Español]
02             [Catalán]
03             [Euskera]
04             [Gallego]
05          [Valenciano]
06              [Inglés]
07             [Francés]
08              [Alemán]
09            [Italiano]
10           [Portugués]
11              [Rumano]
12               [Árabe]
13               [Chino]
14                [Ruso]
15       [Otros idiomas]


In [573]:
no_respuesta('IDI_MT2',blank='  ')

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. nan]


In [574]:
redefine('IDI_MT2','idioma_m2')

## 'IDIOMAS'   (redefinida como 'n_idiomas')

**Número de idiomas** que habla sin contar los maternos.

Nota: En 'n_idiomas' se computan también los maternos declarados y se prescinde de la leyenda.

In [575]:
df['IDIOMAS'].unique() # Sin no informados

array([1, 2, 0, 9, 4, 3, 5])

In [576]:
traduce('IDIOMAS')

        aux_traduce
             unique
IDIOMAS            
0         [Ninguno]
1               [1]
2               [2]
3               [3]
4               [4]
5         [5 o más]
9           [NS/NC]


In [577]:
no_respuesta('IDIOMAS',tipo='int')

[ 0.  1.  2.  3.  4.  5. nan]


In [578]:
D_describe['n_idiomas']='Número de idiomas que habla incluidos los maternos'

In [579]:
# Se computan los idiomas maternos y los no maternos declarados: 
df['aux']=1 # Todos los encuestados declaran al menos un idioma materno
# Valor dos si dos idiomas maternos:
df['aux'].mask(df['idioma_m2'].notna(),2,inplace=True) 
df[['aux','idioma_m2']].groupby('idioma_m2', dropna=False).agg(['unique']) # Comprobación

Unnamed: 0_level_0,aux
Unnamed: 0_level_1,unique
idioma_m2,Unnamed: 1_level_2
1.0,[2]
2.0,[2]
3.0,[2]
4.0,[2]
5.0,[2]
6.0,[2]
7.0,[2]
8.0,[2]
9.0,[2]
10.0,[2]


In [580]:
df['n_idiomas']=df['aux']+df['IDIOMAS'].where(df['IDIOMAS'].notna(),0) # Idiomas no maternos si hay dato
a_lista('n_idiomas')
del df['aux']
df[['IDIOMAS_','n_idiomas']].groupby('IDIOMAS_',dropna=False).agg(['unique']) # Comprobación

Unnamed: 0_level_0,n_idiomas
Unnamed: 0_level_1,unique
IDIOMAS_,Unnamed: 1_level_2
1,"[2.0, 3.0]"
2,"[3.0, 4.0]"
3,"[5.0, 4.0]"
4,"[6.0, 5.0]"
5 o más,"[6.0, 7.0]"
Ninguno,"[1.0, 2.0]"
,"[1.0, 2.0]"


In [581]:
proporciones('n_idiomas').sort_values(by='n_idiomas')

Unnamed: 0,n_idiomas
7.0,0.001896
6.0,0.008341
5.0,0.035891
1.0,0.040125
4.0,0.146788
2.0,0.379388
3.0,0.387571


## 'IDIOMA1'  (redefinida como 'idioma1')

(Solo para quienes declaran conocer algún idioma distinto de los maternos -respuesta distinta de 0 en 'IDIOMAS')

**Primer idioma distinto de su lengua materna** que mejor conoce.

In [582]:
df['IDIOMA1'].sort_values().unique() # No informados como '  ' o '99'

array(['  ', '01', '02', '03', '04', '05', '06', '07', '08', '09', '10',
       '11', '12', '13', '14', '15', '99'], dtype=object)

In [583]:
def re_idiomas(col,nuevo=None,si_no=False,redef=True):
    """Procesa las variables referidas a los idiomas no maternos y el nivel de conocimiento de estos. 
    """
    traduce(col)
    reset(col)
    if '  ' in df[col].unique() or '99' in df[col].unique():
        no_respuesta(col,blank='  ',nsnc='99')
    else: 
        no_respuesta(col)
    if redef==True:
        if nuevo==None:
            nuevo=col.lower()
        redefine(col,nuevo,si_no=si_no)
    if str(col)[:-1]=='IDIOMA':
        print(df[[col,'IDIOMAS']].groupby('IDIOMAS').agg(['unique'])) # Inspección de exclusiones
    return

In [584]:
re_idiomas('IDIOMA1')

             aux_traduce
                  unique
IDIOMA1                 
          [No aplicable]
01             [Español]
02             [Catalán]
03             [Euskera]
04             [Gallego]
05          [Valenciano]
06              [Inglés]
07             [Francés]
08              [Alemán]
09            [Italiano]
10           [Portugués]
11              [Rumano]
12               [Árabe]
13               [Chino]
14                [Ruso]
15       [Otros idiomas]
99               [NS/NC]
[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. nan]
                                                                                        IDIOMA1
                                                                                         unique
IDIOMAS                                                                                        
0.0                                                                                       [nan]
1.0            [6.0, 7.0, nan, 3.0, 15.0, 9.0, 1.0

In [585]:
proporciones('idioma1_')
# El inglés es el único idioma no materno más frecuente que no conocer ningún idioma extranjero. 

Unnamed: 0,idioma1_
Inglés,0.781681
,0.067202
Francés,0.037977
Español,0.031974
Catalán,0.022243
Valenciano,0.014944
Euskera,0.012764
Italiano,0.011437
Portugués,0.006603
Alemán,0.005182


## 'NIV_ID1'  (redefinida como 'idioma1_nivel')

(Solo para quienes declaran conocer algún idioma distinto de los maternos -respuesta distinta de 0 en 'IDIOMAS')

**Nivel de conocimiento del primer idioma no materno** que mejor conoce.

In [586]:
df['NIV_ID1'].unique() # No informados como ' ' o '9'

array(['2', '1', ' ', '3', '9'], dtype=object)

In [587]:
re_idiomas('NIV_ID1','idioma1_nivel')

                                                                                              aux_traduce
                                                                                                   unique
NIV_ID1                                                                                                  
                                                                                           [No aplicable]
1        [Nivel alto (Entiende una gran variedad de textos complicados y usa el idioma con flexibilidad)]
2                    [Nivel medio (Entiende lo esencial en el lenguaje común y redacta textos sencillos)]
3                                              [Nivel bajo (Entiende y usa las expresiones más comunes )]
9                                                                                                 [NS/NC]
[ 1.  2.  3. nan]


In [588]:
proporciones('idioma1_nivel_')

Unnamed: 0,idioma1_nivel_
Nivel alto (Entiende una gran variedad de textos complicados y usa el idioma con flexibilidad),0.455341
Nivel medio (Entiende lo esencial en el lenguaje común y redacta textos sencillos),0.402325
,0.074658
Nivel bajo (Entiende y usa las expresiones más comunes ),0.067676


## 'ACREIDI1'  

(Solo para quienes declaran conocer algún idioma distinto de los maternos -respuesta distinta de 0 en 'IDIOMAS')

¿Tiene **acreditación oficial** del primer idioma no materno?

In [589]:
df['ACREIDI1'].unique() # No informados como ' ' o '9'

array(['1', '2', ' ', '9'], dtype=object)

In [590]:
re_idiomas('ACREIDI1',redef=False)

             aux_traduce
                  unique
ACREIDI1                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]
[ 1.  2. nan]


## 'TIPOACREIDI1'  (redefinida como 'idioma1_acred')

(Solo para quienes declaran conocer algún idioma distintos de los maternos -respuesta distinta de 0 en 'IDIOMAS')

Máximo **nivel de acreditación oficial** del primer idioma no materno.

In [591]:
df['TIPOACREIDI1'].sort_values().unique() # No informados como ' ' o '9'

array([' ', '1', '2', '3', '4', '5', '6', '9'], dtype=object)

In [592]:
re_idiomas('TIPOACREIDI1','idioma1_acred')

                                       aux_traduce
                                            unique
TIPOACREIDI1                                      
                                    [No_aplicable]
1             [A1 (DELF A1, Fit in Deutsch 1, ….)]
2              [A2 (DELF A2, Fit in Deutsch 2, …)]
3                       [B1 (PET, DELF B1, ZD, …)]
4                     [B2 (FCE, DELF B2, ZDfB, …)]
5                      [C1 (CAE, DALF C1, PWD, …)]
6                      [C2 (CPE, DALF C2, ZOP, …)]
9                                          [NS/NC]
[ 1.  2.  3.  4.  5.  6. nan]


In [593]:
proporciones('idioma1_acred_',dropna=True)

Unnamed: 0,idioma1_acred_
"B2 (FCE, DELF B2, ZDfB, …)",0.372167
"B1 (PET, DELF B1, ZD, …)",0.264555
"C1 (CAE, DALF C1, PWD, …)",0.258709
"C2 (CPE, DALF C2, ZOP, …)",0.069136
"A2 (DELF A2, Fit in Deutsch 2, …)",0.024875
"A1 (DELF A1, Fit in Deutsch 1, ….)",0.010558


## 'IDIOMA2'  (redefinida como 'idioma2')

(Solo para quienes declaran conocer dos idiomas distintos de los maternos -respuesta mayor que 1 en 'IDIOMAS')

**Segundo idioma distinto de su lengua materna** que mejor conoce.

In [594]:
df['IDIOMA2'].sort_values().unique() # No informados como '  ' o '99'

array(['  ', '01', '02', '03', '04', '05', '06', '07', '08', '09', '10',
       '11', '12', '13', '14', '15', '99'], dtype=object)

In [595]:
re_idiomas('IDIOMA2')

             aux_traduce
                  unique
IDIOMA2                 
          [No aplicable]
01             [Español]
02             [Catalán]
03             [Euskera]
04             [Gallego]
05          [Valenciano]
06              [Inglés]
07             [Francés]
08              [Alemán]
09            [Italiano]
10           [Portugués]
11              [Rumano]
12               [Árabe]
13               [Chino]
14                [Ruso]
15       [Otros idiomas]
99               [NS/NC]
[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. nan]
                                                                                        IDIOMA2
                                                                                         unique
IDIOMAS                                                                                        
0.0                                                                                       [nan]
1.0                                               

## 'NIV_ID2'  (redefinida como 'idioma2_nivel')

(Solo para quienes declaran conocer dos idiomas distintos de los maternos -respuesta mayor que 1 en 'IDIOMAS')

**Nivel de conocimiento del segundo idioma no materno** que mejor conoce.

In [596]:
df['NIV_ID2'].unique() # No informados como ' ' o '9'

array([' ', '2', '3', '1', '9'], dtype=object)

In [597]:
re_idiomas('NIV_ID2','idioma2_nivel')

                                                                                              aux_traduce
                                                                                                   unique
NIV_ID2                                                                                                  
                                                                                           [No aplicable]
1        [Nivel alto (Entiende una gran variedad de textos complicados y usa el idioma con flexibilidad)]
2                    [Nivel medio (Entiende lo esencial en el lenguaje común y redacta textos sencillos)]
3                                              [Nivel bajo (Entiende y usa las expresiones más comunes )]
9                                                                                                 [NS/NC]
[ 1.  2.  3. nan]


## 'ACREIDI2'  

(Solo para quienes declaran conocer dos idiomas distintos de los maternos -respuesta mayor que 1 en 'IDIOMAS')

¿Tiene **acreditación oficial** del segundo idioma no materno?

In [598]:
df['ACREIDI2'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [599]:
re_idiomas('ACREIDI2',redef=False)

             aux_traduce
                  unique
ACREIDI2                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]
[ 1.  2. nan]


## 'TIPOACREIDI2'  (redefinida como 'idioma2_acred')

(Solo para quienes declaran conocer dos idiomas distintos de los maternos -respuesta mayor que 1 en 'IDIOMAS')

Máximo **nivel de acreditación oficial** del segundo idioma no materno.

In [600]:
df['TIPOACREIDI2'].unique() # No informados como ' ' o '9'

array([' ', '3', '4', '5', '6', '2', '9', '1'], dtype=object)

In [601]:
re_idiomas('TIPOACREIDI2','idioma2_acred')

                                       aux_traduce
                                            unique
TIPOACREIDI2                                      
                                    [No_aplicable]
1             [A1 (DELF A1, Fit in Deutsch 1, ….)]
2              [A2 (DELF A2, Fit in Deutsch 2, …)]
3                       [B1 (PET, DELF B1, ZD, …)]
4                     [B2 (FCE, DELF B2, ZDfB, …)]
5                      [C1 (CAE, DALF C1, PWD, …)]
6                      [C2 (CPE, DALF C2, ZOP, …)]
9                                          [NS/NC]
[ 1.  2.  3.  4.  5.  6. nan]


### 'IDIOMA3'  (redefinida como 'idioma3')

(Solo para quienes declaran conocer tres idiomas distintos de los maternos -respuesta mayor que 2 en 'IDIOMAS')

**Tercer idioma distinto de su lengua materna** que mejor conoce.

In [602]:
df['IDIOMA3'].sort_values().unique() # No informados como '  ' o '99'

array(['  ', '01', '02', '03', '04', '05', '06', '07', '08', '09', '10',
       '11', '12', '13', '14', '15', '99'], dtype=object)

In [603]:
re_idiomas('IDIOMA3')

             aux_traduce
                  unique
IDIOMA3                 
          [No aplicable]
01             [Español]
02             [Catalán]
03             [Euskera]
04             [Gallego]
05          [Valenciano]
06              [Inglés]
07             [Francés]
08              [Alemán]
09            [Italiano]
10           [Portugués]
11              [Rumano]
12               [Árabe]
13               [Chino]
14                [Ruso]
15       [Otros idiomas]
99               [NS/NC]
[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. nan]
                                                                                        IDIOMA3
                                                                                         unique
IDIOMAS                                                                                        
0.0                                                                                       [nan]
1.0                                               

## 'NIV_ID3'  (redefinida como 'idioma3_nivel')

(Solo para quienes declaran conocer tres idiomas distintos de los maternos -respuesta mayor que 2 en 'IDIOMAS')

**Nivel de conocimiento del tercer idioma no materno** que mejor conoce.

In [604]:
df['NIV_ID3'].unique() # No informados como ' ' o '9'

array([' ', '2', '3', '1', '9'], dtype=object)

In [605]:
re_idiomas('NIV_ID3','idioma3_nivel')

                                                                                              aux_traduce
                                                                                                   unique
NIV_ID3                                                                                                  
                                                                                           [No aplicable]
1        [Nivel alto (Entiende una gran variedad de textos complicados y usa el idioma con flexibilidad)]
2                    [Nivel medio (Entiende lo esencial en el lenguaje común y redacta textos sencillos)]
3                                              [Nivel bajo (Entiende y usa las expresiones más comunes )]
9                                                                                                 [NS/NC]
[ 1.  2.  3. nan]


## 'ACREIDI3'  

(Solo para quienes declaran conocer tres idiomas distintos de los maternos -respuesta mayor que 2 en 'IDIOMAS')

¿Tiene **acreditación oficial** del tercer idioma no materno?

In [606]:
df['ACREIDI3'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [607]:
re_idiomas('ACREIDI3',redef=False)

             aux_traduce
                  unique
ACREIDI3                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]
[ 1.  2. nan]


## 'TIPOACREIDI3'  (redefinida como 'idioma3_acred')

(Solo para quienes declaran conocer tres idiomas distintos de los maternos -respuesta mayor que 2 en 'IDIOMAS')

Máximo **nivel de acreditación oficial** del tercer idioma no materno.

In [608]:
df['TIPOACREIDI3'].unique() # No informados como ' ' o '9'

array([' ', '4', '3', '2', '5', '1', '6', '9'], dtype=object)

In [609]:
re_idiomas('TIPOACREIDI3','idioma3_acred')

                                       aux_traduce
                                            unique
TIPOACREIDI3                                      
                                    [No_aplicable]
1             [A1 (DELF A1, Fit in Deutsch 1, ….)]
2              [A2 (DELF A2, Fit in Deutsch 2, …)]
3                       [B1 (PET, DELF B1, ZD, …)]
4                     [B2 (FCE, DELF B2, ZDfB, …)]
5                      [C1 (CAE, DALF C1, PWD, …)]
6                      [C2 (CPE, DALF C2, ZOP, …)]
9                                          [NS/NC]
[ 1.  2.  3.  4.  5.  6. nan]


## 'IDIOMA4'  (redefinida como 'idioma4')

(Solo para quienes declaran conocer cuatro idiomas distintos de los maternos -respuesta mayor que 3 en 'IDIOMAS')

**Cuarto idioma distinto de su lengua materna** que mejor conoce.

In [610]:
df['IDIOMA4'].sort_values().unique() # No informados como '  ' o '99'

array(['  ', '01', '02', '03', '04', '05', '06', '07', '08', '09', '10',
       '11', '12', '13', '14', '15', '99'], dtype=object)

In [611]:
re_idiomas('IDIOMA4')

             aux_traduce
                  unique
IDIOMA4                 
          [No aplicable]
01             [Español]
02             [Catalán]
03             [Euskera]
04             [Gallego]
05          [Valenciano]
06              [Inglés]
07             [Francés]
08              [Alemán]
09            [Italiano]
10           [Portugués]
11              [Rumano]
12               [Árabe]
13               [Chino]
14                [Ruso]
15       [Otros idiomas]
99               [NS/NC]
[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. 12. 13. 14. 15. nan]
                                                                                        IDIOMA4
                                                                                         unique
IDIOMAS                                                                                        
0.0                                                                                       [nan]
1.0                                               

## 'NIV_ID4'  (redefinida como 'idioma4_nivel')

(Solo para quienes declaran conocer cuatro idiomas distintos de los maternos -respuesta mayor que 3 en 'IDIOMAS')

**Nivel de conocimiento del cuarto idioma no materno** que mejor conoce.

In [612]:
df['NIV_ID4'].unique() # No informados como ' ' o '9'

array([' ', '3', '2', '1', '9'], dtype=object)

In [613]:
re_idiomas('NIV_ID4','idioma4_nivel')

                                                                                              aux_traduce
                                                                                                   unique
NIV_ID4                                                                                                  
                                                                                           [No aplicable]
1        [Nivel alto (Entiende una gran variedad de textos complicados y usa el idioma con flexibilidad)]
2                    [Nivel medio (Entiende lo esencial en el lenguaje común y redacta textos sencillos)]
3                                              [Nivel bajo (Entiende y usa las expresiones más comunes )]
9                                                                                                 [NS/NC]
[ 1.  2.  3. nan]


## 'ACREIDI4'  

(Solo para quienes declaran conocer cuatro idiomas distintos de los maternos -respuesta mayor que 3 en 'IDIOMAS')

¿Tiene **acreditación oficial** del cuarto idioma no materno?

In [614]:
df['ACREIDI4'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [615]:
re_idiomas('ACREIDI4',redef=False)

             aux_traduce
                  unique
ACREIDI4                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]
[ 1.  2. nan]


## 'TIPOACREIDI4'  (redefinida como 'idioma4_acred')

(Solo para quienes declaran conocer cuatro idiomas distintos de los maternos -respuesta mayor que 3 en 'IDIOMAS')

Máximo **nivel de acreditación oficial** del cuarto idioma no materno.

In [616]:
df['TIPOACREIDI4'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '3', '4', '5', '9', '6'], dtype=object)

In [617]:
re_idiomas('TIPOACREIDI4','idioma4_acred')

                                       aux_traduce
                                            unique
TIPOACREIDI4                                      
                                    [No_aplicable]
1             [A1 (DELF A1, Fit in Deutsch 1, ….)]
2              [A2 (DELF A2, Fit in Deutsch 2, …)]
3                       [B1 (PET, DELF B1, ZD, …)]
4                     [B2 (FCE, DELF B2, ZDfB, …)]
5                      [C1 (CAE, DALF C1, PWD, …)]
6                      [C2 (CPE, DALF C2, ZOP, …)]
9                                          [NS/NC]
[ 1.  2.  3.  4.  5.  6. nan]


In [618]:
for i in range(1,5):
    D_describe['idioma'+str(i)+'_nivel']='Nivel de conocimiento del '+L_ordinal[i-1]+\
    ' idioma no materno que mejor conoce'
    D_describe['idioma'+str(i)+'_acred']='Nivel máximo de acreditación oficial del '+L_ordinal[i-1]+\
    ' idioma no materno que mejor conoce'

### Ajuste en diccionarios de idiomas

In [619]:
# Se añade a los diccionarios de idiomas el código 16  para las lenguas cooficiales ('lengua_cooficial') ...
# ... (por homogeneidad con dataset procedente de encuesta 2014):
for idioma in ['idioma_m1','idioma_m2','idioma1','idioma2','idioma3','idioma4']:
    D_dict[idioma][16]='lengua_cooficial'
    D_dict[idioma]['16']='lengua_cooficial'

## 'TITIDI'  

(Solo para quienes declaran tener acreditación oficial de algún idioma distinto de los maternos -respuesta Sí para alguna variable 'ACREIDIi' (i=1,2,...,4)-)

Tiene título de la **Escuela Oficial de Idiomas**. 

In [620]:
df['TITIDI'].unique() # No informados como ' ' o '9'

array(['2', '1', ' ', '9'], dtype=object)

In [621]:
traduce('TITIDI')

           aux_traduce
                unique
TITIDI                
        [No aplicable]
1                 [Sí]
2                 [No]
9              [NS/NC]


In [622]:
df[['TITIDI_','ACREIDI1_','ACREIDI2_','ACREIDI3_','ACREIDI4_']]\
            .groupby(['ACREIDI1_','ACREIDI2_','ACREIDI3_','ACREIDI4_']).agg(['unique']) #Inspección

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,TITIDI_
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,unique
ACREIDI1_,ACREIDI2_,ACREIDI3_,ACREIDI4_,Unnamed: 4_level_2
No,No,No,No,[No aplicable]
No,No,No,Sí,"[No, Sí]"
No,No,Sí,No,"[No, Sí]"
No,No,Sí,Sí,"[No, Sí]"
No,Sí,No,No,"[Sí, No]"
No,Sí,No,Sí,"[No, Sí]"
No,Sí,Sí,No,"[No, Sí]"
No,Sí,Sí,Sí,"[Sí, No]"
Sí,No,No,No,"[No, Sí]"
Sí,No,No,Sí,"[No, Sí]"


## 'TIC'  (redefinida como 'ti')

Capacidad para usar el ordenador u otros **dispositivos informáticos**.

In [623]:
df['TIC'].unique() # No informados como '9'

array([2, 3, 1, 9])

In [624]:
traduce('TIC')

                                                                                                                                                                                                         aux_traduce
                                                                                                                                                                                                              unique
TIC                                                                                                                                                                                                                 
1    [Usuario de nivel básico (navegar por internet, enviar correos electrónicos, copiar o mover archivos o carpetas, escribir un texto usando un procesador de textos, usar fórmulas simples en hojas de cálculo) ]
2                                   [Usuario de nivel intermedio (dar formato a textos, usar fórmulas más avanzadas y crear gráficos en hojas de cál

In [625]:
no_respuesta('TIC',tipo='int')

[ 1.  2.  3. nan]


In [626]:
# Diccionario abreviado para 'TIC':
for k,v in D_dict['TIC'].items():
    D_dict['TIC'][k]=v.split('(')[0]

In [627]:
redefine('TIC','ti')

In [628]:
proporciones('ti_')

Unnamed: 0,ti_
Usuario de nivel intermedio,0.671069
Usuario de nivel avanzado,0.208398
Usuario de nivel básico,0.118985
,0.001548


## 'EST_B38_1'  

In [629]:
D_describe['EST_B38_1']

'Ha realizado cursos conducentes a Certificado de Profesionalidad Nivel 1'

In [630]:
df['EST_B38_1'].unique() # Sin no informados

array([2, 1])

In [631]:
traduce('EST_B38_1')

          aux_traduce
               unique
EST_B38_1            
1                [Sí]
2                [No]


In [632]:
proporciones('EST_B38_1_')

Unnamed: 0,EST_B38_1_
No,0.965088
Sí,0.034912


In [633]:
reset('EST_B38_1_')

## 'EST_B39_1'  

In [634]:
D_describe['EST_B39_1']

'Le ha sido útil para el trabajo los cursos conducentes a Certificado de Profesionalidad Nivel 1'

In [635]:
df['EST_B39_1'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [636]:
traduce('EST_B39_1')

              aux_traduce
                   unique
EST_B39_1                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]


In [637]:
reset('EST_B39_1_')

## 'EST_B38_2'  

In [638]:
D_describe['EST_B38_2']

'Ha realizado cursos conducentes a Certificado de Profesionalidad Nivel 2'

In [639]:
df['EST_B38_2'].unique() # Sin no informados

array([2, 1])

In [640]:
traduce('EST_B38_2')

          aux_traduce
               unique
EST_B38_2            
1                [Sí]
2                [No]


In [641]:
proporciones('EST_B38_2_')

Unnamed: 0,EST_B38_2_
No,0.980506
Sí,0.019494


In [642]:
reset('EST_B38_2_')

## 'EST_B39_2'  

In [643]:
D_describe['EST_B39_2']

'Le ha sido útil para el trabajo los cursos conducentes a Certificado de Profesionalidad Nivel 2'

In [644]:
df['EST_B39_2'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [645]:
traduce('EST_B39_2')

              aux_traduce
                   unique
EST_B39_2                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]


In [646]:
reset('EST_B39_2_')

### 'EST_B38_3'  

In [647]:
D_describe['EST_B38_3']

'Ha realizado cursos conducentes a Certificado de Profesionalidad Nivel 3'

In [648]:
df['EST_B38_3'].unique() # Sin no informados

array([2, 1])

In [649]:
traduce('EST_B38_3')

          aux_traduce
               unique
EST_B38_3            
1                [Sí]
2                [No]


In [650]:
proporciones('EST_B38_3_')

Unnamed: 0,EST_B38_3_
No,0.967837
Sí,0.032163


In [651]:
reset('EST_B38_3_')

## 'EST_B39_3'  

In [652]:
D_describe['EST_B39_3']

'Le ha sido útil para el trabajo los cursos conducentes a Certificado de Profesionalidad Nivel 3'

In [653]:
df['EST_B39_3'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [654]:
traduce('EST_B39_3')

              aux_traduce
                   unique
EST_B39_3                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]


In [655]:
proporciones('EST_B39_3_')

Unnamed: 0,EST_B39_3_
No aplicable,0.967837
Sí,0.017788
No,0.013996
NS/NC,0.000379


In [656]:
reset('EST_B39_3_')

## 'EST_B38_4'  

In [657]:
D_describe['EST_B38_4']

'Ha realizado otros cursos de Formación Ocupacional de los Servicios Públicos de Empleo'

In [658]:
df['EST_B38_4'].unique() # Sin no informados

array([2, 1])

In [659]:
traduce('EST_B38_4')

          aux_traduce
               unique
EST_B38_4            
1                [Sí]
2                [No]


In [660]:
proporciones('EST_B38_4_')

Unnamed: 0,EST_B38_4_
No,0.888755
Sí,0.111245


In [661]:
reset('EST_B38_4_')

## 'EST_B39_4'  

In [662]:
D_describe['EST_B39_4']

'Le ha sido útil para el trabajo los otros cursos de Formación Ocupacional de los Servicios Públicos de Empleo'

In [663]:
df['EST_B39_4'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [664]:
traduce('EST_B39_4')

              aux_traduce
                   unique
EST_B39_4                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]


In [665]:
proporciones('EST_B39_4_')

Unnamed: 0,EST_B39_4_
No aplicable,0.888755
No,0.057692
Sí,0.052795
NS/NC,0.000758


In [666]:
reset('EST_B39_4_')

## 'EST_B38_5'  

In [667]:
D_describe['EST_B38_5']

'Ha realizado cursos de idiomas'

In [668]:
df['EST_B38_5'].unique() # Sin no informados

array([1, 2])

In [669]:
traduce('EST_B38_5')

          aux_traduce
               unique
EST_B38_5            
1                [Sí]
2                [No]


In [670]:
proporciones('EST_B38_5_')

Unnamed: 0,EST_B38_5_
No,0.536666
Sí,0.463334


In [671]:
reset('EST_B38_5_')

## 'EST_B39_5'  

In [672]:
D_describe['EST_B39_5']

'Le ha sido útil para el trabajo los cursos de idiomas'

In [673]:
df['EST_B39_5'].unique() # No informados como ' ' o '9'

array(['1', ' ', '2', '9'], dtype=object)

In [674]:
traduce('EST_B39_5')

              aux_traduce
                   unique
EST_B39_5                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]


In [675]:
proporciones('EST_B39_5_')

Unnamed: 0,EST_B39_5_
No aplicable,0.536666
Sí,0.263846
No,0.19794
NS/NC,0.001548


In [676]:
reset('EST_B39_5_')

## 'EST_B38_6'  

In [677]:
D_describe['EST_B38_6']

'Ha realizado cursos de informática'

In [678]:
df['EST_B38_6'].unique() # Sin no informados

array([2, 1])

In [679]:
traduce('EST_B38_6')

          aux_traduce
               unique
EST_B38_6            
1                [Sí]
2                [No]


In [680]:
proporciones('EST_B38_6_')

Unnamed: 0,EST_B38_6_
No,0.779375
Sí,0.220625


In [681]:
reset('EST_B38_6_')

## 'EST_B39_6'  

In [682]:
D_describe['EST_B39_6']

'Le ha sido útil para el trabajo los cursos de informática'

In [683]:
df['EST_B39_6'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [684]:
traduce('EST_B39_6')

              aux_traduce
                   unique
EST_B39_6                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]


In [685]:
proporciones('EST_B39_6_')

Unnamed: 0,EST_B39_6_
No aplicable,0.779375
Sí,0.131591
No,0.08777
NS/NC,0.001264


In [686]:
reset('EST_B39_6_')

## 'EST_B38_7'  

In [687]:
D_describe['EST_B38_7']

'Ha realizado otros estudios no reglados'

In [688]:
df['EST_B38_7'].unique() # Sin no informados

array([2, 1])

In [689]:
traduce('EST_B38_7')

          aux_traduce
               unique
EST_B38_7            
1                [Sí]
2                [No]


In [690]:
proporciones('EST_B38_7_')

Unnamed: 0,EST_B38_7_
No,0.560741
Sí,0.439259


In [691]:
reset('EST_B38_7_')

## 'EST_B39_7'  

In [692]:
D_describe['EST_B39_7']

'Le ha sido útil para el trabajo los otros estudios no reglados'

In [693]:
df['EST_B39_7'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [694]:
traduce('EST_B39_7')

              aux_traduce
                   unique
EST_B39_7                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]


In [695]:
proporciones('EST_B39_7_')

Unnamed: 0,EST_B39_7_
No aplicable,0.560741
Sí,0.261698
No,0.169284
NS/NC,0.008278


In [696]:
reset('EST_B39_7_')

# BLOQUE C. MOVILIDAD

Se omite. 

# BLOQUE D. SITUACIÓN ACTUAL DEL GRADUADO UNIVERSITARIO

## 'TRBPRN1'  (redefinida como 'sit_lab')

**Situación laboral** actual.

In [697]:
df['TRBPRN1'].unique() # Sin valores no informados

array([1, 3, 2])

In [698]:
traduce('TRBPRN1')

            aux_traduce
                 unique
TRBPRN1                
1          [Trabajando]
2        [En desempleo]
3            [Inactivo]


In [699]:
no_respuesta('TRBPRN1')

[1. 2. 3.]


In [700]:
redefine('TRBPRN1','sit_lab')

In [701]:
proporciones('sit_lab_')

Unnamed: 0,sit_lab_
Trabajando,0.856971
En desempleo,0.077028
Inactivo,0.066001


## 'TRBPRN2'  (redefinida como 'sit_lab_detalle')

(Solo para quienes declaran **situación de inactividad** -respuesta 3 en 'TRBPRN1' (o 'sit_lab')-)

Tipo de **situación de inactividad**.  

Nota: 'sit_lab_detalle se define para todas las situaciones laborales. Se añadirá el detalle disponible para ocupados y para desempleados.

In [702]:
df['TRBPRN2'].unique() # No informados como ' ' o '9'

array([' ', '1', '4', '5', '9', '2', '3'], dtype=object)

In [703]:
df['TRBPRN2'].value_counts() 
# Hay inactivos con situación de inactividad no informada. Se les imputa 'Otra situación' en 'sit_lab_detalle'.

     29562
1     1383
5      257
4      214
2      107
3       71
9       57
Name: TRBPRN2, dtype: int64

In [704]:
traduce('TRBPRN2')

                                                 aux_traduce
                                                      unique
TRBPRN2                                                     
                                              [No aplicable]
1        [Estudiante (estudiante o preparando oposiciones) ]
2                                                 [Jubilado]
3                               [Incapacitado para trabajar]
4                         [Dedicado a las labores del hogar]
5                                           [Otra situación]
9                                                    [NS/NC]


In [705]:
# Se simplifica el diccionario 'TRBPRN2' para evitar conflictos con encuesta 2014:
D_dict['TRBPRN2'][1]='Estudiante'
D_dict['TRBPRN2']['1']='Estudiante'

In [706]:
no_respuesta('TRBPRN2')

[ 1.  2.  3.  4.  5. nan]


In [707]:
redefine('TRBPRN2','sit_lab_detalle')
D_describe['sit_lab_detalle']='Tipo de situación laboral (detalle)'

In [708]:
# Se imputa 'Otra situación' a NS/NC:
reset('TRBPRN2') # recupera valores no informados 
df['sit_lab_detalle'].mask(df['TRBPRN2']=='9',5,inplace=True)
traduce('sit_lab_detalle',check=False)

In [709]:
df[['sit_lab_','sit_lab_detalle_']].groupby('sit_lab_').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,sit_lab_detalle_
Unnamed: 0_level_1,unique
sit_lab_,Unnamed: 1_level_2
En desempleo,[nan]
Inactivo,"[Estudiante, Dedicado a las labores del hogar, Otra situación, Jubilado, Incapacitado para trabajar]"
Trabajando,[nan]


In [710]:
proporciones('sit_lab_detalle_',dropna=True)

Unnamed: 0,sit_lab_detalle_
Estudiante,0.662039
Otra situación,0.150311
Dedicado a las labores del hogar,0.102441
Jubilado,0.051221
Incapacitado para trabajar,0.033988


In [711]:
# Se añade situación laboral a la variable literal 'sit_lab_detalle_':
df['sit_lab_detalle_']='(Inactivo) '+df['sit_lab_detalle_']
df['sit_lab_detalle_'].unique()

array([nan, '(Inactivo) Estudiante',
       '(Inactivo) Dedicado a las labores del hogar',
       '(Inactivo) Otra situación', '(Inactivo) Jubilado',
       '(Inactivo) Incapacitado para trabajar'], dtype=object)

In [712]:
# Se añade situación laboral al diccionario de 'sit_lab_detalle':
for k in D_dict['sit_lab_detalle'].keys():
    D_dict['sit_lab_detalle'][k]='(Inactivo) '+D_dict['sit_lab_detalle'][k]

In [713]:
leyenda('sit_lab_detalle')

1 	 (Inactivo) Estudiante
2 	 (Inactivo) Jubilado
3 	 (Inactivo) Incapacitado para trabajar
4 	 (Inactivo) Dedicado a las labores del hogar
5 	 (Inactivo) Otra situación
9 	 (Inactivo) NS/NC
  	 (Inactivo) No aplicable


In [714]:
del D_dict['sit_lab_detalle'][9], D_dict['sit_lab_detalle']['9'], D_dict['sit_lab_detalle'][' ']
leyenda('sit_lab_detalle')

1 	 (Inactivo) Estudiante
2 	 (Inactivo) Jubilado
3 	 (Inactivo) Incapacitado para trabajar
4 	 (Inactivo) Dedicado a las labores del hogar
5 	 (Inactivo) Otra situación


## 'TRINAC_D4'  (redefinida como 'busqueda_tr')

(Solo para quienes declaran **situación de inactividad** -respuesta 3 en 'TRBPRN1' (o 'sit_lab')-)

¿Ha **buscado trabajo** desde que se tituló?  

Nota: 'busqueda_tr' se redefine incluyendo esta información para todas las situaciones laborales cuando esté disponible. 

In [715]:
df['TRINAC_D4'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [716]:
traduce('TRINAC_D4')

              aux_traduce
                   unique
TRINAC_D4                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]


In [717]:
df[['sit_lab_','TRINAC_D4']].groupby('sit_lab_',dropna=False).agg(['unique']) # Inspección

Unnamed: 0_level_0,TRINAC_D4
Unnamed: 0_level_1,unique
sit_lab_,Unnamed: 1_level_2
En desempleo,[ ]
Inactivo,"[1, 2, 9]"
Trabajando,[ ]


In [718]:
no_respuesta('TRINAC_D4')

[ 1.  2. nan]


In [719]:
redefine('TRINAC_D4','busqueda_tr',si_no=True)

            aux_traduce
                 unique
busqueda_tr            
0.0                [No]
1.0                [Sí]


In [720]:
proporciones('busqueda_tr_',dropna=True)

Unnamed: 0,busqueda_tr_
Sí,0.781085
No,0.218915


In [721]:
D_describe['busqueda_tr']='¿Ha buscado empleo alguna vez desde que se tituló?'

## 'TRINAC_D5'  

(Solo para quienes declaran **situación de inactividad** -respuesta 3 en 'TRBPRN1' (o 'sit_lab')-)

**Momento en el que empezó a buscar trabajo**.

In [722]:
df['TRINAC_D5'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [723]:
traduce('TRINAC_D5')

                                                                      aux_traduce
                                                                           unique
TRINAC_D5                                                                        
                                                                   [No aplicable]
1            [Antes de acabar los estudios de la titulación que finalizó en 2014]
2          [Después de acabar los estudios de la titulación que finalizó en 2014]
9                                                                         [NS/NC]


In [724]:
no_respuesta('TRINAC_D5')

[ 1.  2. nan]


## 'TRINAC_D6'  

(Solo para quienes declaran **situación de inactividad** -respuesta 3 en 'TRBPRN1' (o 'sit_lab')-)

**Tiempo que ha estado buscando trabajo**.

In [725]:
df['TRINAC_D6'].unique() # No informados como ' ' o '9'

array([' ', '3', '6', '1', '4', '9', '5', '2'], dtype=object)

In [726]:
traduce('TRINAC_D6')

                             aux_traduce
                                  unique
TRINAC_D6                               
                          [No aplicable]
1                  [Menos de tres meses]
2                       [De 3 a 6 meses]
3                   [De 6 meses a 1 año]
4             [De 1 año a año y medio  ]
5          [De 1 año y medio a  2 años ]
6                         [2 ó más años]
9                                [NS/NC]


In [727]:
no_respuesta('TRINAC_D6')

[ 1.  2.  3.  4.  5.  6. nan]


## 'TRPARA_D5'  (complementa la variable  'busqueda_tr)

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

**Momento en el que empezó a buscar trabajo**.

Nota: Se usa esta información para completar la recogida en la variable 'busqueda_tr' (definida inicialmente para graduados en situación de inactividad). 

In [728]:
df['TRPARA_D5'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [729]:
traduce('TRPARA_D5')

                                                                      aux_traduce
                                                                           unique
TRPARA_D5                                                                        
                                                                   [No aplicable]
1            [Antes de acabar los estudios de la titulación que finalizó en 2014]
2          [Después de acabar los estudios de la titulación que finalizó en 2014]
9                                                                         [NS/NC]


In [730]:
df[['sit_lab_','TRPARA_D5_']].groupby('sit_lab_',dropna=False).agg(['unique']) # Inspección

Unnamed: 0_level_0,TRPARA_D5_
Unnamed: 0_level_1,unique
sit_lab_,Unnamed: 1_level_2
En desempleo,"[Después de acabar los estudios de la titulación que finalizó en 2014, Antes de acabar los estudios de la titulación que finalizó en 2014, NS/NC]"
Inactivo,[No aplicable]
Trabajando,[No aplicable]


In [731]:
no_respuesta('TRPARA_D5')

[ 1.  2. nan]


In [732]:
leyenda('busqueda_tr')

0 	 No
1 	 Sí


In [733]:
# Se añaden a 'busqueda_tr' los desempleados que declaran expresamente haber buscado trabajo: 
# (Se procede así en contradicción con la definición formal de desempleado, que requiere búsqueda de empleo).
df['busqueda_tr'].mask((df['TRPARA_D5']==1)|(df['TRPARA_D5']==2),1,inplace=True)
traduce('busqueda_tr',check=False)
df[['busqueda_tr_','TRPARA_D5_']].groupby('TRPARA_D5_',dropna=False).agg(['unique']) # Comprobación

Unnamed: 0_level_0,busqueda_tr_
Unnamed: 0_level_1,unique
TRPARA_D5_,Unnamed: 1_level_2
Antes de acabar los estudios de la titulación que finalizó en 2014,[Sí]
Después de acabar los estudios de la titulación que finalizó en 2014,[Sí]
,"[nan, Sí, No]"


## 'TRPARA_D6'  

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

**Tiempo que ha estado buscando trabajo**.

In [734]:
df['TRPARA_D6'].unique() # No informados como ' ' o '9'

array([' ', '6', '1', '3', '5', '9', '4', '2'], dtype=object)

In [735]:
traduce('TRPARA_D6')

                             aux_traduce
                                  unique
TRPARA_D6                               
                          [No aplicable]
1                  [Menos de tres meses]
2                       [De 3 a 6 meses]
3                   [De 6 meses a 1 año]
4             [De 1 año a año y medio  ]
5          [De 1 año y medio a  2 años ]
6                         [2 ó más años]
9                                [NS/NC]


In [736]:
no_respuesta('TRPARA_D6')

[ 1.  2.  3.  4.  5.  6. nan]


## 'TRPARA_D7_1'  (redefinida como 'btr_internet')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Busca o ha buscado empleo a través de **ofertas de trabajo en el periódico, internet**, etc.?

In [737]:
df['TRPARA_D7_1'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [738]:
# Lista de métodos de búsqueda de empleo entre desempleados: 
L_btr=list()

In [739]:
def btr(col,nuevo):
    """Procesa columnas referidas a métodos de búsqueda de empleo utlizados por los desempleados.
    """
    traduce(col)
    no_respuesta(col)
    redefine(col,nuevo,si_no=True)
    D_describe[nuevo]=D_describe[col].split(':',1)[1].strip()
    L_btr.append(str(nuevo)+'_')
    return

In [740]:
btr('TRPARA_D7_1','btr_internet')

                aux_traduce
                     unique
TRPARA_D7_1                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]
[ 1.  2. nan]
             aux_traduce
                  unique
btr_internet            
0.0                 [No]
1.0                 [Sí]


## 'TRPARA_D7_2'  (redefinida como 'btr_spe')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Busca o ha buscado empleo a través de **servicios públicos de empleo**?

In [741]:
df['TRPARA_D7_2'].unique() # Missing values as ' ' or '9'

array([' ', '2', '1', '9'], dtype=object)

In [742]:
btr('TRPARA_D7_2','btr_spe')

                aux_traduce
                     unique
TRPARA_D7_2                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]
[ 1.  2. nan]
        aux_traduce
             unique
btr_spe            
0.0            [No]
1.0            [Sí]


## 'TRPARA_D7_3'  (redefinida como 'btr_univ')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Busca o ha buscado empleo a través de los **servicios de empleo de la universidad** (bolsa de trabajo, asociaciones de exalumnos, etc.)?

In [743]:
df['TRPARA_D7_3'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [744]:
btr('TRPARA_D7_3','btr_univ')

                aux_traduce
                     unique
TRPARA_D7_3                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]
[ 1.  2. nan]
         aux_traduce
              unique
btr_univ            
0.0             [No]
1.0             [Sí]


## 'TRPARA_D7_4'  (redefinida como 'btr_ett')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Busca o ha buscado empleo a través de **empresas de trabajo temporal**?

In [745]:
df['TRPARA_D7_4'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [746]:
btr('TRPARA_D7_4','btr_ett')

                aux_traduce
                     unique
TRPARA_D7_4                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]
[ 1.  2. nan]
        aux_traduce
             unique
btr_ett            
0.0            [No]
1.0            [Sí]


## 'TRPARA_D7_5'  (redefinida como 'btr_bolsa')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Busca o ha buscado empleo a través de una **bolsa de empleo**?

In [747]:
df['TRPARA_D7_5'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [748]:
btr('TRPARA_D7_5','btr_bolsa')

                aux_traduce
                     unique
TRPARA_D7_5                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]
[ 1.  2. nan]
          aux_traduce
               unique
btr_bolsa            
0.0              [No]
1.0              [Sí]


## 'TRPARA_D7_6'  (redefinida como 'btr_contactos')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Busca o ha buscado empleo buscando ayuda entre profesionales conocidos del sector o **contactos personales** (familia, amigos)?

In [749]:
df['TRPARA_D7_6'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [750]:
btr('TRPARA_D7_6','btr_contactos')

                aux_traduce
                     unique
TRPARA_D7_6                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]
[ 1.  2. nan]
              aux_traduce
                   unique
btr_contactos            
0.0                  [No]
1.0                  [Sí]


## 'TRPARA_D7_7'  (redefinida como 'btr_empresas')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Busca o ha buscado empleo **contactando directamente con las empresas**?

In [751]:
df['TRPARA_D7_7'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [752]:
btr('TRPARA_D7_7','btr_empresas')

                aux_traduce
                     unique
TRPARA_D7_7                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]
[ 1.  2. nan]
             aux_traduce
                  unique
btr_empresas            
0.0                 [No]
1.0                 [Sí]


## 'TRPARA_D7_8'  (redefinida como 'btr_opo')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Está preparando o preparó unas **oposiciones**?

In [753]:
df['TRPARA_D7_8'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [754]:
btr('TRPARA_D7_8','btr_opo')

                aux_traduce
                     unique
TRPARA_D7_8                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]
[ 1.  2. nan]
        aux_traduce
             unique
btr_opo            
0.0            [No]
1.0            [Sí]


## 'TRPARA_D7_9'  (redefinida como 'btr_auto')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Busca o ha buscado equipamiento para establecer un **negocio propio**?

In [755]:
df['TRPARA_D7_9'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [756]:
btr('TRPARA_D7_9','btr_auto')

                aux_traduce
                     unique
TRPARA_D7_9                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]
[ 1.  2. nan]
         aux_traduce
              unique
btr_auto            
0.0             [No]
1.0             [Sí]


## 'TRPARA_D7_10'  (redefinida como 'btr_otro')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Búsqueda de empleo**) ¿Busca o ha buscado empleo de **otro modo**?

In [757]:
df['TRPARA_D7_10'].unique() # No informados como ' ' o '9'

array([' ', '2', '9', '1'], dtype=object)

In [758]:
btr('TRPARA_D7_10','btr_otro')

                 aux_traduce
                      unique
TRPARA_D7_10                
              [No aplicable]
1                       [Sí]
2                       [No]
9                    [NS/NC]
[ 1.  2. nan]
         aux_traduce
              unique
btr_otro            
0.0             [No]
1.0             [Sí]


In [759]:
for col in L_btr:
    col=str(col).strip('_')
    print (col,'\t',D_describe[col])

btr_internet 	 Búsqueda de empleo: a través de ofertas de trabajo en el periódico,  internet…
btr_spe 	 Búsqueda de empleo: a través de los servicios públicos de empleo
btr_univ 	 Búsqueda de empleo: a través de los servicios de empleo de la universidad (bolsa de trabajo, asociaciones de exalumnos, ...)
btr_ett 	 Búsqueda de empleo: a través de empresas de trabajo temporal
btr_bolsa 	 Búsqueda de empleo: a través de una bolsa de empleo
btr_contactos 	 Búsqueda de empleo: buscando ayuda entre profesionales conocidos del sector o contactos personales (familia, amigos)
btr_empresas 	 Búsqueda de empleo: contactando directamente con las empresas
btr_opo 	 Búsqueda de empleo: esta preparando o preparó unas oposiciones
btr_auto 	 Búsqueda de empleo: buscando equipamiento para establecer su propio negocio
btr_otro 	 Búsqueda de empleo: otra forma


In [760]:
df[L_btr].apply(lambda x: x.value_counts(normalize=True))
# Las iniciativas de búsqueda de empleo más frecuentes entre los desempleados son, por este orden: ...
# ... anuncios de ofertas de trabajo, servicios públicos de empleo, contacto directo con empresas y ...
# ... contactos personales. 

Unnamed: 0,btr_internet_,btr_spe_,btr_univ_,btr_ett_,btr_bolsa_,btr_contactos_,btr_empresas_,btr_opo_,btr_auto_,btr_otro_
No,0.144638,0.394431,0.662926,0.631754,0.571488,0.4202,0.401081,0.594763,0.908146,0.988362
Sí,0.855362,0.605569,0.337074,0.368246,0.428512,0.5798,0.598919,0.405237,0.091854,0.011638


## 'TRPARA_D8_1'  (redefinida como 'dbtr_formacion')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Dificultades para encontrar empleo**) Importancia que atribuye a las **carencias en la formación universitaria recibida** en cuanto a sus dificultades para encontrar trabajo.

In [761]:
df['TRPARA_D8_1'].unique() # No informados como ' ' o '9'

array([' ', '4', '2', '3', '1', '9'], dtype=object)

In [762]:
# Lista de factores que son una dificultad para encontrar empleo: 
L_dbtr=list()

In [763]:
def dbtr(col,nuevo):
    """Procesa columnas referidas a las dificultades en la búsqueda de trabajo para los desempleados.
    """
    traduce(col)
    no_respuesta(col)
    redefine(col,nuevo)
    D_describe[nuevo]=D_describe[col].split(':',1)[1].strip()
    L_dbtr.append(str(nuevo)+'_')
    return

In [764]:
dbtr('TRPARA_D8_1','dbtr_formacion')

                       aux_traduce
                            unique
TRPARA_D8_1                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]
[ 1.  2.  3.  4. nan]


## 'TRPARA_D8_2'  (redefinida como 'dbtr_personales')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Dificultades para encontrar empleo**) Importancia que atribuye a las **actividades personales** que impiden trabajar (seguir estudiando, familia, otras) en cuanto a sus dificultades para encontrar trabajo.

In [765]:
df['TRPARA_D8_2'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '4', '3', '9'], dtype=object)

In [766]:
dbtr('TRPARA_D8_2','dbtr_personales')

                       aux_traduce
                            unique
TRPARA_D8_2                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]
[ 1.  2.  3.  4. nan]


## 'TRPARA_D8_3'  (redefinida como 'dbtr_experiencia')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Dificultades para encontrar empleo**) Importancia que atribuye a la **falta de experiencia profesional** en cuanto a sus dificultades para encontrar trabajo.

In [767]:
df['TRPARA_D8_3'].unique() # No informados como ' ' o '9'

array([' ', '3', '2', '4', '1', '9'], dtype=object)

In [768]:
dbtr('TRPARA_D8_3','dbtr_experiencia')

                       aux_traduce
                            unique
TRPARA_D8_3                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]
[ 1.  2.  3.  4. nan]


## 'TRPARA_D8_4'  (redefinida como 'dbtr_expectativas')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Dificultades para encontrar empleo**) Importancia que atribuye a la **exigencia de tener un trabajo acorde con sus expectativas** económicas y profesionales en cuanto a sus dificultades para encontrar trabajo.

In [769]:
df['TRPARA_D8_4'].unique() # No informados como ' ' o '9'

array([' ', '2', '4', '3', '1', '9'], dtype=object)

In [770]:
dbtr('TRPARA_D8_4','dbtr_expectativas')

                       aux_traduce
                            unique
TRPARA_D8_4                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]
[ 1.  2.  3.  4. nan]


## 'TRPARA_D8_5'  (redefinida como 'dbtr_idiomas')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Dificultades para encontrar empleo**) Importancia que atribuye a la **falta de conocimientos de idiomas** en cuanto a sus dificultades para encontrar trabajo.

In [771]:
df['TRPARA_D8_5'].unique() # No informados como ' ' o '9'

array([' ', '4', '2', '3', '1', '9'], dtype=object)

In [772]:
dbtr('TRPARA_D8_5','dbtr_idiomas')

                       aux_traduce
                            unique
TRPARA_D8_5                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]
[ 1.  2.  3.  4. nan]


## 'TRPARA_D8_6'  (redefinida como 'dbtr_ti')

(Solo para quienes declaran **situación de desempleo** -respuesta 2 en 'TRBPRN1' (o 'sit_lab')-)

(**Dificultades para encontrar empleo**) Importancia que atribuye a la **falta de conocimientos informáticos** en cuanto a sus dificultades para encontrar trabajo.

In [773]:
df['TRPARA_D8_6'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '4', '3', '9'], dtype=object)

In [774]:
dbtr('TRPARA_D8_6','dbtr_ti')

                       aux_traduce
                            unique
TRPARA_D8_6                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]
[ 1.  2.  3.  4. nan]


In [775]:
for col in L_dbtr:
    col=str(col).strip('_')
    print (col,'\t',D_describe[col])

dbtr_formacion 	 Dificultades para encontrar empleo: carencias en la formación universitaria recibida
dbtr_personales 	 Dificultades para encontrar empleo: actividades personales que impiden trabajar (seguir estudiando, familia, otras...)
dbtr_experiencia 	 Dificultades para encontrar empleo: falta de experiencia profesional
dbtr_expectativas 	 Dificultades para encontrar empleo: exigencia de tener un trabajo acorde con sus expectativas económicas, profesionales,...
dbtr_idiomas 	 Dificultades para encontrar empleo: falta de conocimientos de idiomas
dbtr_ti 	 Dificultades para encontrar empleo: falta de conocimientos informáticos


In [776]:
# Proporciones de respuestas sobre grado de importancia de cada dificultad en la búsqueda de trabajo:
df_dbtr=df[L_dbtr].apply(lambda x:x.value_counts(normalize=True))
# Para ordenar la salida según orden de importancia:
D_aux=dict()
for k,v in D_dict['dbtr_ti'].items():
    if k in range(1,5):
        D_aux[v]=k
df_dbtr['aux']=pd.Series(D_aux)

In [777]:
df_dbtr.sort_values('aux')
# La dificultad para encontrar empleo más mencionada como muy importante por los graduados desempleados es la ...
# ... falta de experiencia profesional. Le sigue las expectativas personales y profesionales, para la que 
# ... la valoración más frecuente es 'bastente importante'.

Unnamed: 0,dbtr_formacion_,dbtr_personales_,dbtr_experiencia_,dbtr_expectativas_,dbtr_idiomas_,dbtr_ti_,aux
Nada importante,0.267979,0.373932,0.094835,0.102171,0.250213,0.384384,1
Poco importante,0.33262,0.279915,0.15199,0.235419,0.342442,0.409266,2
Bastante importante,0.226884,0.203419,0.267146,0.344828,0.238258,0.140283,3
Muy importante,0.172517,0.142735,0.486029,0.317582,0.169086,0.066066,4


In [778]:
df_dbtr.rank(ascending=False).sort_values('aux',ascending=False)
# Ninguna otra dificultad tiene como valoración más frecuente 'bastante importante' o 'muy importante'.
# Las valoraciones de las carencias de formación, los idiomas y la informática tienen el ...
# ... mismo orden de frecuencias: la respuesta más frecuente es poco importante, seguido de nada, bastante y ...
# ... muy importante. 

Unnamed: 0,dbtr_formacion_,dbtr_personales_,dbtr_experiencia_,dbtr_expectativas_,dbtr_idiomas_,dbtr_ti_,aux
Nada importante,2.0,1.0,4.0,4.0,2.0,2.0,4.0
Poco importante,1.0,2.0,3.0,3.0,1.0,1.0,3.0
Bastante importante,3.0,3.0,2.0,1.0,3.0,3.0,2.0
Muy importante,4.0,4.0,1.0,2.0,4.0,4.0,1.0


## 'TRAC_D9'  

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-)  

Actualmente trabaja en **más de un empleo**.

In [779]:
df['TRAC_D9'].unique() # No informados como ' ' o '9'

array(['2', ' ', '1', '9'], dtype=object)

In [780]:
traduce('TRAC_D9')

            aux_traduce
                 unique
TRAC_D9                
         [No aplicable]
1                  [Sí]
2                  [No]
9               [NS/NC]


In [781]:
no_respuesta('TRAC_D9')

[ 1.  2. nan]


In [782]:
proporciones('TRAC_D9_',dropna=True)

Unnamed: 0,TRAC_D9_
No,0.909014
Sí,0.090986


## 'LUG_TRAB_PAIS'  (redefinida como 'pais_tr')

(Solo para quienes declaran situación de ocupación -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-)  

**País de trabajo** actual.

In [783]:
df['LUG_TRAB_PAIS'].unique() # No informados como '  ' o '99'

array(['01', '  ', '05', '07', '02', '08', '03', '10', '11', '06', '04',
       '09', '99'], dtype=object)

In [784]:
traduce('LUG_TRAB_PAIS')

                                                  aux_traduce
                                                       unique
LUG_TRAB_PAIS                                                
                                               [No aplicable]
01                                                   [España]
02                                              [Reino Unido]
03                                                 [Alemania]
04                                                  [Francia]
05                            [Otro país de la Unión Europea]
06                       [Otro país europeo (fuera de la UE)]
07                             [Un país de América del Norte]
08             [Un país de América Central o América del Sur]
09                                          [Un país de Asia]
10                                        [Un país de África]
11                                       [Un país de Oceanía]
99                                                    [NS/NC]


In [785]:
no_respuesta('LUG_TRAB_PAIS',blank='  ',nsnc='99')

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. nan]


In [786]:
redefine('LUG_TRAB_PAIS','pais_tr')

In [787]:
proporciones('pais_tr_',dropna=True)

Unnamed: 0,pais_tr_
España,0.939086
Reino Unido,0.017478
Otro país de la Unión Europea,0.015155
Alemania,0.00719
Francia,0.00483
Un país de América del Norte,0.00472
Otro país europeo (fuera de la UE),0.004388
Un país de América Central o América del Sur,0.003024
Un país de Asia,0.001991
Un país de Oceanía,0.001586


## 'SIT_PRO'  (actualiza la variable 'sit_lab_detalle')

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-)  

**Situación profesional** actual.

In [788]:
df['SIT_PRO'].unique() # No informados como ' ' 

array(['2', '3', ' ', '1', '4', '5', '6'], dtype=object)

In [789]:
traduce('SIT_PRO')

                                                                              aux_traduce
                                                                                   unique
SIT_PRO                                                                                  
                                                                           [No aplicable]
1               [Trabajador en prácticas, formación (incluido MIR, EIR, FIR,…) o becario]
2        [Asalariado con trabajo permanente o contrato de trabajo de duración indefinida]
3         [Asalariado con trabajo temporal o contrato de trabajo de duración determinada]
4                                                            [Empresario con asalariados]
5                                 [Trabajador independiente o empresario sin asalariados]
6                                                [Ayuda en la empresa o negocio familiar]


In [790]:
no_respuesta('SIT_PRO')

[ 1.  2.  3.  4.  5.  6. nan]


In [791]:
proporciones('SIT_PRO_',dropna=True)

Unnamed: 0,SIT_PRO_
Asalariado con trabajo permanente o contrato de trabajo de duración indefinida,0.573588
Asalariado con trabajo temporal o contrato de trabajo de duración determinada,0.279162
Trabajador independiente o empresario sin asalariados,0.067542
"Trabajador en prácticas, formación (incluido MIR, EIR, FIR,…) o becario",0.055597
Empresario con asalariados,0.018065
Ayuda en la empresa o negocio familiar,0.006046


In [792]:
leyenda('sit_lab')

1 	 Trabajando
2 	 En desempleo
3 	 Inactivo


In [793]:
# Se actualiza la variable 'sit_lab_detalle_' (solo la literal para no reescribir los códigos de la variable ...
# ... discreta)
df['sit_lab_detalle_'].mask(df['sit_lab']==1,'(Ocupado) '+df['SIT_PRO_'],inplace=True)
df['sit_lab_detalle_'].mask(df['sit_lab']==2,'Desempleado',inplace=True)
df[['sit_lab_detalle_','sit_lab_']].groupby('sit_lab_',dropna=False).agg(['unique']) # Comprobación

Unnamed: 0_level_0,sit_lab_detalle_
Unnamed: 0_level_1,unique
sit_lab_,Unnamed: 1_level_2
En desempleo,[Desempleado]
Inactivo,"[(Inactivo) Estudiante, (Inactivo) Dedicado a las labores del hogar, (Inactivo) Otra situación, (Inactivo) Jubilado, (Inactivo) Incapacitado para trabajar]"
Trabajando,"[(Ocupado) Asalariado con trabajo permanente o contrato de trabajo de duración indefinida, (Ocupado) Asalariado con trabajo temporal o contrato de trabajo de duración determinada, (Ocupado) Trabajador en prácticas, formación (incluido MIR, EIR, FIR,…) o becario, (Ocupado) Empresario con asalaria..."


### Actualización del diccionario para 'sit_lab_detalle'

In [794]:
leyenda('sit_lab_detalle')

1 	 (Inactivo) Estudiante
2 	 (Inactivo) Jubilado
3 	 (Inactivo) Incapacitado para trabajar
4 	 (Inactivo) Dedicado a las labores del hogar
5 	 (Inactivo) Otra situación


In [795]:
leyenda('SIT_PRO')

1 	 Trabajador en prácticas, formación (incluido MIR, EIR, FIR,…) o becario
2 	 Asalariado con trabajo permanente o contrato de trabajo de duración indefinida
3 	 Asalariado con trabajo temporal o contrato de trabajo de duración determinada
4 	 Empresario con asalariados
5 	 Trabajador independiente o empresario sin asalariados
6 	 Ayuda en la empresa o negocio familiar
  	 No aplicable


In [796]:
# Se actualiza el diccionario para 'sit_lab_detalle':
D_dict['sit_lab_detalle'][6]='Desempleado'
D_dict['sit_lab_detalle']['6']='Desempleado'
for k in D_dict['SIT_PRO'].keys():
    if type(k)==int:
        D_dict['sit_lab_detalle'][k+6]='(Ocupado) '+D_dict['SIT_PRO'][k]
        D_dict['sit_lab_detalle'][str(k+6)]='(Ocupado) '+D_dict['SIT_PRO'][k]
leyenda('sit_lab_detalle') # Comprobación: 

1 	 (Inactivo) Estudiante
2 	 (Inactivo) Jubilado
3 	 (Inactivo) Incapacitado para trabajar
4 	 (Inactivo) Dedicado a las labores del hogar
5 	 (Inactivo) Otra situación
6 	 Desempleado
7 	 (Ocupado) Trabajador en prácticas, formación (incluido MIR, EIR, FIR,…) o becario
8 	 (Ocupado) Asalariado con trabajo permanente o contrato de trabajo de duración indefinida
9 	 (Ocupado) Asalariado con trabajo temporal o contrato de trabajo de duración determinada
10 	 (Ocupado) Empresario con asalariados
11 	 (Ocupado) Trabajador independiente o empresario sin asalariados
12 	 (Ocupado) Ayuda en la empresa o negocio familiar


### Reconstrucción de la variable discreta 'sit_lab_detalle' a partir de la literal 'sit_lab_detalle_'
En este punto las variables 'sit_lab_detalle' (discreta) y 'sit_lab_detalle_' (literal) están desacompasadas: las categorías correspondientes a desempleados y ocupados solo se han añadido a la variable literal. Se hizo así para evitar sobreescribir los códigos correspondientes a los inactivos en la variable discreta.   
A continuación se emplea un diccionario inverso para actualizar la variable 'sit_lab_detalle'. 

In [797]:
# Diccionario inverso auxiliar para sit_lab_detalle: 
D_inv_aux=dict()
for k,v in D_dict['sit_lab_detalle'].items(): 
    if type(k)==int: 
        D_inv_aux[v]=k        
        print (v,D_inv_aux[v]) # Comprobación

(Inactivo) Estudiante 1
(Inactivo) Jubilado 2
(Inactivo) Incapacitado para trabajar 3
(Inactivo) Dedicado a las labores del hogar 4
(Inactivo) Otra situación 5
Desempleado 6
(Ocupado) Trabajador en prácticas, formación (incluido MIR, EIR, FIR,…) o becario 7
(Ocupado) Asalariado con trabajo permanente o contrato de trabajo de duración indefinida 8
(Ocupado) Asalariado con trabajo temporal o contrato de trabajo de duración determinada 9
(Ocupado) Empresario con asalariados 10
(Ocupado) Trabajador independiente o empresario sin asalariados 11
(Ocupado) Ayuda en la empresa o negocio familiar 12


In [798]:
df['sit_lab_detalle']=df['sit_lab_detalle_'].replace(D_inv_aux)
df[['sit_lab_detalle','sit_lab_detalle_','sit_lab_']].groupby('sit_lab_detalle').agg(['unique']) # Comprobación: 

Unnamed: 0_level_0,sit_lab_detalle_,sit_lab_
Unnamed: 0_level_1,unique,unique
sit_lab_detalle,Unnamed: 1_level_2,Unnamed: 2_level_2
1,[(Inactivo) Estudiante],[Inactivo]
2,[(Inactivo) Jubilado],[Inactivo]
3,[(Inactivo) Incapacitado para trabajar],[Inactivo]
4,[(Inactivo) Dedicado a las labores del hogar],[Inactivo]
5,[(Inactivo) Otra situación],[Inactivo]
6,[Desempleado],[En desempleo]
7,"[(Ocupado) Trabajador en prácticas, formación (incluido MIR, EIR, FIR,…) o becario]",[Trabajando]
8,[(Ocupado) Asalariado con trabajo permanente o contrato de trabajo de duración indefinida],[Trabajando]
9,[(Ocupado) Asalariado con trabajo temporal o contrato de trabajo de duración determinada],[Trabajando]
10,[(Ocupado) Empresario con asalariados],[Trabajando]


In [799]:
traduce('sit_lab_detalle') 

                                                                                                aux_traduce
                                                                                                     unique
sit_lab_detalle                                                                                            
1                                                                                   [(Inactivo) Estudiante]
2                                                                                     [(Inactivo) Jubilado]
3                                                                   [(Inactivo) Incapacitado para trabajar]
4                                                             [(Inactivo) Dedicado a las labores del hogar]
5                                                                               [(Inactivo) Otra situación]
6                                                                                             [Desempleado]
7                       [(Oc

## 'JORNADA'  (redefinida como 'jornada')

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-)  

Tipo de **jornada laboral** actual.

In [800]:
df['JORNADA'].unique() # No informados como ' ' 

array(['2', ' ', '1'], dtype=object)

In [801]:
traduce('JORNADA')

                 aux_traduce
                      unique
JORNADA                     
                       [nan]
1         [A tiempo parcial]
2        [A tiempo completo]


In [802]:
no_respuesta('JORNADA')

[ 1.  2. nan]


In [803]:
redefine('JORNADA')

In [804]:
proporciones('jornada_',dropna=True)

Unnamed: 0,jornada_
A tiempo completo,0.861341
A tiempo parcial,0.138659


## 'TRABOC' (redefinida como 'ocupacion')

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-)  

**Ocupación** que desempeña en el puesto de trabajo actual.

Nota: Se abrevia el diccionario de ocupaciones 2019. Se conserva el original como D_dict['ocupacion_original'] para comprobar correcciones en el dataset procedente de la encuesta de 2014

In [805]:
df['TRABOC'].sort_values().unique() # No informados como '  ' o '99'

array(['  ', '00', '11', '12', '13', '14', '15', '21', '22', '23', '24',
       '25', '26', '27', '28', '29', '31', '32', '33', '34', '35', '36',
       '37', '38', '41', '42', '43', '44', '45', '50', '51', '52', '53',
       '54', '55', '56', '57', '58', '59', '61', '62', '63', '64', '71',
       '72', '73', '74', '75', '76', '77', '78', '81', '82', '83', '84',
       '91', '92', '93', '94', '95', '96', '97', '98', '99'], dtype=object)

In [806]:
df['TRABOC'].nunique() 

64

In [807]:
#leyenda('TRABOC')

In [808]:
no_respuesta('TRABOC',blank='  ',nsnc='99')

[ 0. 11. 12. 13. 14. 15. 21. 22. 23. 24. 25. 26. 27. 28. 29. 31. 32. 33.
 34. 35. 36. 37. 38. 41. 42. 43. 44. 45. 50. 51. 52. 53. 54. 55. 56. 57.
 58. 59. 61. 62. 63. 64. 71. 72. 73. 74. 75. 76. 77. 78. 81. 82. 83. 84.
 91. 92. 93. 94. 95. 96. 97. 98. nan]


In [809]:
# Se abrevia el diccionario de ocupaciones 2019. Se conserva el original como D_dict['TRABOC'] ...
# ... para comprobar correcciones en el dataset procedente de la encuesta de 2014
# Diccionario abreviado de ocupaciones:
D_ocupaciones=dict()
D_ocupaciones[0]='Ocupaciones militares'
D_ocupaciones[11]='Política y dirección Admón Pública'
D_ocupaciones[12]='Directores Admón y comerciales'
D_ocupaciones[13]='Directores producción y operaciones'
D_ocupaciones[14]='Gerentes hostelería y comercio'
D_ocupaciones[15]='Gerentes en servicios excepto hostelería y comercio'
D_ocupaciones[21]='Profesionales sanitarios'
D_ocupaciones[22]='Profesionales de la enseñanza'
D_ocupaciones[23]='Profesionales de la eduación especial y no reglada'
D_ocupaciones[24]='Profesionales de las ciencias, matemáticas e ingeniería'
D_ocupaciones[25]='Profesionales del derecho'
D_ocupaciones[26]='Expertos en gestión, finanzas, comercio, etc'
D_ocupaciones[27]='Profesionales TI'
D_ocupaciones[28]='Profesionales de las ciencias sociales'
D_ocupaciones[29]='Profesionales de la cultura y el espectáculo'
D_ocupaciones[31]='Técnicos ciencias e ingenierías'
D_ocupaciones[32]='Supervisores ingeniería, industria y construcción'
D_ocupaciones[33]='Técnicos sanitarios y laboratorio'
D_ocupaciones[34]='Profesionales de apoyo finanzas y matemáticas'
D_ocupaciones[35]='Representantes e intermediarios'
D_ocupaciones[36]='Profesionales de apoyo a la gestión administrativa'
D_ocupaciones[37]='Profesionales de apoyo servicios jurídicos, socio-culturales, deportivos'
D_ocupaciones[38]='Técnicos TI'
D_ocupaciones[41]='Empleados servicios financieros, contables y de apoyo'
D_ocupaciones[42]='Empleados bibliotecas, correos, etc'
D_ocupaciones[43]='Empleados administrativos sin atención al público'
D_ocupaciones[44]='Telefonista, recepcionista, telefonista, agencias de viaje, etc'
D_ocupaciones[45]='Otros empleados administrativos con atención al público'
D_ocupaciones[50]='Camareros y cocineros propietarios'
D_ocupaciones[51]='Asalariados servicios de restauración'
D_ocupaciones[52]='Dependientes de comercio'
D_ocupaciones[53]='Comerciantes propietarios de tiendas '
D_ocupaciones[54]='Vendedores excepto comercio'
D_ocupaciones[55]='Cajeros y taquilleros excepto bancos'
D_ocupaciones[56]='Trabajadores servicios de cuidados de salud'
D_ocupaciones[57]='Trabajadores servicios de cuidados no de salud'
D_ocupaciones[58]='Trabajadores servicios personales'
D_ocupaciones[59]='Trabajadores protección y seguridad'
D_ocupaciones[61]='Trabajadores cualificados agricultura'
D_ocupaciones[62]='Trabajadores cualificados ganadería'
D_ocupaciones[63]='Trabajadores cualificados act. agropecuaria'
D_ocupaciones[64]='Trabajadores cualif act forestales, pesqueras, cinegéticas'
D_ocupaciones[71]='Trabajadores construcción y afines: estructura'
D_ocupaciones[72]='Trabajadores construcción e instalaciones: acabado'
D_ocupaciones[73]='Soldadores, chapistas, montadores de estructuras'
D_ocupaciones[74]='Mecánicos y ajustadores de maquinaria'
D_ocupaciones[75]='Trabajadores especializados electricidad y electrotecnología'
D_ocupaciones[76]='Mecánicos de precisión, artesanos y artes gráficas'
D_ocupaciones[77]='Trabajadores ind alimentación, bebidas y tabaco'
D_ocupaciones[78]='Trabajadores madera, textil, confección, piel y cuero'
D_ocupaciones[81]='Operadores de instalaciones y maquinaria fija'
D_ocupaciones[82]='Montadores y ensambladores en fábricas'
D_ocupaciones[83]='Maquinistas de equipos pesados móviles'
D_ocupaciones[84]='Conductores vehículos transporte urbano o carretera'
D_ocupaciones[91]='Empleados domésticos'
D_ocupaciones[92]='Personal de limpieza de establecimientos y vehículos'
D_ocupaciones[93]='Ayudantes de preparación de alimentos'
D_ocupaciones[94]='Recogedores residuos urbanos y ocupaciones elementales servicios'
D_ocupaciones[95]='Peones agrarios, forestales y pesca'
D_ocupaciones[96]='Peones de construcción y minería'
D_ocupaciones[97]='Peones de industrias manufactureras'
D_ocupaciones[98]='Peones de transporte, descargadores y reponedores'

In [810]:
df['ocupacion']=df['TRABOC']
df['ocupacion_']=df['ocupacion'].replace(D_ocupaciones)

In [811]:
a_lista('ocupacion')
v_modelos_L.append('ocupacion_')

In [812]:
df['ocupacion_'].value_counts(dropna=False)
# La categoría más numerosa es la de valores no informados. La mayoría son desempleados o inactivos.

NaN                                                           4563
Profesionales de la enseñanza                                 4216
Profesionales sanitarios                                      3375
Profesionales de las ciencias, matemáticas e ingeniería       2907
Expertos en gestión, finanzas, comercio, etc                  1733
                                                              ... 
Trabajadores cualificados ganadería                             11
Trabajadores cualif act forestales, pesqueras, cinegéticas       9
Empleados domésticos                                             9
Camareros y cocineros propietarios                               4
Trabajadores cualificados act. agropecuaria                      2
Name: ocupacion_, Length: 63, dtype: int64

In [813]:
df['ocupacion_'][df['sit_lab']==1 & df['ocupacion'].isna()].value_counts(dropna=False)
# Ocupación no informada solo para 36 trabajadores en activo

NaN    36
Name: ocupacion_, dtype: int64

In [814]:
dist_condicionada('ocupacion_','sexo_')

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas ocupacion_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
ocupacion_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Asalariados servicios de restauración,0.013359,0.009139,0.011518,+15.98%,-20.65%
Ayudantes de preparación de alimentos,0.001048,0.000338,0.000738,+41.91%,-54.15%
Cajeros y taquilleros excepto bancos,0.003602,0.001354,0.002621,+37.41%,-48.34%
Camareros y cocineros propietarios,0.000131,0.000169,0.000148,-11.31%,+14.61%
Comerciantes propietarios de tiendas,0.000851,0.000931,0.000886,-3.92%,+5.06%
Conductores vehículos transporte urbano o carretera,0.000524,0.003554,0.001846,-71.62%,+92.55%
Dependientes de comercio,0.02842,0.012186,0.021338,+33.19%,-42.89%
Directores Admón y comerciales,0.016633,0.022764,0.019307,-13.85%,+17.90%
Directores producción y operaciones,0.008382,0.020902,0.013844,-39.45%,+50.99%
Empleados administrativos sin atención al público,0.043743,0.028264,0.036991,+18.25%,-23.59%


## 'TR_CNAE' (redefinida como 'cnae')

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-)  

**Actividad principal de la empresa** donde trabaja actualmente.  
Nota: se recodifica la variable 'cnae' para establecer valores numéricos.

In [815]:
df['TR_CNAE'].unique() # No informados como '  ' o '99'

array(['PP', '  ', 'S1', 'QQ', 'N3', 'N6', 'M1', 'AA', 'II', 'OO', 'M2',
       'UU', 'GG', 'N5', 'RR', 'N2', 'CC', 'HH', 'LL', 'M3', 'DD', 'KK',
       'JJ', 'N1', '99', 'S3', 'FF', 'TT', 'S4', 'N4', 'S2', 'EE', 'BB'],
      dtype=object)

In [816]:
leyenda('TR_CNAE')

AA 	 Agricultura, ganadería, silvicultura y pesca
BB 	 Industrias extractivas
CC 	 Industria manufacturera
DD 	 Suministro de energía eléctrica, gas, vapor y aire acondicionado
EE 	 Suministro de agua, actividades de saneamiento, gestión de residuos y descontaminación
FF 	 Construcción e ingeniería civil
GG 	 Comercio al por mayor y al por menor; reparación de vehículos de motor y motocicletas
HH 	 Transporte, almacenamiento, actividades postales y de correos
II 	 Hostelería
JJ 	 Información y comunicaciones (actividades de edición, cinematográficas, de vídeo, de sonido, programas de televisión, telecomunicaciones, programación informática y servicios de información) 
KK 	 Actividades financieras y de seguros
LL 	 Actividades inmobiliarias
M1 	 Actividades profesionales, científicas y técnicas
M2 	 Actividades de fotografía
M3 	 Actividades veterinarias
N1 	 Actividades de alquiler
N2 	 Actividades relacionadas con el empleo
N3 	 Actividades de agencias de viajes, operadores turísticos

In [817]:
traduce('TR_CNAE',check=False)

In [818]:
no_respuesta('TR_CNAE',blank='  ',nsnc='99')

['AA' 'BB' 'CC' 'DD' 'EE' 'FF' 'GG' 'HH' 'II' 'JJ' 'KK' 'LL' 'M1' 'M2'
 'M3' 'N1' 'N2' 'N3' 'N4' 'N5' 'N6' 'OO' 'PP' 'QQ' 'RR' 'S1' 'S2' 'S3'
 'S4' 'TT' 'UU' None]


###  Diccionarios para recodificar 'cnae'
D_cnae_a_num transforma los códigos literales de 'TR_CNAE' en valores enteros.   
D_dict['cnae'] traduce los códigos numéricos a interpretación literal

In [819]:
D_cnae_a_num=dict()
D_dict['cnae']=dict()
D_cnae_a_num[None]=0
D_dict['cnae'][0]='No conocido o no aplicable'
for i,k in enumerate(D_dict['TR_CNAE'].keys()):
    if type(k)==str and k!='99' and k!='  ':
        D_cnae_a_num[k]=i+1
        D_dict['cnae'][i+1]=D_dict['TR_CNAE'][k]
        D_dict['cnae'][str(i+1)]=D_dict['TR_CNAE'][k]

In [820]:
df['cnae']=df['TR_CNAE'].replace(D_cnae_a_num)
D_describe['cnae']=D_describe['TR_CNAE']
traduce('cnae',check=False)

In [821]:
proporciones('cnae_',dropna=False).head(10)
# La segunda categoría más numerosa es la de valores no informados

Unnamed: 0,cnae_
Educación,0.167799
No conocido o no aplicable,0.149253
Actividades sanitarias y de servicios sociales,0.126284
"Actividades profesionales, científicas y técnicas",0.109949
Administración Pública y defensa; Seguridad Social obligatoria,0.063568
Comercio al por mayor y al por menor; reparación de vehículos de motor y motocicletas,0.056933
Industria manufacturera,0.051689
Construcción e ingeniería civil,0.031816
"Información y comunicaciones (actividades de edición, cinematográficas, de vídeo, de sonido, programas de televisión, telecomunicaciones, programación informática y servicios de información)",0.030742
"Actividades artísticas, culturales, recreativas, deportivas y de entrenimiento",0.027993


In [822]:
df['cnae'].nunique()

32

## 'TR_TAM' (redefinida como 'tamaño_em')

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

**Número de trabajadores** en la empresa en la que trabaja actualmente. 

In [823]:
df['TR_TAM'].unique() # No informados como ' ' o '9'

array(['3', '5', '4', ' ', '1', '2', '0', '9'], dtype=object)

In [824]:
traduce('TR_TAM')

                                                      aux_traduce
                                                           unique
TR_TAM                                                           
                                                  [No aplicable ]
0       [Trabajadores independientes o autónomos sin asalariados]
1                                             [De 1 a 9 personas]
2                                        [Entre 10 y 19 personas]
3                                        [Entre 20 y 49 personas]
4                                       [Entre 50 y 249 personas]
5                                            [250 o más personas]
9                                                         [NS/NC]


In [825]:
no_respuesta('TR_TAM')

[ 0.  1.  2.  3.  4.  5. nan]


In [826]:
redefine('TR_TAM','tamaño_em')

In [827]:
proporciones('tamaño_em_',dropna=True)

Unnamed: 0,tamaño_em_
250 o más personas,0.40388
Entre 50 y 249 personas,0.19198
De 1 a 9 personas,0.139619
Entre 20 y 49 personas,0.124011
Entre 10 y 19 personas,0.072429
Trabajadores independientes o autónomos sin asalariados,0.068081


## 'TR_ANIO' 

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

**Año** en el que empezó a trabajar en su empleo actual.

In [828]:
df['TR_ANIO'].sort_values().unique() # No informados como '    ' o '9999'

array(['    ', '1970', '1975', '1977', '1978', '1979', '1980', '1981',
       '1982', '1983', '1984', '1985', '1986', '1987', '1988', '1989',
       '1990', '1991', '1992', '1993', '1994', '1995', '1996', '1997',
       '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005',
       '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013',
       '2014', '2015', '2016', '2017', '2018', '2019', '9999'],
      dtype=object)

In [829]:
no_respuesta('TR_ANIO',blank='    ',nsnc='9999')

[1970. 1975. 1977. 1978. 1979. 1980. 1981. 1982. 1983. 1984. 1985. 1986.
 1987. 1988. 1989. 1990. 1991. 1992. 1993. 1994. 1995. 1996. 1997. 1998.
 1999. 2000. 2001. 2002. 2003. 2004. 2005. 2006. 2007. 2008. 2009. 2010.
 2011. 2012. 2013. 2014. 2015. 2016. 2017. 2018. 2019.   nan]


## 'TR_SUELDO'   (redefinida como 'sueldo')

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

**Sueldo mensual neto** actual.

In [830]:
df['TR_SUELDO'].unique() # No informados como ' ' o '9'

array(['3', '5', '4', ' ', '2', '1', '9', '6', '7'], dtype=object)

In [831]:
traduce('TR_SUELDO')

                            aux_traduce
                                 unique
TR_SUELDO                              
                         [No aplicable]
1                  [Menos de 700 euros]
2                  [De 700 a 999 euros]
3              [De 1.000 a 1.499 euros]
4              [De 1.500 a 1.999 euros]
5              [De 2.000 a 2.499 euros]
6              [De 2.500 a 2.999 euros]
7          [De 3.000 euros en adelante]
9                               [NS/NC]


In [832]:
no_respuesta('TR_SUELDO')

[ 1.  2.  3.  4.  5.  6.  7. nan]


In [833]:
redefine('TR_SUELDO','sueldo')

In [834]:
proporciones('sueldo_',dropna=True)

Unnamed: 0,sueldo_
De 1.000 a 1.499 euros,0.318931
De 1.500 a 1.999 euros,0.29892
De 2.000 a 2.499 euros,0.130453
De 700 a 999 euros,0.09566
Menos de 700 euros,0.066553
De 2.500 a 2.999 euros,0.045935
De 3.000 euros en adelante,0.043547


In [835]:
dist_condicionada('sueldo_','sexo_',dropna=True)
# Inspección rápida (ejem)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sueldo_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
sueldo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
De 1.000 a 1.499 euros,0.34357,0.286897,0.318931,+7.73%,-10.04%
De 1.500 a 1.999 euros,0.29764,0.300584,0.29892,-0.43%,+0.56%
De 2.000 a 2.499 euros,0.103393,0.165635,0.130453,-20.74%,+26.97%
De 2.500 a 2.999 euros,0.03252,0.063377,0.045935,-29.21%,+37.97%
De 3.000 euros en adelante,0.025412,0.067126,0.043547,-41.64%,+54.14%
De 700 a 999 euros,0.115395,0.070003,0.09566,+20.63%,-26.82%
Menos de 700 euros,0.082071,0.046378,0.066553,+23.32%,-30.31%


In [836]:
dist_condicionada('sueldo_','sexo_',rev=True,dropna=True)
# A pesar de que hay menos hombres que mujeres entre los graduados, los hombres están más representados en ...
# ... todos los grupos salariales por encima de 2000 €.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sexo_,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas,3. dif relativas
sueldo_,Menos de 700 euros,De 700 a 999 euros,De 3.000 euros en adelante,De 2.500 a 2.999 euros,De 2.000 a 2.499 euros,De 1.500 a 1.999 euros,De 1.000 a 1.499 euros,Unnamed: 8_level_1,Menos de 700 euros,De 700 a 999 euros,De 3.000 euros en adelante,De 2.500 a 2.999 euros,De 2.000 a 2.499 euros,De 1.500 a 1.999 euros,De 1.000 a 1.499 euros
sexo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
Hombre,0.302961,0.318146,0.670148,0.599835,0.552005,0.437175,0.391087,0.429528,-29.47%,-25.93%,+56.02%,+39.65%,+28.51%,+1.78%,-8.95%
Mujer,0.697039,0.681854,0.329852,0.400165,0.447995,0.562825,0.608913,0.570472,+22.19%,+19.52%,-42.18%,-29.85%,-21.47%,-1.34%,+6.74%


In [837]:
# Distribución de sueldos condicionada según discapacidad: 
dist_condicionada('sueldo_','discapacidad_',dropna=True)
# Incremento en la frecuencia del sueldo más bajo y en los segundo y tercero más altos para los estudiantes ...
# ... con discapacidad.

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas sueldo_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
sueldo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
De 1.000 a 1.499 euros,0.273381,0.319416,0.318931,-14.28%,+0.15%
De 1.500 a 1.999 euros,0.280576,0.299115,0.29892,-6.14%,+0.07%
De 2.000 a 2.499 euros,0.158273,0.130157,0.130453,+21.33%,-0.23%
De 2.500 a 2.999 euros,0.068345,0.045697,0.045935,+48.79%,-0.52%
De 3.000 euros en adelante,0.043165,0.043552,0.043547,-0.88%,+0.01%
De 700 a 999 euros,0.097122,0.095645,0.09566,+1.53%,-0.02%
Menos de 700 euros,0.079137,0.066419,0.066553,+18.91%,-0.20%


## Nueva variable 'sueldo_pxy'
**sueldo_pxy**: proxy de sueldo mensual neto con una división en intervalos ajustada para facilitar la correspondencia con los definidos en la encuesta de doctores. 

In [838]:
leyenda ('sueldo')

1 	 Menos de 700 euros
2 	 De 700 a 999 euros
3 	 De 1.000 a 1.499 euros
4 	 De 1.500 a 1.999 euros
5 	 De 2.000 a 2.499 euros
6 	 De 2.500 a 2.999 euros
7 	 De 3.000 euros en adelante
9 	 NS/NC
  	 No aplicable


In [839]:
# Diccionario de correspondencias entre 'sueldo' y 'sueldo_pxy':
# Se reunen en una las categorías 2 y 3 y las categorías 4 y 5 de 'sueldo'
D_sueldo_pxy=dict()
D_sueldo_pxy[1]=1
D_sueldo_pxy[2]=2
D_sueldo_pxy[3]=2
D_sueldo_pxy[4]=3
D_sueldo_pxy[5]=3
D_sueldo_pxy[6]=4
D_sueldo_pxy[7]=5

In [840]:
D_describe['sueldo_pxy']='Proxy de sueldo mensual neto'
D_dict['sueldo_pxy']=dict()
D_dict['sueldo_pxy'][1]=D_dict['sueldo'][1]
D_dict['sueldo_pxy'][2]='De 700 a 1.499 euros'
D_dict['sueldo_pxy'][3]='De 1.500 a 2.499 euros'
D_dict['sueldo_pxy'][4]=D_dict['sueldo'][6]
D_dict['sueldo_pxy'][5]=D_dict['sueldo'][7]
for k in range(1,6):
    D_dict['sueldo_pxy'][str(k)]=D_dict['sueldo_pxy'][k] # Ajuste para str.
leyenda('sueldo_pxy') # Comprobación

1 	 Menos de 700 euros
2 	 De 700 a 1.499 euros
3 	 De 1.500 a 2.499 euros
4 	 De 2.500 a 2.999 euros
5 	 De 3.000 euros en adelante


In [841]:
df['sueldo_pxy']=df['sueldo'].replace(D_sueldo_pxy)
traduce('sueldo_pxy',check=False)
df[['sueldo_','sueldo_pxy_']].groupby('sueldo_').agg(['unique']) # Comprobación

Unnamed: 0_level_0,sueldo_pxy_
Unnamed: 0_level_1,unique
sueldo_,Unnamed: 1_level_2
De 1.000 a 1.499 euros,[De 700 a 1.499 euros]
De 1.500 a 1.999 euros,[De 1.500 a 2.499 euros]
De 2.000 a 2.499 euros,[De 1.500 a 2.499 euros]
De 2.500 a 2.999 euros,[De 2.500 a 2.999 euros]
De 3.000 euros en adelante,[De 3.000 euros en adelante]
De 700 a 999 euros,[De 700 a 1.499 euros]
Menos de 700 euros,[Menos de 700 euros]


## 'TR_D19'     

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

**Nivel de formación más apropiado** para realizar el trabajo actual.

In [842]:
df['TR_D19'].unique() # No informados como ' ' o '9'

array(['3', ' ', '2', '7', '5', '4', '9', '6', '1'], dtype=object)

In [843]:
traduce('TR_D19')

                                                  aux_traduce
                                                       unique
TR_D19                                                       
                                               [No aplicable]
1                                                 [Doctorado]
2                                                    [Máster]
3         [Título universitario (excepto doctorado o máster)]
4                   [Formación profesional de grado superior]
5       [Formación profesional de grado medio/ bachillerato ]
6                              [Formación profesional básica]
7                                            [ESO, EGB, etc.]
9                                                     [NS/NC]


In [844]:
no_respuesta('TR_D19')

[ 1.  2.  3.  4.  5.  6.  7. nan]


In [845]:
proporciones('TR_D19_',dropna=True)

Unnamed: 0,TR_D19_
Título universitario (excepto doctorado o máster),0.566296
Máster,0.194747
Formación profesional de grado superior,0.101163
Formación profesional de grado medio/ bachillerato,0.052049
"ESO, EGB, etc.",0.039529
Doctorado,0.025783
Formación profesional básica,0.020433


## 'TR_D20'       

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

**Área de estudio maś apropiada** para el trabajo actual.

In [846]:
df['TR_D20'].unique() # No informados como ' ' o '9'

array(['2', ' ', '4', '3', '1', '9'], dtype=object)

In [847]:
traduce('TR_D20')

                                        aux_traduce
                                             unique
TR_D20                                             
                                    [No aplicable ]
1       [Exclusivamente su propia área de estudios]
2             [Su propia área o alguna relacionada]
3                    [Un área totalmente diferente]
4                       [Ningún área en particular]
9                                           [NS/NC]


In [848]:
no_respuesta('TR_D20')

[ 1.  2.  3.  4. nan]


In [849]:
proporciones('TR_D20_',dropna=True)

Unnamed: 0,TR_D20_
Su propia área o alguna relacionada,0.49868
Exclusivamente su propia área de estudios,0.23921
Un área totalmente diferente,0.152559
Ningún área en particular,0.10955


## 'TR_D21'       

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

¿Se hace **uso** en el trabajo actual de los **conocimientos y habilidades** adquiridos en estos estudios?

In [850]:
df['TR_D21'].unique() # No informados como ' ' o '9'

array(['1', ' ', '2', '9'], dtype=object)

In [851]:
traduce('TR_D21')

           aux_traduce
                unique
TR_D21                
        [No aplicable]
1                 [Sí]
2                 [No]
9              [NS/NC]


In [852]:
no_respuesta('TR_D21')

[ 1.  2. nan]


In [853]:
proporciones('TR_D21')

Unnamed: 0,TR_D21
1.0,0.642823
2.0,0.206881
,0.150295


# 'TR_D22_1'  (redefinida como 'vbtr_teoricos')     

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

Influencia de los **conocimientos teóricos** para conseguir su trabajo actual. 

In [854]:
df['TR_D22_1'].unique() # No informados como ' ' o '9'

array(['1', '5', '2', ' ', '3', '4', '9'], dtype=object)

In [855]:
L_vbtr=list()

In [856]:
def vbtr(col,nuevo):
    """Procesa columnas referidas a influencia de distintos factores en el éxito en la búsqueda de empleo.
    """
    traduce(col)
    no_respuesta(col)
    redefine(col,nuevo)
    L_vbtr.append(str(nuevo)+'_')
    return

In [857]:
vbtr('TR_D22_1','vbtr_teoricos')

             aux_traduce
                  unique
TR_D22_1                
          [No aplicable]
1                 [Nada]
2                 [Poco]
3                 [Algo]
4             [Bastante]
5                [Mucho]
9                [NS/NC]
[ 1.  2.  3.  4.  5. nan]


# 'TR_D22_2'  (redefinida como 'vbtr_practicos')     

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

Influencia de las **habilidades prácticas** para conseguir su trabajo actual. 

In [858]:
df['TR_D22_2'].unique() # No informados como ' ' o '9'

array(['4', '5', ' ', '2', '1', '3', '9'], dtype=object)

In [859]:
vbtr('TR_D22_2','vbtr_practicos')

             aux_traduce
                  unique
TR_D22_2                
          [No aplicable]
1                 [Nada]
2                 [Poco]
3                 [Algo]
4             [Bastante]
5                [Mucho]
9                [NS/NC]
[ 1.  2.  3.  4.  5. nan]


# 'TR_D22_3'  (redefinida como 'vbtr_idiomas')     

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

Influencia de **conocer idiomas** para conseguir su trabajo actual. 

In [860]:
df['TR_D22_3'].unique() # No informados como ' ' o '9'

array(['5', '3', ' ', '4', '1', '2', '9'], dtype=object)

In [861]:
vbtr('TR_D22_3','vbtr_idiomas')

             aux_traduce
                  unique
TR_D22_3                
          [No aplicable]
1                 [Nada]
2                 [Poco]
3                 [Algo]
4             [Bastante]
5                [Mucho]
9                [NS/NC]
[ 1.  2.  3.  4.  5. nan]


# 'TR_D22_4'  (redefinida como 'vbtr_ti')     

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

Influencia de la formación o el dominio de la **informática** y de las **tecnologías de la información y la comunicación** para conseguir su trabajo actual. 

In [862]:
df['TR_D22_4'].unique() # No informados como ' ' o '9'

array(['3', '4', '5', ' ', '2', '1', '9'], dtype=object)

In [863]:
vbtr('TR_D22_4','vbtr_ti')

             aux_traduce
                  unique
TR_D22_4                
          [No aplicable]
1                 [Nada]
2                 [Poco]
3                 [Algo]
4             [Bastante]
5                [Mucho]
9                [NS/NC]
[ 1.  2.  3.  4.  5. nan]


# 'TR_D22_4'  (redefinida como 'vbtr_personales')     

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

Influencia de las **competencias personales y sociales** -personalidad, habilidades sociales, comunicación, capacidad de trabajar en grupo- para conseguir su trabajo actual. 

In [864]:
df['TR_D22_4'].unique() # No informados como ' ' o '9'

array([ 3.,  4.,  5., nan,  2.,  1.])

In [865]:
vbtr('TR_D22_4','vbtr_personales')

         aux_traduce
              unique
TR_D22_4            
1.0           [Nada]
2.0           [Poco]
3.0           [Algo]
4.0       [Bastante]
5.0          [Mucho]
[ 1.  2.  3.  4.  5. nan]


# 'TR_D22_5'  (redefinida como 'vbtr_gestion')     

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

Influencia de la **capacidad de gestión, planificación y emprendimiento** para conseguir su trabajo actual. 

In [866]:
df['TR_D22_5'].unique() # No informados como ' ' o '9'

array(['4', '5', '3', ' ', '1', '9', '2'], dtype=object)

In [867]:
vbtr('TR_D22_5','vbtr_gestion')

             aux_traduce
                  unique
TR_D22_5                
          [No aplicable]
1                 [Nada]
2                 [Poco]
3                 [Algo]
4             [Bastante]
5                [Mucho]
9                [NS/NC]
[ 1.  2.  3.  4.  5. nan]


In [868]:
df[L_vbtr].apply(lambda x:x.value_counts(normalize=True)).sort_values('vbtr_teoricos_')

Unnamed: 0,vbtr_teoricos_,vbtr_practicos_,vbtr_idiomas_,vbtr_ti_,vbtr_personales_,vbtr_gestion_
Nada,0.115563,0.088698,0.232414,0.12636,0.12636,0.0493
Poco,0.122228,0.08096,0.182464,0.139754,0.139754,0.041433
Algo,0.175875,0.124877,0.176643,0.223541,0.223541,0.099217
Bastante,0.282635,0.287125,0.174084,0.291955,0.291955,0.312068
Mucho,0.303699,0.41834,0.234396,0.218389,0.218389,0.497982


In [869]:
df[L_vbtr].apply(lambda x:x.value_counts(normalize=True)).rank(ascending=False).sort_values('vbtr_teoricos_')

Unnamed: 0,vbtr_teoricos_,vbtr_practicos_,vbtr_idiomas_,vbtr_ti_,vbtr_personales_,vbtr_gestion_
Mucho,1.0,1.0,1.0,3.0,3.0,1.0
Bastante,2.0,2.0,5.0,1.0,1.0,2.0
Algo,3.0,3.0,4.0,2.0,2.0,3.0
Poco,4.0,5.0,3.0,4.0,4.0,5.0
Nada,5.0,4.0,2.0,5.0,5.0,4.0


# 'TR_D23'  (completa la variable 'busqueda_tr')

(Solo para quienes declaran **situación de ocupación** -respuesta 1 en 'TRBPRN1' (o 'sit_lab')-   

¿Ha **intentado conseguir otro trabajo remunerado** en las últimas 4 semanas?

Nota: Se usa esta información para actualizar la variable busqueda_tr'.

In [870]:
df['TR_D23'].unique() # No informados como ' ' o '9'

array(['3', ' ', '1', '2', '9'], dtype=object)

In [871]:
traduce('TR_D23')

                                                                                                     aux_traduce
                                                                                                          unique
TR_D23                                                                                                          
                                                                                                  [No aplicable]
1                                                                                                           [Sí]
2       [No, pero está esperando respuesta a solicitudes anteriores de empleo o los resultados de una oposición]
3                                                                                                           [No]
9                                                                                                        [NS/NC]


In [872]:
no_respuesta('TR_D23')

[ 1.  2.  3. nan]


In [873]:
# Se actualiza la variable 'busqueda_tr':
df['busqueda_tr'].mask((df['TR_D23']==1)|(df['TR_D23']==2),1,inplace=True)
traduce('busqueda_tr')
df['busqueda_tr_'][(df['TR_D23']==1)|(df['TR_D23']==2)].unique() # Comprobación

            aux_traduce
                 unique
busqueda_tr            
0.0                [No]
1.0                [Sí]


array(['Sí'], dtype=object)

# BLOQUE E. HISTORIAL LABORAL DEL GRADUADO UNIVERSITARIO

# 'HL_E1'  

¿Realizó **prácticas en empresas**, instituciones o similares?

In [874]:
df['HL_E1'].unique() # Sin no informados

array([3, 1, 4, 2])

In [875]:
traduce('HL_E1')

                                 aux_traduce
                                      unique
HL_E1                                       
1      [Sí, como parte del plan de estudios]
2           [Sí, fuera del plan de estudios]
3             [Sí, ambos tipos de prácticas]
4                                       [No]


# 'HL_E2'  

(Solo para respuestas 1, 2 o 3 en variable 'HL_E1')

Duración en meses de las **prácticas en empresas**, instituciones o similares.

In [876]:
df['HL_E2'].unique() # No informados como ' ' o '9'

array(['3', '2', '1', ' ', '5', '4', '9'], dtype=object)

In [877]:
traduce('HL_E2')

              aux_traduce
                   unique
HL_E2                    
           [No aplicable]
1        [De 1 a 3 meses]
2        [De 4 a 6 meses]
3        [De 7 a 9 meses]
4      [De 10 a 12 meses]
5         [Más de un año]
9                 [NS/NC]


In [878]:
no_respuesta('HL_E2')

[ 1.  2.  3.  4.  5. nan]


# 'HL_E3'  

¿Ha tenido algún **trabajo remunerado mientras realizaba los estudios** (incluido el trabajo por cuenta propia, trabajos de formación, contrato en prácticas, puestos de becario, etc.)?

In [879]:
df['HL_E3'].unique() # Sin no informados

array([2, 1])

In [880]:
traduce('HL_E3')

      aux_traduce
           unique
HL_E3            
1            [Sí]
2            [No]


# 'HL_E5'  

¿**Continuó en ese trabajo** durante al menos 6 meses después de acabar estos estudios?

In [881]:
df['HL_E5'].unique() # No informados como ' '

array([' ', '2', '1'], dtype=object)

In [882]:
traduce('HL_E5')

          aux_traduce
               unique
HL_E5                
       [No aplicable]
1                [Sí]
2                [No]


In [883]:
no_respuesta('HL_E5')

[ 1.  2. nan]


# 'HL_JOR'  

**Tipo de jornada** en ese trabajo.

In [884]:
df['HL_JOR'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [885]:
traduce('HL_JOR')

                aux_traduce
                     unique
HL_JOR                     
                      [nan]
1        [A tiempo parcial]
2       [A tiempo completo]
9                   [NS/NC]


In [886]:
no_respuesta('HL_JOR')

[ 1.  2. nan]


# 'HL_E7'  

Una vez completados estos estudios, ¿**mejoraron las condiciones del trabajo** en el que continuó después de acabarlos?

In [887]:
df['HL_E7'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [888]:
traduce('HL_E7')

          aux_traduce
               unique
HL_E7                
       [No aplicable]
1                [Sí]
2                [No]
9             [NS/NC]


In [889]:
no_respuesta('HL_E7')

[ 1.  2. nan]


# 'HL_E8'  

Mientras tenía este empleo, ¿**buscó un trabajo mejor**?

In [890]:
df['HL_E8'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [891]:
traduce('HL_E8')

          aux_traduce
               unique
HL_E8                
       [No aplicable]
1                [Sí]
2                [No]
9             [NS/NC]


In [892]:
no_respuesta('HL_E8')

[ 1.  2. nan]


# 'HA_TRAB'  (redefinida como 'ha_trab')

Ha tenido **algún trabajo remunerado desde que terminó sus estudios** (distinto del que haya realizado mientras estudiaba), incluyendo trabajo por cuenta propia, trabajos de formación, en prácticas, puestos de becario, etc.

Nota: La variable 'HA_TRAB' se ha empleado como filtro para algunas de las variables definidas a continuación, formuladas solo a quienes responden Sí o a quienes responden No a esta pregunta. 

In [893]:
df['HA_TRAB'].unique() # Sin no informados

array([1, 2])

In [894]:
traduce('HA_TRAB')

        aux_traduce
             unique
HA_TRAB            
1              [Sí]
2              [No]


In [895]:
df[['HA_TRAB_','sit_lab_']].groupby(['sit_lab_']).agg(['unique']) # Inspección

Unnamed: 0_level_0,HA_TRAB_
Unnamed: 0_level_1,unique
sit_lab_,Unnamed: 1_level_2
En desempleo,"[Sí, No]"
Inactivo,"[Sí, No]"
Trabajando,[Sí]


In [896]:
redefine('HA_TRAB',si_no=True)

        aux_traduce
             unique
ha_trab            
0              [No]
1              [Sí]


# 'HATR_E11'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)

**Tiempo** transcurrido desde que finalizó estos estudios **hasta que empezó a trabajar**.

In [897]:
df['HATR_E11'].unique() # No informados como ' ' o '9'

array(['3', '1', '0', '5', '4', '2', '6', ' ', '9'], dtype=object)

In [898]:
traduce('HATR_E11')

                                                                         aux_traduce
                                                                              unique
HATR_E11                                                                            
                                                                      [No aplicable]
0         [Continuó al menos 6 meses más en el trabajo que tenía mientras estudiaba]
1                                                              [Menos de tres meses]
2                                                                   [De 3 a 6 meses]
3                                                               [De 6 meses a 1 año]
4                                                        [De 1 año a  año y medio  ]
5                                                      [De 1 año y medio a  2 años ]
6                                                                     [2 ó más años]
9                                                                

In [899]:
df[['HATR_E11','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,HATR_E11
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[ ]
Sí,"[3, 1, 0, 5, 4, 2, 6, 9]"


In [900]:
no_respuesta('HATR_E11')

[ 0.  1.  2.  3.  4.  5.  6. nan]


## 'HATR_E12'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)

Momento en que empezó a buscar trabajo.

In [901]:
df['HATR_E12'].unique() # No informados como ' ' o '9'

array(['2', '1', '0', ' ', '9'], dtype=object)

In [902]:
traduce('HATR_E12')

                                                                         aux_traduce
                                                                              unique
HATR_E12                                                                            
                                                                      [No aplicable]
0         [Continuó al menos 6 meses más en el trabajo que tenía mientras estudiaba]
1             [Antes de terminar los estudios de la titulación que finalizó en 2014]
2           [Después de terminar los estudios de la titulación que finalizó en 2014]
9                                                                            [NS/NC]


In [903]:
df[['HA_TRAB_','HATR_E12_','sit_lab_']].groupby('HA_TRAB_').agg(['unique']) # Inspección
# Solo se ha preguntado a quien ha trabajado después de terminar sus estudios, con independencia de su ...
# ... situación laboral actual.

Unnamed: 0_level_0,HATR_E12_,sit_lab_
Unnamed: 0_level_1,unique,unique
HA_TRAB_,Unnamed: 1_level_2,Unnamed: 2_level_2
No,[No aplicable],"[Inactivo, En desempleo]"
Sí,"[Después de terminar los estudios de la titulación que finalizó en 2014, Antes de terminar los estudios de la titulación que finalizó en 2014, Continuó al menos 6 meses más en el trabajo que tenía mientras estudiaba, NS/NC]","[Trabajando, Inactivo, En desempleo]"


In [904]:
no_respuesta('HATR_E12')

[ 0.  1.  2. nan]


## 'HATR_BSQ1'  (redefinida como 'etr_internet', actualiza 'btr_internet')

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)

¿**Encontró trabajo** a través de ofertas de trabajo en el **periódico, internet**, etc.?  

Nota: Esta es la primera de una serie de preguntas sobre estrategias de búsqueda de empleo entre quienes han tenido alguno desde que terminaron sus estudios. La variable 'HATR_BSQ1' es distinta de 'TRPARA_D7_1' (o 'btr_internet'); 'btr_internet' se refiere a la búsqueda de trabajo a través de anuncios en prensa o internet y se formula solo a desempleados, mientras que 'TRPARA_D7_1' se refiere al **éxito de esa estrategia para encontrar trabajo** y se formula a todos los que han trabajado alguna vez desde que terminaron sus estudios.   
No obstante, esta y otras variables de esta serie permiten actualizar algunas de las variables con prefijo 'btr_' definidas originalmente solo para desempleados. 

In [905]:
df['HATR_BSQ1'].unique() # No informados como ' ' o '9'

array(['1', '2', ' ', '9'], dtype=object)

In [906]:
traduce('HATR_BSQ1')

              aux_traduce
                   unique
HATR_BSQ1                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]


In [907]:
df[['HATR_BSQ1_','btr_internet_','HA_TRAB_','sit_lab_']].groupby(['sit_lab_','HA_TRAB_']).agg(['unique'])
# Solo se ha preguntado a quien ha trabajado desde que terminó sus estudios (a diferencia de 'btr_internet', ...
# ... que se preguntó a los desempleados)

Unnamed: 0_level_0,Unnamed: 1_level_0,HATR_BSQ1_,btr_internet_
Unnamed: 0_level_1,Unnamed: 1_level_1,unique,unique
sit_lab_,HA_TRAB_,Unnamed: 2_level_2,Unnamed: 3_level_2
En desempleo,No,[No aplicable],"[Sí, No, nan]"
En desempleo,Sí,"[No, Sí, NS/NC]","[Sí, No, nan]"
Inactivo,No,[No aplicable],[nan]
Inactivo,Sí,"[Sí, No, NS/NC]",[nan]
Trabajando,Sí,"[Sí, No, NS/NC]",[nan]


In [908]:
leyenda('sit_lab')

1 	 Trabajando
2 	 En desempleo
3 	 Inactivo


In [909]:
df['HATR_BSQ1_'][df['sit_lab']==2].equals(df['btr_internet_'][df['sit_lab']==2])
# 'btr_internet' y 'HATR_BSQ1_' son variables distintas (responden a preguntas distintas)

False

In [910]:
df[['HATR_BSQ1_','btr_internet_']][df['sit_lab']==2].sample(5)

Unnamed: 0,HATR_BSQ1_,btr_internet_
12109,No,No
23209,No,Sí
15758,Sí,Sí
18941,No,Sí
29622,No,Sí


In [911]:
# Lista de estrategias de búsqueda de empleo de quienes lo encontraron después de terminar sus estudios.
L_etr=list()

In [912]:
def etr(col,nuevo):
    """Procesa las columnas referidas a las estrategias de búsqueda de empleo de quienes tuvieron alguno después
    de terminar sus estudios.
    """
    traduce(col)
    no_respuesta(col)
    redefine(col,nuevo,si_no=True)
    D_describe[nuevo]='Encontró empleo:'+ D_describe[col].split(':')[1]
    if str(nuevo)+'_' not in L_etr:
        L_etr.append(str(nuevo)+'_')
    return

In [913]:
etr('HATR_BSQ1','etr_internet')

              aux_traduce
                   unique
HATR_BSQ1                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]
[ 1.  2. nan]
             aux_traduce
                  unique
etr_internet            
0.0                 [No]
1.0                 [Sí]


In [914]:
def actualiza_btr(col,btr):
    """ Actualiza las variables con prefijo btr_ definidas para las distintas estrategias de búsqueda de empleo, 
    añadiendo las respuestas declaradas por quienes han trabajado después de terminar sus estudios: registra la 
    estrategia definida en la variable 'col' como utilizada por el encuestado cuando este declara que le sirvió 
    para encontrar empleo. No se infiere que no la haya usado cuando el encuestado no le atribuye éxito. 
    """
    df[btr].mask(df[col]==1,1,inplace=True)
    traduce(btr)
    print (df[[str(col)+'_',str(btr)+'_']][df['HA_TRAB']==1].groupby([str(col)+'_'],
                                                                        dropna=False).agg(['unique']))
    return

In [915]:
actualiza_btr('HATR_BSQ1','btr_internet')

             aux_traduce
                  unique
btr_internet            
0.0                 [No]
1.0                 [Sí]
            btr_internet_
                   unique
HATR_BSQ1_               
No          [nan, Sí, No]
Sí                   [Sí]
NaN         [nan, No, Sí]


## 'HATR_BSQ2'  (redefinida como 'etr_spe', actualiza 'btr_spe')  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)  

¿**Encontró trabajo** a través de los **servicios públicos de empleo**?

In [916]:
df['HATR_BSQ2'].unique() # No informados como ' ' o '9'

array(['1', '2', ' ', '9'], dtype=object)

In [917]:
etr('HATR_BSQ2','etr_spe')

              aux_traduce
                   unique
HATR_BSQ2                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]
[ 1.  2. nan]
        aux_traduce
             unique
etr_spe            
0.0            [No]
1.0            [Sí]


In [918]:
actualiza_btr('HATR_BSQ2','btr_spe')

        aux_traduce
             unique
btr_spe            
0.0            [No]
1.0            [Sí]
                 btr_spe_
                   unique
HATR_BSQ2_               
No          [nan, No, Sí]
Sí                   [Sí]
NaN         [nan, Sí, No]


## 'HATR_BSQ3'  (redefinida como 'etr_univ', actualiza 'btr_univ')    

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)  

¿**Encontró trabajo** a través de los **servicios de empleo de la universidad** (bolsa de trabajo, asociaciones de exalumnos, etc.)?

In [919]:
df['HATR_BSQ3'].unique() # No informados como ' ' o '9'

array(['1', '2', ' ', '9'], dtype=object)

In [920]:
etr('HATR_BSQ3','etr_univ')

              aux_traduce
                   unique
HATR_BSQ3                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]
[ 1.  2. nan]
         aux_traduce
              unique
etr_univ            
0.0             [No]
1.0             [Sí]


In [921]:
actualiza_btr('HATR_BSQ3','btr_univ')

         aux_traduce
              unique
btr_univ            
0.0             [No]
1.0             [Sí]
                btr_univ_
                   unique
HATR_BSQ3_               
No          [nan, No, Sí]
Sí                   [Sí]
NaN         [nan, No, Sí]


## 'HATR_BSQ4'  (redefinida como 'etr_ett', actualiza 'btr_ett')  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)  

¿**Encontró trabajo** a través de **empresas de trabajo temporal**?

In [922]:
df['HATR_BSQ4'].unique() # No informados como ' ' o '9'

array(['2', '1', ' ', '9'], dtype=object)

In [923]:
etr('HATR_BSQ4','etr_ett')

              aux_traduce
                   unique
HATR_BSQ4                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]
[ 1.  2. nan]
        aux_traduce
             unique
etr_ett            
0.0            [No]
1.0            [Sí]


In [924]:
actualiza_btr('HATR_BSQ4','btr_ett')

        aux_traduce
             unique
btr_ett            
0.0            [No]
1.0            [Sí]
                 btr_ett_
                   unique
HATR_BSQ4_               
No          [nan, No, Sí]
Sí                   [Sí]
NaN         [nan, No, Sí]


## 'HATR_BSQ5'  (redefinida como 'etr_bolsa', actualiza 'btr_bolsa')  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)  

¿**Encontró trabajo** a través de una **bolsa de empleo**?

In [925]:
df['HATR_BSQ5'].unique() # No informados como ' ' o '9'

array(['2', '1', ' ', '9'], dtype=object)

In [926]:
etr('HATR_BSQ5','etr_bolsa')

              aux_traduce
                   unique
HATR_BSQ5                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]
[ 1.  2. nan]
          aux_traduce
               unique
etr_bolsa            
0.0              [No]
1.0              [Sí]


In [927]:
actualiza_btr('HATR_BSQ5','btr_bolsa')

          aux_traduce
               unique
btr_bolsa            
0.0              [No]
1.0              [Sí]
               btr_bolsa_
                   unique
HATR_BSQ5_               
No          [nan, No, Sí]
Sí                   [Sí]
NaN         [nan, No, Sí]


## 'HATR_BSQ6'  (redefinida como 'etr_contactos', actualiza 'btr_contactos')  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)  

¿**Encontró trabajo** contactando con el empleador por iniciativa propia o utilizando **contactos personales** (familia, amigos)

In [928]:
df['HATR_BSQ6'].unique() # No informados como ' ' o '9'

array(['2', '1', ' ', '9'], dtype=object)

In [929]:
etr('HATR_BSQ6','etr_contactos')

              aux_traduce
                   unique
HATR_BSQ6                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]
[ 1.  2. nan]
              aux_traduce
                   unique
etr_contactos            
0.0                  [No]
1.0                  [Sí]


In [930]:
actualiza_btr('HATR_BSQ6','btr_contactos')

              aux_traduce
                   unique
btr_contactos            
0.0                  [No]
1.0                  [Sí]
           btr_contactos_
                   unique
HATR_BSQ6_               
No          [nan, No, Sí]
Sí                   [Sí]
NaN         [nan, No, Sí]


## 'HATR_BSQ7'  (redefinida como 'etr_empleador', actualiza 'btr_otro')  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)  

¿**Encontró trabajo** gracias a que el **empleador se puso en contacto** con usted?

In [931]:
df['HATR_BSQ7'].unique()

array(['2', '1', ' ', '9'], dtype=object)

In [932]:
etr('HATR_BSQ7','etr_empleador')

              aux_traduce
                   unique
HATR_BSQ7                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]
[ 1.  2. nan]
              aux_traduce
                   unique
etr_empleador            
0.0                  [No]
1.0                  [Sí]


In [933]:
actualiza_btr('HATR_BSQ7','btr_otro')

         aux_traduce
              unique
btr_otro            
0.0             [No]
1.0             [Sí]
                btr_otro_
                   unique
HATR_BSQ7_               
No          [nan, No, Sí]
Sí                   [Sí]
NaN             [nan, No]


## 'HATR_BSQ8'  (redefinida como 'etr_practicas', actualiza 'btr_otro')  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)  

¿Continuó con las **prácticas en empresas** o instituciones que realizó durante la carrera?

In [934]:
df['HATR_BSQ8'].unique() # No informados como ' ' o '9'

array(['2', '1', ' ', '9'], dtype=object)

In [935]:
etr('HATR_BSQ8','etr_practicas')

              aux_traduce
                   unique
HATR_BSQ8                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]
[ 1.  2. nan]
              aux_traduce
                   unique
etr_practicas            
0.0                  [No]
1.0                  [Sí]


In [936]:
actualiza_btr('HATR_BSQ8','btr_otro')

         aux_traduce
              unique
btr_otro            
0.0             [No]
1.0             [Sí]
                btr_otro_
                   unique
HATR_BSQ8_               
No          [nan, Sí, No]
Sí                   [Sí]
NaN             [nan, No]


## 'HATR_BSQ9'  (redefinida como 'etr_opo', actualiza 'btr_opo')  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)  

¿**Encontró trabajo** preparando unas **oposiciones**?

In [937]:
df['HATR_BSQ9'].unique() # No informados como ' ' o '9'

array(['2', '1', ' ', '9'], dtype=object)

In [938]:
etr('HATR_BSQ9','etr_opo')

              aux_traduce
                   unique
HATR_BSQ9                
           [No aplicable]
1                    [Sí]
2                    [No]
9                 [NS/NC]
[ 1.  2. nan]
        aux_traduce
             unique
etr_opo            
0.0            [No]
1.0            [Sí]


In [939]:
actualiza_btr('HATR_BSQ9','btr_opo')

        aux_traduce
             unique
btr_opo            
0.0            [No]
1.0            [Sí]
                 btr_opo_
                   unique
HATR_BSQ9_               
No          [nan, Sí, No]
Sí                   [Sí]
NaN         [nan, No, Sí]


## 'HATR_BSQ10'  (redefinida como 'etr_auto', actualiza 'btr_auto)  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-)  

¿**Encontró trabajo** montando un **negocio propio**?

In [940]:
df['HATR_BSQ10'].unique() # No informados como ' ' o '9'

array(['2', ' ', '1', '9'], dtype=object)

In [941]:
etr('HATR_BSQ10','etr_auto')

               aux_traduce
                    unique
HATR_BSQ10                
            [No aplicable]
1                     [Sí]
2                     [No]
9                  [NS/NC]
[ 1.  2. nan]
         aux_traduce
              unique
etr_auto            
0.0             [No]
1.0             [Sí]


In [942]:
actualiza_btr('HATR_BSQ10','btr_auto')

         aux_traduce
              unique
btr_auto            
0.0             [No]
1.0             [Sí]
                 btr_auto_
                    unique
HATR_BSQ10_               
No           [nan, No, Sí]
Sí                    [Sí]
NaN          [nan, No, Sí]


## 'HATR_BSQ11'  (redefinida como 'etr_otro', actualiza 'btr_otro')  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

¿**Encontró trabajo de otra forma**?

In [943]:
df['HATR_BSQ11'].unique() # No informados como ' ' o '9'

array(['2', '1', ' ', '9'], dtype=object)

In [944]:
etr('HATR_BSQ11','etr_otro')

               aux_traduce
                    unique
HATR_BSQ11                
            [No aplicable]
1                     [Sí]
2                     [No]
9                  [NS/NC]
[ 1.  2. nan]
         aux_traduce
              unique
etr_otro            
0.0             [No]
1.0             [Sí]


In [945]:
actualiza_btr('HATR_BSQ11','btr_otro')

         aux_traduce
              unique
btr_otro            
0.0             [No]
1.0             [Sí]
                 btr_otro_
                    unique
HATR_BSQ11_               
No           [nan, Sí, No]
Sí                    [Sí]
NaN              [nan, No]


In [946]:
for col in L_etr:
    col=str(col).strip('_')
    print (col,'\t',D_describe[col])

etr_internet 	 Encontró empleo: a través de ofertas de trabajo en el periódico, internet,...
etr_spe 	 Encontró empleo: a través de servicios de empleo públicos
etr_univ 	 Encontró empleo: a través de los servicios de empleo de la universidad (bolsa de trabajo, asociaciones de exalumnos, …)
etr_ett 	 Encontró empleo: a través de empresas de trabajo temporal
etr_bolsa 	 Encontró empleo: a través de una bolsa de empleo
etr_contactos 	 Encontró empleo: contactó con el empleador por iniciativa propia o utilizó contactos personales (familia, amigos)
etr_empleador 	 Encontró empleo: el empleador se puso en contacto con él
etr_practicas 	 Encontró empleo: continuó con las prácticas en empresas/ instituciones que realizó durante la carrera
etr_opo 	 Encontró empleo: preparó unas oposiciones
etr_auto 	 Encontró empleo: montó su propio negocio
etr_otro 	 Encontró empleo: de otra forma


In [947]:
# Promedios del éxito atribuído a cada estrategia de búsqueda de empleo por quienes han trabajado después de ...
# ... terminar sus estudios: 
df[L_etr].apply(lambda x: x.value_counts(normalize=True))

Unnamed: 0,etr_internet_,etr_spe_,etr_univ_,etr_ett_,etr_bolsa_,etr_contactos_,etr_empleador_,etr_practicas_,etr_opo_,etr_auto_,etr_otro_
No,0.698214,0.899437,0.898949,0.947832,0.904901,0.634241,0.80616,0.914853,0.851107,0.951475,0.974632
Sí,0.301786,0.100563,0.101051,0.052168,0.095099,0.365759,0.19384,0.085147,0.148893,0.048525,0.025368


## 'P_CONTI'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

¿**Continua en su primer empleo**?

In [948]:
df['P_CONTI'].unique() # No informados como ' ' 

array(['2', '1', ' '], dtype=object)

In [949]:
traduce('P_CONTI')

            aux_traduce
                 unique
P_CONTI                
         [No aplicable]
1                  [Sí]
2                  [No]


In [950]:
df[['P_CONTI','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,P_CONTI
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[ ]
Sí,"[2, 1]"


In [951]:
no_respuesta('P_CONTI')

[ 1.  2. nan]


In [952]:
proporciones('P_CONTI_')

Unnamed: 0,P_CONTI_
No,0.682253
Sí,0.296294
,0.021453


## 'PR_PAIS'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

**País** en el que desempeñaba su **primer empleo**.

In [953]:
df['PR_PAIS'].unique() # No informados como '  ' o '99'

array(['01', '  ', '02', '05', '03', '06', '07', '08', '04', '99', '09',
       '10', '11'], dtype=object)

In [954]:
traduce('PR_PAIS')

                                            aux_traduce
                                                 unique
PR_PAIS                                                
                                         [No aplicable]
01                                             [España]
02                                        [Reino Unido]
03                                           [Alemania]
04                                            [Francia]
05                      [Otro país de la Unión Europea]
06                 [Otro país europeo (fuera de la UE)]
07                       [Un país de América del Norte]
08       [Un país de América Central o América del Sur]
09                                    [Un país de Asia]
10                                  [Un país de África]
11                                 [Un país de Oceanía]
99                                              [NS/NC]


In [955]:
df[['ha_trab_','PR_PAIS']].groupby(['ha_trab_']).agg(['unique']) # Inspección

Unnamed: 0_level_0,PR_PAIS
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[ ]
Sí,"[01, 02, 05, 03, 06, 07, 08, 04, 99, 09, 10, 11]"


In [956]:
no_respuesta('PR_PAIS',blank='  ',nsnc='99')

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. nan]


## 'PR_OCU'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

**Ocupación** que desempeñaba en su **primer empleo**.

In [957]:
df['PR_OCU'].unique() # No informados como '  ' o '99'

array(['23', '22', '37', '51', '52', '45', '57', '55', '26', '33', '  ',
       '42', '28', '58', '56', '59', '14', '91', '13', '31', '36', '21',
       '44', '43', '92', '35', '54', '96', '41', '12', '24', '98', '15',
       '97', '84', '93', '75', '95', '11', '29', '72', '27', '94', '73',
       '78', '71', '74', '77', '00', '53', '81', '83', '99', '38', '61',
       '82', '25', '32', '34', '76', '64', '50', '62', '63'], dtype=object)

In [958]:
D_dict['PR_OCU']=D_ocupaciones # Diccionario abreviado de ocupaciones
traduce('PR_OCU')

       aux_traduce
            unique
PR_OCU            
              [  ]
00            [00]
11            [11]
12            [12]
13            [13]
...            ...
95            [95]
96            [96]
97            [97]
98            [98]
99            [99]

[64 rows x 1 columns]


In [959]:
df[['PR_OCU','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,PR_OCU
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[ ]
Sí,"[23, 22, 37, 51, 52, 45, 57, 55, 26, 33, 42, 28, 58, 56, 59, 14, 91, 13, 31, 36, 21, 44, 43, 92, 35, 54, 96, 41, 12, 24, 98, 15, 97, 84, 93, 75, 95, 11, 29, 72, 27, 94, 73, 78, 71, 74, 77, 00, 53, 81, 83, 99, 38, 61, 82, 25, 32, 34, 76, 64, 50, 62, 63]"


In [960]:
no_respuesta('PR_OCU',blank='  ',nsnc='99')

[ 0. 11. 12. 13. 14. 15. 21. 22. 23. 24. 25. 26. 27. 28. 29. 31. 32. 33.
 34. 35. 36. 37. 38. 41. 42. 43. 44. 45. 50. 51. 52. 53. 54. 55. 56. 57.
 58. 59. 61. 62. 63. 64. 71. 72. 73. 74. 75. 76. 77. 78. 81. 82. 83. 84.
 91. 92. 93. 94. 95. 96. 97. 98. nan]


## 'PR_SIT_PR'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

**Situación profesional** en su **primer empleo**.

In [961]:
df['PR_SIT_PR'].unique() # No informados como ' '

array(['1', '3', '2', '5', ' ', '6', '4'], dtype=object)

In [962]:
traduce('PR_SIT_PR')

                                                                                aux_traduce
                                                                                     unique
PR_SIT_PR                                                                                  
                                                                             [No aplicable]
1                 [Trabajador en prácticas, formación (incluido MIR, EIR, FIR,…) o becario]
2          [Asalariado con trabajo permanente o contrato de trabajo de duración indefinida]
3           [Asalariado con trabajo temporal o contrato de trabajo de duración determinada]
4                                                              [Empresario con asalariados]
5                                   [Trabajador independiente o empresario sin asalariados]
6                                                  [Ayuda en la empresa o negocio familiar]


In [963]:
df[['PR_SIT_PR_','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,PR_SIT_PR_
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[No aplicable]
Sí,"[Trabajador en prácticas, formación (incluido MIR, EIR, FIR,…) o becario, Asalariado con trabajo temporal o contrato de trabajo de duración determinada, Asalariado con trabajo permanente o contrato de trabajo de duración indefinida, Trabajador independiente o empresario sin asalariados, Ayuda en..."


In [964]:
no_respuesta('PR_SIT_PR')

[ 1.  2.  3.  4.  5.  6. nan]


## 'PR_JOR'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

Tipo de **jornada de trabajo** en su **primer empleo**.

In [965]:
df['PR_JOR'].unique() # No informados como ' '

array(['1', '2', ' '], dtype=object)

In [966]:
traduce('PR_JOR')

                aux_traduce
                     unique
PR_JOR                     
                      [nan]
1        [A tiempo parcial]
2       [A tiempo completo]


In [967]:
df[['PR_JOR_','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,PR_JOR_
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[nan]
Sí,"[A tiempo parcial, A tiempo completo]"


In [968]:
no_respuesta('PR_JOR')

[ 1.  2. nan]


## 'PR_NIVEL'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

**Nivel de formación** más apropiado para su **primer empleo**.

In [969]:
df['PR_NIVEL'].unique() # No informados como ' ' o '9'

array(['3', '4', '7', '2', ' ', '5', '6', '9', '1'], dtype=object)

In [970]:
traduce('PR_NIVEL')

                                                    aux_traduce
                                                         unique
PR_NIVEL                                                       
                                                 [No aplicable]
1                                                   [Doctorado]
2                                                      [Máster]
3           [Título universitario (excepto doctorado o máster)]
4                     [Formación profesional de grado superior]
5         [Formación profesional de grado medio/ bachillerato ]
6                                [Formación profesional básica]
7                                              [ESO, EGB, etc.]
9                                                       [NS/NC]


In [971]:
df[['PR_NIVEL','ha_trab_','sit_lab_']].groupby(['ha_trab_','sit_lab_']).agg(['unique']) # Inspección

Unnamed: 0_level_0,Unnamed: 1_level_0,PR_NIVEL
Unnamed: 0_level_1,Unnamed: 1_level_1,unique
ha_trab_,sit_lab_,Unnamed: 2_level_2
No,En desempleo,[ ]
No,Inactivo,[ ]
Sí,En desempleo,"[7, 3, 5, 4, 6, 2, 9, 1]"
Sí,Inactivo,"[3, 4, 5, 6, 7, 9, 2, 1]"
Sí,Trabajando,"[3, 4, 7, 2, 5, 6, 9, 1]"


In [972]:
no_respuesta('PR_NIVEL')

[ 1.  2.  3.  4.  5.  6.  7. nan]


## 'PR_AREA'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

**Área de estudio** más apropiada para su **primer empleo**.

In [973]:
df['PR_AREA'].unique() # No informados como ' ' o '9'

array(['2', '3', '4', '1', ' ', '9'], dtype=object)

In [974]:
traduce('PR_AREA')

                                         aux_traduce
                                              unique
PR_AREA                                             
                                     [No aplicable ]
1        [Exclusivamente su propia área de estudios]
2              [Su propia área o alguna relacionada]
3                     [Un área totalmente diferente]
4                        [Ningún área en particular]
9                                            [NS/NC]


In [975]:
df[['PR_AREA_','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,PR_AREA_
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[No aplicable ]
Sí,"[Su propia área o alguna relacionada, Un área totalmente diferente, Ningún área en particular, Exclusivamente su propia área de estudios, NS/NC]"


In [976]:
no_respuesta('PR_AREA')

[ 1.  2.  3.  4. nan]


## 'PR_CONOC'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

¿Se hacía uso en su **primer empleo** de los **conocimientos y habilidades** adquiridos en estos estudios?

In [977]:
df['PR_CONOC'].unique() # No informados como ' ' o '9'

array(['1', '2', ' ', '9'], dtype=object)

In [978]:
traduce('PR_CONOC')

             aux_traduce
                  unique
PR_CONOC                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [979]:
df[['PR_CONOC_','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,PR_CONOC_
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[No aplicable]
Sí,"[Sí, No, NS/NC]"


In [980]:
no_respuesta('PR_CONOC')

[ 1.  2. nan]


## 'PR_SUELDO'  (redefinida como 'pr_sueldo')

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

**Sueldo mensual neto del primer trabajo** o de su empleo actual en el momento en el que empezó.

In [981]:
df['PR_SUELDO'].unique() # No informados como ' ' o '9'

array(['3', '2', '1', '4', ' ', '9', '5', '7', '6'], dtype=object)

In [982]:
traduce('PR_SUELDO')

                            aux_traduce
                                 unique
PR_SUELDO                              
                         [No aplicable]
1                  [Menos de 700 euros]
2                  [De 700 a 999 euros]
3              [De 1.000 a 1.499 euros]
4              [De 1.500 a 1.999 euros]
5              [De 2.000 a 2.499 euros]
6              [De 2.500 a 2.999 euros]
7          [De 3.000 euros en adelante]
9                               [NS/NC]


In [983]:
df[['PR_SUELDO','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,PR_SUELDO
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[ ]
Sí,"[3, 2, 1, 4, 9, 5, 7, 6]"


In [984]:
no_respuesta('PR_SUELDO')

[ 1.  2.  3.  4.  5.  6.  7. nan]


In [985]:
redefine('PR_SUELDO','pr_sueldo')

In [986]:
proporciones('pr_sueldo_',dropna=True)

Unnamed: 0,pr_sueldo_
Menos de 700 euros,0.326339
De 1.000 a 1.499 euros,0.268203
De 700 a 999 euros,0.240678
De 1.500 a 1.999 euros,0.121797
De 2.000 a 2.499 euros,0.028915
De 2.500 a 2.999 euros,0.007051
De 3.000 euros en adelante,0.007017


In [987]:
# Distribución de primer sueldo condicionada por sexo
dist_condicionada('pr_sueldo_','sexo_',dropna=True)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas pr_sueldo_,3. dif relativas,3. dif relativas
sexo_,Mujer,Hombre,Unnamed: 3_level_1,Mujer,Hombre
pr_sueldo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
De 1.000 a 1.499 euros,0.244899,0.299078,0.268203,-8.69%,+11.51%
De 1.500 a 1.999 euros,0.115758,0.129797,0.121797,-4.96%,+6.57%
De 2.000 a 2.499 euros,0.022485,0.037434,0.028915,-22.24%,+29.46%
De 2.500 a 2.999 euros,0.004104,0.010954,0.007051,-41.79%,+55.36%
De 3.000 euros en adelante,0.003985,0.011033,0.007017,-43.20%,+57.24%
De 700 a 999 euros,0.243591,0.236819,0.240678,+1.21%,-1.60%
Menos de 700 euros,0.365178,0.274884,0.326339,+11.90%,-15.77%


In [988]:
#Distribución de primer sueldo condicionada por discapacidad. 
dist_condicionada('pr_sueldo_','discapacidad_',dropna=True)

Unnamed: 0_level_0,1. fr. relativas condicionadas,1. fr. relativas condicionadas,2. fr relativas pr_sueldo_,3. dif relativas,3. dif relativas
discapacidad_,Sí,No,Unnamed: 3_level_1,Sí,No
pr_sueldo_,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
De 1.000 a 1.499 euros,0.243827,0.268474,0.268203,-9.09%,+0.10%
De 1.500 a 1.999 euros,0.157407,0.121401,0.121797,+29.24%,-0.32%
De 2.000 a 2.499 euros,0.027778,0.028928,0.028915,-3.93%,+0.04%
De 2.500 a 2.999 euros,0.003086,0.007095,0.007051,-56.23%,+0.62%
De 3.000 euros en adelante,0.015432,0.006923,0.007017,+119.93%,-1.33%
De 700 a 999 euros,0.25,0.240574,0.240678,+3.87%,-0.04%
Menos de 700 euros,0.302469,0.326604,0.326339,-7.31%,+0.08%


## 'HATR_TIEMP'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

**Tiempo que ha estado trabajando** desde que terminó sus estudios. 

In [989]:
df['HATR_TIEMP'].unique() # No informados como ' ' o '9'

array(['5', '3', '4', '2', '1', ' ', '9'], dtype=object)

In [990]:
traduce('HATR_TIEMP')

                            aux_traduce
                                 unique
HATR_TIEMP                             
                         [No aplicable]
1                    [Menos de 6 meses]
2                  [De 6 meses a 1 año]
3              [De 1 año a año y medio]
4           [De 1 año y medio a 2 años]
5                        [2 o más años]
9                               [NS/NC]


In [991]:
df[['HATR_TIEMP','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,HATR_TIEMP
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[ ]
Sí,"[5, 3, 4, 2, 1, 9]"


In [992]:
no_respuesta('HATR_TIEMP')

[ 1.  2.  3.  4.  5. nan]


## 'HATR_NUM'  

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

**Número de empleadores distintos** que ha tenido.

In [993]:
df['HATR_NUM'].unique() # No informados como '  ' o '99'

array(['03', '06', '08', '02', '07', '05', '04', '09', '11', '01', '  ',
       '00', '10', '99'], dtype=object)

In [994]:
traduce('HATR_NUM')

             aux_traduce
                  unique
HATR_NUM                
          [No aplicable]
00                  [00]
01                  [01]
02                  [02]
03                  [03]
04                  [04]
05                  [05]
06                  [06]
07                  [07]
08                  [08]
09                  [09]
10                  [10]
11            [11 o más]
99               [NS/NC]


In [995]:
df[['HATR_NUM','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,HATR_NUM
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[ ]
Sí,"[03, 06, 08, 02, 07, 05, 04, 09, 11, 01, 00, 10, 99]"


In [996]:
no_respuesta('HATR_NUM',blank='  ',nsnc='99')

[ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11. nan]


## 'HATR_E27'  (redefinida como 'utilidad')

(Solo para quienes **declaran haber trabajado** después de haber terminado sus estudios -respuesta 1 en 'HA_TRAB' o 'ha_trab'-) 

¿Cree que el título universitario le ha servido para encontrar trabajo?

In [997]:
df['HATR_E27'].unique() # No informados como ' ' o '9'

array(['1', '2', ' ', '9'], dtype=object)

In [998]:
traduce('HATR_E27')

             aux_traduce
                  unique
HATR_E27                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [999]:
df[['HATR_E27_','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,HATR_E27_
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,[No aplicable]
Sí,"[Sí, No, NS/NC]"


In [1000]:
no_respuesta('HATR_E27')

[ 1.  2. nan]


In [1001]:
redefine('HATR_E27','utilidad',si_no=True)

         aux_traduce
              unique
utilidad            
0.0             [No]
1.0             [Sí]


In [1002]:
proporciones('utilidad_')

Unnamed: 0,utilidad_
Sí,0.695176
No,0.275157
,0.029667


## 'NOTRAB_BUS'  (completa la variable 'busqueda_tr')

(Solo para quienes **declaran no haber trabajado** después de haber terminado sus estudios -respuesta 2 en 'HA_TRAB' o 0 en 'ha_trab'-) 

¿**Ha buscado empleo** alguna vez?

Nota: Se usa esta información para completar la recogida en la variable 'busqueda_tr'.

In [1003]:
df['NOTRAB_BUS'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [1004]:
traduce('NOTRAB_BUS')

               aux_traduce
                    unique
NOTRAB_BUS                
            [No aplicable]
1                     [Sí]
2                     [No]
9                  [NS/NC]


In [1005]:
df[['NOTRAB_BUS_','ha_trab_']].groupby('ha_trab_').agg(['unique']) # Inspección

Unnamed: 0_level_0,NOTRAB_BUS_
Unnamed: 0_level_1,unique
ha_trab_,Unnamed: 1_level_2
No,"[Sí, No, NS/NC]"
Sí,[No aplicable]


In [1006]:
df[['NOTRAB_BUS_','busqueda_tr_','sit_lab']][df['sit_lab']==3].groupby(['busqueda_tr_','sit_lab'],
                                                                       dropna=False).agg(['unique'])
# No contradice la información facilitada por desempleados en la variable 'TRINAC_D4' (recogida en 'busqueda_tr')

Unnamed: 0_level_0,Unnamed: 1_level_0,NOTRAB_BUS_
Unnamed: 0_level_1,Unnamed: 1_level_1,unique
busqueda_tr_,sit_lab,Unnamed: 2_level_2
No,3.0,"[No, No aplicable]"
Sí,3.0,"[No aplicable, Sí]"
,3.0,"[No aplicable, NS/NC]"


In [1007]:
df[['NOTRAB_BUS_','sit_lab_']].groupby('sit_lab_',dropna=False).agg(['unique'])
# Sin información para quienes han trabajado después de terminar los estudios (incluye todos los ocupados y ...
# ... los desempleados que sí han trabajado).

Unnamed: 0_level_0,NOTRAB_BUS_
Unnamed: 0_level_1,unique
sit_lab_,Unnamed: 1_level_2
En desempleo,"[No aplicable, Sí]"
Inactivo,"[No aplicable, Sí, No, NS/NC]"
Trabajando,[No aplicable]


In [1008]:
no_respuesta('NOTRAB_BUS')

[ 1.  2. nan]


In [1009]:
# Se usa esta información para actualizar la variable 'busqueda_tr':
df['busqueda_tr'].mask(df['NOTRAB_BUS']==1,1,inplace=True)
df['busqueda_tr'].mask(df['NOTRAB_BUS']==2,0,inplace=True)
traduce('busqueda_tr')
df['busqueda_tr'][df['NOTRAB_BUS']==1].unique() # Comprobación

            aux_traduce
                 unique
busqueda_tr            
0.0                [No]
1.0                [Sí]


array([1.])

In [1010]:
df['busqueda_tr'][df['NOTRAB_BUS']==2].unique() # Comprobación 

array([0.])

## 'NOTRAB_BUSM'  

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de haber terminado los estudios) 

Momento en que empezó a buscar trabajo. 

In [1011]:
df['NOTRAB_BUSM'].unique()

array([' ', '2', '1', '9'], dtype=object)

In [1012]:
traduce('NOTRAB_BUSM')

                                                                        aux_traduce
                                                                             unique
NOTRAB_BUSM                                                                        
                                                                     [No aplicable]
1              [Antes de acabar los estudios de la titulación que finalizó en 2014]
2            [Después de acabar los estudios de la titulación que finalizó en 2014]
9                                                                           [NS/NC]


In [1013]:
df[['NOTRAB_BUSM_','NOTRAB_BUS_','sit_lab_']].groupby(['NOTRAB_BUS_','sit_lab_'],
                                                      dropna=False).agg(['unique']) # Inspección
# Sin información para quienes declaran haber trabajado después de terminar sus estudios.

Unnamed: 0_level_0,Unnamed: 1_level_0,NOTRAB_BUSM_
Unnamed: 0_level_1,Unnamed: 1_level_1,unique
NOTRAB_BUS_,sit_lab_,Unnamed: 2_level_2
No,Inactivo,[No aplicable]
Sí,En desempleo,"[Antes de acabar los estudios de la titulación que finalizó en 2014, Después de acabar los estudios de la titulación que finalizó en 2014, NS/NC]"
Sí,Inactivo,"[Después de acabar los estudios de la titulación que finalizó en 2014, Antes de acabar los estudios de la titulación que finalizó en 2014]"
,En desempleo,[No aplicable]
,Inactivo,[No aplicable]
,Trabajando,[No aplicable]


In [1014]:
no_respuesta('NOTRAB_BUSM')

[ 1.  2. nan]


## 'NOTRAB_BUST'  

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

**Tiempo que lleva buscando trabajo**. 

In [1015]:
df['NOTRAB_BUST'].unique() # No informados como ' ' o '9'

array([' ', '6', '4', '3', '5', '1', '9', '2'], dtype=object)

In [1016]:
traduce('NOTRAB_BUST')

                               aux_traduce
                                    unique
NOTRAB_BUST                               
                            [No aplicable]
1                    [Menos de tres meses]
2                         [De 3 a 6 meses]
3                     [De 6 meses a 1 año]
4               [De 1 año a año y medio  ]
5            [De 1 año y medio a  2 años ]
6                           [2 ó más años]
9                                  [NS/NC]


In [1017]:
df[['NOTRAB_BUST_','NOTRAB_BUS_','sit_lab_']].groupby(['NOTRAB_BUS_','sit_lab_'],
                                                      dropna=False).agg(['unique']) # Inspección

Unnamed: 0_level_0,Unnamed: 1_level_0,NOTRAB_BUST_
Unnamed: 0_level_1,Unnamed: 1_level_1,unique
NOTRAB_BUS_,sit_lab_,Unnamed: 2_level_2
No,Inactivo,[No aplicable]
Sí,En desempleo,"[2 ó más años, De 1 año a año y medio , Menos de tres meses, De 3 a 6 meses, De 6 meses a 1 año, De 1 año y medio a 2 años , NS/NC]"
Sí,Inactivo,"[2 ó más años, De 1 año a año y medio , De 6 meses a 1 año, De 1 año y medio a 2 años , NS/NC, De 3 a 6 meses, Menos de tres meses]"
,En desempleo,[No aplicable]
,Inactivo,[No aplicable]
,Trabajando,[No aplicable]


In [1018]:
no_respuesta('NOTRAB_BUST')

[ 1.  2.  3.  4.  5.  6. nan]


## 'NOTRAB_BSQ1'  (completa la información de la variable 'btr_internet')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo a través de anuncios en periódicos, **internet**, etc.?

Nota: 'NOTRAB_BSQ1' recoge la misma información que la variable 'TRPARA_D7_1' definida para desempleados (redefinida como 'btr_internet'). 'NOTRAB_BSQ1' está definida para quienes no han trabajado y sí han buscado empleo. Esto incluye algunos desempleados. Se ha comprobado que la información de estas dos variables no es contradictoria. 

In [1019]:
df['NOTRAB_BSQ1'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [1020]:
traduce('NOTRAB_BSQ1')

                aux_traduce
                     unique
NOTRAB_BSQ1                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]


In [1021]:
df[['NOTRAB_BSQ1_','NOTRAB_BUS_','ha_trab_']].groupby('NOTRAB_BUS_',dropna=False).agg(['unique']) # Inspección
# Solo se ha preguntado a quienes declaran no haber trabajado después de terminar sus estudios y haber ...
# ... buscado empleo. 

Unnamed: 0_level_0,NOTRAB_BSQ1_,ha_trab_
Unnamed: 0_level_1,unique,unique
NOTRAB_BUS_,Unnamed: 1_level_2,Unnamed: 2_level_2
No,[No aplicable],[No]
Sí,"[Sí, No, NS/NC]",[No]
,[No aplicable],"[Sí, No]"


In [1022]:
df[['NOTRAB_BSQ1','btr_internet_','sit_lab_']][df['sit_lab']==2].groupby(['NOTRAB_BSQ1','sit_lab_'],
                                                                         dropna=False).agg(['unique']) 
# No contradice lo declarado por los desempleados en la variable 'TRPARA_D7_1' (redefinida como 'btr_internet')

Unnamed: 0_level_0,Unnamed: 1_level_0,btr_internet_
Unnamed: 0_level_1,Unnamed: 1_level_1,unique
NOTRAB_BSQ1,sit_lab_,Unnamed: 2_level_2
,En desempleo,"[Sí, No, nan]"
1.0,En desempleo,[Sí]
2.0,En desempleo,[No]
9.0,En desempleo,[nan]


In [1023]:
L_btr=list()

In [1024]:
def actualiza_btr(col,btr):
    """ Actualiza las variables con prefijo btr_ definidas para las distintas estrategias de búsqueda de empleo, 
    añadiendo las respuestas declaradas por quienes no han trabajado y sí han buscado empleo.
    """
    no_respuesta(col)
    df[btr].mask(df[col]==1,1,inplace=True)
    df[btr].mask(df[col]==2,0,inplace=True)
    traduce(btr)
    print (df[[str(col)+'_',str(btr)+'_']][df['NOTRAB_BUS']==1].groupby([str(col)+'_'],
                                                                        dropna=False).agg(['unique']))
    if str(btr)+'_' not in L_btr:
        L_btr.append(str(btr)+'_')
    return

In [1025]:
actualiza_btr('NOTRAB_BSQ1','btr_internet')

[ 1.  2. nan]
             aux_traduce
                  unique
btr_internet            
0.0                 [No]
1.0                 [Sí]
             btr_internet_
                    unique
NOTRAB_BSQ1_              
No                    [No]
Sí                    [Sí]
NaN                  [nan]


## 'NOTRAB_BSQ2'  (completa la información de la variable 'btr_spe')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo a través de los **servicios públicos de empleo**?

Nota: 'NOTRAB_BSQ2' recoge la misma información que la variable 'TRPARA_D7_2' definida para desempleados (redefinida como 'btr_sep'). 

In [1026]:
df['NOTRAB_BSQ2'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [1027]:
traduce('NOTRAB_BSQ2')

                aux_traduce
                     unique
NOTRAB_BSQ2                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]


In [1028]:
actualiza_btr('NOTRAB_BSQ2','btr_spe')

[ 1.  2. nan]
        aux_traduce
             unique
btr_spe            
0.0            [No]
1.0            [Sí]
             btr_spe_
               unique
NOTRAB_BSQ2_         
No               [No]
Sí               [Sí]
NaN             [nan]


## 'NOTRAB_BSQ3'  (completa la información de la variable 'btr_univ')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo a través de los **servicios de empleo de la universidad** (bolsa de trabajo, asociaciones de exalumnos, etc.)?

Nota: 'NOTRAB_BSQ3' recoge la misma información que la variable 'TRPARA_D7_3' definida para desempleados (redefinida como 'btr_univ'). 

In [1029]:
df['NOTRAB_BSQ3'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1030]:
traduce('NOTRAB_BSQ3')

                aux_traduce
                     unique
NOTRAB_BSQ3                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]


In [1031]:
actualiza_btr('NOTRAB_BSQ3','btr_univ')

[ 1.  2. nan]
         aux_traduce
              unique
btr_univ            
0.0             [No]
1.0             [Sí]
             btr_univ_
                unique
NOTRAB_BSQ3_          
No                [No]
Sí                [Sí]
NaN              [nan]


## 'NOTRAB_BSQ4'  (completa la información de la variable 'btr_ett')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo a través de **empresas de trabajo temporal**?

Nota: 'NOTRAB_BSQ4' recoge la misma información que la variable 'TRPARA_D7_4' definida para desempleados (redefinida como 'btr_ett'). 

In [1032]:
df['NOTRAB_BSQ4'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1033]:
traduce('NOTRAB_BSQ4')

                aux_traduce
                     unique
NOTRAB_BSQ4                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]


In [1034]:
actualiza_btr('NOTRAB_BSQ4','btr_ett')

[ 1.  2. nan]
        aux_traduce
             unique
btr_ett            
0.0            [No]
1.0            [Sí]
             btr_ett_
               unique
NOTRAB_BSQ4_         
No               [No]
Sí               [Sí]
NaN             [nan]


## 'NOTRAB_BSQ5'  (completa la información de la variable 'btr_bolsa')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo a través de una **bolsa de empleo**?

Nota: 'NOTRAB_BSQ5' recoge la misma información que la variable 'TRPARA_D7_5' definida para desempleados (redefinida como 'btr_bolsa'). 

In [1035]:
df['NOTRAB_BSQ5'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1036]:
traduce('NOTRAB_BSQ5')

                aux_traduce
                     unique
NOTRAB_BSQ5                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]


In [1037]:
actualiza_btr('NOTRAB_BSQ5','btr_bolsa')

[ 1.  2. nan]
          aux_traduce
               unique
btr_bolsa            
0.0              [No]
1.0              [Sí]
             btr_bolsa_
                 unique
NOTRAB_BSQ5_           
No                 [No]
Sí                 [Sí]
NaN               [nan]


## 'NOTRAB_BSQ6'  (completa la información de la variable 'btr_contactos')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo buscando ayuda entre profesionales conocidos del sector o **contactos personales** (familia, amigos)?

Nota: 'NOTRAB_BSQ6' recoge la misma información que la variable 'TRPARA_D7_6' definida para desempleados (redefinida como 'btr_contactos'). 

In [1038]:
df['NOTRAB_BSQ6'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [1039]:
traduce('NOTRAB_BSQ6')

                aux_traduce
                     unique
NOTRAB_BSQ6                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]


In [1040]:
actualiza_btr('NOTRAB_BSQ6','btr_contactos')

[ 1.  2. nan]
              aux_traduce
                   unique
btr_contactos            
0.0                  [No]
1.0                  [Sí]
             btr_contactos_
                     unique
NOTRAB_BSQ6_               
No                     [No]
Sí                     [Sí]
NaN                   [nan]


## 'NOTRAB_BSQ7'  (completa la información de la variable 'btr_empresas')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo **contactando directamente con las empresas**?  

Nota: 'NOTRAB_BSQ7' recoge la misma información que la variable 'TRPARA_D7_7' definida para desempleados (redefinida como 'btr_empresas'). 

In [1041]:
df['NOTRAB_BSQ7'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [1042]:
traduce('NOTRAB_BSQ7')

                aux_traduce
                     unique
NOTRAB_BSQ7                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]


In [1043]:
actualiza_btr('NOTRAB_BSQ7','btr_empresas')

[ 1.  2. nan]
             aux_traduce
                  unique
btr_empresas            
0.0                 [No]
1.0                 [Sí]
             btr_empresas_
                    unique
NOTRAB_BSQ7_              
No                    [No]
Sí                    [Sí]
NaN                  [nan]


## 'NOTRAB_BSQ8'  (completa la información de la variable 'btr_opo')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo **preparando unas oposiciones**?  

Nota: 'NOTRAB_BSQ8' recoge la misma información que la variable 'TRPARA_D7_8' definida para desempleados (redefinida como 'btr_opo'). 

In [1044]:
df['NOTRAB_BSQ8'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1045]:
traduce('NOTRAB_BSQ8')

                aux_traduce
                     unique
NOTRAB_BSQ8                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]


In [1046]:
actualiza_btr('NOTRAB_BSQ8','btr_opo')

[ 1.  2. nan]
        aux_traduce
             unique
btr_opo            
0.0            [No]
1.0            [Sí]
             btr_opo_
               unique
NOTRAB_BSQ8_         
No               [No]
Sí               [Sí]
NaN             [nan]


## 'NOTRAB_BSQ9'  (completa la información de la variable 'btr_auto')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo buscando equipamiento para establecer un **negocio propio**?  

Nota: 'NOTRAB_BSQ9' recoge la misma información que la variable 'TRPARA_D7_9' definida para desempleados (redefinida como 'btr_auto'). 

In [1047]:
df['NOTRAB_BSQ9'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1048]:
traduce('NOTRAB_BSQ9')

                aux_traduce
                     unique
NOTRAB_BSQ9                
             [No aplicable]
1                      [Sí]
2                      [No]
9                   [NS/NC]


In [1049]:
actualiza_btr('NOTRAB_BSQ9','btr_auto')

[ 1.  2. nan]
         aux_traduce
              unique
btr_auto            
0.0             [No]
1.0             [Sí]
             btr_auto_
                unique
NOTRAB_BSQ9_          
No                [No]
Sí                [Sí]
NaN              [nan]


## 'NOTRAB_BSQ10'  (completa la información de la variable 'btr_otro')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

¿Ha buscado trabajo de **otro modo**?  

Nota: 'NOTRAB_BSQ10' recoge la misma información que la variable 'TRPARA_D7_10' definida para desempleados (redefinida como 'btr_otro'). 

In [1050]:
df['NOTRAB_BSQ10'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1051]:
traduce('NOTRAB_BSQ10')

                 aux_traduce
                      unique
NOTRAB_BSQ10                
              [No aplicable]
1                       [Sí]
2                       [No]
9                    [NS/NC]


In [1052]:
actualiza_btr('NOTRAB_BSQ10','btr_otro')

[ 1.  2. nan]
         aux_traduce
              unique
btr_otro            
0.0             [No]
1.0             [Sí]
              btr_otro_
                 unique
NOTRAB_BSQ10_          
No                 [No]
Sí                 [Sí]
NaN               [nan]


In [1053]:
# Distribución de esstrategias de búsqueda de empleo entre quienes no han trabajado: 
df[L_btr].apply(lambda x: x.value_counts(normalize=True))

Unnamed: 0,btr_internet_,btr_spe_,btr_univ_,btr_ett_,btr_bolsa_,btr_contactos_,btr_empresas_,btr_opo_,btr_auto_,btr_otro_
No,0.034062,0.188106,0.304149,0.410629,0.277693,0.067747,0.421093,0.21448,0.580045,0.189658
Sí,0.965938,0.811894,0.695851,0.589371,0.722307,0.932253,0.578907,0.78552,0.419955,0.810342


## 'NOTRAB_DIF1'  (completa la información de la variable 'dbtr_formacion')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

(**Dificultades para encontrar empleo**) Importancia que atribuye a las **carencias en la formación universitaria recibida** en cuanto a sus dificultades para encontrar trabajo.

Nota: 'NOTRAB_DIF1' recoge la misma información que la variable 'TRPARA_D8_1' definida para desempleados (redefinida como 'dbtr_formacion'). 

In [1054]:
df['NOTRAB_DIF1'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '4', '9', '3'], dtype=object)

In [1055]:
traduce('NOTRAB_DIF1')

                       aux_traduce
                            unique
NOTRAB_DIF1                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]


In [1056]:
df[['NOTRAB_DIF1_','NOTRAB_BUS_']].groupby('NOTRAB_BUS_',dropna=False).agg(['unique']) # Inspección

Unnamed: 0_level_0,NOTRAB_DIF1_
Unnamed: 0_level_1,unique
NOTRAB_BUS_,Unnamed: 1_level_2
No,[No aplicable]
Sí,"[Poco importante, Nada importante, Muy importante, NS/NC, Bastante importante]"
,[No aplicable]


In [1057]:
df[['NOTRAB_DIF1_','dbtr_formacion_','sit_lab_']][df['sit_lab']==2].groupby('NOTRAB_DIF1_',
                                                                            dropna=False).agg(['unique']) 
# No hay contradicción con lo declarado en 'TRPARA_D8_1' (o 'dbtr_formacion') por los desempleados.

Unnamed: 0_level_0,dbtr_formacion_,sit_lab_
Unnamed: 0_level_1,unique,unique
NOTRAB_DIF1_,Unnamed: 1_level_2,Unnamed: 2_level_2
Bastante importante,[Bastante importante],[En desempleo]
Muy importante,[Muy importante],[En desempleo]
NS/NC,[nan],[En desempleo]
Nada importante,[Nada importante],[En desempleo]
No aplicable,"[Muy importante, Poco importante, Bastante importante, Nada importante, nan]",[En desempleo]
Poco importante,[Poco importante],[En desempleo]


In [1058]:
L_dbtr=list()

In [1059]:
def actualiza_dbtr(col,dbtr):
    """Actualiza las variables con prefijo 'dbtr_' (definidas originalmente para desempleados), añadiendo la 
    información que facilitan quienes declaran no haber trabajado desde que terminaron sus estudios y haber 
    buscado trabajo. 
    """
    no_respuesta(col)
    cond=(df[col]==1)|(df[col]==2)|(df[col]==3)|(df[col]==4)
    df[dbtr].mask(cond,df[col],inplace=True)
    traduce(dbtr)
    print (df[[str(col)+'_',str(dbtr)+'_']][df['NOTRAB_BUS']==1].groupby(str(col)+'_',
                                                                         dropna=False).agg(['unique']))
    if str(dbtr)+'_' not in L_dbtr: 
        L_dbtr.append(str(dbtr)+'_')
    return

In [1060]:
actualiza_dbtr('NOTRAB_DIF1','dbtr_formacion')

[ 1.  2.  3.  4. nan]
                          aux_traduce
                               unique
dbtr_formacion                       
1.0                 [Nada importante]
2.0                 [Poco importante]
3.0             [Bastante importante]
4.0                  [Muy importante]
                           dbtr_formacion_
                                    unique
NOTRAB_DIF1_                              
Bastante importante  [Bastante importante]
Muy importante            [Muy importante]
Nada importante          [Nada importante]
Poco importante          [Poco importante]
NaN                                  [nan]


## 'NOTRAB_DIF2'  (completa la información de la variable 'dbtr_personales')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

(**Dificultades para encontrar empleo**) Importancia que atribuye a las **actividades personales** que impiden trabajar (seguir estudiando, familia, otras) en cuanto a sus dificultades para encontrar trabajo.

Nota: 'NOTRAB_DIF2' recoge la misma información que la variable 'TRPARA_D8_2' definida para desempleados (redefinida como 'dbtr_personales'). 

In [1061]:
df['NOTRAB_DIF2'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '4', '3', '9'], dtype=object)

In [1062]:
traduce('NOTRAB_DIF2')

                       aux_traduce
                            unique
NOTRAB_DIF2                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]


In [1063]:
actualiza_dbtr('NOTRAB_DIF2','dbtr_personales')

[ 1.  2.  3.  4. nan]
                           aux_traduce
                                unique
dbtr_personales                       
1.0                  [Nada importante]
2.0                  [Poco importante]
3.0              [Bastante importante]
4.0                   [Muy importante]
                          dbtr_personales_
                                    unique
NOTRAB_DIF2_                              
Bastante importante  [Bastante importante]
Muy importante            [Muy importante]
Nada importante          [Nada importante]
Poco importante          [Poco importante]
NaN                                  [nan]


## 'NOTRAB_DIF3'  (completa la información de la variable 'dbtr_experiencia')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

(**Dificultades para encontrar empleo**) Importancia que atribuye a la **falta de experiencia profesional** en cuanto a sus dificultades para encontrar trabajo.

Nota: 'NOTRAB_DIF3' recoge la misma información que la variable 'TRPARA_D8_3' definida para desempleados (redefinida como 'dbtr_experiencia'). 

In [1064]:
df['NOTRAB_DIF3'].unique() # No informados como ' ' o '9'

array([' ', '4', '3', '9', '1', '2'], dtype=object)

In [1065]:
traduce('NOTRAB_DIF3')

                       aux_traduce
                            unique
NOTRAB_DIF3                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]


In [1066]:
actualiza_dbtr('NOTRAB_DIF3','dbtr_experiencia')

[ 1.  2.  3.  4. nan]
                            aux_traduce
                                 unique
dbtr_experiencia                       
1.0                   [Nada importante]
2.0                   [Poco importante]
3.0               [Bastante importante]
4.0                    [Muy importante]
                         dbtr_experiencia_
                                    unique
NOTRAB_DIF3_                              
Bastante importante  [Bastante importante]
Muy importante            [Muy importante]
Nada importante          [Nada importante]
Poco importante          [Poco importante]
NaN                                  [nan]


## 'NOTRAB_DIF4'  (completa la información de la variable 'dbtr_expectativas')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

(**Dificultades para encontrar empleo**) Importancia que atribuye a la **exigencia de tener un trabajo acorde con sus expectativas** económicas y profesionales en cuanto a sus dificultades para encontrar trabajo.

Nota: 'NOTRAB_DIF4' recoge la misma información que la variable 'TRPARA_D8_4' definida para desempleados (redefinida como 'dbtr_formación'). 

In [1067]:
df['NOTRAB_DIF4'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '4', '3', '9'], dtype=object)

In [1068]:
traduce('NOTRAB_DIF4')

                       aux_traduce
                            unique
NOTRAB_DIF4                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]


In [1069]:
actualiza_dbtr('NOTRAB_DIF4','dbtr_expectativas')

[ 1.  2.  3.  4. nan]
                             aux_traduce
                                  unique
dbtr_expectativas                       
1.0                    [Nada importante]
2.0                    [Poco importante]
3.0                [Bastante importante]
4.0                     [Muy importante]
                        dbtr_expectativas_
                                    unique
NOTRAB_DIF4_                              
Bastante importante  [Bastante importante]
Muy importante            [Muy importante]
Nada importante          [Nada importante]
Poco importante          [Poco importante]
NaN                                  [nan]


## 'NOTRAB_DIF5'  (completa la información de la variable 'dbtr_idiomas')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

(**Dificultades para encontrar empleo**) Importancia que atribuye a la **falta de conocimientos de idiomas** en cuanto a sus dificultades para encontrar trabajo.

Nota: 'NOTRAB_DIF5' recoge la misma información que la variable 'TRPARA_D8_5' definida para desempleados (redefinida como 'dbtr_idiomas'). 

In [1070]:
df['NOTRAB_DIF5'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '3', '4', '9'], dtype=object)

In [1071]:
traduce('NOTRAB_DIF5')

                       aux_traduce
                            unique
NOTRAB_DIF5                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]


In [1072]:
actualiza_dbtr('NOTRAB_DIF5','dbtr_idiomas')

[ 1.  2.  3.  4. nan]
                        aux_traduce
                             unique
dbtr_idiomas                       
1.0               [Nada importante]
2.0               [Poco importante]
3.0           [Bastante importante]
4.0                [Muy importante]
                             dbtr_idiomas_
                                    unique
NOTRAB_DIF5_                              
Bastante importante  [Bastante importante]
Muy importante            [Muy importante]
Nada importante          [Nada importante]
Poco importante          [Poco importante]
NaN                                  [nan]


## 'NOTRAB_DIF6'  (completa la información de la variable 'dbtr_ti')

(Solo para quienes **declaran haber buscado empleo** -respuesta 1 en 'NOTRAB_BUS'-. Implica que no han trabajado después de terminar los estudios) 

(**Dificultades para encontrar empleo**) Importancia que atribuye a la **falta de conocimientos informáticos** en cuanto a sus dificultades para encontrar trabajo.

Nota: 'NOTRAB_DIF6' recoge la misma información que la variable 'TRPARA_D8_6' definida para desempleados (redefinida como 'dbtr_ti'). 

In [1073]:
df['NOTRAB_DIF6'].unique() # No informados como ' ' o '9'

array([' ', '3', '1', '2', '4', '9'], dtype=object)

In [1074]:
traduce('NOTRAB_DIF6')

                       aux_traduce
                            unique
NOTRAB_DIF6                       
                    [No aplicable]
1                [Nada importante]
2                [Poco importante]
3            [Bastante importante]
4                 [Muy importante]
9                          [NS/NC]


In [1075]:
actualiza_dbtr('NOTRAB_DIF6','dbtr_ti')

[ 1.  2.  3.  4. nan]
                   aux_traduce
                        unique
dbtr_ti                       
1.0          [Nada importante]
2.0          [Poco importante]
3.0      [Bastante importante]
4.0           [Muy importante]
                                  dbtr_ti_
                                    unique
NOTRAB_DIF6_                              
Bastante importante  [Bastante importante]
Muy importante            [Muy importante]
Nada importante          [Nada importante]
Poco importante          [Poco importante]
NaN                                  [nan]


In [1076]:
# Distribución de la importancia que atribuyen a cada dificultad para encontrar trabajo quienes no han ...
# ... trabajado después de terminar sus estudios y han buscado trabajo:
df_dbtr=df[L_dbtr][df['NOTRAB_BUS']==1].apply(lambda x: x.value_counts(normalize=True))
# Para ordenar la salida por grado de importancia: 
df_dbtr.sort_values('dbtr_experiencia_')

Unnamed: 0,dbtr_formacion_,dbtr_personales_,dbtr_experiencia_,dbtr_expectativas_,dbtr_idiomas_,dbtr_ti_
Nada importante,0.276596,0.242105,0.057292,0.136364,0.223404,0.36193
Poco importante,0.340426,0.252632,0.070312,0.320856,0.401596,0.412869
Bastante importante,0.215426,0.242105,0.1875,0.296791,0.242021,0.168901
Muy importante,0.167553,0.263158,0.684896,0.245989,0.132979,0.0563


In [1077]:
df_dbtr.sort_values('dbtr_experiencia_').rank(ascending=False)
# La dificultad destacada como la principal para encontrar trabajo es la falta de experiencia profesional ...
# ... (la frecuencia de las respuestas disminuye a medida que reflejan menor importancia atribuida).
# Solo las circunstancias personales aparecen también como muy importantes con la frecuencia más alta, aunque ...
# con una distribución casi uniforme entre las cuatro respuestas posibles.  

Unnamed: 0,dbtr_formacion_,dbtr_personales_,dbtr_experiencia_,dbtr_expectativas_,dbtr_idiomas_,dbtr_ti_
Nada importante,2.0,3.5,4.0,4.0,3.0,2.0
Poco importante,1.0,2.0,3.0,1.0,1.0,1.0
Bastante importante,3.0,3.5,2.0,2.0,2.0,3.0
Muy importante,4.0,1.0,1.0,3.0,4.0,4.0


## 'RECHA_TR' (redefinida como 'rechazo')

¿Ha **rechazado algún trabajo** por considerarlo poco adecuado desde que se ha titulado?

In [1078]:
df['RECHA_TR'].unique() # No aparece la respuesta no aplicable: se pregunta a todos los encuestados. 
# No informados como '9'

array([2, 1, 9])

In [1079]:
traduce('RECHA_TR')

         aux_traduce
              unique
RECHA_TR            
1               [Sí]
2               [No]
9            [NS/NC]


In [1080]:
no_respuesta('RECHA_TR',tipo='int')
redefine('RECHA_TR','rechazo',si_no=True)

[ 1.  2. nan]
        aux_traduce
             unique
rechazo            
0.0            [No]
1.0            [Sí]


In [1081]:
proporciones('rechazo_')

Unnamed: 0,rechazo_
Sí,0.50684
No,0.491801
,0.001359


## 'RECHA_M1'  (redefinida como 'rech_estudios')

(Solo para quienes **declaran haber rechazado una oferta de trabajo** -respuesta 1 en 'RECHA_TR' o 'rechazo'-)  

(**Motivo del rechazo**) ¿Ha rechazado una oferta de trabajo porque no le permitía **seguir estudiando**?

In [1082]:
df['RECHA_M1'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1083]:
traduce('RECHA_M1')

             aux_traduce
                  unique
RECHA_M1                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [1084]:
df[['rechazo_','RECHA_M1']].groupby('rechazo_',dropna=True).agg(['unique']) # Inspección

Unnamed: 0_level_0,RECHA_M1
Unnamed: 0_level_1,unique
rechazo_,Unnamed: 1_level_2
No,[ ]
Sí,"[2, 1, 9]"


In [1085]:
L_rechazo=list()

In [1086]:
def re_rechazo(col,nuevo):
    """ Procesa las columnas referidas a motivos de rechazo de una oferta de trabajo.
    """
    no_respuesta(col)
    redefine(col,nuevo,si_no=True)
    D_describe[nuevo]='Motivo para rechazar oferta de empleo:'+D_describe[col].split(':')[1]
    print(df[[str(col)+'_',str(nuevo)+'_']].groupby(str(col)+'_',dropna=True).agg(['unique']))
    if str(nuevo)+'_' not in L_rechazo:
        L_rechazo.append(str(nuevo)+'_')
    return

In [1087]:
re_rechazo('RECHA_M1','rech_estudios')

[ 1.  2. nan]
              aux_traduce
                   unique
rech_estudios            
0.0                  [No]
1.0                  [Sí]
          rech_estudios_
                  unique
RECHA_M1_               
No                  [No]
Sí                  [Sí]


## 'RECHA_M2'  (redefinida como 'rech_personales')

(Solo para quienes **declaran haber rechazado una oferta de trabajo** -respuesta 1 en 'RECHA_TR' o 'rechazo'-)  

(**Motivo del rechazo**) ¿Ha rechazado una oferta de trabajo porque el horario de trabajo era incompatible con **obligaciones personales o familiares**?

In [1088]:
df['RECHA_M2'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1089]:
traduce('RECHA_M2')

             aux_traduce
                  unique
RECHA_M2                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [1090]:
re_rechazo('RECHA_M2','rech_personales')

[ 1.  2. nan]
                aux_traduce
                     unique
rech_personales            
0.0                    [No]
1.0                    [Sí]
          rech_personales_
                    unique
RECHA_M2_                 
No                    [No]
Sí                    [Sí]


## 'RECHA_M3'  (redefinida como 'rech_residencia')

(Solo para quienes **declaran haber rechazado una oferta de trabajo** -respuesta 1 en 'RECHA_TR' o 'rechazo'-)  

(**Motivo del rechazo**) ¿Ha rechazado una oferta de trabajo porque aceptarlo implicaba **cambiar de lugar de residencia**?

In [1091]:
df['RECHA_M3'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1092]:
traduce('RECHA_M3')

             aux_traduce
                  unique
RECHA_M3                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [1093]:
re_rechazo('RECHA_M3','rech_residencia')

[ 1.  2. nan]
                aux_traduce
                     unique
rech_residencia            
0.0                    [No]
1.0                    [Sí]
          rech_residencia_
                    unique
RECHA_M3_                 
No                    [No]
Sí                    [Sí]


## 'RECHA_M4'  (redefinida como 'rech_distancia')

(Solo para quienes **declaran haber rechazado una oferta de trabajo** -respuesta 1 en 'RECHA_TR' o 'rechazo'-)  

(**Motivo del rechazo**) ¿Ha rechazado una oferta de trabajo porque el trayecto entre el domicilio y el puesto de trabajo no estaba a una **distancia** razonable?

In [1094]:
df['RECHA_M4'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1095]:
traduce('RECHA_M4')

             aux_traduce
                  unique
RECHA_M4                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [1096]:
re_rechazo('RECHA_M4','rech_distancia')

[ 1.  2. nan]
               aux_traduce
                    unique
rech_distancia            
0.0                   [No]
1.0                   [Sí]
          rech_distancia_
                   unique
RECHA_M4_                
No                   [No]
Sí                   [Sí]


## 'RECHA_M5'  (redefinida como 'rech_retribucion')

(Solo para quienes **declaran haber rechazado una oferta de trabajo** -respuesta 1 en 'RECHA_TR' o 'rechazo'-)  

(**Motivo del rechazo**) ¿Ha rechazado una oferta de trabajo porque consideraba que **no estaba adecuadamente remunerado**?

In [1097]:
df['RECHA_M5'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1098]:
traduce('RECHA_M5')

             aux_traduce
                  unique
RECHA_M5                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [1099]:
re_rechazo('RECHA_M5','rech_retribucion')

[ 1.  2. nan]
                 aux_traduce
                      unique
rech_retribucion            
0.0                     [No]
1.0                     [Sí]
          rech_retribucion_
                     unique
RECHA_M5_                  
No                     [No]
Sí                     [Sí]


## 'RECHA_M6'  (redefinida como 'rech_formacion')

(Solo para quienes **declaran haber rechazado una oferta de trabajo** -respuesta 1 en 'RECHA_TR' o 'rechazo'-)  

(**Motivo del rechazo**) ¿Ha rechazado una oferta de trabajo porque el nivel del puesto de trabajo **no estaba acorde con sus habilidades y conocimientos**?

In [1100]:
df['RECHA_M6'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1101]:
traduce('RECHA_M6')

             aux_traduce
                  unique
RECHA_M6                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [1102]:
re_rechazo('RECHA_M6','rech_formacion')

[ 1.  2. nan]
               aux_traduce
                    unique
rech_formacion            
0.0                   [No]
1.0                   [Sí]
          rech_formacion_
                   unique
RECHA_M6_                
No                   [No]
Sí                   [Sí]


## 'RECHA_M7'  (redefinida como 'rech_alternativa')

(Solo para quienes **declaran haber rechazado una oferta de trabajo** -respuesta 1 en 'RECHA_TR' o 'rechazo'-)  

(**Motivo del rechazo**) ¿Ha rechazado una oferta de trabajo porque tenía **otra oferta de trabajo o ya estaba trabajando**?

In [1103]:
df['RECHA_M7'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1104]:
traduce('RECHA_M7')

             aux_traduce
                  unique
RECHA_M7                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [1105]:
re_rechazo('RECHA_M7','rech_alternativa')

[ 1.  2. nan]
                 aux_traduce
                      unique
rech_alternativa            
0.0                     [No]
1.0                     [Sí]
          rech_alternativa_
                     unique
RECHA_M7_                  
No                     [No]
Sí                     [Sí]


## 'RECHA_M8'  (redefinida como 'rech_opo')

(Solo para quienes **declaran haber rechazado una oferta de trabajo** -respuesta 1 en 'RECHA_TR' o 'rechazo'-)  

(**Motivo del rechazo**) ¿Ha rechazado una oferta de trabajo porque **estaba preparando oposiciones**?

In [1106]:
df['RECHA_M8'].unique() # No informados como ' ' o '9'

array([' ', '1', '2', '9'], dtype=object)

In [1107]:
traduce('RECHA_M8')

             aux_traduce
                  unique
RECHA_M8                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [1108]:
re_rechazo('RECHA_M8','rech_opo')

[ 1.  2. nan]
         aux_traduce
              unique
rech_opo            
0.0             [No]
1.0             [Sí]
          rech_opo_
             unique
RECHA_M8_          
No             [No]
Sí             [Sí]


## 'RECHA_M9'  (redefinida como 'rech_otro')

(Solo para quienes **declaran haber rechazado una oferta de trabajo** -respuesta 1 en 'RECHA_TR' o 'rechazo'-)  

(**Motivo del rechazo**) ¿Ha rechazado una oferta de trabajo por **otros motivos**?

In [1109]:
df['RECHA_M9'].unique() # No informados como ' ' o '9'

array([' ', '2', '1', '9'], dtype=object)

In [1110]:
traduce('RECHA_M9')

             aux_traduce
                  unique
RECHA_M9                
          [No aplicable]
1                   [Sí]
2                   [No]
9                [NS/NC]


In [1111]:
re_rechazo('RECHA_M9','rech_otro')

[ 1.  2. nan]
          aux_traduce
               unique
rech_otro            
0.0              [No]
1.0              [Sí]
          rech_otro_
              unique
RECHA_M9_           
No              [No]
Sí              [Sí]


In [1112]:
for col in L_rechazo:
    col=str(col).strip('_')
    print (col,'\t',D_describe[col])

rech_estudios 	 Motivo para rechazar oferta de empleo: no le permitía continuar estudiando
rech_personales 	 Motivo para rechazar oferta de empleo: el horario de trabajo era incompatible con obligaciones personales o familiares
rech_residencia 	 Motivo para rechazar oferta de empleo: aceptarlo implicaba cambiar de lugar de residencia
rech_distancia 	 Motivo para rechazar oferta de empleo: el trayecto entre el domicilio y el puesto de trabajo no estaba a una distancia razonable
rech_retribucion 	 Motivo para rechazar oferta de empleo: consideraba que no estaba adecuadamente remunerado
rech_formacion 	 Motivo para rechazar oferta de empleo: el nivel del puesto de trabajo no estaba acorde con las habilidades y conocimientos
rech_alternativa 	 Motivo para rechazar oferta de empleo: tenía otra oferta de trabajo / ya estaba trabajando
rech_opo 	 Motivo para rechazar oferta de empleo: estaba preparando oposiciones
rech_otro 	 Motivo para rechazar oferta de empleo: otros motivos


In [1113]:
df[L_rechazo].apply(lambda x:x.value_counts(normalize=True))
# El motivo más frecuente para rechazar una oferta de trabajo es la remuneración insuficiente. Es el único ...
# ... identificado como razón para rechazar una oferta en más de la mitad de las respuestas. 

Unnamed: 0,rech_estudios_,rech_personales_,rech_residencia_,rech_distancia_,rech_retribucion_,rech_formacion_,rech_alternativa_,rech_opo_,rech_otro_
No,0.909732,0.840876,0.872776,0.862788,0.333292,0.65647,0.583307,0.915288,0.922779
Sí,0.090268,0.159124,0.127224,0.137212,0.666708,0.34353,0.416693,0.084712,0.077221


# BLOQUE F. INFORMACIÓN DEL HOGAR

## 'HO_F1'  (redefinida como 'e_civil')

**Estado civil**.

In [1114]:
df['HO_F1'].unique() # No informados como '9'

array([1, 2, 3, 5, 4, 9])

In [1115]:
traduce('HO_F1')

        aux_traduce
             unique
HO_F1              
1         [Soltero]
2          [Casado]
3           [Viudo]
4        [Separado]
5      [Divorciado]
9           [NS/NC]


In [1116]:
no_respuesta('HO_F1',tipo='int')
redefine('HO_F1','e_civil')

[ 1.  2.  3.  4.  5. nan]


In [1117]:
df['e_civil_'].unique()

array(['Soltero', 'Casado', 'Viudo', 'Divorciado', 'Separado', nan],
      dtype=object)

## 'HO_PAREJ'  (redefinida como 'pareja')

¿Convive en pareja?

In [1118]:
df['HO_PAREJ'].unique() # No informados como '9'

array([2, 1, 9])

In [1119]:
traduce('HO_PAREJ')

         aux_traduce
              unique
HO_PAREJ            
1               [Sí]
2               [No]
9            [NS/NC]


In [1120]:
no_respuesta('HO_PAREJ',tipo='int')
redefine('HO_PAREJ','pareja',si_no=True)

[ 1.  2. nan]
       aux_traduce
            unique
pareja            
0.0           [No]
1.0           [Sí]


## 'HO_NPER'  (redefinida como 'n_hogar')

**Número de personas que viven en el hogar**, incluyendo al entrevistado. 

In [1121]:
df['HO_NPER'].unique() # No informados como '9'

array([3, 1, 4, 2, 6, 5, 9])

In [1122]:
traduce('HO_NPER')

        aux_traduce
             unique
HO_NPER            
1               [1]
2               [2]
3               [3]
4               [4]
5               [5]
6         [6 o más]
9           [NS/NC]


In [1123]:
no_respuesta('HO_NPER',tipo='int')
redefine('HO_NPER','n_hogar')

[ 1.  2.  3.  4.  5.  6. nan]


## 'HO_NPER_TR'  (redefinida como 'n_hogar_tr')

**Número de personas en el hogar que trabajan** actualmente. 

In [1124]:
df['HO_NPER_TR'].unique() # No informados como '9'

array([1, 2, 0, 3, 9, 4, 6, 5])

In [1125]:
traduce('HO_NPER_TR')

           aux_traduce
                unique
HO_NPER_TR            
0                  [0]
1                  [1]
2                  [2]
3                  [3]
4                  [4]
5                  [5]
6            [6 o más]
9              [NS/NC]


In [1126]:
no_respuesta('HO_NPER_TR',tipo='int')
redefine('HO_NPER_TR','n_hogar_tr')

[ 0.  1.  2.  3.  4.  5.  6. nan]


## 'HO_TIPO'  

**Tipo de hogar**.

In [1127]:
df['HO_TIPO'].unique() # No informados como '9'

array([6, 1, 5, 4, 8, 3, 7, 2, 9])

In [1128]:
traduce('HO_TIPO')

                                                                                     aux_traduce
                                                                                          unique
HO_TIPO                                                                                         
1                                                                            [Hogar unipersonal]
2                             [Padre o madre solo/a que convive con algún hijo menor de 25 años]
3                        [Padre o madre solo/a que convive con todos sus hijos de 25 años o más]
4                                                    [Pareja sin hijos que convivan en el hogar]
5                            [Pareja con algún hijo menor de 25 años y que conviven en el hogar]
6           [Pareja con algún hijo menor pero todos de 25 años ó más y que conviven en el hogar]
7        [Pareja, o un padre/madre, que conviven con hijos menores de 25 años, y otras personas]
8                             

In [1129]:
no_respuesta('HO_TIPO')

[1. 2. 3. 4. 5. 6. 7. 8. 9.]


# BLOQUE VARIABLES ADICIONALES

Se omite.

## Organización de archivos csv

In [None]:
df[v_originales+v_originales_L].to_csv('data/Graduados_19_procesado.csv')

In [None]:
df[v_modelos+v_modelos_L].to_csv('data/Graduados_19_modelos.csv')

In [None]:
len(v_originales),len(v_originales_L),len(v_modelos),len(v_modelos_L)

### Diccionarios: 

In [None]:
# Diccionario de diccionarios (variables categóricas)
df_dict = pd.DataFrame.from_dict(D_dict, orient='columns')
df_dict.to_csv('data/D_dict.csv')

In [None]:
# Resto de diccionarios: 
df_describe = pd.DataFrame.from_dict(D_describe, orient='index',columns=['valor'])
df_describe.to_csv('data/D_describe.csv')

In [None]:
df_titulo_grado_a_rama = pd.DataFrame.from_dict(D_titulo_grado_a_rama, orient='index',columns=['valor'])
df_titulo_grado_a_rama.to_csv('data/D_titulo_grado_a_rama.csv')

In [None]:
df_titulo_grado_a_ambito = pd.DataFrame.from_dict(D_titulo_grado_a_ambito, orient='index',columns=['valor'])
df_titulo_grado_a_ambito.to_csv('data/D_titulo_grado_a_ambito.csv')

In [None]:
df_ambito_a_rama = pd.DataFrame.from_dict(D_ambito_a_rama, orient='index',columns=['valor'])
df_ambito_a_rama.to_csv('data/D_ambito_a_rama.csv')

In [None]:
df_ocupaciones = pd.DataFrame.from_dict(D_ocupaciones, orient='index',columns=['valor'])
df_ocupaciones.to_csv('data/D_ocupaciones.csv')

In [None]:
df_cnae_a_num = pd.DataFrame.from_dict(D_cnae_a_num, orient='index',columns=['valor'])
df_cnae_a_num.to_csv('data/D_cnae_a_num.csv')