# Análisis del conjunto de datos Agencia para el Empleo. Perfiles de personas inscritas

### Carga de módulos

In [1]:
# Librería para el manejo de dataframes
import pandas as pd

#Librería para visualización de datos
import plotly.express as px

### Lectura del dataset

In [None]:
df_original = pd.read_csv('agencia_empleo_inscritos_2021.csv', sep = ';')

In [8]:
df = df_original.copy()

Muestra del conjunto de datos

In [9]:
print(df.shape)
df.head()

(16189, 11)


Unnamed: 0,Fecha de Inscripción,Género,Distrito,Tramos de Edad,Nacionalidad,Código Objetivo Profesional 1,Objetivo Profesional 1,Código Objetivo Profesional 2,Objetivo Profesional 2,Código Objetivo Profesional 3,Objetivo Profesional 3
0,ene-21,Mujer,Puente De Vallecas,Entre 46 y 55 años,Española,9443.0,Barrenderos y afines,9210.0,"Personal de limpieza de oficinas, hoteles y ot...",9700.0,Peones de las industrias manufactureras
1,ene-21,Mujer,Ciudad Lineal,Entre 26 y 35 años,Extracomunitaria,9310.0,Ayudantes de cocina,9210.0,"Personal de limpieza de oficinas, hoteles y ot...",5710.0,Trabajadores de los cuidados personales a domi...
2,ene-21,Hombre,Centro,Entre 46 y 55 años,Española,4424.0,Teleoperadores,4424.0,Teleoperadores,5825.0,Guías de turismo
3,ene-21,Mujer,Latina,Entre 36 y 45 años,Española,3613.0,Asistentes de dirección y administrativos,2511.0,Abogados,4500.0,Empleados administrativos con tareas de atenci...
4,ene-21,Hombre,Puente De Vallecas,Entre 36 y 45 años,Extracomunitaria,9811.0,Peones del transporte de mercancías y descarga...,4411.0,Empleados de información al usuario,5120.0,Camareros asalariados


### Análisis y limpieza

In [10]:
#Tamaño del conjunto de datos
print(f' Las dimensiones del conjunto de datos son: {df.shape}')

 Las dimensiones del conjunto de datos son: (16189, 11)


In [11]:
#Se eliminan valores duplicados
df.drop_duplicates(inplace = True)
print(f' Las dimensiones del conjunto de datos son:{df.shape}')

 Las dimensiones del conjunto de datos son:(15607, 11)


In [12]:
#Valores nulos totales
df.isnull().sum()

Fecha de Inscripción                0
Género                              0
Distrito                            0
Tramos de Edad                      0
Nacionalidad                        0
Código Objetivo Profesional 1     749
Objetivo Profesional 1            749
Código Objetivo Profesional 2    3594
Objetivo Profesional 2           3594
Código Objetivo Profesional 3    5760
Objetivo Profesional 3           5760
dtype: int64

In [13]:
#Porcentaje de nulos
df.isnull().sum()/len(df)*100

Fecha de Inscripción              0.000000
Género                            0.000000
Distrito                          0.000000
Tramos de Edad                    0.000000
Nacionalidad                      0.000000
Código Objetivo Profesional 1     4.799129
Objetivo Profesional 1            4.799129
Código Objetivo Profesional 2    23.028128
Objetivo Profesional 2           23.028128
Código Objetivo Profesional 3    36.906516
Objetivo Profesional 3           36.906516
dtype: float64

In [14]:
# Columnas del dataframe
df.columns

Index(['Fecha de Inscripción', 'Género', 'Distrito', 'Tramos de Edad',
       'Nacionalidad', 'Código Objetivo Profesional 1',
       'Objetivo Profesional 1', 'Código Objetivo Profesional 2',
       'Objetivo Profesional 2', 'Código Objetivo Profesional 3',
       'Objetivo Profesional 3'],
      dtype='object')

In [15]:
#Se eliminan las variables Código Objetivo Profesional 1 , Código Objetivo Profesional 2, 
#Código Objetivo Profesional 3,'Objetivo Profesional 2','Objetivo Profesional 3'

df = df[['Fecha de Inscripción', 'Género', 'Distrito', 'Tramos de Edad',
       'Nacionalidad',
       'Objetivo Profesional 1']]

In [16]:
#Se eliminan las variables con 'Género', 'Distrito', 'Tramos de Edad','Nacionalidad' 'Objetivo Profesional 1' nulos 
df = df.dropna(subset=['Género', 'Distrito', 'Tramos de Edad','Nacionalidad', 'Objetivo Profesional 1'])

In [17]:
#Valores nulos totales 2
df.isnull().sum()

Fecha de Inscripción      0
Género                    0
Distrito                  0
Tramos de Edad            0
Nacionalidad              0
Objetivo Profesional 1    0
dtype: int64

In [18]:
#Se analiza la variable tramos de edad
#Distribución de registros por tramo de edad
df.value_counts('Tramos de Edad')

Tramos de Edad
Entre 46 y 55 años    3024
Entre 26 y 35 años    3021
Entre 36 y 45 años    2978
Menor de 25 años      2251
Entre 56 y 65 años    1231
                      ... 
1954                     2
2005                     1
1953                     1
1950                     1
1947                     1
Length: 61, dtype: int64

In [19]:
df['Tramos de Edad'].unique()

array(['Entre 46 y 55 años', 'Entre 26 y 35 años', 'Entre 36 y 45 años',
       'Entre 56 y 65 años', 'Menor de 25 años', 'Mayor de 65 años',
       '1979', '1977', '1991', '1999', '1974', '1970', '1994', '1964',
       '1959', '1986', '1998', '1971', '1996', '1985', '2000', '2001',
       '1987', '1966', '1997', '1983', '1969', '2003', '1973', '1978',
       '1995', '1980', '1993', '1982', '1981', '1988', '1975', '1962',
       '1992', '1990', '1968', '1984', '1989', '1972', '1976', '2002',
       '1960', '1967', '2004', '1963', '1958', '1961', '1965', '1957',
       '1956', '1950', '1955', '1953', '1954', '1947', '2005'],
      dtype=object)

In [20]:
# Se eliminan tramos de edad que se corresponden con un año y no un rango de edad 
no_validos = ['1979', '1977', '1991', '1999', '1974', '1970', '1994', '1964',
       '1959', '1986', '1998', '1971', '1996', '1985', '2000', '2001',
       '1987', '1966', '1997', '1983', '1969', '2003', '1973', '1978',
       '1995', '1980', '1993', '1982', '1981', '1988', '1975', '1962',
       '1992', '1990', '1968', '1984', '1989', '1972', '1976', '2002',
       '1960', '1967', '2004', '1963', '1958', '1961', '1965', '1957',
       '1956', '1950', '1955', '1953', '1954', '1947', '2005']
df['Tramos de Edad'] = df['Tramos de Edad'].apply(lambda x: False if x in no_validos else x)
df.drop(df[df['Tramos de Edad'] == False].index, inplace = True)

In [21]:
#Distribución de registros por tramo de edad 2
df.value_counts('Tramos de Edad')

Tramos de Edad
Entre 46 y 55 años    3024
Entre 26 y 35 años    3021
Entre 36 y 45 años    2978
Menor de 25 años      2251
Entre 56 y 65 años    1231
Mayor de 65 años        46
dtype: int64

In [22]:
df['Objetivo Profesional 1'].nunique()

357

In [23]:
# Se decide reducir en numero de objetivos profesionales 
objetivos_profesionales =['Especialistas en administración de política de empresas','Directores y gerentes de restaurantes','Economistas','Profesionales de la publicidad y la comercialización','Operadores de telemarketing','Vendedores en tiendas y almacenes' ,                            
 'Analistas de gestión y organización', 'Empleados de control de personal y nóminas','Asistentes de dirección y administrativos','Empleados de contabilidad',                    
 'Analistas y diseñadores de software y multimedia no clasificados bajo otros epígrafes', 'Técnicos de ingeniería de las telecomunicaciones', 'Ingenieros técnicos en telecomunicaciones','Técnicos de la Web','Especialistas en bases de datos y en redes informáticas no clasificados bajo otros epígrafes','Programadores informáticos',               
'Guías de turismo','Jefes de sección de tiendas y almacenes','Empleados de agencias de viajes','Directores y gerentes de bares, cafeterías y similares','Ayudantes de cocina','Recepcionistas de hoteles','Preparadores de comidas rápidas',                        
'Especialistas en tratamientos de estética, bienestar y afines','Peluqueros',
'Montadores y ensambladores no clasificados en otros epígrafes','Mantenedores de edificios',                 
'Ingenieros electrónicos', 'Mecánicos y reparadores de equipos eléctricos','Ingenieros técnicos forestales y del medio natural','Técnicos forestales y del medio natural','Otros técnicos de las ciencias físicas, químicas, medioambientales y de las ingenierías',                 
 'Mecánicos y ajustadores de vehículos de motor','Limpiadores de vehículos',   
'Peones agropecuarios',  'Peones ganaderos','Ingenieros técnicos agrícolas','Peones agrícolas en huertas, invernaderos, viveros y jardines', 'Ingenieros agrónomos','Matarifes y trabajadores de las industrias cárnicas',                                      
'Encofradores y operarios de puesta en obra de hormigón',                       
'Coreógrafos y bailarines','Bañistas-socorristas',                                             
'Técnicos superiores en dietética','Técnicos en radioterapia','Técnicos superiores en documentación sanitaria','Dietistas y nutricionistas','Técnicos en imagen para el diagnóstico','Técnicos en laboratorio de diagnóstico clínico','Técnicos en electrónica, especialidad en electromedicina','Auxiliares de enfermería hospitalaria','Técnicos de emergencias sanitarias',                                                                                 
'Técnicos de grabación audiovisual','Diseñadores gráficos y multimedia',                               
'Ingenieros mecánicos','Ajustadores y operadores de máquinas-herramienta','Ensambladores de maquinaria mecánica','Ingenieros técnicos industriales y de producción','Trabajadores de la fabricación de herramientas, mecánico-ajustadores, modelistas, matriceros y afines',                                  
'Técnicos en ciencias físicas y químicas','Operadores en plantas industriales químicas',                         
 'Artistas de artes plásticas y visuales','Ebanistas y trabajadores afines','Trabajadores de procesos de encuadernación', 'Operadores de máquinas de coser y bordar','Artesanos no clasificados bajo otros epígrafes'  ]

In [24]:
len(objetivos_profesionales)

66

In [25]:
# Se eliminan los registros que contienen objetivos profesionales que no se encuentran entre los seleccionados
df['Objetivo Profesional 1'] = df['Objetivo Profesional 1'].apply(lambda x: False if x not in objetivos_profesionales else x)
df.drop(df[df['Objetivo Profesional 1'] == False].index, inplace = True)

### Distribución de las variables

In [28]:
tramos_edad = ['Menor de 25 años', 'Entre 26 y 35 años', 'Entre 36 y 45 años', 'Entre 46 y 55 años', 'Entre 56 y 65 años','Mayor de 65 años']

In [29]:
#Distribución de los tramos de edad
fig = px.histogram(df, x='Tramos de Edad')
fig.update_xaxes(categoryorder='array', categoryarray= tramos_edad)
fig.show()

In [30]:
#Distribución de registros por género 
df.value_counts('Género')

Género
Mujer     2510
Hombre    1168
dtype: int64

In [31]:
#Distribución del género
fig = px.histogram(df, x='Género')
fig.show()

In [32]:
#Distribución de registros por nacionalidad
df.value_counts('Nacionalidad')

Nacionalidad
Española            2646
Extracomunitaria     883
Comunitaria          149
dtype: int64

In [33]:
#Distribución de la nacionalidad
fig = px.histogram(df, x='Nacionalidad')
fig.show()

In [34]:
#Distribución de registros por distrito
df.value_counts('Distrito')

Distrito
Otro Municipio         525
Puente De Vallecas     348
Carabanchel            346
Latina                 273
Villaverde             233
Ciudad Lineal          198
Usera                  179
Arganzuela             155
Centro                 142
San Blas               141
Villa De Vallecas      141
Vicálvaro              139
Fuencarral-el Pardo    134
Tetuán                 125
Hortaleza              116
Moratalaz               89
Chamberí                83
Retiro                  71
Salamanca               68
Barajas                 61
Moncloa-aravaca         57
Chamartín               54
dtype: int64

In [35]:
distritos = ['Ciudad Lineal',
 'Latina',
 'Puente De Vallecas',
 'Arganzuela',
 'Moratalaz',
 'San Blas',
 'Hortaleza',
 'Carabanchel',
 'Retiro',
 'Fuencarral-el Pardo',
 'Usera',
 'Otro Municipio',
 'Vicálvaro',
 'Chamartín',
 'Chamberí',
 'Moncloa-aravaca',
 'Centro',
 'Tetuán',
 'Villaverde',
 'Villa De Vallecas',
 'Salamanca',
 'Barajas']

In [36]:
#Distribución del distrito
fig = px.histogram(df, x='Distrito')
fig.update_xaxes(categoryorder='array', categoryarray= distritos)
fig.show()

In [37]:
#Distribución de registros por fecha de inscripción
df.value_counts('Fecha de Inscripción')

Fecha de Inscripción
feb-21    532
abr-21    509
may-21    480
mar-21    447
jun-21    383
sep-21    378
oct-21    301
jul-21    225
ene-21    222
ago-21    201
dtype: int64

In [38]:
fechas = ['ene-21',
 'feb-21',
 'mar-21',
 'abr-21',
 'may-21',
 'jun-21',
 'jul-21',
 'ago-21',
 'sep-21',
 'oct-21']

In [39]:
#Distribución de los tramos de edad
fig = px.histogram(df, x='Fecha de Inscripción')
fig.update_xaxes(categoryorder='array', categoryarray= fechas)
fig.show()

### Conjunto de datos final

In [41]:
#Tamaño del conjunto de datos
print(f' Las dimensiones del conjunto de datos tras el análisis son: {df.shape}')

 Las dimensiones del conjunto de datos tras el análisis son: (3678, 6)


In [42]:
df.head()

Unnamed: 0,Fecha de Inscripción,Género,Distrito,Tramos de Edad,Nacionalidad,Objetivo Profesional 1
1,ene-21,Mujer,Ciudad Lineal,Entre 26 y 35 años,Extracomunitaria,Ayudantes de cocina
3,ene-21,Mujer,Latina,Entre 36 y 45 años,Española,Asistentes de dirección y administrativos
5,ene-21,Mujer,Ciudad Lineal,Entre 36 y 45 años,Española,Ayudantes de cocina
6,ene-21,Hombre,Puente De Vallecas,Entre 26 y 35 años,Española,Programadores informáticos
7,ene-21,Hombre,Arganzuela,Entre 36 y 45 años,Española,Asistentes de dirección y administrativos


In [40]:
#Se almacena el dataframe en un csv
df.to_csv('agencia_empleo_procesados.csv')