### DEMANDA DATA ANALYSIS

In [1]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

Get the Data from the official source (INE)

- [Ocupados por sexo y rama de actividad](https://www.ine.es/jaxiT3/Tabla.htm?t=4128)
- [Salario por sexo y rama de actividad](https://www.ine.es/jaxiT3/Tabla.htm?t=28185)
- [Titulados en Bachillerato según su situación laboral en 2019 por sexo y modalidad](https://www.ine.es/jaxi/Tabla.htm?tpx=43915&L=0)
- [Titulados en Ciclos Formativos de Grado Medio según su situación laboral en 2019 por sexo y ciclo](https://www.ine.es/jaxi/Tabla.htm?tpx=44317&L=0)
- [Titulados en Ciclos Formativos de Grado Superior según su situación laboral en 2019 por sexo y ciclo](https://www.ine.es/jaxi/Tabla.htm?tpx=44750&L=0)
- [Graduados universitarios por titulación y sexo](https://www.ine.es/jaxi/Tabla.htm?tpx=48889&L=0)
- [Tasas de actividad, empleo y paro de los graduados de los graduados universitarios por sexo y titulación](https://www.ine.es/jaxi/Tabla.htm?tpx=48895&L=0)

**DATA PREPROCESS**

In [2]:
# Bachillerato data Preprocess
df = pd.read_csv("bachillerato_situacion_laboral_2019.csv", sep = ";", decimal = ",")
df['Total'] = pd.to_numeric(df['Total'].apply(lambda numstr: numstr.replace(".", "").replace(",", ".")))
df.set_index(["Modalidad", "Sexo", "Situación laboral en 2019"], inplace = True)
df = df.unstack()
df = df.droplevel(0, axis = 1)
df.columns.name = None

# Compute the activity, employement and unemployment rates
df['Tasa de actividad'] = ((df['Trabajando'] + df['En desempleo'])  / df['Total']) * 100
df['Tasa de empleo'] = (df['Trabajando'] / df['Total']) * 100
df['Tasa de paro'] = (df['En desempleo'] / (df['Trabajando'] + df['En desempleo'])) * 100

# Finally, show how is the dataframe
df_bachillerato = df
df_bachillerato.info()
df_bachillerato.tail()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 12 entries, ('Artes', 'Ambos sexos') to ('Total', 'Mujeres')
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   En desempleo       12 non-null     int64  
 1   Inactivo           12 non-null     int64  
 2   Total              12 non-null     int64  
 3   Trabajando         12 non-null     int64  
 4   Tasa de actividad  12 non-null     float64
 5   Tasa de empleo     12 non-null     float64
 6   Tasa de paro       12 non-null     float64
dtypes: float64(3), int64(4)
memory usage: 1.1+ KB


Unnamed: 0_level_0,Unnamed: 1_level_0,En desempleo,Inactivo,Total,Trabajando,Tasa de actividad,Tasa de empleo,Tasa de paro
Modalidad,Sexo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Humanidades y Ciencias Sociales,Hombres,7417,13293,43915,23205,69.730161,52.840715,24.221148
Humanidades y Ciencias Sociales,Mujeres,11709,18368,69201,39125,73.458476,56.5382,23.033796
Total,Ambos sexos,35783,71959,233281,125539,69.15351,53.814498,22.181104
Total,Hombres,15445,33820,104388,55123,67.60164,52.805878,21.886691
Total,Mujeres,20338,38139,128893,70416,70.41034,54.631361,22.410032


In [165]:
# Ciclo Medio data Preprocess
df = pd.read_csv("ciclo_medio_situacion_laboral_2019.csv", sep = ";", decimal = ",")
df['Total'] = pd.to_numeric(df['Total'].apply(lambda numstr: numstr.replace(".", "").replace(",", ".")))
df.set_index(["Ciclo", "Sexo", "Situación laboral en 2019"], inplace = True)
df = df.unstack()
df = df.droplevel(0, axis = 1)
df.columns.name = None

# Compute the activity, employement and unemployment rates
df['Tasa de actividad'] = ((df['Trabajando'] + df['En desempleo'])  / df['Total']) * 100
df['Tasa de empleo'] = (df['Trabajando'] / df['Total']) * 100
df['Tasa de paro'] = (df['En desempleo'] / (df['Trabajando'] + df['En desempleo'])) * 100

# Finally, show how is the dataframe
df_ciclo_medio = df
df_ciclo_medio.info()
df_ciclo_medio.tail()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 63 entries, ('01 - AGRARIA', 'Ambos sexos') to ('Total', 'Mujeres')
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   En desempleo       63 non-null     int64  
 1   Inactivo           63 non-null     int64  
 2   Total              63 non-null     int64  
 3   Trabajando         63 non-null     int64  
 4   Tasa de actividad  63 non-null     float64
 5   Tasa de empleo     63 non-null     float64
 6   Tasa de paro       63 non-null     float64
dtypes: float64(3), int64(4)
memory usage: 4.5+ KB


Unnamed: 0_level_0,Unnamed: 1_level_0,En desempleo,Inactivo,Total,Trabajando,Tasa de actividad,Tasa de empleo,Tasa de paro
Ciclo,Sexo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
25 - ACTIVIDADES FÍSICAS Y DEPORTIVAS,Hombres,367,485,2304,1452,78.949653,63.020833,20.175921
25 - ACTIVIDADES FÍSICAS Y DEPORTIVAS,Mujeres,112,84,526,330,84.030418,62.737643,25.339367
Total,Ambos sexos,13876,10891,97647,72880,88.84656,74.63619,15.994283
Total,Hombres,6089,5210,50239,38941,89.631561,77.511495,13.522096
Total,Mujeres,7787,5682,47408,33939,88.014681,71.589183,18.662225


In [3]:
# Ciclo Superior data Preprocess
df = pd.read_csv("ciclo_superior_situacion_laboral_2019.csv", sep = ";", decimal = ",")
df['Total'] = pd.to_numeric(df['Total'].apply(lambda numstr: numstr.replace(".", "").replace(",", ".")))
df.set_index(["Ciclo", "Sexo", "Situación laboral en 2019"], inplace = True)
df = df.unstack()
df = df.droplevel(0, axis = 1)
df.columns.name = None

# Compute the activity, employement and unemployment rates
df['Tasa de actividad'] = ((df['Trabajando'] + df['En desempleo'])  / df['Total']) * 100
df['Tasa de empleo'] = (df['Trabajando'] / df['Total']) * 100
df['Tasa de paro'] = (df['En desempleo'] / (df['Trabajando'] + df['En desempleo'])) * 100

# Finally, show how is the dataframe
df_ciclo_superior = df
df_ciclo_superior.info()
df_ciclo_superior.tail()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 69 entries, ('01 - AGRARIA', 'Ambos sexos') to ('Total', 'Mujeres')
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   En desempleo       69 non-null     int64  
 1   Inactivo           69 non-null     int64  
 2   Total              69 non-null     int64  
 3   Trabajando         69 non-null     int64  
 4   Tasa de actividad  69 non-null     float64
 5   Tasa de empleo     69 non-null     float64
 6   Tasa de paro       69 non-null     float64
dtypes: float64(3), int64(4)
memory usage: 4.9+ KB


Unnamed: 0_level_0,Unnamed: 1_level_0,En desempleo,Inactivo,Total,Trabajando,Tasa de actividad,Tasa de empleo,Tasa de paro
Ciclo,Sexo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
25 - ACTIVIDADES FÍSICAS Y DEPORTIVAS,Hombres,310,818,5214,4087,84.330648,78.385117,7.050262
25 - ACTIVIDADES FÍSICAS Y DEPORTIVAS,Mujeres,281,179,1200,739,85.0,61.583333,27.54902
Total,Ambos sexos,13056,10348,113910,90506,90.915635,79.453955,12.606941
Total,Hombres,5534,4471,55473,45468,91.940223,81.964199,10.850555
Total,Mujeres,7522,5876,58437,45039,89.944727,77.072745,14.310991


In [4]:
# Universidad data Preprocess
df_universidad = pd.read_csv("universidad_caracteristicas.csv", sep = ";", decimal = ",")
df_universidad['Total'] = pd.to_numeric(df_universidad['Total'].apply(lambda numstr: numstr.replace(".", "").replace(",", ".")))
df_universidad.set_index(["Titulación", "Sexo"], inplace = True)

df_tasas = pd.read_csv("universidad_situacion_laboral_2019.csv", sep = ";", decimal = ",")
df_tasas.set_index(["Titulación", "Sexo", "Tasas de actividad, empleo y paro"], inplace = True)
df_tasas = df_tasas.unstack()
df_tasas = df_tasas.droplevel(0, axis = 1)
df_tasas.columns.name = None

In [5]:
df_universidad = df_universidad.join(df_tasas, how = "left")
df_universidad.info()
df_universidad

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 33 entries, ('TOTAL', 'Ambos sexos') to ('10 - SERVICIOS', 'Mujeres')
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Total              33 non-null     int64  
 1   Tasa de actividad  33 non-null     float64
 2   Tasa de empleo     33 non-null     float64
 3   Tasa de paro       33 non-null     float64
dtypes: float64(3), int64(1)
memory usage: 2.8+ KB


Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Tasa de actividad,Tasa de empleo,Tasa de paro
Titulación,Sexo,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
TOTAL,Ambos sexos,233626,93.6,86.1,8.0
TOTAL,Hombres,96857,94.4,87.8,7.0
TOTAL,Mujeres,136769,93.0,84.9,8.8
01 - EDUCACIÓN,Ambos sexos,41108,93.4,82.2,12.1
01 - EDUCACIÓN,Hombres,8169,94.3,83.5,11.5
01 - EDUCACIÓN,Mujeres,32939,93.2,81.8,12.2
02 - ARTES Y HUMANIDADES,Ambos sexos,20216,89.3,77.1,13.6
02 - ARTES Y HUMANIDADES,Hombres,7246,88.5,75.4,14.7
02 - ARTES Y HUMANIDADES,Mujeres,12970,89.7,78.0,13.0
"03 - CIENCIAS SOCIALES, PERIODISMO Y DOCUMENTACIÓN",Ambos sexos,21241,93.4,85.1,8.9


**DATA ANALYSIS**

Ok this tomorrow or when I can

In [5]:
# Bachillerato and ciclos medios and superior
df_bachillerato = pd.read_csv("bachillerato_situacion_laboral_2019.csv", sep = ";", decimal = ",")
df_bachillerato['Total'] = pd.to_numeric(df_bachillerato['Total'].apply(lambda numstr: numstr.replace(".", "").replace(",", ".")))
df_bachillerato['Educacion'] = "Bachillerato"
df_bachillerato = df_bachillerato[['Educacion', 'Modalidad', 'Sexo', 'Situación laboral en 2019', 'Total']]
df_bachillerato = df_bachillerato.loc[(df_bachillerato['Modalidad'] != "Total") & (df_bachillerato['Sexo'] != "Ambos sexos") & (df_bachillerato['Situación laboral en 2019'] != "Total")]

df_ciclo_medio = pd.read_csv("ciclo_medio_situacion_laboral_2019.csv", sep = ";", decimal = ",")
df_ciclo_medio['Total'] = pd.to_numeric(df_ciclo_medio['Total'].apply(lambda numstr: numstr.replace(".", "").replace(",", ".")))
df_ciclo_medio = df_ciclo_medio.rename(columns = {'Ciclo' : 'Modalidad'})
df_ciclo_medio['Educacion'] = "Ciclo Medio"
df_ciclo_medio = df_ciclo_medio[['Educacion', 'Modalidad', 'Sexo', 'Situación laboral en 2019', 'Total']]
df_ciclo_medio = df_ciclo_medio.loc[(df_ciclo_medio['Modalidad'] != "Total") & (df_ciclo_medio['Sexo'] != "Ambos sexos") & (df_ciclo_medio['Situación laboral en 2019'] != "Total")]

df_ciclo_superior = pd.read_csv("ciclo_superior_situacion_laboral_2019.csv", sep = ";", decimal = ",")
df_ciclo_superior['Total'] = pd.to_numeric(df_ciclo_superior['Total'].apply(lambda numstr: numstr.replace(".", "").replace(",", ".")))
df_ciclo_superior = df_ciclo_superior.rename(columns = {'Ciclo' : 'Modalidad'})
df_ciclo_superior['Educacion'] = "Ciclo Superior"
df_ciclo_superior = df_ciclo_superior[['Educacion', 'Modalidad', 'Sexo', 'Situación laboral en 2019', 'Total']]
df_ciclo_superior = df_ciclo_superior.loc[(df_ciclo_superior['Modalidad'] != "Total") & (df_ciclo_superior['Sexo'] != "Ambos sexos") & (df_ciclo_superior['Situación laboral en 2019'] != "Total")]

In [6]:
# UNIVERSIDAD + TASAS
df_tasas = pd.read_csv("universidad_situacion_laboral_2019.csv", sep = ";", decimal = ",")
df_universidad = pd.read_csv("universidad_caracteristicas.csv", sep = ";", decimal = ",")
df_universidad['Total'] = pd.to_numeric(df_universidad['Total'].apply(lambda numstr: numstr.replace(".", "").replace(",", ".")))
df_universidad.set_index(["Titulación", "Sexo"], inplace = True)

df_tasas.set_index(["Titulación", "Sexo", "Tasas de actividad, empleo y paro"], inplace = True)
df_tasas = df_tasas.unstack()
df_tasas = df_tasas.droplevel(0, axis = 1)
df_tasas.columns.name = None
df_universidad = df_universidad.join(df_tasas, how = "left")

# In the case of Universitarios, we have to generate the absolute values (based on the employee rates and the Total absolute values)
df_universidad['En desenpleo'] = (df_universidad['Total'] * df_universidad['Tasa de paro'] / 100).astype("int64")
df_universidad['Trabajando'] = (df_universidad['Total'] * df_universidad['Tasa de empleo'] / 100).astype("int64")
df_universidad['Inactivo'] = df_universidad['Total'] - df_universidad['Trabajando'] - df_universidad['En desenpleo']

# Proper casting to a common table format
df_universidad = df_universidad[['Trabajando', 'En desenpleo', 'Inactivo']].stack()
df_universidad = df_universidad.reset_index().rename(columns = {"level_2" : "Situación laboral en 2019", 0 : "Total", "Titulación" : "Modalidad"})
df_universidad = df_universidad.loc[(df_universidad['Modalidad'] != "TOTAL") & (df_universidad['Sexo'] != "Ambos sexos") & (df_universidad['Situación laboral en 2019'] != "Total") ]
df_universidad['Educacion'] = "Universidad"
df_universidad = df_universidad[['Educacion', 'Modalidad', 'Sexo', 'Situación laboral en 2019', 'Total']]

In [7]:
print("Total gente x sector: ")
print("\tBachillerato", df_bachillerato['Total'].sum())
print("\tCiclo medio", df_ciclo_medio['Total'].sum())
print("\tCiclo superior", df_ciclo_superior['Total'].sum())
print("\tUniversidad", df_universidad['Total'].sum())

Total gente x sector: 
	Bachillerato 233283
	Ciclo medio 97649
	Ciclo superior 113906
	Universidad 233626


In [8]:
pd.set_option('display.max_rows', None)
df_stats = pd.concat([df_bachillerato, df_ciclo_medio, df_ciclo_superior, df_universidad])
df_stats = df_stats.reset_index().drop('index', axis = 1)
df_stats['Porcentaje'] = df_stats['Total'] / df_stats['Total'].sum()
df_stats

Unnamed: 0,Educacion,Modalidad,Sexo,Situación laboral en 2019,Total,Porcentaje
0,Bachillerato,Ciencias / Ciencia y Tecnología,Hombres,Trabajando,30381,0.044779
1,Bachillerato,Ciencias / Ciencia y Tecnología,Hombres,En desempleo,7209,0.010625
2,Bachillerato,Ciencias / Ciencia y Tecnología,Hombres,Inactivo,19872,0.02929
3,Bachillerato,Humanidades y Ciencias Sociales,Hombres,Trabajando,23205,0.034202
4,Bachillerato,Humanidades y Ciencias Sociales,Hombres,En desempleo,7417,0.010932
5,Bachillerato,Humanidades y Ciencias Sociales,Hombres,Inactivo,13293,0.019593
6,Bachillerato,Artes,Hombres,Trabajando,1537,0.002265
7,Bachillerato,Artes,Hombres,En desempleo,820,0.001209
8,Bachillerato,Artes,Hombres,Inactivo,654,0.000964
9,Bachillerato,Ciencias / Ciencia y Tecnología,Mujeres,Trabajando,27498,0.04053


In [27]:
df_stats.to_csv("../database_model/user_statistics.csv", index = False)

-------------