In [1]:
import pandas as pd
import numpy as np
import os
import re

In [2]:
df = pd.read_csv('../datos/Dataframe_filtrado2.csv', index_col= 0)
df.sample()

Unnamed: 0,edades,genero,salarios,paises,titulo_academico,puesto_trabajo,años_experiencia,sector_laboral,tamaños_empresa,lenguaje_programacion
3187,45-59,Hombre,No sabe/No contesta,Emiratos Arabes,Master,Data Analyst,1-3 years,Académico/Educación,Startup,"Python, SQL, C++, Other"


In [3]:
# Función con todas las propiedades para hacer una exploración inicial de los dataframes.
def df_exploracion(dataframe):
     """
     Esta función realiza una exploración del dataframe
     Args: dataframe (recibe un parámetro que es el dataframe a explorar).
     Return: None
     """
     print(f"Tamaño del DataFrame: {dataframe.size}")
     print("---------")
     print(f"(El número de filas y columnas del DataFrame: {dataframe.shape}")
     print("----------")
     print(f"Descripción estadística del DataFrame:")
     display(dataframe.describe())
     print("--------")
     print(f"Información general del DataFrame:")
     display(dataframe.info())
     print("--------")
     print(f"Las columnas de este DataFrame son {dataframe.columns}")
     print("----------")
     print(f"Tipo de dato de las columnas de este DataFrame:{dataframe.dtypes}")

In [4]:
df_exploracion(df)

Tamaño del DataFrame: 32690
---------
(El número de filas y columnas del DataFrame: (3269, 10)
----------
Descripción estadística del DataFrame:


Unnamed: 0,edades,genero,salarios,paises,titulo_academico,puesto_trabajo,años_experiencia,sector_laboral,tamaños_empresa,lenguaje_programacion
count,3269,3269,3269,3269,3269,3269,3269,3111,3269,3269
unique,4,5,4,66,7,2,7,18,6,251
top,18-29,Hombre,bajo,India,Master,Data Analyst,1-3 years,Tecnológico,Startup,"Python, SQL"
freq,1562,2538,1058,795,1514,2301,991,550,908,622


--------
Información general del DataFrame:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 3269 entries, 0 to 3268
Data columns (total 10 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   edades                 3269 non-null   object
 1   genero                 3269 non-null   object
 2   salarios               3269 non-null   object
 3   paises                 3269 non-null   object
 4   titulo_academico       3269 non-null   object
 5   puesto_trabajo         3269 non-null   object
 6   años_experiencia       3269 non-null   object
 7   sector_laboral         3111 non-null   object
 8   tamaños_empresa        3269 non-null   object
 9   lenguaje_programacion  3269 non-null   object
dtypes: object(10)
memory usage: 280.9+ KB


None

--------
Las columnas de este DataFrame son Index(['edades', 'genero', 'salarios', 'paises', 'titulo_academico',
       'puesto_trabajo', 'años_experiencia', 'sector_laboral',
       'tamaños_empresa', 'lenguaje_programacion'],
      dtype='object')
----------
Tipo de dato de las columnas de este DataFrame:edades                   object
genero                   object
salarios                 object
paises                   object
titulo_academico         object
puesto_trabajo           object
años_experiencia         object
sector_laboral           object
tamaños_empresa          object
lenguaje_programacion    object
dtype: object


### Antes de categorizar imputamos los valores nulos

In [5]:
columnas = ["edades", "genero", "puesto_trabajo", "tamaños_empresa", "salarios", "lenguaje_programacion"]

In [6]:
# Categorizamos las filas nan por No sabe/No contesta.
for col in columnas:
    df[col].replace(np.nan, "No sabe/No contesta", inplace = True)

In [7]:
df.isnull().sum()*100 / df.shape[0]

edades                   0.000000
genero                   0.000000
salarios                 0.000000
paises                   0.000000
titulo_academico         0.000000
puesto_trabajo           0.000000
años_experiencia         0.000000
sector_laboral           4.833282
tamaños_empresa          0.000000
lenguaje_programacion    0.000000
dtype: float64

### Categorizamos las columnas que vamos a necesitar para responder a nuestras preguntas

- Columna salario

In [8]:
categoria_sueldo = df["salarios"].unique()

In [9]:
df["salarios"].replace(r",", ".",regex = True, inplace= True)

In [10]:
df["salarios"].unique()

array(['bajo', 'No sabe/No contesta', 'medio', 'alto'], dtype=object)

In [11]:
df["salarios"].value_counts()

bajo                   1058
No sabe/No contesta    1024
alto                    740
medio                   447
Name: salarios, dtype: int64

In [12]:
salario_junior = ['0-999', '1.000-1.999', '10.000-14.999',
        '5.000-7.499', '2.000-2.999', '7.500-9.999','4.000-4.999', '3.000-3.999'
    ]

In [13]:
salario_mid = [ '30.000-39.999', '20.000-24.999', 
        '15.000-19.999',  '25.000-29.999', 
    ]

In [14]:
salario_senior = [ '100.000-124.999','50.000-59.999', '40.000-49.999','60.000-69.999', '70.000-79.999',
        '150.000-199.999', '80.000-89.999', '125.000-149.999',
        '90.000-99.999', '200.000-249.999', '300.000-499.999', '250.000-299.999',
        '>$1.000.000', '$500.000-999.999'
    ]

In [15]:
df["salarios"].unique()

array(['bajo', 'No sabe/No contesta', 'medio', 'alto'], dtype=object)

In [16]:
def cat_salarios(salario):
    dicti = {"0-14K": salario_junior, "15K-39K": salario_mid, "+40K": salario_senior}
    resultado = "No sabe/No contesta" 

    for k, v in dicti.items():
        if salario in v:
            resultado = k
            
    return resultado

In [17]:
df["salarios"].apply(cat_salarios)


0       No sabe/No contesta
1       No sabe/No contesta
2       No sabe/No contesta
3       No sabe/No contesta
4       No sabe/No contesta
               ...         
3264    No sabe/No contesta
3265    No sabe/No contesta
3266    No sabe/No contesta
3267    No sabe/No contesta
3268    No sabe/No contesta
Name: salarios, Length: 3269, dtype: object

In [18]:
df.head()

Unnamed: 0,edades,genero,salarios,paises,titulo_academico,puesto_trabajo,años_experiencia,sector_laboral,tamaños_empresa,lenguaje_programacion
0,45-59,Hombre,bajo,Belgica,Grado Universitario,Data Analyst,20+ years,Energía/Minería,Grande,"Python, SQL"
1,18-29,No binario,No sabe/No contesta,Estados Unidos,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Fabricación,Mediana,R
2,30-44,Mujes,bajo,Egipto,Grado Universitario,Data Analyst,3-5 years,ONG/Servicio,Startup,Python
3,18-29,Hombre,No sabe/No contesta,China,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Tecnológico,Startup,"Python, SQL, C, C++, Java, Javascript, MATLAB"
4,30-44,Hombre,medio,Sudafrica,Master,Data Analyst,1-3 years,Fabricación,Mediana,"R, SQL"


In [19]:
df["salarios"].unique()

array(['bajo', 'No sabe/No contesta', 'medio', 'alto'], dtype=object)

- Columna tamaño_empresa

In [20]:
df["tamaños_empresa"].unique()

array(['Grande', 'Mediana', 'Startup', 'Pequeña', 'Multinacional',
       'No sabe/No contesta'], dtype=object)

In [21]:
df["tamaños_empresa"].value_counts()

Startup                908
Multinacional          693
Grande                 589
Pequeña                495
Mediana                407
No sabe/No contesta    177
Name: tamaños_empresa, dtype: int64

In [22]:
def cat_empresa(tamaño_empresa):
    if tamaño_empresa ==  "0-49 employees":
        return "Startup"
    elif tamaño_empresa ==  "50-249 employees":
        return "Pequeña"
    elif tamaño_empresa ==  "250-999 employees":
        return "Mediana"
    elif tamaño_empresa ==  "1000-9,999 employees":
        return "Grande"
    elif tamaño_empresa ==  "10,000 or more employees":
        return "Multinacional"
    elif tamaño_empresa == "No sabe/No contesta":
        return "No sabe/No contesta"
  

In [23]:
df["tamaños_empresa"].apply(cat_empresa)

0                      None
1                      None
2                      None
3                      None
4                      None
               ...         
3264                   None
3265    No sabe/No contesta
3266                   None
3267                   None
3268                   None
Name: tamaños_empresa, Length: 3269, dtype: object

In [24]:
df["tamaños_empresa"].replace("None", "No sabe/No contesta", inplace= True)

In [25]:

df["tamaños_empresa"].unique()

array(['Grande', 'Mediana', 'Startup', 'Pequeña', 'Multinacional',
       'No sabe/No contesta'], dtype=object)

In [26]:
df.head()

Unnamed: 0,edades,genero,salarios,paises,titulo_academico,puesto_trabajo,años_experiencia,sector_laboral,tamaños_empresa,lenguaje_programacion
0,45-59,Hombre,bajo,Belgica,Grado Universitario,Data Analyst,20+ years,Energía/Minería,Grande,"Python, SQL"
1,18-29,No binario,No sabe/No contesta,Estados Unidos,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Fabricación,Mediana,R
2,30-44,Mujes,bajo,Egipto,Grado Universitario,Data Analyst,3-5 years,ONG/Servicio,Startup,Python
3,18-29,Hombre,No sabe/No contesta,China,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Tecnológico,Startup,"Python, SQL, C, C++, Java, Javascript, MATLAB"
4,30-44,Hombre,medio,Sudafrica,Master,Data Analyst,1-3 years,Fabricación,Mediana,"R, SQL"


- Columna age

In [27]:
df["edades"].unique()

array(['45-59', '18-29', '30-44', '60-70+'], dtype=object)

In [28]:
def cat_edad(edad):
    
    try:
        if edad in  ["18-21","22-24", "25-29"]:
            return "18-29"
        elif edad in  ["30-34", '35-39', '40-44'] :
            return "30-44"
        elif edad in  ["45-49", '50-54','55-59'] :
            return "45-59"
        elif edad in  ["60-69", '70+']:
            return "60-70+"
        
    except:
        return edad

In [29]:
df['edades'].apply(cat_edad)
df.head()

Unnamed: 0,edades,genero,salarios,paises,titulo_academico,puesto_trabajo,años_experiencia,sector_laboral,tamaños_empresa,lenguaje_programacion
0,45-59,Hombre,bajo,Belgica,Grado Universitario,Data Analyst,20+ years,Energía/Minería,Grande,"Python, SQL"
1,18-29,No binario,No sabe/No contesta,Estados Unidos,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Fabricación,Mediana,R
2,30-44,Mujes,bajo,Egipto,Grado Universitario,Data Analyst,3-5 years,ONG/Servicio,Startup,Python
3,18-29,Hombre,No sabe/No contesta,China,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Tecnológico,Startup,"Python, SQL, C, C++, Java, Javascript, MATLAB"
4,30-44,Hombre,medio,Sudafrica,Master,Data Analyst,1-3 years,Fabricación,Mediana,"R, SQL"


In [30]:
df["edades"].unique()

array(['45-59', '18-29', '30-44', '60-70+'], dtype=object)

In [31]:
def reemplazar_valores(dataframe, columna, diccionario):
  """
Esta función reemplaza los valores que tenemos por los que indicamos en el diccionario.
Args: 
  DataFrame: DataFrame sobre el que queremos trabajar.
  columna(str): columna sobre la que queremos reemplazar los valores.
  diccionario(dict): diccionario con los valores que queremos reemplazar.
Returns: None
  """          
  for k, v in dicc_genero.items():
      dataframe[columna].replace(to_replace = k, value = v, inplace = True)

In [32]:
# Vamos a traducir los valores de la columna género
dicc_genero = {'Man': 'Hombre',
               'Nonbinary': 'No binario',
               'Woman': 'Mujer', 
               'Prefer not to say': 'Prefiero no decirlo',
               'Prefer to self-describe': 'Prefiero no describirme'}

In [33]:
# Aplicamos la función en el DataFrame
reemplazar_valores(df, 'genero', dicc_genero)

In [34]:
# Vamos a traducir los valores de la columna sector
dicc_puesto = {'Energy/Mining': 'Energía/Minería', 'Manufacturing/Fabrication': 'Fabricación', 'Non-profit/Service': 'ONG/Servicio',
       'Computers/Technology': 'Tecnológico', 'Accounting/Finance': 'Contabilidad/Finanzas', 'Online Service/Internet-based Services': 'Servicio en línea/Servicios basados ​​en Internet',
       'Government/Public Service': 'Gobierno/servicio público', 'Insurance/Risk Assessment': 'Seguro/Evaluación de Riesgos',
       'Online Business/Internet-based Sales': 'Negocios en línea/ventas basadas en Internet', 'Shipping/Transportation': 'Envío/Transporte',
       'Other': 'Otros', 'Academics/Education': 'Académico/Educación', 'Hospitality/Entertainment/Sports': 'Hostelería/Entretenimiento/Deportes',
       'Retail/Sales': 'Ventas al por menor', 'Medical/Pharmaceutical': 'Médico/farmacéutico',
       'Broadcasting/Communications': 'Radio/Comunicaciones', 'Military/Security/Defense': 'Militar/Seguridad/Defensa'}

In [35]:
# Aplicamos la función en el DataFrame
reemplazar_valores(df, 'sector_laboral', dicc_puesto)

In [36]:
dicc_paises = {'Belgium': 'Belgica', 'United States of America': 'Estados Unidos', 'Egypt': 'Egipto',
       'South Africa': 'Sudafrica', 'Other': 'Otros', 'Brazil': 'Brasil', 'Japan': 'Japon', 'Russia': 'Rusia', 'Ukraine': 'Ucrania', 
       'Tunisia': 'Tunez', 'Italy': 'Italia', 'Poland': 'Polonia', 'Spain': 'España',
       'United Kingdom of Great Britain and Northern Ireland': 'Reino Unido', 'Turkey': 'Turquia',
       'Kenya': 'Kenia', 'Iran, Islamic Republic of...': 'Iran', 'South Korea': 'Corea del Sur',
       'Viet Nam': 'Vietnam', 'United Arab Emirates': 'Emiratos Arabes', 'Germany': 'Alemania', 'France': 'Francia', 'Greece': 'Grecia',
       'Philippines': 'Filipinas', 'Saudi Arabia': 'Arabia Saudi', 'Singapore': 'Singapur', 'Netherlands': 'Paises Bajos',
       'Morocco': 'Marruecos', 'Thailand': 'Tailandia', 'Switzerland': 'Suiza',
       'Malaysia': 'Malasia', 'Romania': 'Rumania', 'Norway': 'Noruega',
       'Ethiopia': 'Etiopia', 'Czech Republic': 'Republica Checa',
       'I do not wish to disclose my location': 'No deseo revelar mi ubicacion', 'Ireland': 'Irlanda', 'Sweden': 'Suecia', 
       'Algeria': 'Argelia', 'Denmark': 'Dinamarca', 'Belarus': 'Bielorusia'}

In [37]:
# Aplicamos la función en el DataFrame
reemplazar_valores(df, 'paises', dicc_paises)

In [38]:
dicc_titulos = {'Bachelor’s degree': 'Grado Universitario' , 'Some college/university study without earning a bachelor’s degree': 'Estudios Univertarios sin licenciatura',
       'Master’s degree': 'Master', 'I prefer not to answer': 'Prefiero no responder', 'Doctoral degree': 'Doctorado',
       'No formal education past high school': 'Bachillerato', 'Professional doctorate': 'Doctorado Profesional'}

In [39]:
# Aplicamos la función en el DataFrame
reemplazar_valores(df, 'titulo_academico', dicc_titulos)

### Creamos un dataframe con las columnas que vamos a seleccionar para las visualizaciones

In [40]:
df.head()

Unnamed: 0,edades,genero,salarios,paises,titulo_academico,puesto_trabajo,años_experiencia,sector_laboral,tamaños_empresa,lenguaje_programacion
0,45-59,Hombre,bajo,Belgica,Grado Universitario,Data Analyst,20+ years,Energía/Minería,Grande,"Python, SQL"
1,18-29,No binario,No sabe/No contesta,Estados Unidos,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Fabricación,Mediana,R
2,30-44,Mujes,bajo,Egipto,Grado Universitario,Data Analyst,3-5 years,ONG/Servicio,Startup,Python
3,18-29,Hombre,No sabe/No contesta,China,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Tecnológico,Startup,"Python, SQL, C, C++, Java, Javascript, MATLAB"
4,30-44,Hombre,medio,Sudafrica,Master,Data Analyst,1-3 years,Fabricación,Mediana,"R, SQL"


In [41]:
lista_cols_finales = ['edades', 'genero', 'salarios', 'paises', 'titulo_academico', 'puesto_trabajo', 'años_experiencia', 'sector_laboral', 'tamaños_empresa', 'lenguaje_programacion']

In [42]:
df_final = df[lista_cols_finales]
df_final.head()

Unnamed: 0,edades,genero,salarios,paises,titulo_academico,puesto_trabajo,años_experiencia,sector_laboral,tamaños_empresa,lenguaje_programacion
0,45-59,Hombre,bajo,Belgica,Grado Universitario,Data Analyst,20+ years,Energía/Minería,Grande,"Python, SQL"
1,18-29,No binario,No sabe/No contesta,Estados Unidos,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Fabricación,Mediana,R
2,30-44,Mujes,bajo,Egipto,Grado Universitario,Data Analyst,3-5 years,ONG/Servicio,Startup,Python
3,18-29,Hombre,No sabe/No contesta,China,Estudios Univertarios sin licenciatura,Data Analyst,< 1 years,Tecnológico,Startup,"Python, SQL, C, C++, Java, Javascript, MATLAB"
4,30-44,Hombre,medio,Sudafrica,Master,Data Analyst,1-3 years,Fabricación,Mediana,"R, SQL"


In [43]:
# Guardamos el dataframe final en un archivo csv
df_final.to_csv('../datos/Dataframe_final.csv')