# Introduction to Python

### Import libraries 

In [1]:
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns # Seaborn is library based on matplotlib for stadistical graphics 
import io # io module provides Python’s main facilities for dealing with various types of I/O
import pandas as pd

### Configuration

In [2]:
sns.set(rc={'figure.figsize':(10,6)}) # Sets the figure size to 10 x 6 

In [3]:
pd.set_option('display.max_rows', 4)  # Change the max number of rows to display to 4

### Open .csv file

In [4]:
df = pd.read_csv('2023.2 - Sysarmy - Encuesta de remuneración salarial Argentina - Dataset raw.csv')

If you see the first 10 rows of the dataframe, it shows data that is not necessary to the rest of the notebook

In [5]:
df[:10]

Unnamed: 0,Para analizar los resultados podés bajar el .csv (Archivo > Descargar como),Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,Unnamed: 33,Unnamed: 34,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41,Unnamed: 42
0,,,,,,,,,,,...,,,,,,,,,,
1,Recordá calificar a la empresa donde estás tra...,,,,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8,Argentina,Catamarca,Full-Time,Staff (planta permanente),650000,520000,,,No,No recibo bono,...,Completo,Licenciatura en Sistemas de Información,Universidad Siglo 21,Terminar encuesta,,,,,45,Varón Cis
9,Argentina,Catamarca,Full-Time,Staff (planta permanente),125000,104000,,,No,No recibo bono,...,,,,,,,,,29,Mujer Cis


To solve this issue, it is necessary to create a new dataframe with the six first row skipped and indicate that the first row is the header

In [6]:
df_fixed = pd.read_csv('2023.2 - Sysarmy - Encuesta de remuneración salarial Argentina - Dataset raw.csv', skiprows=range(6), header=1)

Now the first 10 rows correspond to the header 

In [7]:
df_fixed[:10]

Unnamed: 0,Estoy trabajando en,Dónde estás trabajando,Dedicación,Tipo de contrato,Último salario mensual o retiro BRUTO (en tu moneda local),Último salario mensual o retiro NETO (en tu moneda local),Pagos en dólares,Si tu sueldo está dolarizado ¿Cuál fue el último valor del dólar que tomaron?,Recibís algún tipo de bono,A qué está atado el bono,...,Estado,Carrera,Institución educativa,¿Salir o seguir contestando sobre las guardias?,¿Tenés guardias?,Cuánto cobrás por guardia,Aclará el número que ingresaste en el campo anterior,¿Salir o seguir contestando sobre estudios?,Tengo (edad),Me identifico (género)
0,Argentina,Catamarca,Full-Time,Staff (planta permanente),680000.0,520000.0,,,No,No recibo bono,...,,,,,,,,,36,Varón Cis
1,Argentina,Catamarca,Full-Time,Staff (planta permanente),650000.0,520000.0,,,No,No recibo bono,...,Completo,Licenciatura en Sistemas de Información,Universidad Siglo 21,Terminar encuesta,,,,,45,Varón Cis
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8,Argentina,Chaco,Full-Time,Staff (planta permanente),509000.0,360000.0,Cobro todo el salario en dólares,,Menos de un sueldo,Performance grupal,...,,,,,,,,,30,Varón Cis
9,Argentina,Chaco,Full-Time,Staff (planta permanente),426000.0,354000.0,,,No,No recibo bono,...,,,,,,,,,52,Varón Cis


### Rename columns 

The columns in the dataframe have long names and it could difficult to analyse it

In [8]:
df_fixed.columns

Index(['Estoy trabajando en', 'Dónde estás trabajando', 'Dedicación',
       'Tipo de contrato',
       'Último salario mensual  o retiro BRUTO (en tu moneda local)',
       'Último salario mensual o retiro NETO (en tu moneda local)',
       'Pagos en dólares',
       'Si tu sueldo está dolarizado ¿Cuál fue el último valor del dólar que tomaron?',
       'Recibís algún tipo de bono', 'A qué está atado el bono',
       '¿Tuviste actualizaciones de tus ingresos laborales durante 2023?',
       '¿De qué % fue el ajuste total acumulado?',
       '¿En qué mes fue el último ajuste?',
       'Cómo considerás que están tus ingresos laborales comparados con el semestre anterior',
       '¿Contás con beneficios adicionales?',
       '¿Qué tan conforme estás con tus ingresos laborales?', 'Trabajo de',
       'Años de experiencia', 'Antigüedad en la empresa actual',
       'Tiempo en el puesto actual', '¿Cuántas personas a cargo tenés?',
       'Plataformas que utilizas en tu puesto actual',
     

To solve this, we define a dictionary with the new names. The dictionary has categories (profiles, work, etc. ) + new name, for each column

In [9]:
new_columns = {
    'profile': {
      'Me identifico (género)': 'gender', 
      'Tengo (edad)': 'age', 
      'Años de experiencia': 'years_experience',
      'Máximo nivel de estudios': 'studies_level',
      'Estado': 'studies_level_state', 'Carrera': 'career', 'Universidad': 'university',
      '¿Participaste de algún Boot Camp?': 'boot_camp',
      'Si participaste de un Boot Camp, ¿qué carrera estudiaste?': 'boot_camp_carrer',
      '¿Programás como hobbie?': 'programming_as_hobby',
      'Orientación sexual': 'sexual_orientation',
      '¿Tenés algún tipo de discapacidad?': 'has_disabilities',
      '¿Sentís que alguna vez los prejuicios culturales/sociales sobre tu orientación, género, etnia o discapacidad pudieron obstaculizar el que consigas un trabajo?': 'has_disabilities_hiring_difficulties',
  },
  'work' : {
      'Estoy trabajando en': 'country',
      'Dónde estás trabajando': 'province', 
      'Antigüedad en la empresa actual': 'years_in_company',
      'Tiempo en el puesto actual': 'years_in_current_position', 
      '¿Cuántas personas a cargo tenés?': 'people_in_charge_of',
      '¿Tenés guardias?': 'on_call_duty',
      '¿Porcentaje, bruto o neto?': 'on_call_duty_charge_type', 
      'Modalidad de trabajo':'work_modality', 
      'Tipo de contrato':'contract_type', 
      'Dedicación': 'dedication',
      'Sufriste o presenciaste situaciones de violencia y/o acoso por motivo de': 'has_violence_situations',
      '¿Considerás que tenés oportunidades de crecimiento siendo quien sos dentro de tu organización?':'listen_more_men',
      '¿Sentís que podés ser vos en tu trabajo?': 'yourself_in_your_work',
      'En el último año, en tu trabajo ¿recibiste o escuchaste comentarios que considerás inapropiados, subidos de tono y/o discriminatorios?':'lastyear_discrimination',
  },
  'tools': {
      'Plataformas que utilizas en tu puesto actual': 'platform', 'Lenguajes de programación o tecnologías que utilices en tu puesto actual': 'programming_languages',
      'Frameworks, herramientas y librerías que utilices en tu puesto actual': 'frameworks', 'Bases de datos': 'data_bases',
      'QA / Testing': 'qa_testing', 'IDEs': 'IDEs',
      '¿Qué SO usás en tu laptop/PC para trabajar?': 'work_pc_os', '¿Y en tu celular?': 'cellphone_os'
  },
  'salary': {
      'Cuánto cobrás por guardia': 'on_call_duty_charge',
      'Último salario mensual  o retiro BRUTO (en tu moneda local)': 'monthly_BRUTO',
      'Último salario mensual o retiro NETO (en tu moneda local)': 'monthly_NETO',
      'Pagos en dólares': 'in_usd', 'Si tu sueldo está dolarizado ¿Cuál fue el último valor del dólar que tomaron?':'last_dollar_value','¿Qué tan conforme estás con tus ingresos laborales?': 'satisfaction',
      'Cómo considerás que están tus ingresos laborales comparados con el semestre anterior': 'comparison_last_semester',
      'Recibís algún tipo de bono': 'has_bonus', 'A qué está atado el bono': 'bonus_tied_to',
      'Pagos en criptomonedas':'pay_cripto','¿Qué porcentaje o monto recibís en criptomonedas?':'%_cripto',
      '¿Tuviste actualizaciones de tus ingresos laborales durante 2023?': 'inflation_adjustment',
      '¿De qué % fue el ajuste total acumulado?': 'percentage_inflation_adjustment',
      '¿En qué mes fue el último ajuste?': 'month_last_inflation_adjustment','Con qué beneficios contas':'benefit'
  },
  'company' : {
      'Cantidad de personas en tu organización': 'employee_number', 'Actividad principal': 'main_activity',
      '¿La recomendás como un buen lugar para trabajar?': 'recommended',
      '¿Cuál es el compromiso que tiene tu empresa con la diversidad, la equidad y la inclusión?': 'diversity_policies',
      'Beneficios extra': 'extra_benefits', '¿Instauraron algún beneficio nuevo?': 'new_benefits',
      '¿Qué tanto sentís que te está apoyando tu empresa/organización durante la pandemia?': 'pandemic_support',
      '¿Cuántas veces a la semana vas a trabajar a la oficina?':'days_in_the_office',
  }
}

To change the names of the dataframe, we need a fuction to automate this

In [10]:
def replace_columns(df, new_columns):
    for category, cols in new_columns.items():
        for original_name, new_name in cols.items():
            new_column_name = category + '_' + new_name
            df.rename(columns={original_name: new_column_name}, inplace=True)  # inplace: Whether to modify the DataFrame rather than creating a new one. If True then value of copy is ignored.
    return df

_replace_columns_ takes a dataframe and a dictionary as arguments. Then, it create a new dictionary that will have 'original_name' matched with 'category_new_name'


In [11]:
df_renamed = replace_columns(df_fixed, new_columns)
df_renamed[:6]

Unnamed: 0,work_country,work_province,work_dedication,work_contract_type,salary_monthly_BRUTO,salary_monthly_NETO,salary_in_usd,salary_last_dollar_value,salary_has_bonus,salary_bonus_tied_to,...,profile_studies_level_state,profile_career,Institución educativa,¿Salir o seguir contestando sobre las guardias?,work_on_call_duty,salary_on_call_duty_charge,Aclará el número que ingresaste en el campo anterior,¿Salir o seguir contestando sobre estudios?,profile_age,profile_gender
0,Argentina,Catamarca,Full-Time,Staff (planta permanente),680000.0,520000.0,,,No,No recibo bono,...,,,,,,,,,36,Varón Cis
1,Argentina,Catamarca,Full-Time,Staff (planta permanente),650000.0,520000.0,,,No,No recibo bono,...,Completo,Licenciatura en Sistemas de Información,Universidad Siglo 21,Terminar encuesta,,,,,45,Varón Cis
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4,Argentina,Chaco,Full-Time,Tercerizado (trabajo a través de consultora o ...,250000.0,207000.0,,,No,No recibo bono,...,,,,,,,,,32,Varón Cis
5,Argentina,Chaco,Full-Time,Staff (planta permanente),276000.0,229000.0,,,No,No recibo bono,...,Completo,Analista Universitario de Sistemas,UTN - Universidad Tecnológica Nacional,Responder sobre guardias,"Sí, pasiva",0.0,Porcentaje de mi sueldo bruto,Terminar encuesta,28,Varón Cis


Check if the rest of the columns have the correct name

In [12]:
df_renamed.columns

Index(['work_country', 'work_province', 'work_dedication',
       'work_contract_type', 'salary_monthly_BRUTO', 'salary_monthly_NETO',
       'salary_in_usd', 'salary_last_dollar_value', 'salary_has_bonus',
       'salary_bonus_tied_to', 'salary_inflation_adjustment',
       'salary_percentage_inflation_adjustment',
       'salary_month_last_inflation_adjustment',
       'salary_comparison_last_semester',
       '¿Contás con beneficios adicionales?', 'salary_satisfaction',
       'Trabajo de', 'profile_years_experience', 'work_years_in_company',
       'work_years_in_current_position', 'work_people_in_charge_of',
       'tools_platform', 'tools_programming_languages', 'tools_frameworks',
       'tools_data_bases', 'tools_qa_testing', 'company_employee_number',
       'work_work_modality',
       'Si trabajás bajo un esquema híbrido ¿Cuántos días a la semana vas a la oficina?',
       'company_recommended',
       '¿Qué tanto estás usando Copilot, ChatGPT u otras herramientas de IA para

To solve this, a new functions is necessary

In [13]:
def find_incorrect_columns(df, new_names):
    categories = list(new_names.keys())  # .key method obtains the keys of the dictionary, as a list
    incorrect_columns = []

    for col in df.columns:
        starts_with_category = False
        for category in categories:
            if col.startswith(category + '_'):  
                starts_with_category = True
                break
        if not starts_with_category:
            incorrect_columns.append(col)
        
    if incorrect_columns:
        for col in incorrect_columns:
            print(col)

The followings columns are wrong

In [14]:
find_incorrect_columns(df_renamed, new_columns)

¿Contás con beneficios adicionales?
Trabajo de
Si trabajás bajo un esquema híbrido ¿Cuántos días a la semana vas a la oficina?
¿Qué tanto estás usando Copilot, ChatGPT u otras herramientas de IA para tu trabajo?
¿Salir o seguir contestando?
Institución educativa
¿Salir o seguir contestando sobre las guardias?
Aclará el número que ingresaste en el campo anterior
¿Salir o seguir contestando sobre estudios?


Then, replace the columns names with the criteria 

In [15]:
df_renamed.rename(columns={
    '¿Contás con beneficios adicionales?': 'salary_has_addtional_benefits', 
    'Trabajo de': 'work_as',  
    'Si trabajás bajo un esquema híbrido ¿Cuántos días a la semana vas a la oficina?': 'work_days_at_office', 
    '¿Qué tanto estás usando Copilot, ChatGPT u otras herramientas de IA para tu trabajo?': 'tools_AI',
    'Institución educativa': 'profile_education'
        
    }, inplace=True)

In [19]:
df_renamed.columns

Index(['work_country', 'work_province', 'work_dedication',
       'work_contract_type', 'salary_monthly_BRUTO', 'salary_monthly_NETO',
       'salary_in_usd', 'salary_last_dollar_value', 'salary_has_bonus',
       'salary_bonus_tied_to', 'salary_inflation_adjustment',
       'salary_percentage_inflation_adjustment',
       'salary_month_last_inflation_adjustment',
       'salary_comparison_last_semester', 'salary_has_addtional_benefits',
       'salary_satisfaction', 'work_as', 'profile_years_experience',
       'work_years_in_company', 'work_years_in_current_position',
       'work_people_in_charge_of', 'tools_platform',
       'tools_programming_languages', 'tools_frameworks', 'tools_data_bases',
       'tools_qa_testing', 'company_employee_number', 'work_work_modality',
       'work_days_at_office', 'company_recommended', 'tools_AI',
       '¿Salir o seguir contestando?', 'profile_studies_level',
       'profile_studies_level_state', 'profile_career', 'profile_education',
       '¿S

In [20]:
df_renamed[:6]

Unnamed: 0,work_country,work_province,work_dedication,work_contract_type,salary_monthly_BRUTO,salary_monthly_NETO,salary_in_usd,salary_last_dollar_value,salary_has_bonus,salary_bonus_tied_to,...,profile_studies_level_state,profile_career,profile_education,¿Salir o seguir contestando sobre las guardias?,work_on_call_duty,salary_on_call_duty_charge,Aclará el número que ingresaste en el campo anterior,¿Salir o seguir contestando sobre estudios?,profile_age,profile_gender
0,Argentina,Catamarca,Full-Time,Staff (planta permanente),680000.0,520000.0,,,No,No recibo bono,...,,,,,,,,,36,Varón Cis
1,Argentina,Catamarca,Full-Time,Staff (planta permanente),650000.0,520000.0,,,No,No recibo bono,...,Completo,Licenciatura en Sistemas de Información,Universidad Siglo 21,Terminar encuesta,,,,,45,Varón Cis
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4,Argentina,Chaco,Full-Time,Tercerizado (trabajo a través de consultora o ...,250000.0,207000.0,,,No,No recibo bono,...,,,,,,,,,32,Varón Cis
5,Argentina,Chaco,Full-Time,Staff (planta permanente),276000.0,229000.0,,,No,No recibo bono,...,Completo,Analista Universitario de Sistemas,UTN - Universidad Tecnológica Nacional,Responder sobre guardias,"Sí, pasiva",0.0,Porcentaje de mi sueldo bruto,Terminar encuesta,28,Varón Cis
