<h1> Global Salary Analysis </h1>

In questo notebook si analizzerà il dataset 'salary_data.csv' scaricabile da kaggle: https://www.kaggle.com/datasets/zedataweaver/global-salary-data.

L'obiettivo è identificare pattern significativi, come i paesi con i salari più alti e più bassi, le aree geografiche con maggiore disparità salariale e la distribuzione dei salari minimi e medi nei continenti.



<h3> Import delle librerie </h3>

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np


<h3> Creazione del dataframe </h3>
Viene importato il dataset in formato csv e poi viene caricato in un dataframe pandas.

In [None]:
file_path = 'data/salary_data.csv'
data = pd.read_csv(file_path)

<h3> Analisi del dataframe </h3>

In [None]:
print(data.info())

<h3> Considerazioni e quesiti </h3>
Si nota che il dataset non contiene valori nulli.
Da questa considerazione possiamo comiciare a cercare qualche informazione:
<ol>
<li><strong>Quali sono i 5 paesi con salario medio più alto?</li>
<li><strong>Quali sono i 5 paesi con salario medio più basso?</li>
<li><strong>Quali sono i 5 paesi lo stpendio mediano più alto?</li>
<li><strong>Quali sono i 5 paesi con minore disparità tra stipendio minimo e massimo?</li>
<li><strong>Quali sono i 5 paesi con maggiore disparità tra stipendio minimo e massimo?</li>
</ol>

In [None]:
#Quesito 1 ---> stipendio medio maggiore
highest_avg_salary = data[['country_name', 'average_salary']]
highest_avg_salary = highest_avg_salary.sort_values(by='average_salary', ascending=False).head(5)
print("\nStipendi medi più alti:")
print(highest_avg_salary)

#Quesito 2 ---> stipendio medio minore
lowest_avg_salary = data[['country_name', 'average_salary']]
lowest_avg_salary = lowest_avg_salary.sort_values(by='average_salary', ascending=True).head(5)
print("\nStipendi medi più bassi:")
print(lowest_avg_salary)

#Quesito 3 ---> stipendio mediano maggiore
highest_mdn_salary = data[['country_name', 'median_salary']]
highest_mdn_salary = highest_mdn_salary.sort_values(by='median_salary', ascending=False).head(5)
print("\nStipendi mediani più alti:")
print(highest_mdn_salary)


In [None]:
# Calcoliamo la disparità salariale come la differenza tra salario massimo e minimo per ciascun paese
data['salary_disparity'] = data['highest_salary'] - data['lowest_salary']


# Quesito 4 --->  minore disparità tra stipendio minimo e massimo
lowest_disparity = data[['country_name', 'salary_disparity']]
lowest_disparity = lowest_disparity.sort_values(by='salary_disparity', ascending=True).head(5)
print("\nDisparità minima:")
print(lowest_disparity)

# Quesito 5 ---> maggiore disparità tra stipendio minimo e massimo
highest_disparity = data[['country_name', 'salary_disparity']]
highest_disparity = highest_disparity.sort_values(by='salary_disparity', ascending=False).head(5)
print("\nDisparità massima:")
print(highest_disparity)





<h3> Visualizzazione </h3>
Viene stampato il grafico del salario medio che ci permette anche di verificare i punti 1 e 2.

In [None]:
# N.B il sorting è solo per vedere meglio i risultati
data_sorted = data.sort_values(by='average_salary', ascending=False)

plt.figure(figsize=(40, 10))
plt.bar(data_sorted['country_name'], data_sorted['average_salary'], color='red', edgecolor='black')


plt.title('Salario Medio per Paese', fontsize=20)
plt.xlabel('Paese', fontsize=12)
plt.ylabel('Salario Medio (USD)', fontsize=12)


plt.xticks(rotation=90, fontsize=8)

plt.show()