# Global AI Job Market & Salary Trends 2025

## Úvod

V tomto projekte sa zmeriavame na  hĺbkovú analýzu globálneho trhu práce v oblasti umelej inteligencie (AI) a strojového učenia (ML), s osobitným dôrazom na mzdové trendy a dopyt po AI/ML pozíciách. Využívame  komplexný dataset z Kaggle pozaozstávajúci z údajov o mzdách, úrovni praxe, zručnostiach z viac ako 50 krajín.  Cieľom projektu  je poskytnúť prehľad o dynamike tohto rýchlo  rastúceho odvetvia v roku 2025.

Dataset : https://www.kaggle.com/datasets/bismasajjad/global-ai-job-market-and-salary-trends-2025

**Kľúčové ciele projektu:**
* **Analýza miezd:** Identifikovať priemerné mzdy pre rôzne   AI/ML pozície,  podľa dĺžky skúseností, veľkosi spoločnosti a krajín.
* **Analýza dopytu:** Zistiť, ktoré AI/ML pozície a zručnosti sú na trhu najžiadanejšie.
* **Vplyv faktorov:** Preskúmať, ako faktory ako úroveň skúseností, veľkosť spoločnosti a typ práce (remote/on-site/hybrid) ovplyvňujú mzdové ohodnotenie a dopyt.
* **Geografická analýza:** Odhaliť regionálne rozdiely v platoch a dopyte po AI/ML profesionáloch.

V tejto analýze kladieme veľký dôraz na precízne čistenie dát pomocou Pandas a efektívne vizualizácie pre jasnú komunikáciu  našich zistení.

## 1. Nastavenie Prostredia a Import Knižníc

V tejto sekcii importujeme všetky potrebné knižnice Pythonu, ktoré nám umožnia manipulovať s dátami (`pandas`, `numpy`) a vytvárať vizualizácie (`matplotlib`, `seaborn`). Zároveň nastavíme základné parametre pre konzistentný a atraktívny vzhľad našich grafov.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter # Pre analýzu zručností

# Nastavenie štýlu pre grafy
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 7)
plt.rcParams['font.size'] = 12
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

## 2. Načítanie Dát

Dáta pre tento projekt boli získané z platformy Kaggle, konkrétne zo datasetu **"Global AI Job Market and Salary Trends 2025"** (od autora bismasajjad). Dataset obsahuje detailné informácie o pozíciách, platoch a trhových trendoch z viac ako 50 krajín v oblasti AI.


In [None]:
# Načítanie datasetu
df = pd.read_csv("ai_job.csv")

## 3. Preskúmanie Dát (EDA) a Čistenie

Kvalita vstupných dát je rozhodujúca pre spoľahlivosť analýzy. V tejto fáze vykonáme dôkladné preskúmanie štruktúry dát, typov premenných, chýbajúcich hodnôt a potenciálnych anomálií. Následne vykonáme cielené čistenie a transformácie na základe poskytnutých informácií o stĺpcoch.

**Kroky EDA a Čistenia:**
1.  **Základné informácie:** `df.head()`, `df.info()`, `df.describe()`.
2.  **Chýbajúce hodnoty:** Identifikácia a riešenie.
3.  **Normalizácia kategorických stĺpcov:** Mapovanie skratiek na čitateľné textové hodnoty (`experience_level`, `company_size`, `remote_ratio`).
4.  **Dátumové stĺpce:** Konverzia na dátumový formát.
5.  **Analýza `required_skills`:** Príprava na analýzu dopytu po zručnostiach.

In [None]:
# Základné informácie o datasete
print("Prvých 5 riadkov DataFrame:")
print(df.head())

print("\nInformácie o DataFrame (stĺpce, typy dát, non-null hodnoty):")
print(df.info())

print("\nDeskriptívna štatistika pre numerické stĺpce:")
print(df.describe())

print("\nKontrola chýbajúcich hodnôt pred čistením:")
print(df.isnull().sum())

# --- Dátové čistenie a transformácie na základe popisu stĺpcov ---


# 1. Mapovanie 'experience_level' pre lepšiu čitateľnosť
experience_mapping = {
    'EN': 'Entry-level',
    'MI': 'Mid-level',
    'SE': 'Senior-level',
    'EX': 'Executive-level'
}
df['experience_level_full'] = df['experience_level'].map(experience_mapping)
print("\nStĺpec 'experience_level' bol premapovaný na čitateľné názvy.")
print(df[['experience_level', 'experience_level_full']].head())


# 2. Mapovanie 'company_size' pre lepšiu čitateľnosť
company_size_mapping = {
    'S': 'Small (<50)',
    'M': 'Medium (50-250)',
    'L': 'Large (>250)'
}
df['company_size_full'] = df['company_size'].map(company_size_mapping)
print("\nStĺpec 'company_size' bol premapovaný na čitateľné názvy.")
print(df[['company_size', 'company_size_full']].head())


# 4. Mapovanie 'remote_ratio' pre lepšiu čitateľnosť
remote_mapping = {
    0: 'No Remote',
    50: 'Hybrid',
    100: 'Fully Remote'
}
df['remote_status'] = df['remote_ratio'].map(remote_mapping)
print("\nStĺpec 'remote_ratio' bol premapovaný na čitateľné názvy.")
print(df[['remote_ratio', 'remote_status']].head())


# 4. Konverzia dátumových stĺpcov na datetime objekty
if 'posting_date' in df.columns:
    df['posting_date'] = pd.to_datetime(df['posting_date'], errors='coerce')
    print("\nStĺpec 'posting_date' bol skonvertovaný na dátumový typ.")
if 'application_deadline' in df.columns:
    df['application_deadline'] = pd.to_datetime(df['application_deadline'], errors='coerce')
    print("Stĺpec 'application_deadline' bol skonvertovaný na dátumový typ.")


# 5. Kontrola a riešenie chýbajúcich hodnôt po transformáciách
print("\nKontrola chýbajúcich hodnôt po transformáciách:")
print(df.isnull().sum())

# Pre kľúčové stĺpce, kde chýbajúce hodnoty narúšajú analýzu, ich môžeme odstrániť
# Napr. ak chýba mzda alebo názov pozície, takýto záznam nie je pre analýzu užitočný
df.dropna(subset=['salary_usd', 'job_title', 'experience_level_full', 'company_size_full', 'remote_status', 'company_location'], inplace=True)
print("\nDataFrame po odstránení riadkov s chýbajúcimi hodnotami v kľúčových stĺpcoch.")
print(df.info())
print("\n DataFrame po čistení a transformácii (prvých 5 riadkov):")
print(df.head())

In [None]:
# Popisná štatistika
print("\nDeskriptívna štatistika pre numerické stĺpce:")
print(df.describe())

## 4. Analýza Mzdových Trendov

Táto sekcia sa zameria na priemerné mzdy v rôznych segementoch trhu AI. Preskúmame, ako sa líšia platy pre rôzne AI/ML pozície, úrovne skúseností, veľkosti spoločností, typ práce (remote/hybrid/on-site) a pre vybrané krajiny.

In [None]:
# Definujeme poradie pre Experience Level a Company Size pre konzistentné grafy
experience_order = ['Entry-level', 'Mid-level', 'Senior-level', 'Executive-level']
company_size_order = ['Small (<50)', 'Medium (50-250)', 'Large (>250)']

# Priemerné mzdy podľa Job Title (Top 15)
avg_salary_by_job = df.groupby('job_title')['salary_usd'].mean().nlargest(15).sort_values(ascending=True)
plt.figure(figsize=(12, 8))
sns.barplot(x=avg_salary_by_job.values, y=avg_salary_by_job.index, palette='viridis')
plt.title('Top 15 pozícií v AI podľa priemernej mzdy  (USD)')
plt.xlabel('Priemerná Ročná Mzda (USD)')
plt.ylabel('Pozícia')
plt.show()

# Priemerné mzdy podľa Experience Level
avg_salary_by_experience = df.groupby('experience_level_full')['salary_usd'].mean().reindex(experience_order)
plt.figure(figsize=(10, 6))
sns.barplot(x=avg_salary_by_experience.index, y=avg_salary_by_experience.values, palette='magma')
plt.title('Priemerné Mzdy v AI podľa Úrovne Skúseností (USD)')
plt.xlabel('Úroveň Skúseností')
plt.ylabel('Priemerná Ročná Mzda (USD)')
plt.show()



In [None]:
# Priemerné mzdy podľa Company Size
avg_salary_by_company_size = df.groupby('company_size_full')['salary_usd'].mean().reindex(company_size_order)
plt.figure(figsize=(10, 6))
sns.barplot(x=avg_salary_by_company_size.index, y=avg_salary_by_company_size.values, palette='plasma')
plt.title('Priemerné Mzdy v AI podľa Veľkosti Spoločnosti (USD)')
plt.xlabel('Veľkosť Spoločnosti')
plt.ylabel('Priemerná Ročná Mzda (USD)')
plt.show()

# Priemerné mzdy podľa Remote Statusu
avg_salary_by_remote = df.groupby('remote_status')['salary_usd'].mean().sort_values(ascending=False) # Prípadne order=['Fully Remote', 'Hybrid', 'No Remote']
plt.figure(figsize=(10, 6))
sns.barplot(x=avg_salary_by_remote.index, y=avg_salary_by_remote.values, palette='rocket')
plt.title('Priemerné Mzdy v AI podľa Typu Práce (USD)')
plt.xlabel('Typ Práce')
plt.ylabel('Priemerná Ročná Mzda (USD)')
plt.show()

In [None]:

# Priemerné mzdy podľa Krajiny (Top 15)
avg_salary_by_country = df.groupby('company_location')['salary_usd'].mean().nlargest(15).sort_values(ascending=True)
plt.figure(figsize=(12, 8))
sns.barplot(x=avg_salary_by_country.values, y=avg_salary_by_country.index, palette='cividis')
plt.title('Top 15 Krajín podľa Priemernej Mzdy v AI (USD)')
plt.xlabel('Priemerná Ročná Mzda (USD)')
plt.ylabel('Krajina (Umiestnenie Spoločnosti)')
plt.show()

# Rozdelenie miezd (Histogram)
plt.figure(figsize=(10, 6))
sns.histplot(df['salary_usd'], bins=50, kde=True, color='skyblue')
plt.title('Distribúcia miezd v AI (USD)')
plt.xlabel('Ročná Mzda (USD)')
plt.ylabel('Frekvencia')
plt.show()

## 5. Analýza Trendov na Trhu Práce (Dopyt)

Okrem miezd je kľúčové pochopiť aj dopyt po AI/ML pracovníkoch. V tejto sekcii preskúmame frekvenciu rôznych pracovných pozícií, úrovní skúseností, veľkostí firiem a typov práce, čo nám umožní pochopiť, ktoré pozície sú na trhu najžiadanejšie. Zameriame sa aj na analýzu najžiadanejších zručností.

In [None]:
# Počet pozícií podľa Job Title (Top 15)
job_title_counts = df['job_title'].value_counts().nlargest(15).sort_values(ascending=True)
plt.figure(figsize=(12, 8))
sns.barplot(x=job_title_counts.values, y=job_title_counts.index, palette='mako')
plt.title('Top 15 Najčastejších Pozícií v AI')
plt.xlabel('Počet Ponúk')
plt.ylabel('Pozícia')
plt.show()

# Počet pozícií podľa Experience Level
experience_counts = df['experience_level_full'].value_counts().reindex(experience_order)
plt.figure(figsize=(10, 6))
sns.barplot(x=experience_counts.index, y=experience_counts.values, palette='rocket')
plt.title('Dopyt po AI Pozíciách podľa Úrovne Skúseností')
plt.xlabel('Úroveň Skúseností')
plt.ylabel('Počet Pozícií')
plt.show()

# Počet pozícií podľa Company Size
company_size_counts = df['company_size_full'].value_counts().reindex(company_size_order)
plt.figure(figsize=(10, 6))
sns.barplot(x=company_size_counts.index, y=company_size_counts.values, palette='crest')
plt.title('Dopyt po AI Pozíciách podľa Veľkosti Spoločnosti')
plt.xlabel('Veľkosť Spoločnosti')
plt.ylabel('Počet Pozícií')
plt.show()

# Počet pozícií podľa Remote Statusu
remote_counts = df['remote_status'].value_counts().sort_values(ascending=False)
plt.figure(figsize=(10, 6))
sns.barplot(x=remote_counts.index, y=remote_counts.values, palette='viridis_r')
plt.title('Dopyt po AI Pozíciách podľa Typu Práce')
plt.xlabel('Typ Práce')
plt.ylabel('Počet Pozícií')
plt.show()

# Analýza najžiadanejších zručností (required_skills)
# Prvá úprava: zabezpečiť, aby neboli NaN hodnoty a potom rozdelíme reťazce
df['required_skills_processed'] = df['required_skills'].dropna().apply(lambda x: [skill.strip() for skill in x.split(',')])
all_skills = [skill for sublist in df['required_skills_processed'] for skill in sublist]
top_skills = Counter(all_skills).most_common(20) # Top 20 zručností

plt.figure(figsize=(12, 8))
sns.barplot(x=[count for skill, count in top_skills], y=[skill for skill, count in top_skills], palette='cubehelix')
plt.title('Top 20 Najžiadanejších Zručností v AI')
plt.xlabel('Počet Výskytov')
plt.ylabel('Zručnosť')
plt.show()

## 6. Hĺbková Analýza Vzťahov a Časové Trendy

Táto sekcia sa zameria na komplexnejšie vzťahy medzi viacerými premennými a preskúma časový vývoj trendov, ak sú dostupné ročné dáta.

In [None]:


# Analýza časových trendov (ak je k dispozícii stĺpec 'posting_date' a roky sú rozmanité)
# Ak by bolo potrebné extrahovať rok zo stĺpca 'posting_date'
df['year'] = df['posting_date'].dt.year

if 'year' in df.columns and len(df['year'].unique()) > 1: # Skontrolujte, či sú viac ako jeden rok
    avg_salary_by_year = df.groupby('year')['salary_usd'].mean()
    plt.figure(figsize=(10, 6))
    sns.lineplot(x=avg_salary_by_year.index, y=avg_salary_by_year.values, marker='o', color='purple')
    plt.title('Vývoj Priemernej Mzdy v AI 2024-2025 (USD)')
    plt.xlabel('Rok')
    plt.ylabel('Priemerná Ročná Mzda (USD)')
    plt.grid(True, linestyle='--', alpha=0.6)
    plt.show()
else:
    print("Nedostatočné časové dáta pre analýzu trendov v čase.")

In [None]:
## 6.1 Analýza Korelácií medzi Numerickými Premennými

print("\n--- Korelačná Matica Numerických Stĺpcov ---")
# Vyberieme len numerické stĺpce pre koreláciu
# df.select_dtypes(include=np.number) vyberie všetky numerické stĺpce,
# čo je robustnejšie ako ručné vymenovanie
numeric_df = df.select_dtypes(include=np.number)

# Vypočítame korelačnú maticu
correlation_matrix = numeric_df.corr()
print(correlation_matrix)

# Vizualizácia korelačnej matice pomocou heatmapy
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
plt.title('Korelačná Matica Numerických Premenných')
plt.show()

# Zameranie sa na korelácie so salary_usd (ak existuje)
if 'salary_usd' in correlation_matrix.columns:
    print("\n--- Korelácia so Salary_USD ---")
    print(correlation_matrix['salary_usd'].sort_values(ascending=False))

### Interpretácia Korelačnej Matice:

Korelačná matica a detailná analýza korelácie so `salary_usd` odhalila kľúčové vzťahy medzi numerickými premennými:

* **Skúsenosti (`years_experience`) a Mzda (`salary_usd`):** Zistená silná pozitívna korelácia (približne 0.74) potvrdzuje, že **roky skúseností sú najvýznamnejším numerickým faktorom ovplyvňujúcim výšku mzdy** v AI sektore. Čím viac skúseností, tým vyššie je platové ohodnotenie.
* **Vzdialenosť práce (`remote_ratio`) a Mzda:** Korelácia je takmer nulová (približne 0.01). To podporuje predchádzajúce zistenie, že **forma práce (či už plne vzdialená, hybridná, alebo on-site) nemá výrazný lineárny vplyv na výšku mzdy**, čo je pre mnohých profesionálov dôležitý poznatok o flexibilite AI trhu.
* **Dĺžka popisu práce (`job_description_length`) a Mzda:** Korelácia je tiež blízka nule (približne -0.009). Naznačuje to, že **dĺžka popisu práce nie je spojená s výškou mzdy**.
* **Skóre benefitov (`benefits_score`) a Mzda:** S takmer nulovou koreláciou (približne 0.001) sa ukázalo, že **skóre benefitov priamo nekoreluje s výškou mzdy**. To je prekvapivé a naznačuje, že spoločnosti ponúkajúce vyššie mzdy nemusia nutne mať aj najvyššie hodnotené benefity, alebo naopak.
* **Rok (`year`) a Mzda:** Korelácia je veľmi nízka (približne 0.006), čo ukazuje, že **celkový medziročný nárast miezd medzi 2024 a 2025 je mierny** a nie je silným lineárnym prediktorom mzdy v tomto krátkom časovom horizonte.

## 7. Kľúčové Zistenia a Záver

Táto komplexná analýza globálneho trhu práce a mzdových trendov v oblasti umelej inteligencie (AI) a strojového učenia (ML) pre roky 2024 a 2025 odhalila dôležité vzorce a poznatky, ktoré môžu byť cenné pre profesionálov, študentov a firmy.

**Hlavné závery zahŕňajú:**

* **Trendy v mzdách v AI:**
    * Sektor AI je celkovo vysoko lukratívny. Aj keď existujú drobné rozdiely medzi špičkovými pozíciami, všetky sú veľmi dobre ohodnotené.
    * **Skúsenosti sú kľúčové pre mzdu:** Zistená silná pozitívna korelácia medzi rokmi skúseností a mzdou potvrdzuje, že **investícia do praxe sa v tomto odvetví výrazne vypláca**.
    * Väčšie firmy ponúkajú vyššie mzdy, a to najmä pri prechode zo stredných na veľké firmy. Rozdiel v priemerných mzdách medzi malými/strednými a veľkými firmami je výrazný.
    * **Poloha a forma práce (remote vs. on-site) nemajú taký výrazný vplyv na kompenzáciu.** Korelačná analýza potvrdila takmer nulový vzťah medzi `remote_ratio` a mzdou, čo je veľmi pozitívny signál pre záujemcov o flexibilné pracovné podmienky.
    * Geografická lokalita má významný vplyv na potenciál zárobku v AI, pričom krajiny ako Švajčiarsko, Nórsko a Dánsko vykazujú najvyššie priemerné mzdy.
    * **Prekvapujúce nekorelované faktory:** Zatiaľ čo sa očakáva, že určité faktory ovplyvnia mzdy, analýza ukázala, že `benefits_score` a `job_description_length` nemajú žiadny lineárny vzťah s výškou mzdy.

* **Trendy v dopyte na trhu práce v AI:**
    * **Všeobecný vysoký dopyt:** Sektor AI vykazuje silný a široký dopyt naprieč rôznymi špecializáciami, pričom dopyt po top pozíciách je porovnateľný.
    * **Príležitosti pre všetky úrovne:** Trh je otvorený pre talenty na všetkých úrovniach skúseností, vrátane tých na začiatku kariéry, čo z neho robí prístupnú oblasť pre nových absolventov a ľudí meniacich profesiu.
    * **Univerzálna potreba AI:** Bez ohľadu na veľkosť spoločnosti, AI talent je v roku 2025 vysoko žiadaný, čo zdôrazňuje, že AI transformácia prebieha naprieč celým podnikovým spektrom.
    * **Rozdiel medzi mzdou a dopytom:** Zatiaľ čo mzdy sa líšia podľa veľkosti firmy, dopyt po AI odborníkoch je konštantný bez ohľadu na veľkosť spoločnosti.

* **Časové trendy:**
    * Priemerné mzdy v AI sektore vykazujú mierny, ale konzistentný nárast z roku 2024 na rok 2025, odrážajúc tak neustály rast a zhodnocovanie AI profesionálov na globálnom trhu.

Celkovo táto analýza potvrdzuje, že trh práce v oblasti AI a ML je vysoko dynamický a konkurencieschopný. Pre jednotlivcov je dôležité neustále si rozširovať zručnosti a chápať trhové trendy, zatiaľ čo pre spoločnosti je kľúčové ponúkať atraktívne kompenzácie a prostredie na prilákanie top talentov.

**Ďalšie kroky a budúce analýzy by mohli zahŕňať:**
* Hlbšiu analýzu korelácie medzi `benefits_score` a inými faktormi.
* Detailnejšiu analýzu `job_description_length` vo vzťahu k dopytu alebo mzdám.
* Vytvorenie predikčného modelu na odhad miezd na základe viacerých vstupných premenných.
* Ak by sa v budúcnosti objavili viacročné dáta, mohla by sa vykonať analýza dlhodobých trendov.