In [None]:
import pandas as pd

import matplotlib.pyplot as plt

# 1.Odczyt pliku CSV
file_path = "C:/Users/micha/Downloads/2017_jun_final - 2017_jun_final.csv"
data = pd.read_csv(file_path)
print(data)

# 2.Odczytanie tabeli wynikowej przy użyciu metody head
print(data.head())

# 3.Zdefiniowanie rozmiaru tabeli
print("\nRozmiar tabeli:", data.shape)

# 4.Zdefiniowanie typów wszystkich kolumn
print("\nTypy kolumn:\n", data.dtypes)

# 5.Obliczenie proporcji spacji w każdej kolumnie
null_percentage = data.isnull().sum() / len(data) * 100
print("\nProporcja pustych wartości w kolumnach:\n", null_percentage)

# 6.Usunięcie wszystkich kolumn ze spacjami z wyjątkiem kolumny "Język programowania"
columns_to_keep = ["Programming language"]
data_filtered = data[columns_to_keep]

# 7.Ponowne obliczenie odsetka pustych miejsc w każdej kolumnie
null_percentage_filtered = data_filtered.isnull().sum() / len(data_filtered) * 100
print(
    "\nProporcja pustych wartości po usunięciu kolumn:\n",
    null_percentage_filtered.round(2),
)

# 8.Usunięcie wszystkich wierszy z pustymi wartościami
data_cleaned = data_filtered.dropna()

# 9.Zdefiniowanie nowego rozmiaru tabeli
print("\nNowy rozmiar tabeli:", data_cleaned.shape)

# 10.Utworzenie nowej tabeli python_data z wierszami, gdzie 'Programming language' to Python
python_data = data_cleaned[
    data_cleaned["Programming language"].str.contains("Python", na=False)
]

# 11.Zdefiniowanie rozmiaru tabeli python_data
print("\nRozmiar tabeli python_data:", python_data.shape)

# 12.Grupowanie według kolumny "Stanowisko" (Role) i agregacja wynagrodzenia (Salary/month)
grouped_data = (
    data.groupby("Role")
    .agg(min_salary=("Salary/month", "min"), max_salary=("Salary/month", "max"))
    .reset_index()
)


# 13. Tworzenie funkcji do obliczania średniej pensji
def fill_avg_salary(row):
    min_salary = float(row["min_salary"])
    max_salary = float(row["max_salary"])
    return round((min_salary + max_salary) / 3, 0)


# 14. Zastosowanie funkcji fill_avg_salary do stworzenia nowej kolumny "avg"
grouped_data["min_salary"] = grouped_data["min_salary"].astype(float)
grouped_data["max_salary"] = grouped_data["max_salary"].astype(float)
grouped_data["avg"] = grouped_data.apply(fill_avg_salary, axis=1)

# 15. Statystyki opisowe dla kolumny "avg"
print("\n", grouped_data["avg"].describe())

# 16.Zapisanie wynikowej tabeli do pliku CSV
grouped_data.to_csv("wynikowa_tabela.csv", index=False)

# 1. Wykres liniowy - Wynagrodzenie a doświadczenie
plt.figure(figsize=(10, 6))
plt.plot(data["exp"], data["salary"], marker="o", color="b", linestyle="-", linewidth=2)
plt.title("Wynagrodzenie miesięczne w zależności od doświadczenia")
plt.xlabel("Doświadczenie (lata)")
plt.ylabel("Wynagrodzenie miesięczne")
plt.grid(True)
plt.show()

# 2. Wykres punktowy - Doświadczenie ogólne vs. na bieżącym stanowisku
plt.figure(figsize=(10, 6))
plt.scatter(
    data["exp"], data["current_job_exp"], color="purple", edgecolor="black", alpha=0.6
)
plt.title("Doświadczenie ogólne vs. doświadczenie na bieżącym stanowisku")
plt.xlabel("Doświadczenie ogólne (lata)")
plt.ylabel("Doświadczenie na bieżącym stanowisku (lata)")
plt.grid(True)
plt.show()

# 3. Wykres słupkowy - Średnie wynagrodzenie dla różnych ról
avg_salary_per_role = data.groupby("Role")["salary"].mean().sort_values()
plt.figure(figsize=(10, 6))
avg_salary_per_role.plot(kind="barh", color="teal")
plt.title("Średnie wynagrodzenie miesięczne w zależności od roli")
plt.xlabel("Średnie miesięczne wynagrodzenie")
plt.ylabel("Rola")
plt.show()
