# Задание

Ты начал(а) работу в новой компании на позиции аналитика данных. Твоя первая задача — проверить и очистить данные по персоналу.

До этого отдел кадров использовал CSV‑файл для хранения информации о сотрудниках. Этот файл тебе нужно привести в порядок.

Твоя задача — использовать Pandas, чтобы корректно оформить таблицу.

Предпосылки:
- В каждом пункте необходимо брать данные из предыдущего пункта и копировать в новую переменную. Имена переменных заданы и важны для тестирования: автотестер проверяет именно эти имена.

- Данные нужно загружать из своего Google Drive, например из пути: `'/content/drive/MyDrive/google_colab/dirty_dataset.csv'`, если ты создал(а) папку `google_colab` и положил(а) туда CSV.

- **Имя ноутбука должно быть `EX01.ipynb`**
- **Этот ноутбук только для чтения — сделай копию: File → Save a copy in Drive**


# Импорт необходимых библиотек


In [1]:
import pandas as pd
import numpy as np
import sys

## 1. Загрузка данных из Drive

- Смонтируй Drive
- Загрузите данные из `dirty_dataset.csv` в Colab
- Для этого создай папку в Google Drive (в примере она называется `google_colab`) и положи CSV туда
- Укажи путь к файлу ниже в переменной `path`
- При выполнении следующей ячейки будет запрошен доступ к папке Drive — его нужно дать один раз за сессию


In [2]:
if 'google.colab' in sys.modules:
    from google.colab import drive
    drive.mount('/content/drive')
    path = '/content/drive/MyDrive/google_colab/dirty_dataset.csv'
else:
    path = 'dirty_dataset.csv'

Считай данные из .csv в DataFrame.


In [3]:
df = pd.read_csv(path, sep=";")

## 2. Первичный обзор
- Изучи данные
- Какие типы данных в столбцах?
- Есть ли пропуски?
- Есть ли дубликаты?
- Есть ли нелогичные значения?
- Какие названия столбцов и выглядят ли они разумно?


In [4]:
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Id                 17 non-null     int64  
 1   Nimi1              17 non-null     str    
 2   Vanus              16 non-null     str    
 3   Liitumise_Kuupäev  17 non-null     str    
 4   Tööala             16 non-null     str    
 5   Palk               12 non-null     float64
 6   Parkimine          7 non-null      str    
dtypes: float64(1), int64(1), str(5)
memory usage: 1.1 KB


In [5]:
df.head()

Unnamed: 0,Id,Nimi1,Vanus,Liitumise_Kuupäev,Tööala,Palk,Parkimine
0,124,Alice Johnson,25,2022-01-15,IT,50000.0,True
1,152,Bob smith,thirty,2023/02/20,IT,19100.0,
2,632,Charlie BRown,35,2023-01-15,Finance,,
3,853,David Lee,40,2022-04-05,IT,82040.0,True
4,963,eve davis,29,2025-05-10,HR,55001.0,False


In [6]:
df.tail()

Unnamed: 0,Id,Nimi1,Vanus,Liitumise_Kuupäev,Tööala,Palk,Parkimine
12,142,Mark Oto,31 yrs,2023-11-01,Ops,48000.0,True
13,245,Alice Johnson,25,2023-01-15,IT,50000.0,True
14,486,Bob Smith,thirty,2023/02/20,IT,19100.0,
15,989,Charlie Brown,35,2023-01-15,Finance,,
16,963,Charlie Brown,35,2023-01-15,Finance,,


In [7]:
df.describe()

Unnamed: 0,Id,Palk
count,17.0,12.0
mean,563.823529,50290.916667
std,386.211282,17894.180138
min,84.0,19100.0
25%,142.0,47250.0
50%,632.0,50025.0
75%,963.0,56250.75
max,989.0,82040.0


In [8]:
df.value_counts()

Id   Nimi1           Vanus   Liitumise_Kuupäev  Tööala   Palk     Parkimine
124  Alice  Johnson  25      2022-01-15         IT       50000.0  TRUE         1
853  David Lee       40      2022-04-05         IT       82040.0  TRUE         1
963  eve davis       29      2025-05-10         HR       55001.0  FALSE        1
973  Maria Lint      twenty  2023-08-01         IT       45000.0  yes          1
963  Tom Rivers      -5      2023-10-10         Finance  60000.0  FALSE        1
142  Mark Oto        31 yrs  2023-11-01         Ops      48000.0  TRUE         1
245  Alice Johnson   25      2023-01-15         IT       50000.0  TRUE         1
Name: count, dtype: int64

## 3. Приведи имена столбцов к нужному виду
- Сделай копию исходного DataFrame в переменную `df_col_rename`
- Переименуй неоднозначные названия столбцов
- `Tööala` → `Amet`
- `Liitumise_Kuupäev` → `Liitumise_kuupäev`
- Сохрани результат в `df_col_rename`

После изменений имена столбцов должны быть такими:
![03_veergude_nimetamine.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/03_veergude_nimetamine.png)


In [9]:
df_col_rename = df.copy()
df_col_rename = df_col_rename.rename(
    columns={"Tööala": "Amet", "Liitumise_Kuupäev": "Liitumise_kuupäev"}
)

# test
assert "Amet" in df_col_rename.columns
assert "Liitumise_kuupäev" in df_col_rename.columns


## 4. Разбей имена на имя и фамилию
- Создай новые столбцы: имя в `Eesnimi`, фамилия в `Perekonnanimi`
- Сохрани результат в `df_name`
- Результат должен быть примерно таким:

![04_nimede_lahutamine.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/04_nimede_lahutamine.png)


In [10]:
df_name = df_col_rename.copy()

clean_name = (
    df_name["Nimi1"]
    .astype(str)
    .str.strip()
    .str.replace(r"\s+", " ", regex=True)
    .str.title()
)

name_parts = clean_name.str.split(" ", n=1, expand=True)

df_name["Eesnimi"] = name_parts[0]
df_name["Perekonnanimi"] = name_parts[1]

# test
assert {"Eesnimi", "Perekonnanimi"}.issubset(df_name.columns)
assert df_name["Eesnimi"].notna().all()


## 5. Очисти возраст
- Используй имputation
- Убедись, что нелогичные значения возраста отфильтрованы
- Возраст должен быть целым числом
- Сохрани результат в `df_age`
- Результат должен быть примерно таким:

![05_nimed.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/5_age.png)


In [11]:
df_age = df_name.copy()

age_numeric = df_age["Vanus"].astype(str).str.extract(r"(\d+)")[0]
age_numeric = pd.to_numeric(age_numeric, errors="coerce")
age_numeric = age_numeric.where(age_numeric.between(0, 120))

median_age = age_numeric.median()

df_age["Vanus"] = age_numeric.fillna(median_age).round().astype(int)

# test
assert df_age["Vanus"].between(0, 120).all()
assert df_age["Vanus"].dtype.kind in "iu"


## 6. Очисти даты
- Приведи строковые форматы дат к единому виду
- Преобразуй в datetime объекты
- Сохрани результат в `df_date`
- Результат должен быть примерно таким:

![06_kuupäev.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/6_kuupaev.png)


In [12]:
df_date = df_age.copy()

date_str = df_date["Liitumise_kuupäev"].astype(str).str.replace(r"[./]", "-", regex=True)
date_parsed = pd.to_datetime(date_str, errors="coerce")

median_date = date_parsed.dropna().median()

df_date["Liitumise_kuupäev"] = date_parsed.fillna(median_date)

# test
assert pd.api.types.is_datetime64_any_dtype(df_date["Liitumise_kuupäev"])
assert df_date["Liitumise_kuupäev"].notna().all()


## 7. Очисти зарплату
- Используй имputation
- Зарплата должна быть целым числом
- Сохрани результат в `df_salary`
- Результат должен быть примерно таким:

![07_palk.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/7_palk.png)


In [13]:
df_salary = df_date.copy()

salary = pd.to_numeric(df_salary["Palk"], errors="coerce")
salary = salary.where(salary >= 0)

median_salary = salary.median()

df_salary["Palk"] = salary.fillna(median_salary).round().astype(int)

# test
assert (df_salary["Palk"] >= 0).all()
assert df_salary["Palk"].dtype.kind in "iu"


## 8. Что делать с парковкой?

- Из‑за большого количества пропусков этот столбец не даёт полезной информации
- Сохрани результат в `df_dropped`
- Результат должен быть примерно таким:

![08_parkimine.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/8_parkimine.png)


In [14]:
df_dropped = df_salary.copy()
df_dropped = df_dropped.drop(columns=["Parkimine"])

# test
assert "Parkimine" not in df_dropped.columns


## 9. Приведи отдел/должность к нормальному виду
- Допустимые значения: FI, OP, HR, IT
- Сделай имputation (в учебных целях)
- Сохрани результат в `df_title`
- Результат должен быть примерно таким:

![09_osakond.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/9_osakond.png)


In [15]:
df_title = df_dropped.copy()

amet_clean = (
    df_title["Amet"]
    .astype(str)
    .str.strip()
    .str.lower()
)

amet_map = {
    "finance": "fi",
    "fi": "fi",
    "ops": "op",
    "op": "op",
    "hr": "hr",
    "it": "it",
}

amet_mapped = amet_clean.map(amet_map).str.upper()

mode_amet = amet_mapped.mode().iloc[0] if not amet_mapped.mode().empty else "IT"

allowed = {"FI", "OP", "HR", "IT"}

df_title["Amet"] = amet_mapped.where(amet_mapped.isin(allowed)).fillna(mode_amet)

# test
assert set(df_title["Amet"].unique()).issubset(allowed)


## 10. Дубликаты
- Удали дубликаты по имени и фамилии
- Оставь первое вхождение
- Сохрани результат в `df_dupl`
- Результат должен быть примерно таким:

![10_duplikaadid.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/10_duplikaadid.png)


In [16]:
df_dupl = df_title.copy()
df_dupl = df_dupl.drop_duplicates(subset=["Eesnimi", "Perekonnanimi"], keep="first")

# test
assert df_dupl.duplicated(subset=["Eesnimi", "Perekonnanimi"]).sum() == 0

## 11. Добавь новые столбцы

Создай новый столбец `Aastat_liitumisest`, в котором будут целые годы с момента трудоустройства. Используй datetime.

Также классифицируй зарплату в столбце `Palk_kategooria`:
- **madal** — если 0 ≤ зарплата < 30 000
- **keskmine** — если 30 000 ≤ зарплата < 60 000
- **kõrge** — если зарплата ≥ 60 000

Во всех остальных случаях (нет значения, не число) — NaN.

Сохрани результат в переменные:
- `df_dt` (с `Aastat_liitumisest`)
- `df_cat` (с `Palk_kategooria`)

Результат должен быть примерно таким:
![11_palgakategooria.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/11_palgakategooria.png)


In [17]:
today = pd.Timestamp('today')

df_dt = df_dupl.copy()

df_dt["Aastat_liitumisest"] = (
    (today - df_dt["Liitumise_kuupäev"]).dt.days // 365
).astype(int)

df_cat = df_dt.copy()

conditions = [
    (df_cat["Palk"] >= 0) & (df_cat["Palk"] < 30000),
    (df_cat["Palk"] >= 30000) & (df_cat["Palk"] < 60000),
    (df_cat["Palk"] >= 60000),
]

choices = ["madal", "keskmine", "kõrge"]

palk_cat = pd.Series(
    np.select(conditions, choices, default=None),
    index=df_cat.index,
    dtype="object",
)

df_cat["Palk_kategooria"] = palk_cat

# test
assert (df_dt["Aastat_liitumisest"] >= 0).all()
assert df_cat["Palk_kategooria"].dropna().isin(choices).all()

## 12. Создай таблицу зданий и объедини её с основной
- Создай DataFrame `df_hoone` с двумя столбцами:
  - `Id` (из основного списка)
  - `Hoone` [A,B,C] — связи такие:

```
    Id  Hoone
0	124	A
1	152	B
2	632	C
3	853	A
4	963	C
5	84	B
6	863	A
7	973	A
8	111	B
9	142	C
```

- Этот столбец показывает, в каком здании работает сотрудник
- Объедини таблицу зданий с основной таблицей персонала
- Сохрани результат в `df_merged`

Результат должен быть примерно таким:
![12_hoone.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/12_hoone.png)


In [18]:
# Eemalda olemasolev indeks ja määra indeks ise
df_reset = df_cat.reset_index(drop=True)

# Loome hoone tabeli olemasolevate indeksite põhjal + uus veerg hoonete tähistustega
df_hoone = pd.DataFrame(
    {
        "Id": [124, 152, 632, 853, 963, 84, 863, 973, 111, 142],
        "Hoone": ["A", "B", "C", "A", "C", "B", "A", "A", "B", "C"],
    }
)

df_merged = df_reset.merge(df_hoone, on="Id", how="left")

# test
assert "Hoone" in df_merged.columns

## 13. Отсортируй и проверь индекс



  - Отсортируй по `Liitumise_kuupäev` от более поздних к более ранним
  - Убедись, что индекс идёт по возрастанию, первая строка — 0
  - Сохрани результат в `df_sort`

  Результат должен быть примерно таким:

  ![13_sorteeri.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/13_sorteeri.png)


In [19]:
df_sort = df_merged.copy()
df_sort = df_sort.sort_values("Liitumise_kuupäev", ascending=False).reset_index(drop=True)

# test
assert df_sort.index.is_monotonic_increasing


## 14. Упорядочи столбцы так, чтобы первым был Id, затем:
- Liitumise_kuupäev
- Aastat_liitumisest
- Amet
- Eesnimi
- Perekonnanimi
- Palk
- Palk_kategooria
- Vanus

Сохрани результат в `df_col_sorted`

Результат должен быть примерно таким:
![14_veergude_tõstmine.png](https://cs.taltech.ee/services/forge/maksim.tsopov/itx0020-images/raw/branch/main/ex01_pandas/new/14_veergude_tostmine.png)


In [20]:
df_col_sorted = df_sort.copy()

col_order = [
    "Id",
    "Liitumise_kuupäev",
    "Aastat_liitumisest",
    "Amet",
    "Eesnimi",
    "Perekonnanimi",
    "Palk",
    "Palk_kategooria",
    "Vanus",
]

df_col_sorted = df_col_sorted[col_order]

# test
assert list(df_col_sorted.columns) == col_order


## 15. Сохрани таблицу обратно в CSV
- Индекс в файле не нужен
- Убедись, что файл сохранён в папке твоего Drive


In [21]:
from datetime import datetime
import pytz

# Define the Estonian timezone
est_timezone = pytz.timezone('Europe/Tallinn')

# Get the current time in Estonian timezone and format it to include time
timestamp = datetime.now(est_timezone).strftime("%Y%m%d_%H%M%S")

if "google.colab" in sys.modules:
    path = f"/content/drive/MyDrive/google_colab/clean_dataset_{timestamp}.csv"
else:
    path = f"clean_dataset_{timestamp}.csv"

df_col_sorted.to_csv(path, index=False)

## EX01-EXTRA (по желанию): загрузка датасета в Colab

Если используешь Google Drive, убедись, что Drive смонтирован и `path_override` указывает на полный путь к CSV.

Ноутбук должен содержать:
- код
- короткие текстовые пояснения (Markdown)
- ответы на вопросы в Markdown-ячейках

In [None]:
# EX01-EXTRA: CSV path helper for Colab/Drive
from pathlib import Path
import pandas as pd

try:
    from google.colab import drive
    drive.mount('/content/drive')
except Exception:
    pass

# Optional override (set a full path string if needed)
path_override = '/content/drive/MyDrive/google_colab/WA_Fn-UseC_-HR-Employee-Attrition.csv'

candidate_paths = [
    'WA_Fn-UseC_-HR-Employee-Attrition.csv',
    'data/WA_Fn-UseC_-HR-Employee-Attrition.csv',
    '/content/WA_Fn-UseC_-HR-Employee-Attrition.csv',
]

path = path_override or next((p for p in candidate_paths if Path(p).exists()), None)
if path is None:
    raise FileNotFoundError(
        'Dataset not found. Download the CSV from Kaggle and place it next to the notebook or in data/, or set path_override.'
    )

df = pd.read_csv(path)
print('Loaded:', path)