### **Проект по очистке и подготовке данных сотрудников**

В этом проекте мы выполняем **очистку и подготовку данных** с использованием **Pandas**, обеспечивая структурированность и готовность набора данных к анализу. Мы обрабатываем **пропущенные значения, преобразования данных, преобразования типов и извлечение признаков**.

---

### **Инструкции по проекту**

1. **Определение пропущенных значений**: Определите и выведите количество пропущенных значений в каждом столбце.
2. **Удаление строк с пропущенными значениями**: Удалите строки, содержащие любые пропущенные значения.
3. **Заполнение пропущенных значений**: Заполните пропущенные значения в определенных столбцах подходящими значениями по умолчанию или статистиками.
4. **Переупорядочивание столбцов для анализа**: Переупорядочьте столбцы, чтобы разместить 'Name', 'Department' и 'Salary' в начале для лучшей читаемости.
5. **Добавление столбца с бонусами**: Добавьте столбец 'Bonus', где каждая запись составляет 10% от зарплаты.
6. **Преобразование типов данных**: Убедитесь в правильности типов данных для числовых и датированных полей.
7. **Извлечение года найма**: Извлеките год из столбца 'HireDate' и добавьте его как новый столбец под названием 'HireYear'.
8. **Поиск самого долго работающего сотрудника**: Найдите сотрудника, который проработал в компании дольше всех, и отобразите его данные вместе с количеством лет, месяцев и дней службы в отформатированном виде. Пример: "Джон Доу проработал 10 лет, 3 месяца и 15 дней."
9. **Категоризация по стажу**: Классифицируйте сотрудников как младших, среднего уровня или старших на основе лет службы.
10. **Поиск самого высокооплачиваемого сотрудника**: Определите самого высокооплачиваемого сотрудника в DataFrame.
11. **Сброс индекса**: Сбросьте индекс DataFrame после упорядочивания.
12. **Добавление столбца с полным именем**: Добавьте столбец 'FullName', объединив 'Name' с 'LastName'.
13. **Запись в CSV**: Запишите окончательный DataFrame в CSV-файл.
14. **Удаление временных столбцов**: Удалите любые столбцы, которые были добавлены временно для расчетов или анализа.

---

### **Создание DataFrame**

Следующий код генерирует случайный DataFrame с пропущенными значениями. Этот шаг предоставлен и не требует реализации в рамках задач.



In [53]:
import pandas as pd
import numpy as np
import random

def create_dataframe(n: int = 100) -> pd.DataFrame:
    """
    Create a random DataFrame with n elements for each column, including missing values.

    Args:
        n (int): Number of elements in each column.

    Returns:
        pd.DataFrame: DataFrame with random employee data and missing values.
    """
    first_names = ['Anna', 'Ben', 'Cathy', 'Diana', 'Evan', None]
    last_names = ['Smith', 'Johnson', 'Williams', 'Jones', 'Brown', None]
    
    data = {
        'EmployeeID': np.arange(1, n + 1),
        'Name': [random.choice(first_names) for _ in range(n)],
        'LastName': [random.choice(last_names) for _ in range(n)],
        'Age': [random.choice([random.randint(20, 60), None]) for _ in range(n)],
        'Department': [random.choice(['Sales', 'Marketing', 'IT', 'HR', 'Finance', None]) for _ in range(n)],
        'Salary': [random.choice([random.randint(40000, 100000), None]) for _ in range(n)],
        'HireDate': [random.choice([pd.to_datetime(date), None]) for date in np.random.choice(pd.date_range('2005-01-01', '2025-01-31'), size=n)]
    }
    return pd.DataFrame(data)

# Создайте случайный DataFrame с пропущенными значениями
random.seed(0)
df = create_dataframe(1000)


---

### **Реализация**



In [54]:
# Определите количество пропущенных значений в каждом столбце
missing_values = df.isna().sum()
print(missing_values)

EmployeeID      0
Name          169
LastName      174
Age           491
Department    168
Salary        481
HireDate      502
dtype: int64


In [55]:
# Удаление строк с пропущенными значениями
df_dropped = df.dropna()
print(df_dropped.shape)

(65, 7)


In [56]:
# Заполняем пропущенные значения
df_filled = df.fillna({
    'Name': 'Unknown',
    'LastName': 'Unknown',
    'Age': df['Age'].mean(),
    'Department': 'Unknown',
    'Salary': df['Salary'].mean(),
    'HireDate': df['HireDate'].min()
})
print(df_filled)


     EmployeeID     Name  LastName        Age Department        Salary  \
0             1    Diana   Unknown  40.611002  Marketing  71123.013487   
1             2    Diana   Johnson  28.000000    Unknown  71123.013487   
2             3     Anna   Johnson  40.611002         IT  85447.000000   
3             4    Cathy     Brown  30.000000         HR  71123.013487   
4             5     Evan  Williams  40.611002  Marketing  71123.013487   
..          ...      ...       ...        ...        ...           ...   
995         996     Anna     Smith  27.000000         HR  71123.013487   
996         997    Cathy   Unknown  60.000000         HR  60383.000000   
997         998  Unknown     Jones  45.000000         IT  44097.000000   
998         999  Unknown  Williams  38.000000         IT  54676.000000   
999        1000    Cathy     Jones  56.000000      Sales  71123.013487   

      HireDate  
0   2005-02-15  
1   2005-02-15  
2   2005-11-17  
3   2005-02-15  
4   2005-02-15  
..       

In [57]:
# Меняем порядок столбцов
df=df[['Name', 'Department','Salary','Age','HireDate','EmployeeID','LastName']]
print(df)

      Name Department   Salary   Age   HireDate  EmployeeID  LastName
0    Diana  Marketing      NaN   NaN        NaT           1      None
1    Diana       None      NaN  28.0        NaT           2   Johnson
2     Anna         IT  85447.0   NaN 2005-11-17           3   Johnson
3    Cathy         HR      NaN  30.0        NaT           4     Brown
4     Evan  Marketing      NaN   NaN        NaT           5  Williams
..     ...        ...      ...   ...        ...         ...       ...
995   Anna         HR      NaN  27.0        NaT         996     Smith
996  Cathy         HR  60383.0  60.0        NaT         997      None
997   None         IT  44097.0  45.0 2009-04-09         998     Jones
998   None         IT  54676.0  38.0 2011-02-09         999  Williams
999  Cathy      Sales      NaN  56.0 2025-01-21        1000     Jones

[1000 rows x 7 columns]


In [58]:
# Добавляем столбец Bonus и заполняем его 10% от Salary
df['Bonus']= df['Salary']*0.1
print(df)


      Name Department   Salary   Age   HireDate  EmployeeID  LastName   Bonus
0    Diana  Marketing      NaN   NaN        NaT           1      None     NaN
1    Diana       None      NaN  28.0        NaT           2   Johnson     NaN
2     Anna         IT  85447.0   NaN 2005-11-17           3   Johnson  8544.7
3    Cathy         HR      NaN  30.0        NaT           4     Brown     NaN
4     Evan  Marketing      NaN   NaN        NaT           5  Williams     NaN
..     ...        ...      ...   ...        ...         ...       ...     ...
995   Anna         HR      NaN  27.0        NaT         996     Smith     NaN
996  Cathy         HR  60383.0  60.0        NaT         997      None  6038.3
997   None         IT  44097.0  45.0 2009-04-09         998     Jones  4409.7
998   None         IT  54676.0  38.0 2011-02-09         999  Williams  5467.6
999  Cathy      Sales      NaN  56.0 2025-01-21        1000     Jones     NaN

[1000 rows x 8 columns]


In [59]:
# Преобразованиетипов данных
df['HireDate']=pd.to_datetime(df['HireDate'])


In [60]:
# Извлечение года найма
df['HireYear']=df['HireDate'].dt.year

In [61]:
# Поиск самого долго работающего сотрудника
# Убираем строки с пропущенными датами найма
df_cleaned = df.dropna(subset=['HireDate']).copy()  # Добавляем .copy() для создания копии

# Получаем текущую дату
current_date = pd.to_datetime(pd.Timestamp.today().date())

# Функция для вычисления продолжительности работы в годах, месяцах и днях
def calculate_duration(hire_date, current_date):
    # Разница в годах
    years = current_date.year - hire_date.year
    months = current_date.month - hire_date.month
    days = current_date.day - hire_date.day

    # Если месяцы отрицательные, уменьшаем количество лет на 1 и добавляем 12 к месяцам
    if months < 0:
        years -= 1
        months += 12

    # Если дни отрицательные, уменьшаем количество месяцев на 1 и корректируем количество дней
    if days < 0:
        months -= 1
        days += pd.Timestamp(current_date).days_in_month - hire_date.day
    
    return years, months, days

# Применяем функцию к каждому сотруднику и вычисляем продолжительность службы
df_cleaned[['YearsOfService', 'MonthsOfService', 'DaysOfService']] = df_cleaned['HireDate'].apply(
    lambda x: pd.Series(calculate_duration(x, current_date)))

# Находим сотрудника с наибольшим количеством лет службы
longest_serving_employee = df_cleaned.loc[df_cleaned['YearsOfService'].idxmax()]

# Получаем имя и продолжительность работы
employee_name = longest_serving_employee['Name']+ longest_serving_employee['LastName']
years = longest_serving_employee['YearsOfService']
months = longest_serving_employee['MonthsOfService']
days = longest_serving_employee['DaysOfService']
hire_date = longest_serving_employee['HireDate']

# Формируем строку с результатом
result = f"{employee_name} проработал(а) {years} лет, {months} месяцев и {days} дней, с {hire_date.strftime('%d-%m-%Y')}."

print(result)

DianaBrown проработал(а) 20 лет, 0 месяцев и 6 дней, с 15-02-2005.


In [62]:

# Категоризация по стажу
def categorize_by_experience(years):
    if years < 5:
        return 'Junior'
    elif 5 <= years <= 10:
        return 'Mid-level'
    else:
        return 'Senior'
    

# Создаем новый столбец 'ExperienceLevel'
df_cleaned['ExperienceLevel'] = df_cleaned['YearsOfService'].apply(categorize_by_experience)

# Просмотр первых строк с новой категорией
print(df_cleaned[['Name', 'LastName', 'YearsOfService', 'ExperienceLevel']].head())

     Name  LastName  YearsOfService ExperienceLevel
2    Anna   Johnson              19          Senior
6   Diana     Smith               0          Junior
7   Cathy     Jones              18          Senior
11    Ben     Jones              15          Senior
13    Ben  Williams              10       Mid-level


In [70]:
# Поиск самого высокооплачиваемого сотрудника
# Убираем строки с пропущенными значениями зарплаты
df_cleaned = df.dropna(subset=['Salary']).copy() # Добавляем .copy() для создания копии 
#Находим индекс строки с самой высокой зарплатой
highest_paid_employee = df_cleaned.loc[df_cleaned['Salary'].idxmax()]

# Получаем имя, фамилию и зарплату
employee_name = highest_paid_employee['Name'] + highest_paid_employee['LastName']
salary = highest_paid_employee['Salary']

# Формируем строку с результатом
result = f"Самый высокооплачиваемый сотрудник: {employee_name}, Зарплата: {salary}"

print(result)

Самый высокооплачиваемый сотрудник: AnnaBrown, Зарплата: 99979.0


In [64]:
# Сброс индекса
df_cleaned.reset_index(drop=True, inplace=True)

In [71]:
# Добавление столбца с полным именем
df_cleaned['FullName'] = df_cleaned['Name']  + df_cleaned['LastName']
print(df_cleaned)

      Name Department   Salary   Age   HireDate  EmployeeID  LastName   Bonus  \
2     Anna         IT  85447.0   NaN 2005-11-17           3   Johnson  8544.7   
6    Diana         HR  58241.0   NaN 2024-07-17           7     Smith  5824.1   
7    Cathy       None  86505.0  54.0 2006-12-09           8     Jones  8650.5   
10    Evan       None  71179.0  34.0        NaT          11  Williams  7117.9   
11     Ben  Marketing  45441.0  53.0 2010-02-06          12     Jones  4544.1   
..     ...        ...      ...   ...        ...         ...       ...     ...   
993   Anna         HR  97939.0  51.0 2007-11-14         994     Brown  9793.9   
994   Evan    Finance  49788.0  29.0        NaT         995     Jones  4978.8   
996  Cathy         HR  60383.0  60.0        NaT         997      None  6038.3   
997   None         IT  44097.0  45.0 2009-04-09         998     Jones  4409.7   
998   None         IT  54676.0  38.0 2011-02-09         999  Williams  5467.6   

     HireYear      FullName

In [66]:
# Запись в CSV
df_cleaned.to_csv('employee_data.csv', index=False)

In [67]:
# Удаление временных столбцов
# Сначала проверяем, какие столбцы существуют
print("Столбцы в DataFrame:", df_cleaned.columns)

# Удаляем временные столбцы, если они существуют
temp_columns = ['YearsOfService', 'MonthsOfService', 'DaysOfService']

# Проверяем, какие столбцы из временных есть в DataFrame и удаляем их
df_cleaned.drop(columns=[col for col in temp_columns if col in df_cleaned.columns], inplace=True)

# Печатаем результат
print(df_cleaned.columns)

Столбцы в DataFrame: Index(['Name', 'Department', 'Salary', 'Age', 'HireDate', 'EmployeeID',
       'LastName', 'Bonus', 'HireYear', 'FullName'],
      dtype='object')
Index(['Name', 'Department', 'Salary', 'Age', 'HireDate', 'EmployeeID',
       'LastName', 'Bonus', 'HireYear', 'FullName'],
      dtype='object')



---

### **Резюме**

Этот проект демонстрирует **очистку и предобработку данных** с использованием **Pandas** для набора данных сотрудников. Основные техники включают обработку **пропущенных значений**, **преобразования данных**, **преобразования типов** и **инженерию признаков** (например, классификацию по стажу). Это обеспечивает структурированность и готовность набора данных к будущему анализу.

### Как отправить проект

1. Создайте файл Jupyter Notebook на вашем Google Диске.
2. Напишите ваше решение в ноутбуке.
3. Поделитесь доступом с вашим наставником (или предоставьте ссылку с правами на редактирование).
4. Отправьте ссылку на файл ноутбука или папку в качестве вашего решения для этого урока.