In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('https://drive.google.com/uc?export=download&id=1J1edk5yMt8tkFe7prA46mmCG5B6ORSLk')

In [None]:
df.head()

Unnamed: 0,Name,Gender,Age,Salary,Occupation,Start_Date,Hours_per_week
0,John Smith,Male,34,5000,Data Analyst,2018-04-23,40
1,Anna Brown,Female,29,5200,Software Dev,2019-08-15,45
2,Mark Lee,Male,41,4800,Project Manager,2016-03-12,38
3,Lucy Hill,Female,36,5500,Data Scientist,2020-01-10,42
4,Alan Reed,Male,31,4600,HR Specialist,2021-06-07,40


## Трансформация данных (ч.1)

### Добавление нового столбца

Иногда возникает необходимость создать новый столбец в датасете, ну не в экселе же это делать, правда? И для этого даже не придется вручную проходить по всем строкам или писать цикл, Pandas сделает это за вас!

Создадим новый столбец, в котором будет находится годовая зарплата работников.

In [None]:
df['Annual salary'] = df['Salary'] * 12

In [None]:
df['Annual salary'].describe()

count       49.000000
mean     62326.530612
std       6026.980156
min      52800.000000
25%      57600.000000
50%      61200.000000
75%      66000.000000
max      75600.000000
Name: Annual salary, dtype: float64

### Удаление строк/столбцов

Для того, чтобы удалить строки или столбцы, используется функция __drop()__ с аргументом axis=0 для удаления строк и axis=1 для удаления столбцов. Обратите внимание на аргумент __inplace__ – в этой и многих других функциях он отвечает за то, создается ли копия объекта (=False) или изменения применяются к существующему объекту (=True). В случае c inplace=False нам возвращается DataFrame.

Теперь удалим тот столбик, который создали в прошлый раз, так как поняли, что он нам оказался не нужен.

Ну и выкинем заодно пару строчек, в образовательных целях, конечно же! (На реальных данных так делать не надо)

In [None]:
df.drop('Annual salary', axis=1, inplace=True)

In [None]:
df.drop([10, 12, 44], axis=0, inplace=True)

In [None]:
df.iloc[8:11]

Unnamed: 0,Name,Gender,Age,Salary,Occupation,Start_Date,Hours_per_week
8,Steve Harris,Male,28,4900,Software Dev,2020-05-30,43
9,Julia Roberts,Female,42,5800,Project Manager,2014-04-05,37
11,Sophia Martin,Female,27,4500,Data Scientist,2021-03-25,44


Ого, оно и вправду удалилось! (просто, чтобы вы поверили)

### Замена значений

Чтобы заменить какое-то значение в столбце (или во всем датафрейме) можно использовать функцию __replace()__, в которой первое аргумент это то, что мы заменяем, а второй то, на что мы заменяем.

Например, поменяем _CTO_ на _Chief Technology Officer_, потому что я так чувствую.

In [None]:
# Проверим, есть ли такие значения
df['Occupation'][df['Occupation'] == 'CTO']

6     CTO
13    CTO
19    CTO
31    CTO
35    CTO
43    CTO
Name: Occupation, dtype: object

In [None]:
df['Occupation'].replace('CTO', 'Chief Technology Officer', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Occupation'].replace('CTO', 'Chief Technology Officer', inplace=True)


In [None]:
# проверим, остались ли такие значения
df['Occupation'][df['Occupation'] == 'CTO']

Series([], Name: Occupation, dtype: object)

### Работа с пропущенными значениями

Часто случается такое, что у вас в данных появляются пропуски (NaN), что же с ними делать? Если столбец с пропусками важен для вашего исследования, то можно либо удалить строки с этими пропусками, либо заполнить их чем-то (например, средним)

Рассмотрим, как делать это в Pandas.

С помощью __fillna()__ можно заполнять пропуски в столбцах. В первом аргументе вы ставите то значение, на которое следует заменить все пропуски. Вместо него так же можно использовать аргумент *method=* который принимает три значения: "backfill/bfill" заполняет пропуск следующим значением, а 'ffill' заполняет пропуск предыдущим значением.

In [None]:
df['Salary'].fillna(df['Salary'].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Salary'].fillna(df['Salary'].mean(), inplace=True)


С помощью __dropna()__ можно удалять строки с пропущенными значениями. В аргумент subset можно передать столбик/список столбцов, где нужно очистить NaN.

In [None]:
df.dropna(subset=['Salary'], inplace=True)

Стоит оговориться, что эти функции работают как со столбцами, так и со всем датасетом. Но не удивляйтесь, когда обнаружите отсутствие 60% данных, после запуска dropna() по всему датасету. Я вас предупреждал!

## Трансформация данных (ч.2)

### apply()

Функция __apply()__ используется для более сложных трансформаций, в которых требуется применить функцию ко всему массиву данных. В качестве аргумента этого метода выступает функция (неважно, лямбда-функция или нет)

In [None]:
def age_category(age):
    if age < 30:
        return 'Young'
    elif 30 <= age < 40:
        return 'Middle-aged'
    else:
        return 'Senior'

df['Age_category'] = df['Age'].apply(age_category)

In [None]:
# Тот же самый результат, но с использованием lambda-функции
df['Age_category'] = df['Age'].apply(lambda age: 'Young' if age < 30 else 'Middle-aged' if 30 <= age < 40 else 'Senior')


In [None]:
df['Age_category'].values

array(['Middle-aged', 'Young', 'Senior', 'Middle-aged', 'Middle-aged',
       'Middle-aged', 'Senior', 'Middle-aged', 'Young', 'Senior', 'Young',
       'Senior', 'Middle-aged', 'Middle-aged', 'Young', 'Senior',
       'Middle-aged', 'Senior', 'Middle-aged', 'Senior', 'Middle-aged',
       'Young', 'Middle-aged', 'Middle-aged', 'Middle-aged', 'Senior',
       'Young', 'Young', 'Middle-aged', 'Senior', 'Middle-aged',
       'Middle-aged', 'Middle-aged', 'Senior', 'Middle-aged', 'Young',
       'Middle-aged', 'Middle-aged', 'Young', 'Middle-aged',
       'Middle-aged', 'Senior', 'Senior', 'Middle-aged', 'Middle-aged',
       'Middle-aged'], dtype=object)

### map()

__map()__ применяется для преобразования данных с помощью словаря, чаще всего для замены определенных значений

In [None]:
df['Occupation_short'] = df['Occupation'].map({
    'Data Analyst': 'DA',
    'Software Dev': 'SD',
    'Project Manager': 'PM',
    'HR Specialist': 'HR',
    'Data Scientist': 'DS',
    'Business Analyst': 'BA',
    'Chief Technology Officer': 'CTO'
})

In [None]:
df['Occupation_short'].values

array(['DA', 'SD', 'PM', 'DS', 'HR', 'BA', 'CTO', 'DA', 'SD', 'PM', 'DS',
       'CTO', 'DA', 'SD', 'PM', 'DS', 'HR', 'CTO', 'BA', 'PM', 'SD', 'HR',
       'DS', 'BA', 'DA', 'PM', 'SD', 'HR', 'DS', 'CTO', 'BA', 'PM', 'DS',
       'CTO', 'SD', 'HR', 'DA', 'PM', 'SD', 'HR', 'DS', 'CTO', 'PM', 'DS',
       'BA', 'SD'], dtype=object)

Эти функции можно использовать как для создания новых столбцов, так и для изменения старых

## Преобразование типов данных

### astype()

Порой возникает необходимость поменять тип данных в столбце. Например, столбцы с целочисленным типом данных невозможно возвести в отрицательную степень. Преобразование данных так же может снизить объем потребляемой памяти. Основная функция для этого – __astype()__

In [None]:
df['Salary'] = df['Salary'].astype(float)

### to_datetime()

Отдельно в преобразовании типов данных в Pandas стоит функция __to_datetime()__. Она намного сложнее, чем прошлые.

In [None]:
df['Start_Date'] = pd.to_datetime(df['Start_Date'], format='%Y-%m-%d')

In [None]:
df.dtypes

Name                        object
Gender                      object
Age                          int64
Salary                     float64
Occupation                  object
Start_Date          datetime64[ns]
Hours_per_week               int64
Age_category                object
Occupation_short            object
dtype: object

Как мы видим, аргумент _format_ отвечает за то, как в вашем столбце сейчас организованы данные. В аргумент передается строка, написанная согласно [strftime](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior). **to_datetime()** имеет очень много важных для понимания аргументов – посмотреть их все можно [здесь](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html).