# Основы Pandas

## Загрузка данных

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('ds_salaries_mod.csv')

Наши задачи на этом уроке:

- обзор данных;
- предобработка данных;
- анализ, проверка гипотез.

## Обзор данных

In [None]:
df

EN MI SE EX

In [None]:
df.head(10)

In [None]:
df.tail(3)

In [None]:
df.sample(5, random_state=177013)

In [None]:
df.sample(frac=0.001)

In [None]:
df.info()

## Удаление пропусков

In [None]:
df_clean = df.dropna()

In [None]:
df_clean.info()

## Проверка на дубликаты

In [None]:
df.duplicated().sum()

In [None]:
# df = df.drop_duplicates()

## Индексация

In [None]:
df['salary_in_usd']

### Классическая

In [None]:
year_2023 = (df['work_year'] == 2023)

In [None]:
year_2023

In [None]:
df[year_2023].tail()

In [None]:
df[df['work_year'] == 2023].tail()

### Query

In [None]:
df.query('work_year == 2023').tail()

### .loc() и .iloc()

In [None]:
df_2022 = df[df['work_year'] == 2022]

In [None]:
df_2022.head()

In [None]:
df_2022.iloc[0:1]

In [None]:
df_2022.loc[0:1]

In [None]:
df_2022.loc[41:42]

## Простейший анализ

### Значения по количеству

In [None]:
df['work_year'].value_counts()

### Сортировка столбца по значению

In [None]:
df_clean['salary_in_usd'].sort_values()

### Основная статистика

In [None]:
df['salary_in_usd'].describe()

In [None]:
df[df['work_year'] == 2023]['salary_in_usd'].mean()

In [None]:
df[df['work_year'] == 2022]['salary_in_usd'].mean()

## Операции над столбцами

In [None]:
df['company_location'] == df['employee_residence']

In [None]:
df['same_country'] = (df['company_location'] == df['employee_residence'])

In [None]:
df['same_country'].value_counts()

In [None]:
df['employment_type'] + ' ' + df['job_title']

In [None]:
def categorize(x):
    return 'High' if x > 200000 else 'Normal'

In [None]:
df['salary_in_usd'].apply(categorize)

In [None]:
df['salary_range'] = df['salary_in_usd'].apply(categorize)

In [None]:
df.tail()

## Заполнение пропусков

In [None]:
df_clean = df.copy()

In [None]:
df_clean[df_clean['salary_in_usd'].isna()].head()

In [None]:
df_clean['salary_in_usd'] = df_clean['salary_in_usd'].fillna(df_clean['salary_in_usd'].median())

In [None]:
df_clean[df['salary_in_usd'].isna()].head()

## Группировка

### Как изменяются зарплаты со временем?

In [None]:
df.groupby('work_year')['salary_in_usd'].mean()

### Сравним средние зарплаты в разных странах

In [None]:
sub = df.query('company_location == "RU" or company_location == "US"')

In [None]:
sub.groupby('company_location')['salary_in_usd'].mean()

In [None]:
sub.groupby('company_location')['salary_in_usd'].agg(['count', 'mean'])

In [None]:
df.groupby('experience_level')['salary_in_usd'].agg(['count', 'mean', 'median'])

### Зарплаты по профессиям

In [None]:
df['job_title'].value_counts()

In [None]:
df[df['job_title'].str.contains('Scientist')]['job_title'].value_counts()

In [None]:
df['job_title'].value_counts().head(4)

In [None]:
(df.groupby('job_title')['salary_in_usd']
     .agg(['count', 'mean', 'median'])
     .sort_values(by='count', ascending=False)
     .head(4))

In [None]:
df.groupby('remote_ratio')['salary_in_usd'].agg(['count', 'mean', 'median'])

In [None]:
(df.query('(company_location == "US" or company_location == "CA") and employment_type == "FT"')
          .groupby(['company_location', 'experience_level'])['salary_in_usd']
          .agg(['count', 'mean', 'median']))

In [None]:
df.groupby('remote_ratio')['salary_in_usd'].agg(['count', 'mean', 'median'])

# Домашнее задание

## Easy

Изучите распределение размеров компаний (`company_size`) с помощью метода `.value_counts()`. Опишите своими словами, что вы увидели.

In [None]:
# Ваш код ниже:


Вывод: 

## Normal

Сделайте выборку за 2023 год. Постройте по ней сводную таблицу, сгруппированную по размеру компании-работодателя (`company_size`), со средней и медианной зарплатой в долларах. Не забывайте также указать количество.

In [None]:
# Ваш код ниже:


Напишите краткий вывод из полученной таблицы:

Вывод:

Аналогично исследуйте 2022 год. Есть ли отличия?

In [None]:
# Ваш код ниже:


Вывод: 

## Hard

Для начала попробуйте восстановить пропущенные значения `salary_in_usd`.

<details>
<summary>Подсказка (нажмите, чтобы посмотреть):</summary>
Один из способов:
    <ul><li>создайте дополнительный столбец с "курсом доллара" для каждого наблюдения;</li>
    <li>проверьте, менялся ли курс каждой валюты в течение года;</li>
    <li>по возможности примените этот курс для расчета пропущенного значения;</li>
    <li>если остались пропуски, которые нельзя заполнить, удалите их.</li></ul>    
</details>

Оставляйте комментарии в коде своего решения.

In [None]:
# Ваш код:


Дополнительно: попробуйте свести данные в столбце `job_title` к 4 основным профессиям (Data Scientist, Data Analyst, Data Engineer, ML Engineer), где это возможно.

In [None]:
# Ваш код:


Сделайте выборку за 2023 год. Постройте по ней сводную таблицу, сгруппированную по профессии (`job_title`), со средней и медианной зарплатой в долларах. Не забывайте также указать количество. (Если у вас не получилось привести в порядок столбец `job_title`, выведите только 4 самых распространенных профессии.)

In [None]:
# Ваш код:


Теперь давайте получше категоризируем зарплаты. Изучите самостоятельно документацию к функциям pandas [cut](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html) и [qcut](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.qcut.html). Используйте их, чтобы разбить зарплаты на три или больше категорий (например: `Low`, `Medium`, `High`) и запишите их в столбец `salary_range`.

Сделайте сводную таблицу по профессиям за 2023 год, где будут выведены:
- число работников в профессии;
- самая часто встречающаяся категория зарплаты.

<details>
<summary>Подсказка (нажмите, чтобы посмотреть):</summary>
<code>lambda x : pd.Series.mode(x)</code>
</details>

In [None]:
# Ваш код:


Проверьте себя: совпадают ли категории с реальными цифрами?