# Инструменты Data Science: анализ зарплат в IT

## День 1. Тысяча и одна вакансия Data Science. Как разобраться в больших данных

Ваша корзина в маркетплейсе, список вакансий на сайтах по поиску работы, каталог книг в библиотеке – все это базы данных. Чаще всего мы их представляем в виде таблицы. Это удобно, привычно и хорошо работает. 

Наверняка вы уже работали в Excel или Google Таблицах, и представляете, как выглядят столбцы, строки, листы. Основная проблема подобных программ – это ограниченность памяти. Один из самых громких случаев, связанный с таблицами, был в Великобритании, когда правительственное медицинское агентство [потеряло более 16 тысяч результатов тестирования](https://www.kommersant.ru/doc/4520501) на ковид. На листе Excel просто закончилось место.

Мы с вами будем работать с файлами .csv и обрабатывать их с помощью библиотеки pandas. В качестве среды разработки будем использовать Jupyter Notebook. Разберемся, что это:
* csv-файл – это обычный текстовый файл, в котором данные записываются через запятую (или другой разделитель), благодаря чему их можно быстро перевести в табличную структуру.
* pandas – это библиотека Python с огромным количеством функций для удобной работы с таблицами.
* Jupyter Notebook – это программа для интерактивного запуска кода в браузере. Можно писать текст (как этот конспект), код (ячейка ниже) и сразу же смотреть на результаты. Золотой стандарт в Data Science. Файлы Jupyter Notebook с расширением .ipynb (ipython notebook) часто называют "тетрадками".

In [1]:
import pandas as pd

Мы импортировали библиотеку pandas под псевдонимом pd (сокращенное имя). Теперь в пределах этой тетрадки мы будем обращаться к библиотеке по имени и вызывать оттуда функции.

### Загрузка таблицы из файла

In [2]:
df = pd.read_csv('DataScienceJobs.csv')

`df` – это название переменной, в которой будет храниться наша таблица. \
`pd.read_csv()` – это вызов функции, которая умеет считывать файлы csv и преобразовывать их в объект DataFrame (мы часто будем называть наши таблицы датафреймами). \
`'DataScienceJobs.csv'` – это название нашего файла, с которым будем работать. Важно, чтобы он лежал в той же папке, что и эта тетрадка .ipynb.

Посмотрим на датафрейм:

In [3]:
df

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
0,Начинающий специалист по работе с нейросетям,Санкт-Петербург,От 1 года до 3 лет,"Разработка технических заданий, Python, Сбор и...",55000,60000
1,Junior Data Engineer,Нижний Новгород,От 1 года до 3 лет,"SQL, jvm, Hadoop",150000,200000
2,ML-инженер,Москва,Нет опыта,"Знания математики, алгоритмов, структур данных...",150000,170000
3,Data Scientist,Москва,От 1 года до 3 лет,"Python, Machine Learning, Математическое модел...",180000,200000
4,Python Developer (Junior),Томск,От 1 года до 3 лет,"Python, Git, ООП, MySQL",60000,110000
...,...,...,...,...,...,...
355,Ведущий специалист по разработке скоринговых карт,Новосибирск,От 1 года до 3 лет,"SQL, Sas, Базы данных, Скоринговая карта, База...",55000,105000
356,Lead data scientist (Анализ цены и Trade in),Москва,От 3 до 6 лет,"PyData: Pandas, NumPy, SciPy, scikit-learn, py...",180000,200000
357,Senior Data Scientist,Томск,Более 6 лет,"SQL, Анализ данных, A/B тесты, LTV prediction,...",200000,210000
358,Data engineer (middle+),Новосибирск,От 3 до 6 лет,"Linux, ETL, Apache Kafka, Apache Spark, Apache...",150000,180000


In [4]:
df.head() # первые пять строк

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
0,Начинающий специалист по работе с нейросетям,Санкт-Петербург,От 1 года до 3 лет,"Разработка технических заданий, Python, Сбор и...",55000,60000
1,Junior Data Engineer,Нижний Новгород,От 1 года до 3 лет,"SQL, jvm, Hadoop",150000,200000
2,ML-инженер,Москва,Нет опыта,"Знания математики, алгоритмов, структур данных...",150000,170000
3,Data Scientist,Москва,От 1 года до 3 лет,"Python, Machine Learning, Математическое модел...",180000,200000
4,Python Developer (Junior),Томск,От 1 года до 3 лет,"Python, Git, ООП, MySQL",60000,110000


In [5]:
df.tail() # последние пять строк

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
355,Ведущий специалист по разработке скоринговых карт,Новосибирск,От 1 года до 3 лет,"SQL, Sas, Базы данных, Скоринговая карта, База...",55000,105000
356,Lead data scientist (Анализ цены и Trade in),Москва,От 3 до 6 лет,"PyData: Pandas, NumPy, SciPy, scikit-learn, py...",180000,200000
357,Senior Data Scientist,Томск,Более 6 лет,"SQL, Анализ данных, A/B тесты, LTV prediction,...",200000,210000
358,Data engineer (middle+),Новосибирск,От 3 до 6 лет,"Linux, ETL, Apache Kafka, Apache Spark, Apache...",150000,180000
359,"Автор дисциплины ""Задачи NLP в машинном обучении""",Нижний Новгород,От 3 до 6 лет,"NLP, ML, Data Science, Обучение и развитие, На...",270000,320000


In [6]:
df.sample(10) # 10 случайных строк из датафрейма

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
184,Machine Learning Engineer (CV),Москва,От 3 до 6 лет,"Cross-validation, Machine Learning, Python, Do...",80000,100000
206,Middle \ Senior Data scientist (команды CRM и ...,Москва,От 1 года до 3 лет,"Python, Hadoop, Spark, ML, DL",130000,200000
299,Data инженер,Московская область,От 3 до 6 лет,"Clickhouse, АirFlow, Postgres, Grafana, Promet...",270000,370000
271,Senior Machine Learning Engineer,Москва,От 3 до 6 лет,"PySpark, Airflow, Hadoop",100000,110000
359,"Автор дисциплины ""Задачи NLP в машинном обучении""",Нижний Новгород,От 3 до 6 лет,"NLP, ML, Data Science, Обучение и развитие, На...",270000,320000
231,Senior Data Scientist,Москва,От 3 до 6 лет,"Python, SQL, Machine Learning, Анализ данных",150000,180000
139,ML engineer,Москва,От 3 до 6 лет,Желателен опыт в решении ML-задач из банковско...,180000,210000
322,NLP engineer,Сочи,От 3 до 6 лет,"Python, PostgreSQL, nlp, MATLAB, Анализ данных...",200000,270000
234,Data Scientist Middle+/Senior,Санкт-Петербург,От 3 до 6 лет,"Pandas, Matplotlib, Numpy, Scipy, Sklearn, SQL",130000,160000
327,Middle MLE/DS c NLP направленностью,Москва,От 1 года до 3 лет,"Уверенное знание Python (3.8+) понимание, как ...",150000,300000


#### Описание показателей:

* name – название вакансии
* address – город
* experience – требуемый опыт
* skills – требуемые навыки
* sal_from – нижний порог зарплаты
* sal_to – верхний порог зарплаты


Получим сводную информацию по таблице:

In [7]:
df.shape # (кол-во строк, кол-во столбцов)

(360, 6)

In [8]:
df.info() # сводная информация о таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 360 entries, 0 to 359
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        360 non-null    object
 1   address     360 non-null    object
 2   experience  360 non-null    object
 3   skills      360 non-null    object
 4   sal_from    360 non-null    int64 
 5   sal_to      360 non-null    int64 
dtypes: int64(2), object(4)
memory usage: 17.0+ KB


Как прочитать таблицу выше? 
1. `<class 'pandas.core.frame.DataFrame'>` – Python видит нашу таблицу как объект DataFrame.
2. `RangeIndex: 360 entries, 0 to 359` – в таблице 360 строк с индексами от 0 до 359. В Python все считается с 0, а не 1, как мы привыкли.
3. `Data columns (total 6 columns):` – в таблице 6 колонок.
4. После выводится небольшая таблица с информацией о названии колонки (`Column`), количестве непустых ячеек в колонке (`Non-Null Count`), а также тип данных (`Dtype`). 
5. `dtypes: int64(2), object(4)` – сводка по количеству столбцов с разными типами данных.
6. `memory usage: 17.0+ KB` – сколько памяти занимает таблица.

## Типы данных

Для программирования критично важно знать, с какими типами данных вы работаете. 

<table>
<thead><tr>
<th style="text-align:left">Как мы их называем</th>
<th style="text-align:left">Как они называютcя по-английски</th>
<th style="text-align:left">Как они называются в Python</th>
</tr>
</thead>
<tbody>
<tr>
<td style="text-align:left"><strong>"Естественные" типы данных</strong></td>
</tr>
<tr>
<td style="text-align:left">целое число</td>
<td style="text-align:left">integer</td>
<td style="text-align:left"><code>int</code></td>
</tr>
<tr>
<td style="text-align:left">вещественное число</td>
<td style="text-align:left">floating-point number</td>
<td style="text-align:left"><code>float</code></td>
</tr>
<tr>
<td style="text-align:left">логическая переменная</td>
<td style="text-align:left">boolean / logical</td>
<td style="text-align:left"><code>bool</code></td>
</tr>
<tr>
<td style="text-align:left"><strong>Упорядоченные типы данных (последовательности)</strong></td>
</tr>
<tr>
<td style="text-align:left">строка</td>
<td style="text-align:left">string</td>
<td style="text-align:left"><code>str</code></td>
</tr>
<tr>
<td style="text-align:left">список</td>
<td style="text-align:left">list</td>
<td style="text-align:left"><code>list</code></td>
</tr>
<tr>
<td style="text-align:left">кортеж</td>
<td style="text-align:left">tuple</td>
<td style="text-align:left"><code>tuple</code></td>
</tr>
<tr>
<td style="text-align:left"><strong>Неупорядоченные типы данных (коллекции)</strong></td>
</tr>
<tr>
<td style="text-align:left">множество</td>
<td style="text-align:left">set</td>
<td style="text-align:left"><code>set</code></td>
</tr>
<tr>
<td style="text-align:left">словарь</td>
<td style="text-align:left">dictionary</td>
<td style="text-align:left"><code>dict</code></td>
</tr>
</tbody>
</table>
<table>
<thead><tr>
<th>Неизменяемые типы данных</th>
<th>Изменяемые типы данных</th>
</tr>
</thead>
<tbody>
<tr>
<td>кортеж</td>
<td>список</td>
</tr>
<tr>
<td>строки</td>
<td>множество</td>
</tr>
<tr>
<td>числа целые и вещественные</td>
<td>словарь</td>
</tr>
<tr>
<td>логические переменные</td>
</tr>
</tbody>
</table>
<table>
<thead><tr>
<th>Тип данных</th>
<th>Тип структуры данных</th>
<th>Как обращаемся к элементу внутри?</th>
</tr>
</thead>
<tbody>
<tr>
<td>кортежи</td>
<td>упорядоченный</td>
<td>по индексу</td>
</tr>
<tr>
<td>списки</td>
<td>упорядоченный</td>
<td>по индексу</td>
</tr>
<tr>
<td>строки</td>
<td>упорядоченный</td>
<td>по индексу</td>
</tr>
<tr>
<td>множество</td>
<td>неупорядоченный</td>
<td>не можем обратиться к элементу</td>
</tr>
<tr>
<td>Словари</td>
<td>неупорядоченный</td>
<td>по ключу</td>
</tr>
</tbody>
</table>

In [51]:
# целое число (int)

a = 1
print(a)
print(type(a))

1
<class 'int'>


In [52]:
# строка (str)

b = 'hello, world'
print(b)
print(type(b))

hello, world
<class 'str'>


In [53]:
# вещественное число (float)

c = 1.5
print(c)
print(type(c))

1.5
<class 'float'>


In [54]:
# логическая константа (bool)

d = True
print(d)
print(type(d))

True
<class 'bool'>


In [57]:
# список (list)

e = [1, 1, 'hello, world', 1.5, True]
print(e)
print(type(e))

[1, 1, 'hello, world', 1.5, True]
<class 'list'>


In [58]:
# кортеж (tuple)

f = (1, 1, 'hello, world', 1.5, True)
print(f)
print(type(f))

(1, 1, 'hello, world', 1.5, True)
<class 'tuple'>


In [60]:
# множество (set)

g = {1, 1, 'hello, world', 1.5, True}
print(g)
print(type(g))

{1, 'hello, world', 1.5}
<class 'set'>


In [62]:
# словарь (dict)

h = {1: 1, 'hello': 'world', 1.5: True}
print(h)
print(type(h))

{1: 1, 'hello': 'world', 1.5: True}
<class 'dict'>


В нашей таблице встречаются типы данных `object` (строка) и `int64` (целое число). 

## Обращение к данным в таблице

### Обращение к столбцам

`датафрейм['столбец']` или `датафрейм.столбец` – обращение к одному столбцу

`датафрейм[['столбец 1', 'столбец 2', ...]]` – обращение к нескольким столбцам

In [9]:
df['name'] # данные столбца с названиями вакансий

0           Начинающий специалист по работе с нейросетям
1                                   Junior Data Engineer
2                                             ML-инженер
3                                         Data Scientist
4                              Python Developer (Junior)
                             ...                        
355    Ведущий специалист по разработке скоринговых карт
356         Lead data scientist (Анализ цены и Trade in)
357                                Senior Data Scientist
358                              Data engineer (middle+)
359    Автор дисциплины "Задачи NLP в машинном обучении"
Name: name, Length: 360, dtype: object

In [10]:
df.name # данные столбца с названиями вакансий, второй вариант

0           Начинающий специалист по работе с нейросетям
1                                   Junior Data Engineer
2                                             ML-инженер
3                                         Data Scientist
4                              Python Developer (Junior)
                             ...                        
355    Ведущий специалист по разработке скоринговых карт
356         Lead data scientist (Анализ цены и Trade in)
357                                Senior Data Scientist
358                              Data engineer (middle+)
359    Автор дисциплины "Задачи NLP в машинном обучении"
Name: name, Length: 360, dtype: object

In [11]:
df[['name', 'experience']] # мини-таблица с названиями вакансий и требуемым опытом работы

Unnamed: 0,name,experience
0,Начинающий специалист по работе с нейросетям,От 1 года до 3 лет
1,Junior Data Engineer,От 1 года до 3 лет
2,ML-инженер,Нет опыта
3,Data Scientist,От 1 года до 3 лет
4,Python Developer (Junior),От 1 года до 3 лет
...,...,...
355,Ведущий специалист по разработке скоринговых карт,От 1 года до 3 лет
356,Lead data scientist (Анализ цены и Trade in),От 3 до 6 лет
357,Senior Data Scientist,Более 6 лет
358,Data engineer (middle+),От 3 до 6 лет


### Обращение к строкам

`датафрейм.loc['название строки' или индекс]` – обращение к строке по названию \
`датафрейм.iloc[индекс]` – обращение к строке по индексу (считается с 0)

In [12]:
df.loc[0] # нулевая по индексу вакансия (самая первая в таблице)

name               Начинающий специалист по работе с нейросетям
address                                         Санкт-Петербург
experience                                   От 1 года до 3 лет
skills        Разработка технических заданий, Python, Сбор и...
sal_from                                                  55000
sal_to                                                    60000
Name: 0, dtype: object

In [13]:
df.iloc[10] # десятая по индексу вакансия (одиннадцатая по счету в таблице)

name                                    Computer vision инженер
address                                                  Москва
experience                                        От 3 до 6 лет
skills        Опыт в компьютерном зрении от 3 лет, Уверенные...
sal_from                                                 200000
sal_to                                                   300000
Name: 10, dtype: object

### Обращение к ячейкам

`датафрейм['столбец'][индекс строки]` или `датафрейм.loc[индекс]['столбец']`

In [14]:
df['name'][0] # название вакансии в первой строке

'Начинающий специалист по работе с нейросетям'

In [15]:
df.loc[0]['name'] # название вакансии в первой строке, второй вариант

'Начинающий специалист по работе с нейросетям'

In [16]:
type(df['name'][0]) # тип данных – строка

str

In [17]:
df['sal_from'][0] # нижняя граница зарплаты в первой вакансии

55000

In [18]:
type(df['sal_from'][0]) # тип данных – целое число; 
                        # numpy – это название библиотеки, которая лежит под капотом pandas 
                        # для математических вычислений

numpy.int64

## Фильтрация данных

### Фильтрация по столбцу

`датафрейм[датафрейм['столбец'] <оператор сравнения> условие]`

|Оператор|Значение|
|:---:|:---:|
|==|равно|
|!=|не равно|
|>|больше чем|
|<|меньше чем|
|>=|больше или равно чем|
|<=|меньше или равно чем|

In [20]:
df[df['address'] == 'Москва'] # только вакансии в Москве

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
2,ML-инженер,Москва,Нет опыта,"Знания математики, алгоритмов, структур данных...",150000,170000
3,Data Scientist,Москва,От 1 года до 3 лет,"Python, Machine Learning, Математическое модел...",180000,200000
5,Data Scientist (NLP),Москва,От 3 до 6 лет,"Python, NLP, Artificial intelligence, Искусств...",200000,400000
6,Специалист по работе с нейронными сетями\Promt...,Москва,От 1 года до 3 лет,Большой интерес к инновациям в области медиа и...,280000,330000
7,Junior / Middle ML Engineer (Data Scientist),Москва,От 1 года до 3 лет,"Python, Pandas, NumPy, Transformers, openai, L...",170000,180000
...,...,...,...,...,...,...
349,Руководитель направления Data Science,Москва,От 3 до 6 лет,"Python, SQL",280000,350000
351,Data Scientist Teamlead NLP,Москва,От 3 до 6 лет,"SQL, Python, PyTorch, Docker, Hadoop, DVC, git",200000,270000
352,Medical foundation model research data scienti...,Москва,От 3 до 6 лет,PyTorch,180000,250000
354,Senior Data Scientist CV (Generative design),Москва,От 3 до 6 лет,"Machine Learning, ML, Data Science, DS, Машинн...",100000,150000


In [21]:
df[df['sal_from'] >= 200000] # только вакансии с зарплатой не менее 200000 рублей

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
5,Data Scientist (NLP),Москва,От 3 до 6 лет,"Python, NLP, Artificial intelligence, Искусств...",200000,400000
6,Специалист по работе с нейронными сетями\Promt...,Москва,От 1 года до 3 лет,Большой интерес к инновациям в области медиа и...,280000,330000
8,ML engineer,Москва,От 1 года до 3 лет,Уверенное владение Python; Уверенное владени...,200000,250000
9,Senior Machine Learning Engineer,Москва,От 3 до 6 лет,"Machine Learning, Python, numpy, pandas, matpl...",350000,570000
10,Computer vision инженер,Москва,От 3 до 6 лет,"Опыт в компьютерном зрении от 3 лет, Уверенные...",200000,300000
...,...,...,...,...,...,...
348,Senior Data Scientist (NLP),Московская область,От 3 до 6 лет,"Python, PyTorch, Clickhouse, Docker, K8S, hugg...",270000,320000
349,Руководитель направления Data Science,Москва,От 3 до 6 лет,"Python, SQL",280000,350000
351,Data Scientist Teamlead NLP,Москва,От 3 до 6 лет,"SQL, Python, PyTorch, Docker, Hadoop, DVC, git",200000,270000
357,Senior Data Scientist,Томск,Более 6 лет,"SQL, Анализ данных, A/B тесты, LTV prediction,...",200000,210000


### Фильтрация по нескольким условиям

`&` - и \
`|` - или

Все условия должны быть в скобках!

In [22]:
df[(df['address'] == 'Москва') | (df['address'] == 'Казань')] # вакансии в Москве или Казани

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
2,ML-инженер,Москва,Нет опыта,"Знания математики, алгоритмов, структур данных...",150000,170000
3,Data Scientist,Москва,От 1 года до 3 лет,"Python, Machine Learning, Математическое модел...",180000,200000
5,Data Scientist (NLP),Москва,От 3 до 6 лет,"Python, NLP, Artificial intelligence, Искусств...",200000,400000
6,Специалист по работе с нейронными сетями\Promt...,Москва,От 1 года до 3 лет,Большой интерес к инновациям в области медиа и...,280000,330000
7,Junior / Middle ML Engineer (Data Scientist),Москва,От 1 года до 3 лет,"Python, Pandas, NumPy, Transformers, openai, L...",170000,180000
...,...,...,...,...,...,...
349,Руководитель направления Data Science,Москва,От 3 до 6 лет,"Python, SQL",280000,350000
351,Data Scientist Teamlead NLP,Москва,От 3 до 6 лет,"SQL, Python, PyTorch, Docker, Hadoop, DVC, git",200000,270000
352,Medical foundation model research data scienti...,Москва,От 3 до 6 лет,PyTorch,180000,250000
354,Senior Data Scientist CV (Generative design),Москва,От 3 до 6 лет,"Machine Learning, ML, Data Science, DS, Машинн...",100000,150000


In [23]:
# вакансии в Казани с уровнем опыта от 3 до 6 лет

df[(df['address'] == 'Казань') & (df['experience'] == 'От 3 до 6 лет')]

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
55,Data Scientist,Казань,От 3 до 6 лет,Python,55000,85000
119,Data Scientist,Казань,От 3 до 6 лет,"Опыт Python разработчика (pytorch, opencv), зн...",300000,330000
289,Senior NLP Researcher,Казань,От 3 до 6 лет,"PyTorch, TensorFlow, Transformers, T5, Bert, H...",55000,125000
297,Deep Learning Engineer (Motion Prediction),Казань,От 3 до 6 лет,"C++, Python, Cuda, Computer vision, Deep Learning",120000,170000
302,Team Lead Data Scientist (RecSys),Казань,От 3 до 6 лет,"Machine learning, Data science, RecSys",270000,300000


In [24]:
# вакансии в Москве или Казани с требуемым опытом от 3 до 6 лет и зарплатой не менее 200000 рублей

df[((df['address'] == 'Москва') | (df['address'] == 'Казань')) 
    & (df['experience'] == 'От 3 до 6 лет') 
    & (df['sal_from'] >= 200000)]

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
5,Data Scientist (NLP),Москва,От 3 до 6 лет,"Python, NLP, Artificial intelligence, Искусств...",200000,400000
9,Senior Machine Learning Engineer,Москва,От 3 до 6 лет,"Machine Learning, Python, numpy, pandas, matpl...",350000,570000
10,Computer vision инженер,Москва,От 3 до 6 лет,"Опыт в компьютерном зрении от 3 лет, Уверенные...",200000,300000
11,Data Scientist,Москва,От 3 до 6 лет,"Python, SQL, Обучение и развитие, Машинное обу...",270000,300000
16,ML специалист,Москва,От 3 до 6 лет,"Pytorch, TensorFlow, OpenVino, OpenCV, Pandas,...",200000,200000
25,Machine learning engineer,Москва,От 3 до 6 лет,Хорошие навыки разработки на Python,270000,350000
58,Аналитик-разработчик,Москва,От 3 до 6 лет,"Python, LLM, Speech",270000,300000
71,Data Scientist middle/senior,Москва,От 3 до 6 лет,"Python, Hadoop, Big Data, Machine Learning",210000,260000
86,Аналитик данных,Москва,От 3 до 6 лет,"Python, SQL, Математическая статистика, Big Da...",270000,320000
108,Senior Data Science,Москва,От 3 до 6 лет,Уметь выкладывать свой код в кластер кубернете...,200000,300000


### Подсчет строк после фильтрации

In [25]:
df[((df['address'] == 'Москва') | (df['address'] == 'Казань')) 
    & (df['experience'] == 'От 3 до 6 лет') 
    & (df['sal_from'] >= 200000)].shape

(49, 6)

В нашей таблице есть 49 вакансий в Москве или Казани с требуемым опытом от 3 до 6 лет и зарплатой не менее 200000 рублей.

## Сортировка данных

### По одному условию

`датафрейм.sort_values('столбец')` – сортировка по одному столбцу (от наименьшего к наибольшему)
`датафрейм.sort_values('столбец', ascending=False)` – сортировка по одному столбцу (от наибольшего к наименьшему)

In [26]:
df.sort_values('sal_from')

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
275,Специалист в группу технического сопровождения,Новосибирск,От 1 года до 3 лет,"MS SQL, PostgreSQL, API, Базы данных, Техничес...",45000,145000
0,Начинающий специалист по работе с нейросетям,Санкт-Петербург,От 1 года до 3 лет,"Разработка технических заданий, Python, Сбор и...",55000,60000
289,Senior NLP Researcher,Казань,От 3 до 6 лет,"PyTorch, TensorFlow, Transformers, T5, Bert, H...",55000,125000
217,Data Scientist (Deep Learning for Demand Forec...,Санкт-Петербург,От 3 до 6 лет,"Deep Learning, Прогнозирование, Time Series",55000,105000
55,Data Scientist,Казань,От 3 до 6 лет,Python,55000,85000
...,...,...,...,...,...,...
119,Data Scientist,Казань,От 3 до 6 лет,"Опыт Python разработчика (pytorch, opencv), зн...",300000,330000
118,Data Scientist (middle),Сочи,От 1 года до 3 лет,"Python, SQL, API",300000,370000
192,Senior Data Scientist,Москва,От 1 года до 3 лет,"SQL, MS SQL, Big Data, Python, Spark, Hadoop, ...",300000,350000
204,Senior Data Scientist,Екатеринбург,От 3 до 6 лет,"Python, SQL, Spark, Базы данных, PHP, ClickHou...",330000,450000


In [27]:
df.sort_values('sal_from', ascending=False)

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
9,Senior Machine Learning Engineer,Москва,От 3 до 6 лет,"Machine Learning, Python, numpy, pandas, matpl...",350000,570000
204,Senior Data Scientist,Екатеринбург,От 3 до 6 лет,"Python, SQL, Spark, Базы данных, PHP, ClickHou...",330000,450000
49,"ML разработчик, B2B",Московская область,От 3 до 6 лет,"Python, Pyspark, Финансы, IT",300000,320000
119,Data Scientist,Казань,От 3 до 6 лет,"Опыт Python разработчика (pytorch, opencv), зн...",300000,330000
305,Стажер - разработчик скоринговых карт,Санкт-Петербург,Нет опыта,"SQL, Python, Базы данных, Скоринговая карта, Б...",300000,370000
...,...,...,...,...,...,...
60,Data Scientist,Тюмень,От 1 года до 3 лет,"sklearn, scipy, pytorch, Git, Docker",55000,105000
186,Data Engineer,Новосибирск,От 3 до 6 лет,"SQL, Python, Airflow, ORACLE, Postgres, Git, C...",55000,65000
217,Data Scientist (Deep Learning for Demand Forec...,Санкт-Петербург,От 3 до 6 лет,"Deep Learning, Прогнозирование, Time Series",55000,105000
0,Начинающий специалист по работе с нейросетям,Санкт-Петербург,От 1 года до 3 лет,"Разработка технических заданий, Python, Сбор и...",55000,60000


### По нескольким условиям

`датафрейм.sort_values(['столбец1', 'столбец2', ...])` – сортировка по нескольким столбцам от наименьшего к наибольшему \
`датафрейм.sort_values(['столбец1', 'столбец2', ...], ascending=False)` – сортировка по нескольким столбцам от наибольшего к наименьшему \
`датафрейм.sort_values(['столбец1', 'столбец2'], ascending=[False, True])` – сортировка сначала по первому столбцу от наибольшего к наименьшему, затем по второму столбцу от наименьшего к наибольшему

In [28]:
df.sort_values(['sal_from', 'sal_to'])

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
275,Специалист в группу технического сопровождения,Новосибирск,От 1 года до 3 лет,"MS SQL, PostgreSQL, API, Базы данных, Техничес...",45000,145000
17,Стажер Data analyst,Москва,Нет опыта,"Писать SQL-запросы (у нас Greenplum), Анализир...",55000,55000
0,Начинающий специалист по работе с нейросетям,Санкт-Петербург,От 1 года до 3 лет,"Разработка технических заданий, Python, Сбор и...",55000,60000
186,Data Engineer,Новосибирск,От 3 до 6 лет,"SQL, Python, Airflow, ORACLE, Postgres, Git, C...",55000,65000
55,Data Scientist,Казань,От 3 до 6 лет,Python,55000,85000
...,...,...,...,...,...,...
305,Стажер - разработчик скоринговых карт,Санкт-Петербург,Нет опыта,"SQL, Python, Базы данных, Скоринговая карта, Б...",300000,370000
333,Senior Data science expert в Центр технологий ИИ,Новосибирск,От 3 до 6 лет,"Python, SQL, алгоритмы ML, Pandas, Sklearn, Nu...",300000,400000
320,Senior MLE/DS в команду рекомендаций,Москва,От 3 до 6 лет,"ML (GBDT, LR), Kotlin",300000,500000
204,Senior Data Scientist,Екатеринбург,От 3 до 6 лет,"Python, SQL, Spark, Базы данных, PHP, ClickHou...",330000,450000


In [29]:
df.sort_values(['sal_from', 'sal_to'], ascending=False)

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
9,Senior Machine Learning Engineer,Москва,От 3 до 6 лет,"Machine Learning, Python, numpy, pandas, matpl...",350000,570000
204,Senior Data Scientist,Екатеринбург,От 3 до 6 лет,"Python, SQL, Spark, Базы данных, PHP, ClickHou...",330000,450000
320,Senior MLE/DS в команду рекомендаций,Москва,От 3 до 6 лет,"ML (GBDT, LR), Kotlin",300000,500000
333,Senior Data science expert в Центр технологий ИИ,Новосибирск,От 3 до 6 лет,"Python, SQL, алгоритмы ML, Pandas, Sklearn, Nu...",300000,400000
79,Data Scientist,Томск,От 3 до 6 лет,"Spark, Hive, MLFlow, ML, AirFlow, MLOps, Forec...",300000,370000
...,...,...,...,...,...,...
55,Data Scientist,Казань,От 3 до 6 лет,Python,55000,85000
186,Data Engineer,Новосибирск,От 3 до 6 лет,"SQL, Python, Airflow, ORACLE, Postgres, Git, C...",55000,65000
0,Начинающий специалист по работе с нейросетям,Санкт-Петербург,От 1 года до 3 лет,"Разработка технических заданий, Python, Сбор и...",55000,60000
17,Стажер Data analyst,Москва,Нет опыта,"Писать SQL-запросы (у нас Greenplum), Анализир...",55000,55000


In [30]:
df.sort_values(['sal_from', 'sal_to'], ascending=[False, True])

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
9,Senior Machine Learning Engineer,Москва,От 3 до 6 лет,"Machine Learning, Python, numpy, pandas, matpl...",350000,570000
204,Senior Data Scientist,Екатеринбург,От 3 до 6 лет,"Python, SQL, Spark, Базы данных, PHP, ClickHou...",330000,450000
42,Эксперт по моделированию и анализу данных / Da...,Москва,От 1 года до 3 лет,"SQL, Git, Python, Анализ данных, Моделирование",300000,310000
171,Data Engineer,Москва,От 1 года до 3 лет,"Scala / Python Hadoop (hdfs, hive) Apache Spar...",300000,310000
208,Middle Computer Vision Engineer,Москва,От 1 года до 3 лет,"NumPy, Pandas, OpenCV, Sklearn, Matplotlib, CI/CD",300000,310000
...,...,...,...,...,...,...
60,Data Scientist,Тюмень,От 1 года до 3 лет,"sklearn, scipy, pytorch, Git, Docker",55000,105000
217,Data Scientist (Deep Learning for Demand Forec...,Санкт-Петербург,От 3 до 6 лет,"Deep Learning, Прогнозирование, Time Series",55000,105000
355,Ведущий специалист по разработке скоринговых карт,Новосибирск,От 1 года до 3 лет,"SQL, Sas, Базы данных, Скоринговая карта, База...",55000,105000
289,Senior NLP Researcher,Казань,От 3 до 6 лет,"PyTorch, TensorFlow, Transformers, T5, Bert, H...",55000,125000


In [5]:
df['name'].value_counts()

name
Data Scientist                                       36
Data Engineer                                        18
Senior Data Scientist                                 8
Machine Learning Engineer                             6
ML Engineer                                           6
                                                     ..
MLOps/ML Инженер                                      1
Менеджер по управлению данными                        1
Data analyst                                          1
Computer Vision Engineer                              1
Автор дисциплины "Задачи NLP в машинном обучении"     1
Name: count, Length: 246, dtype: int64

In [6]:
df['name'].nunique()

246

In [10]:
df[df['name'].str.contains('Data Scientist')
   |df['name'].str.contains('Data scientist')
   |df['name'].str.contains('data scientist')]

Unnamed: 0,name,address,experience,skills,sal_from,sal_to
3,Data Scientist,Москва,От 1 года до 3 лет,"Python, Machine Learning, Математическое модел...",180000,200000
5,Data Scientist (NLP),Москва,От 3 до 6 лет,"Python, NLP, Artificial intelligence, Искусств...",200000,400000
7,Junior / Middle ML Engineer (Data Scientist),Москва,От 1 года до 3 лет,"Python, Pandas, NumPy, Transformers, openai, L...",170000,180000
11,Data Scientist,Москва,От 3 до 6 лет,"Python, SQL, Обучение и развитие, Машинное обу...",270000,300000
12,Data Scientist (Junior/middle),Екатеринбург,От 1 года до 3 лет,"Python, Математическая статистика, Английский ...",180000,200000
...,...,...,...,...,...,...
352,Medical foundation model research data scienti...,Москва,От 3 до 6 лет,PyTorch,180000,250000
353,"Data Scientist (Автор курса ""Векторизация и ра...",Тюмень,От 3 до 6 лет,"NLP, Python, ML, Математическая статистика",100000,170000
354,Senior Data Scientist CV (Generative design),Москва,От 3 до 6 лет,"Machine Learning, ML, Data Science, DS, Машинн...",100000,150000
356,Lead data scientist (Анализ цены и Trade in),Москва,От 3 до 6 лет,"PyData: Pandas, NumPy, SciPy, scikit-learn, py...",180000,200000
