### Очистка и подготовка данных

Данные не всегда представляют собой идеально организованный набор наблюдений без каких-либо пропусков или аномалий Обычно данные содержат в себе кучу мусора, который необходимо почистить, да и вообще сами данные порой лучше воспринимать критически, для того чтобы затем привести их в приемлемый формат. Чистка данных — это необходимый этап решения почти любой реальной задачи.



![](https://sun9-34.userapi.com/c205324/v205324823/352a5/O_5h-Lk70I4.jpg)

Источники недостающих ценностей

Прежде чем мы углубимся в код, важно понять источники недостающих данных. Вот несколько типичных причин отсутствия данных:
<ol>
    <li> Пользователь забыл заполнить поле.</li>

<li> Данные были потеряны при переносе вручную из устаревшей базы данных.</li>

<li> Произошла ошибка программирования.</li>

<li> Пользователи решили не заполнять поле, связанное с их мнением о том, как результаты будут использоваться или интерпретироваться.</li>
</ol>

### 2 главные проблемы при подготовке данных: пропущенные значения и неправильная типизация


In [2]:
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/alnagaev/landing/master/train.csv')

In [5]:
df.head(10)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [6]:
df.info()
#показывает в том числе сколько пропущенных значений

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [8]:
df.describe(include=['O'])

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Ridsdale, Miss. Lucy",male,CA. 2343,B96 B98,S
freq,1,577,7,4,644


Очистка данных порой предполагает избавление от неиспользуемых сущностей/столбцов

In [21]:
# Удаляем столбцы, в которых нет ценной для нас информации
df.drop( ['Cabin'], axis = 1, inplace = True)

KeyError: "['Cabin'] not found in axis"

In [20]:
df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,7.0,S
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,71.0,C
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,8.0,S
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,53.0,S
4,0,3,"Allen, Mr. William Henry",male,35.0,0,0,8.0,S
...,...,...,...,...,...,...,...,...,...
886,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,13.0,S
887,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,30.0,S
888,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,23.0,S
889,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,30.0,C


In [16]:
# Округляем стоимость билета до двух знаков после запятой
df.Fare = df.Fare.round(2)  

In [22]:
df.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,7.0,S
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,71.0,C
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,8.0,S
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,53.0,S
4,0,3,"Allen, Mr. William Henry",male,35.0,0,0,8.0,S


 Посчитаем пропущенные значения

In [23]:
df.isna().sum()

Survived      0
Pclass        0
Name          0
Sex           0
Age         177
SibSp         0
Parch         0
Fare          0
Embarked      2
dtype: int64

Nan = not a number 

### Пропущенные значения можно удалить, но скорее так делать не следует

In [48]:
df.dropna()

#можно настраивать и изменять способ удаления данных, например с помощью параметра thresh=2, который оставит строки с боллее чем 2 непустыми значениями

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
1,1,1,female,38.0,1,0,71.28,C85,C
3,1,1,female,35.0,1,0,53.10,C123,S
6,0,1,male,54.0,0,0,51.86,E46,S
10,1,3,female,4.0,1,1,16.70,G6,S
11,1,1,female,58.0,0,0,26.55,C103,S
...,...,...,...,...,...,...,...,...,...
871,1,1,female,47.0,1,1,52.55,D35,S
872,0,1,male,33.0,0,0,5.00,B51 B53 B55,S
879,1,1,female,56.0,0,1,83.16,C50,C
887,1,1,female,19.0,0,0,30.00,B42,S


### Пропущенные значения можно заменять на что-то другое

In [28]:
#Способ 1: Константа 

df['Age'].fillna(25)

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    25.0
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [29]:
# Способ 2: Средние арифметические
print(df['Age'].median())
df['Age'].fillna(df['Age'].median())

28.0


0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888    28.0
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

In [41]:
# Способ 2: Cредние арифметические в зависимости от класса каюты
age_1 = df[df['Pclass'] == 1]['Age'].mean()
age_2 = df[df['Pclass'] == 2]['Age'].mean()
age_3 = df[df['Pclass'] == 3]['Age'].mean()

In [52]:
df[df['Pclass'] == 1]['Age'].mean()

38.233440860215055

In [42]:
def fill_age(row):
    if pd.isnull(row['Age']):
        if row['Pclass'] == 1:
            return age_1
        
        if row['Pclass'] == 2:
            return age_2
        
        if row['Pclass'] == 3:
            return age_3
        
    return row['Age']

In [43]:
df.apply(fill_age, axis=1)

0      22.00000
1      38.00000
2      26.00000
3      35.00000
4      35.00000
         ...   
886    27.00000
887    19.00000
888    25.14062
889    26.00000
890    32.00000
Length: 891, dtype: float64

https://pandas.pydata.org/pandas-docs/version/0.16.2/generated/pandas.DataFrame.interpolate.html

https://stackoverflow.com/questions/19966018/pandas-filling-missing-values-by-mean-in-each-group

In [55]:
df.groupby('Pclass')['Age'].apply(lambda x:x.fillna(x.mean()))

0      22.00000
1      38.00000
2      26.00000
3      35.00000
4      35.00000
         ...   
886    27.00000
887    19.00000
888    25.14062
889    26.00000
890    32.00000
Name: Age, Length: 891, dtype: float64

На всякий случай проверяем равны ли полученные объекты

In [56]:
(df.apply(fill_age, axis = 1)).equals(df.groupby('Pclass')['Age'].apply(lambda x:x.fillna(x.mean())))

True

In [52]:
df.groupby('Pclass')['Age'].apply(lambda x:x.fillna(x.mean()))

0      22.00000
1      38.00000
2      26.00000
3      35.00000
4      35.00000
         ...   
886    27.00000
887    19.00000
888    25.14062
889    26.00000
890    32.00000
Name: Age, Length: 891, dtype: float64

In [51]:
df.groupby('Pclass').agg('mean')

Unnamed: 0_level_0,Survived,Age,SibSp,Parch,Fare
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0.62963,38.233441,0.416667,0.356481,84.189815
2,0.472826,29.87763,0.402174,0.380435,20.641304
3,0.242363,25.14062,0.615071,0.393075,13.692464


Принцип действия **groupby**
![](https://i.stack.imgur.com/sgCn1.jpg)

- Разделение данных по группам по определенному критерию

- Применение к каждой группе определенной функции

- Сложение результатов в единую структуру

### Создаем новый столбец с информацией о том, был ли пассажир на борту один или с родственниками
Столбец должен содержать значение "alone", если он был на борту один (без супруга/супруги, братьев, сестер, детей и родителей) и значение "not alone", если пассажир путешествовал с кем-то из родственников

sibsp Number of Siblings/Spouses Aboard

parch Number of Parents/Children Aboard 

In [60]:
# Способ 1: с помощью именной функции и apply
def alone_check(row):
    if row['SibSp'] or row['Parch'] > 0:
        return 0
    return 1
    
df['Alone'] = df.apply(alone_check, axis=1)
df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked,Alone
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,7.0,S,0
1,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,71.0,C,0
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,8.0,S,1
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,53.0,S,0
4,0,3,"Allen, Mr. William Henry",male,35.0,0,0,8.0,S,1
...,...,...,...,...,...,...,...,...,...,...
886,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,13.0,S,1
887,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,30.0,S,1
888,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,23.0,S,0
889,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,30.0,C,1


In [61]:
df['test'] = 1

In [67]:
# Способ 2: с помощью lambda-функции
try:
    df.drop('Alone', axis=1, inplace = True)
except KeyError:
    print('already dropped')

df['Alone'] = df.apply(lambda x: 'not_alone' if x['SibSp'] or x['Parch'] > 0 else 'alone', axis = 1)
df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Fare,Embarked,test,Alone
0,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,7.0,S,1,not_alone
2,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,8.0,S,1,alone
3,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,53.0,S,1,not_alone
4,0,3,"Allen, Mr. William Henry",male,35.0,0,0,8.0,S,1,alone
5,0,3,"Moran, Mr. James",male,,0,0,8.0,Q,1,alone
...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,13.0,S,1,alone
887,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,30.0,S,1,alone
888,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,23.0,S,1,not_alone
889,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,30.0,C,1,alone


### Строим сводную таблицу

In [63]:
df.groupby('Sex')[['Survived']].mean() #начинаем с простого

Unnamed: 0_level_0,Survived
Sex,Unnamed: 1_level_1
female,0.742038
male,0.188908


Сразу же можно сделать вывод о том, что из каждых четырех женщин, находившихся на борту, выжили три, в то время как из каждых пяти мужчин выжил только один!

Это интересная информация, но мы можем пойти дальше и выяснить взаимосвязь между показателем выживаемости и двумя другими параметрами, такими как пол и, например, класс. Используя терминологию GroupBy, мы могли бы сформулировать последовательность наших действий следующим образом: группируем по (group by) классу и полу, отбираем (select) выживших, применяем (apply) агрегацию по среднему, объединяем (combine) результирующие группы и преобразуем (unstack) иерархический индекс, чтобы раскрыть скрытую многомерность. Выразим это в коде:

In [67]:
df.groupby(['Sex', 'Pclass'])['Survived'].aggregate('mean').unstack()

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


Теперь мы имеем четкое представление о том, как пол и класс повлияли на выживаемость, но код становится немного громоздким. Хотя каждый шаг этой последовательности вполне понятен в свете рассмотренных выше инструментов, тем не менее длинную строку кода достаточно трудно читать и использовать. Подобные операции широко распространены, в связи с чем библиотека Pandas имеет в своем составе специальный метод pivot_table, лаконично реализующий данный тип многомерной агрегации.

In [73]:
df.pivot_table(values='Survived', index='Sex', columns='Pclass', margins=True)

Pclass,1,2,3,All
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


### Многоуровневые сводные таблицы

In [72]:
age = pd.cut(df['Age'], [0, 18, 80])
df.pivot_table('Survived', ['Sex', age], 'Pclass')

Unnamed: 0_level_0,Pclass,1,2,3
Sex,Age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 18]",0.909091,1.0,0.511628
female,"(18, 80]",0.972973,0.9,0.423729
male,"(0, 18]",0.8,0.6,0.215686
male,"(18, 80]",0.375,0.071429,0.133663


### Join'ы

In [90]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                         'A': ['A0', 'A1', 'A2', 'A3'],
                         'B': ['B0', 'B1', 'B2', 'B3']})
    

right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                       'C': ['C0', 'C1', 'C2', 'C3']})

left
 

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [74]:
result = pd.merge(left, right, on='key', how='right')
result

#подробнее https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

Unnamed: 0,key,A,B,C
0,K0,A0,B0,C0
1,K1,A1,B1,C1
2,K2,A2,B2,C2
3,K3,A3,B3,C3


### Дополнительные приемы работы с числами

In [69]:
new_df = pd.DataFrame({'col1': [1,2,3,4,5], 'col2': '2,5 4,5 3.3 1,5 2,9'.split()})

new_df

Unnamed: 0,col1,col2
0,1,25.0
1,2,45.0
2,3,3.3
3,4,15.0
4,5,29.0


In [73]:
new_df['col2'] = new_df['col2'].apply(lambda x: x.replace(',', '.'))


In [74]:
new_df

Unnamed: 0,col1,col2
0,1,2.5
1,2,4.5
2,3,3.3
3,4,1.5
4,5,2.9


In [None]:
new_df['col2'] = pd.to_numeric(new_df['col2'])

In [None]:
new_df['col2'] = new_df['col2'].astype('float64', inplace = True)

In [None]:
new_df['col2'] = new_df['col2'].apply(lambda x: float(x))

#### Если нужно заменить сразу много столбцов

In [75]:
strNum = pd.DataFrame({'col1': '56,5 2,5 3.3 1,5 2,9'.split(), 'col2': '2,5 4,5 3.3 1,5 2,9'.split(), 
                       'col3': '7,6 4,5 3.3 7,5 1,9'.split()})
strNum

Unnamed: 0,col1,col2,col3
0,565.0,25.0,76.0
1,25.0,45.0,45.0
2,3.3,3.3,3.3
3,15.0,15.0,75.0
4,29.0,29.0,19.0


In [None]:
for i in list(strNum):
    strNum[i] = strNum[i].apply(lambda x: x.replace(',', '.')).astype('float64')



### Работа с датами

In [78]:
df = pd.read_csv('https://raw.githubusercontent.com/plotly/datasets/master/2016-weather-data-seattle.csv')

df.head(10)

Unnamed: 0,Date,Max_TemperatureC,Mean_TemperatureC,Min_TemperatureC
0,1/1/1948,10,8.0,7.0
1,1/2/1948,6,4.0,3.0
2,1/3/1948,7,4.0,2.0
3,1/4/1948,7,4.0,2.0
4,1/5/1948,7,3.0,0.0
5,1/6/1948,9,7.0,5.0
6,1/7/1948,10,7.0,4.0
7,1/8/1948,8,5.0,2.0
8,1/9/1948,9,4.0,1.0
9,1/10/1948,6,4.0,2.0


In [79]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24381 entries, 0 to 24380
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Date               24381 non-null  object 
 1   Max_TemperatureC   24381 non-null  int64  
 2   Mean_TemperatureC  24376 non-null  float64
 3   Min_TemperatureC   24380 non-null  float64
dtypes: float64(2), int64(1), object(1)
memory usage: 762.0+ KB


In [80]:
df.isna().sum()

Date                 0
Max_TemperatureC     0
Mean_TemperatureC    5
Min_TemperatureC     1
dtype: int64

In [81]:
df['Date'] = pd.to_datetime(df['Date'])
df['Date']

0       1948-01-01
1       1948-01-02
2       1948-01-03
3       1948-01-04
4       1948-01-05
           ...    
24376   2015-12-27
24377   2015-12-28
24378   2015-12-29
24379   2015-12-30
24380   2015-12-31
Name: Date, Length: 24381, dtype: datetime64[ns]

In [84]:
df['Date'].dt.year

0        1948
1        1948
2        1948
3        1948
4        1948
         ... 
24376    2015
24377    2015
24378    2015
24379    2015
24380    2015
Name: Date, Length: 24381, dtype: int64

### Создание новых временнЫх признаков

In [85]:
df['current_time'] = pd.to_datetime('today').strftime("%m/%d/%Y")



In [86]:
df['current_time'] = pd.to_datetime(df['current_time'])

In [87]:
df['timedelta'] = (df['current_time']-df['Date']).astype('timedelta64[Y]')
df

Unnamed: 0,Date,Max_TemperatureC,Mean_TemperatureC,Min_TemperatureC,current_time,timedelta
0,1948-01-01,10,8.0,7.0,2020-04-26,72.0
1,1948-01-02,6,4.0,3.0,2020-04-26,72.0
2,1948-01-03,7,4.0,2.0,2020-04-26,72.0
3,1948-01-04,7,4.0,2.0,2020-04-26,72.0
4,1948-01-05,7,3.0,0.0,2020-04-26,72.0
...,...,...,...,...,...,...
24376,2015-12-27,4,3.0,2.0,2020-04-26,4.0
24377,2015-12-28,5,3.0,2.0,2020-04-26,4.0
24378,2015-12-29,7,4.0,1.0,2020-04-26,4.0
24379,2015-12-30,6,2.0,-1.0,2020-04-26,4.0


### Удаление дупликатов

In [88]:
data = {"Name": ["James", "Alice", "Phil", "James"],
"Age": [24, 28, 40, 24],
"Sex": ["Male", "Female", "Male", "Male"]}

df = pd.DataFrame(data)
df


Unnamed: 0,Name,Age,Sex
0,James,24,Male
1,Alice,28,Female
2,Phil,40,Male
3,James,24,Male


In [89]:
df.drop_duplicates()

Unnamed: 0,Name,Age,Sex
0,James,24,Male
1,Alice,28,Female
2,Phil,40,Male


### Строковые методы очистки данных

In [31]:
df = pd.read_csv('https://raw.githubusercontent.com/alnagaev/reni_land/master/test.csv')
df.head(10)

Unnamed: 0,id,Дата рождения,Вакансия,Технология,Локация,З/п в валюте найма
0,1,18.04.1994,Инженер-программист 2 категории,JS,Санкт-Петербург,"140 000,00 ₽"
1,2,27.03.1993,Разработчик информационных систем,.NET,Москва,"130 000,00 ₽"
2,3,24.11.1983,Java Developer,Java,Санкт-Петербург,"200 000,00 ₽"
3,4,09.06.1989,Архитектор ПО,Java,Москва,"250 000,00 ₽"
4,5,03.10.1978,QA Automation Engineer,QA,Санкт-Петербург,"172 413,00 ₽"
5,6,21.08.1973,Big Data Developer,Big Data,Санкт-Петербург,"280 000,00 ₽"
6,7,10.10.1991,JS Developer,JS,Москва,"129 000,00 ₽"
7,8,16.08.1982,Разработчик мобильных приложений,Android,Москва,"185 000,00 ₽"
8,9,16.05.1988,Инженер-программист 2 категории,.NET,Санкт-Петербург,"160 000,00 ₽"
9,10,01.12.1990,Java Engineer,Java,Краков; Польша,"9 500,00 zł"


In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58 entries, 0 to 57
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   id                  58 non-null     int64 
 1   Дата рождения       58 non-null     object
 2   Вакансия            58 non-null     object
 3   Технология          58 non-null     object
 4   Локация             58 non-null     object
 5   З/п в валюте найма  58 non-null     object
dtypes: int64(1), object(5)
memory usage: 2.8+ KB


Создание новых признаков

In [33]:
df['salary'] = df['З/п в валюте найма'].apply(lambda x: int(''.join([s for s in list(x) if s.isdigit()]))/100)
df['currency'] = df['З/п в валюте найма'].apply(lambda x: ''.join([s for s in list(x) if not s.isdigit()]).replace(',', ''))
df.head(10)

Unnamed: 0,id,Дата рождения,Вакансия,Технология,Локация,З/п в валюте найма,salary,currency
0,1,18.04.1994,Инженер-программист 2 категории,JS,Санкт-Петербург,"140 000,00 ₽",140000.0,₽
1,2,27.03.1993,Разработчик информационных систем,.NET,Москва,"130 000,00 ₽",130000.0,₽
2,3,24.11.1983,Java Developer,Java,Санкт-Петербург,"200 000,00 ₽",200000.0,₽
3,4,09.06.1989,Архитектор ПО,Java,Москва,"250 000,00 ₽",250000.0,₽
4,5,03.10.1978,QA Automation Engineer,QA,Санкт-Петербург,"172 413,00 ₽",172413.0,₽
5,6,21.08.1973,Big Data Developer,Big Data,Санкт-Петербург,"280 000,00 ₽",280000.0,₽
6,7,10.10.1991,JS Developer,JS,Москва,"129 000,00 ₽",129000.0,₽
7,8,16.08.1982,Разработчик мобильных приложений,Android,Москва,"185 000,00 ₽",185000.0,₽
8,9,16.05.1988,Инженер-программист 2 категории,.NET,Санкт-Петербург,"160 000,00 ₽",160000.0,₽
9,10,01.12.1990,Java Engineer,Java,Краков; Польша,"9 500,00 zł",9500.0,zł


**Приведем список технологий к единообразию на примере JS**

In [34]:
df['Технология'] = df['Технология'].replace('JavaScript', 'JS')

In [35]:
df[df["Технология"].isin(["JS", 'Java'])]

Unnamed: 0,id,Дата рождения,Вакансия,Технология,Локация,З/п в валюте найма,salary,currency
0,1,18.04.1994,Инженер-программист 2 категории,JS,Санкт-Петербург,"140 000,00 ₽",140000.0,₽
2,3,24.11.1983,Java Developer,Java,Санкт-Петербург,"200 000,00 ₽",200000.0,₽
3,4,09.06.1989,Архитектор ПО,Java,Москва,"250 000,00 ₽",250000.0,₽
6,7,10.10.1991,JS Developer,JS,Москва,"129 000,00 ₽",129000.0,₽
9,10,01.12.1990,Java Engineer,Java,Краков; Польша,"9 500,00 zł",9500.0,zł
10,11,04.02.1991,Инженер-программист,JS,Москва,"170 000,00 ₽",170000.0,₽
12,13,04.11.1988,JavaScript Engineer,JS,Краков; Польша,"10 500,00 zł",10500.0,zł
13,14,09.04.1990,Software Engineer,JS,Вроцлав; Польша,"9 500,00 zł",9500.0,zł
15,16,30.08.1982,Java Developer,Java,Москва,"180 000,00 ₽",180000.0,₽
17,18,28.08.1995,JS Developer,JS,Москва,"160 000,00 ₽",160000.0,₽


In [36]:
df.query('Технология == "JS" | Технология == "Java"')

Unnamed: 0,id,Дата рождения,Вакансия,Технология,Локация,З/п в валюте найма,salary,currency
0,1,18.04.1994,Инженер-программист 2 категории,JS,Санкт-Петербург,"140 000,00 ₽",140000.0,₽
2,3,24.11.1983,Java Developer,Java,Санкт-Петербург,"200 000,00 ₽",200000.0,₽
3,4,09.06.1989,Архитектор ПО,Java,Москва,"250 000,00 ₽",250000.0,₽
6,7,10.10.1991,JS Developer,JS,Москва,"129 000,00 ₽",129000.0,₽
9,10,01.12.1990,Java Engineer,Java,Краков; Польша,"9 500,00 zł",9500.0,zł
10,11,04.02.1991,Инженер-программист,JS,Москва,"170 000,00 ₽",170000.0,₽
12,13,04.11.1988,JavaScript Engineer,JS,Краков; Польша,"10 500,00 zł",10500.0,zł
13,14,09.04.1990,Software Engineer,JS,Вроцлав; Польша,"9 500,00 zł",9500.0,zł
15,16,30.08.1982,Java Developer,Java,Москва,"180 000,00 ₽",180000.0,₽
17,18,28.08.1995,JS Developer,JS,Москва,"160 000,00 ₽",160000.0,₽


Метод **str.contains**

In [37]:
df[df['Вакансия'].str.contains("Engineer", na=False)]

Unnamed: 0,id,Дата рождения,Вакансия,Технология,Локация,З/п в валюте найма,salary,currency
4,5,03.10.1978,QA Automation Engineer,QA,Санкт-Петербург,"172 413,00 ₽",172413.0,₽
9,10,01.12.1990,Java Engineer,Java,Краков; Польша,"9 500,00 zł",9500.0,zł
11,12,11.02.1982,.NET Engineer,.NET,Гданьск; Польша,"12 000,00 zł",12000.0,zł
12,13,04.11.1988,JavaScript Engineer,JS,Краков; Польша,"10 500,00 zł",10500.0,zł
13,14,09.04.1990,Software Engineer,JS,Вроцлав; Польша,"9 500,00 zł",9500.0,zł
18,19,02.02.1972,Senior Software Engineer,BI,Санкт-Петербург,"200 000,00 ₽",200000.0,₽
19,20,21.09.1985,QA Engineer,QA,Санкт-Петербург,"135 000,00 ₽",135000.0,₽
37,38,03.04.1990,JavaScript Engineer,JS,Краков; Польша,"13 000,00 zł",13000.0,zł
38,39,10.06.1988,Senior Software Engineer,Java,София; Болгария,"lev6 446,00",6446.0,lev
39,40,17.02.1992,Test Automation Engineer,QA,Будапешт; Венгрия,"Ft650 000,00",650000.0,Ft
