# Анализ данных. Консультация 1
ОП Медиакоммуникации, 2 курс

Pandas – библиотека для работы с табличными данными. \
[CheatSheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

In [2]:
import pandas as pd # импортировали библиотеку pandas и назвали ее pd
import numpy as np #импортируем библиотеку для арифметических операций

Загрузили датасет с помощью функции `.read_csv()` Теперь наша табличка хранится в переменной df.

In [4]:
df = pd.read_csv('https://raw.githubusercontent.com/dakasyanenko/media-DA-2023/main/Consultation_1/Latest_Data_Science_Salaries.csv')

## Определение размерности и типов данных

Первым делом изучим его, прежде чем начнем выполнять какие-то действия. Для этого у нас есть сразу несколько инструментов.

**Метод `.info()`.** Вызывается `датафрейм.info()`, где сначала всегда `имя загруженного датафрейма`, а потом через точку название метода и обязательно `круглые скобки` (как при вызове любого метода) `df.info()`.

Метод рассказывает нам, сколько всего строк (RangeIndex), а также расписывает по колонкам (Columns), сколько там есть НЕпропущенных ячеек (Non-Null Count), а также тип этих данных (Dtype).

Типы данных в датафреймах:

|Название|Тип|
|:---|:---|
|object|строка|
|int64 / int32|целое число|
|float64 / float32|вещественное (дробное) число|

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3300 entries, 0 to 3299
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Job Title           3300 non-null   object
 1   Employment Type     3300 non-null   object
 2   Experience Level    3300 non-null   object
 3   Expertise Level     3300 non-null   object
 4   Salary              3300 non-null   int64 
 5   Salary Currency     3300 non-null   object
 6   Company Location    3300 non-null   object
 7   Salary in USD       3300 non-null   int64 
 8   Employee Residence  3300 non-null   object
 9   Company Size        3300 non-null   object
 10  Year                3300 non-null   int64 
dtypes: int64(3), object(8)
memory usage: 283.7+ KB


**Атрибут `.dtypes`.** Атрибуты отдают нам информацию об объектах. Вызываются так: `имя загруженного датафрейма`, а потом через точку название атрибута `df.dtypes` обязательно БЕЗ круглых скобок.

Этот атрибут нам отдаст типы данных, хранящихся в колонках.

In [4]:
df.dtypes

Job Title             object
Employment Type       object
Experience Level      object
Expertise Level       object
Salary                 int64
Salary Currency       object
Company Location      object
Salary in USD          int64
Employee Residence    object
Company Size          object
Year                   int64
dtype: object

**Атрибут `.shape`.** Самый используемый атрибут. Позволяет в одну строчку узнать размерность датафрейма, то есть сколько строк и колонок в этом датафрейме. Вызывается через `имя загруженного датафрейма`, дальше точка и название БЕЗ скобок `df.shape`.

Часто можно встретить запись `df.shape[0]`. Так делают, потому что атрибут `.shape` отдает в кортеже значения вида (кол-во строк, кол-во колонок). 

Соответственно, `df.shape[0]` будет всегда показывать количество строк в df. А `df.shape[1]` – количество столбцов.

In [5]:
df.shape # (кол-во строк, кол-во столбцов в df)

(3300, 11)

In [7]:
df.shape[0] # кол-во строк

3300

In [8]:
df.shape[1] # кол-во столбцов

11

## Обращение к элементам

### Обращение к одному столбцу

Как мы можем узнать названия столбцов? Во-первых, вызвать `df` (или `df.head()` – первые пять строк таблицы) и посмотреть названия столбцов.

In [9]:
df.head()

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year
0,Data Engineer,Full-Time,Senior,Expert,210000,United States Dollar,United States,210000,United States,Medium,2023
1,Data Engineer,Full-Time,Senior,Expert,165000,United States Dollar,United States,165000,United States,Medium,2023
2,Data Engineer,Full-Time,Senior,Expert,185900,United States Dollar,United States,185900,United States,Medium,2023
3,Data Engineer,Full-Time,Senior,Expert,129300,United States Dollar,United States,129300,United States,Medium,2023
4,Data Scientist,Full-Time,Senior,Expert,140000,United States Dollar,United States,140000,United States,Medium,2023


Или можно использовать атрибут `.columns`, который вернет списком названия всех колонок.

In [10]:
df.columns

Index(['Job Title', 'Employment Type', 'Experience Level', 'Expertise Level',
       'Salary', 'Salary Currency', 'Company Location', 'Salary in USD',
       'Employee Residence', 'Company Size', 'Year'],
      dtype='object')

Теперь выведем значения только одного столбца – `'Salary'`. Вызвать можно так – `df['Salary']`.

In [13]:
df['Salary']

0        210000
1        165000
2        185900
3        129300
4        140000
         ...   
3295     412000
3296     151000
3297     105000
3298     100000
3299    7000000
Name: Salary, Length: 3300, dtype: int64

Теперь мы работаем не со всей таблицей, а только со значениями в этом столбце. Так, мы можем посчитать, например, минимальную и максимальную зарплаты.

In [14]:
df['Salary'].min()

14000

In [15]:
df['Salary'].max()

30400000

### Обращение к нескольким столбцам

Иногда нам нужно из всей таблицы поработать только с несколькими столбцами. Сделать такую "подтаблицу" можно вот так: `df[['Столбец1', 'Столбец2', 'Столбец3']]`

Обратите внимание – первые квадратные скобки обозначают обращение к df с намерением достать оттуда некий столбец. Вторые квадратные скобки относятся к СПИСКУ с названиями столбцов. Именно по списку питон понимает, что отдать нужно "подтаблицу" из нескольких колонок.

In [16]:
df[['Salary', 'Experience Level', 'Year']] # столбцы необязательно указывать в таком же порядке, что и в df

Unnamed: 0,Salary,Experience Level,Year
0,210000,Senior,2023
1,165000,Senior,2023
2,185900,Senior,2023
3,129300,Senior,2023
4,140000,Senior,2023
...,...,...,...
3295,412000,Senior,2020
3296,151000,Mid,2021
3297,105000,Entry,2020
3298,100000,Entry,2020


### Обращение к строке

Делается с помощью двух атрибутов – `loc[название строки]` и `iloc[индекс строки]`.

In [17]:
df.loc[0]

Job Title                    Data Engineer
Employment Type                  Full-Time
Experience Level                    Senior
Expertise Level                     Expert
Salary                              210000
Salary Currency       United States Dollar
Company Location             United States
Salary in USD                       210000
Employee Residence           United States
Company Size                        Medium
Year                                  2023
Name: 0, dtype: object

In [18]:
df.iloc[0]

Job Title                    Data Engineer
Employment Type                  Full-Time
Experience Level                    Senior
Expertise Level                     Expert
Salary                              210000
Salary Currency       United States Dollar
Company Location             United States
Salary in USD                       210000
Employee Residence           United States
Company Size                        Medium
Year                                  2023
Name: 0, dtype: object

## Фильтрация данных

Фильтровать по условиям мы можем так (этот синтаксис нужно выучить):

`датафрейм[датафрейм['название колонки'] ==/!=/</<=/>/>= условие]`

== покажи только те значения, которые равны условию \
!= покажи только те значения, которые НЕ равны условию \
< покажи только те значения, которые строго меньше условия \
<= покажи только те значения, которые меньше или равны условию \
\> покажи только те значения, которые строго больше условия \
\>= покажи только те значения, которые больше или равны условию

In [27]:
df[df['Salary in USD'] >= 400000] # только з/п от $400000 и выше

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year
1242,Analytics Engineer,Full-Time,Mid,Intermediate,350000,British Pound Sterling,United Kingdom,430640,United Kingdom,Medium,2023
1496,AI Scientist,Full-Time,Senior,Expert,1500000,Israeli New Shekel,Israel,417937,Israel,Large,2023
2190,Data Analyst,Full-Time,Mid,Intermediate,350000,British Pound Sterling,United Kingdom,430967,United Kingdom,Medium,2022
3028,Data Analytics Lead,Full-Time,Senior,Expert,405000,United States Dollar,United States,405000,United States,Large,2022
3085,Research Scientist,Full-Time,Mid,Intermediate,450000,United States Dollar,United States,450000,United States,Medium,2020
3228,Principal Data Scientist,Contract,Executive,Director,416000,United States Dollar,United States,416000,United States,Small,2021
3292,Applied Machine Learning Scientist,Full-Time,Mid,Intermediate,423000,United States Dollar,United States,423000,United States,Large,2021
3295,Data Scientist,Full-Time,Senior,Expert,412000,United States Dollar,United States,412000,United States,Large,2020


In [28]:
df[df['Salary in USD'] >= 400000].shape[0] # таких вакансий ровно 8 штук

8

In [30]:
df[df['Experience Level'] == 'Executive'] # вакансии для управленцев

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year
47,Business Intelligence Engineer,Full-Time,Executive,Director,247500,United States Dollar,United States,247500,United States,Medium,2023
48,Business Intelligence Engineer,Full-Time,Executive,Director,172200,United States Dollar,United States,172200,United States,Medium,2023
59,Data Engineer,Full-Time,Executive,Director,205785,United States Dollar,United Kingdom,205785,United Kingdom,Medium,2023
60,Data Engineer,Full-Time,Executive,Director,123471,United States Dollar,United Kingdom,123471,United Kingdom,Medium,2023
131,Data Engineer,Full-Time,Executive,Director,130002,United States Dollar,United States,130002,United States,Medium,2023
...,...,...,...,...,...,...,...,...,...,...,...
3118,Data Engineer,Full-Time,Executive,Director,70000,Euro,Spain,79833,Spain,Large,2020
3198,Director of Data Science,Full-Time,Executive,Director,120000,Euro,Germany,141846,Germany,Large,2021
3214,Data Science Consultant,Full-Time,Executive,Director,59000,Euro,Spain,69741,France,Small,2021
3228,Principal Data Scientist,Contract,Executive,Director,416000,United States Dollar,United States,416000,United States,Small,2021


In [31]:
df[df['Experience Level'] == 'Executive'].shape[0] # таких вакансий 146 штук

146

### Несколько условий

| - ИЛИ \
& - И

Если у нас несколько условий, то каждое условие идет в скобки. При этом & будет всегда склеивать два стоящих рядом условия. 

In [33]:
# кол-во управленческих вакансий с з/п выше $4000000 – всего одна

df[(df['Experience Level'] == 'Executive') & (df['Salary in USD'] >= 400000)] 

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year
3228,Principal Data Scientist,Contract,Executive,Director,416000,United States Dollar,United States,416000,United States,Small,2021


In [34]:
# кол-во управленческих ИЛИ senior вакансий с з/п выше $4000000 – уже 4 штуки
# ((executive ИЛИ senior) И $400000)

df[((df['Experience Level'] == 'Executive') | (df['Experience Level'] == 'Senior')) & (df['Salary in USD'] >= 400000)] 

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year
1496,AI Scientist,Full-Time,Senior,Expert,1500000,Israeli New Shekel,Israel,417937,Israel,Large,2023
3028,Data Analytics Lead,Full-Time,Senior,Expert,405000,United States Dollar,United States,405000,United States,Large,2022
3228,Principal Data Scientist,Contract,Executive,Director,416000,United States Dollar,United States,416000,United States,Small,2021
3295,Data Scientist,Full-Time,Senior,Expert,412000,United States Dollar,United States,412000,United States,Large,2020


In [35]:
# еще можно развернуть вот так выражение, это то же самое, что и выше
# но будьте осторожны – если вдруг запишете неверно (отступы), то все сломается

df[
    (
     (df['Experience Level'] == 'Executive') | 
     (df['Experience Level'] == 'Senior')
    ) 
    & 
    (df['Salary in USD'] >= 400000)
] 

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year
1496,AI Scientist,Full-Time,Senior,Expert,1500000,Israeli New Shekel,Israel,417937,Israel,Large,2023
3028,Data Analytics Lead,Full-Time,Senior,Expert,405000,United States Dollar,United States,405000,United States,Large,2022
3228,Principal Data Scientist,Contract,Executive,Director,416000,United States Dollar,United States,416000,United States,Small,2021
3295,Data Scientist,Full-Time,Senior,Expert,412000,United States Dollar,United States,412000,United States,Large,2020


## Сортировка данных

Используется метод `.sort_values('Название столбца')`

In [38]:
df.sort_values('Salary in USD') # самые маленькие з/п всплыли наверх

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year
1335,Staff Data Analyst,Full-Time,Executive,Director,15000,United States Dollar,Canada,15000,Nigeria,Medium,2020
2641,Machine Learning Developer,Full-Time,Entry,Junior,15000,United States Dollar,Thailand,15000,Thailand,Large,2021
2826,Data Analyst,Full-Time,Entry,Junior,15000,United States Dollar,Indonesia,15000,Indonesia,Large,2022
193,Data Analyst,Full-Time,Mid,Intermediate,866000,Philippine Peso,Philippines,15680,Philippines,Large,2023
1696,Data Analyst,Full-Time,Senior,Expert,1300000,Indian Rupee,India,15809,India,Small,2023
...,...,...,...,...,...,...,...,...,...,...,...
1496,AI Scientist,Full-Time,Senior,Expert,1500000,Israeli New Shekel,Israel,417937,Israel,Large,2023
3292,Applied Machine Learning Scientist,Full-Time,Mid,Intermediate,423000,United States Dollar,United States,423000,United States,Large,2021
1242,Analytics Engineer,Full-Time,Mid,Intermediate,350000,British Pound Sterling,United Kingdom,430640,United Kingdom,Medium,2023
2190,Data Analyst,Full-Time,Mid,Intermediate,350000,British Pound Sterling,United Kingdom,430967,United Kingdom,Medium,2022


In [40]:
df.sort_values('Salary in USD', ascending = False) # самые высокие з/п всплыли наверх

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year
3085,Research Scientist,Full-Time,Mid,Intermediate,450000,United States Dollar,United States,450000,United States,Medium,2020
2190,Data Analyst,Full-Time,Mid,Intermediate,350000,British Pound Sterling,United Kingdom,430967,United Kingdom,Medium,2022
1242,Analytics Engineer,Full-Time,Mid,Intermediate,350000,British Pound Sterling,United Kingdom,430640,United Kingdom,Medium,2023
3292,Applied Machine Learning Scientist,Full-Time,Mid,Intermediate,423000,United States Dollar,United States,423000,United States,Large,2021
1496,AI Scientist,Full-Time,Senior,Expert,1500000,Israeli New Shekel,Israel,417937,Israel,Large,2023
...,...,...,...,...,...,...,...,...,...,...,...
1696,Data Analyst,Full-Time,Senior,Expert,1300000,Indian Rupee,India,15809,India,Small,2023
193,Data Analyst,Full-Time,Mid,Intermediate,866000,Philippine Peso,Philippines,15680,Philippines,Large,2023
2641,Machine Learning Developer,Full-Time,Entry,Junior,15000,United States Dollar,Thailand,15000,Thailand,Large,2021
2826,Data Analyst,Full-Time,Entry,Junior,15000,United States Dollar,Indonesia,15000,Indonesia,Large,2022


In [44]:
df.sort_values(['Salary in USD', 'Year'], ascending = [False, True]) # сначала самые высокие з/п, 
                                                                    # отсортированные от старых лет к новым

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year
3085,Research Scientist,Full-Time,Mid,Intermediate,450000,United States Dollar,United States,450000,United States,Medium,2020
2190,Data Analyst,Full-Time,Mid,Intermediate,350000,British Pound Sterling,United Kingdom,430967,United Kingdom,Medium,2022
1242,Analytics Engineer,Full-Time,Mid,Intermediate,350000,British Pound Sterling,United Kingdom,430640,United Kingdom,Medium,2023
3292,Applied Machine Learning Scientist,Full-Time,Mid,Intermediate,423000,United States Dollar,United States,423000,United States,Large,2021
1496,AI Scientist,Full-Time,Senior,Expert,1500000,Israeli New Shekel,Israel,417937,Israel,Large,2023
...,...,...,...,...,...,...,...,...,...,...,...
1696,Data Analyst,Full-Time,Senior,Expert,1300000,Indian Rupee,India,15809,India,Small,2023
193,Data Analyst,Full-Time,Mid,Intermediate,866000,Philippine Peso,Philippines,15680,Philippines,Large,2023
1335,Staff Data Analyst,Full-Time,Executive,Director,15000,United States Dollar,Canada,15000,Nigeria,Medium,2020
2641,Machine Learning Developer,Full-Time,Entry,Junior,15000,United States Dollar,Thailand,15000,Thailand,Large,2021


Найдем разницу между самой высокой и самой низкой зарплатами, используя `.sort_values()`, `.iloc[]` и вычитание.

In [15]:
min_salary = df.sort_values('Salary in USD').iloc[0]['Salary in USD']
# сначала сортируем по столбцу Salary in USD
# потом находим первую строку (ее индекс – 1335)
# используем .iloc[0] – который найдет первую по счету строку в ОТСОРТИРОВАННОМ датафрейме
# в этом отличие .iloc[] от .loc[] – чтобы найти эту самую строку мы используем .iloc[0] или .loc[1335]
# .iloc[0] – всегда вернет самую первую строку в датафрейме, .loc[название строки] вернет строку по ее НАЗВАНИЮ
# после этого обращаемся к значению'Salary in USD' у первой строки в отсортированном датафрейме
print(min_salary)

15000


In [16]:
max_salary = df.sort_values('Salary in USD', ascending=False).iloc[0]['Salary in USD']
# если выше мы нашли самую первую строку в отсортированном датафрейме (самая низкая з/п)
# здесь мы добавляем ascending=False, и у нас в первой строке теперь самая высокая з/п
print(max_salary)

450000


In [17]:
max_salary - min_salary

435000

## Новые признаки

Можно создавать как с помощью арифметических операций / конкатенации строк `df['новый признак'] = df['столбец1'] + df['столбец2']`
Так и с помощью функций. Про функции: https://edu.hse.ru/course/view.php?id=133389&section=8

In [45]:
df['Company Info'] = df['Company Location'] + ', ' + df['Company Size']

# создаем новую колонку 'Company Info'. В каждую ячейку будет сохраняться 
# для каждого столбца локация компании и ее размер через запятую

In [46]:
df.head()

Unnamed: 0,Job Title,Employment Type,Experience Level,Expertise Level,Salary,Salary Currency,Company Location,Salary in USD,Employee Residence,Company Size,Year,Company Info
0,Data Engineer,Full-Time,Senior,Expert,210000,United States Dollar,United States,210000,United States,Medium,2023,"United States, Medium"
1,Data Engineer,Full-Time,Senior,Expert,165000,United States Dollar,United States,165000,United States,Medium,2023,"United States, Medium"
2,Data Engineer,Full-Time,Senior,Expert,185900,United States Dollar,United States,185900,United States,Medium,2023,"United States, Medium"
3,Data Engineer,Full-Time,Senior,Expert,129300,United States Dollar,United States,129300,United States,Medium,2023,"United States, Medium"
4,Data Scientist,Full-Time,Senior,Expert,140000,United States Dollar,United States,140000,United States,Medium,2023,"United States, Medium"


Создадим новую колонку "Salary Index", где по условию проставим "выше среднего" или "ниже среднего" з/п.

In [49]:
df['Salary Index'] = df['Salary in USD'].apply(lambda x: "Выше среднего" if x > df['Salary in USD'].mean() else "Ниже среднего")

In [52]:
df['Salary Index'].value_counts()
# метод .value_counts() делает табличку с подсчетами – сколько раз встречаются значения

Ниже среднего    1767
Выше среднего    1533
Name: Salary Index, dtype: int64