In [1]:
import pandas as pd

## Введение в pandas

Есть две основные структуры в данных в pandas:
1. Series - имеет одну размерность (контейнер для скаляров)
2. DataFrame - имеет две размерности (контейнер для Series)


### Series

Начнем своё знакомство с pandas Series (серия).

Эта структура данных может хранить любой тип данных, главное, чтобы один за раз. Хранятся данные с индексом.


Чтобы создать серию нужно вызвать:
```
s = pd.Series(data, index=index)
```

`data` может быть тремя вещами:
1. Python dict
2. np.array
3. скаляр

`index` - это список индексов, если его не передавать, то индексы будут созданы автоматически с 0 до `len(data)-1`.

Создание pandas серии через NumPy массив.


In [None]:
import numpy as np

pd.Series(np.random.randint(5, size=(3)), index=['a', 'b', 'c'])  # случайное число до 5, 3 штуки + задаем индексы

a    3
b    1
c    4
dtype: int64

In [2]:
pd.Series([0, 3, 7], index=['a', 'b', 'c'])  # задаем серию напрямую

a    0
b    3
c    7
dtype: int64

In [None]:
pd.Series(np.random.randint(5, size=(3)))  # задаем серию с индексами по умолчанию (от 0 до len - 1)

0    0
1    3
2    2
dtype: int64

Создание через dict

Если не будем передавать индексы, то pandas посчитает, что ключи - это индексы, а значение - это значения серии.

In [None]:
d = {'c': 1, 'b': 2, 'a': 3}  # ключи зайдут в индексы, значения в значения

pd.Series(d)

c    1
b    2
a    3
dtype: int64

А если индексы передавать, то по этим индексам будут искаться значения в словаре.

А если такого ключа в словаре не найдется, то поставится NaN - это маркер для обозначения пропущенного объекта.

In [None]:
d = {'c': 1, 'b': 2, 'a': 3}

pd.Series(d, index=['a', 'c', 'd'])  # ключа d в словаре нет => передается NaN

a    3.0
c    1.0
d    NaN
dtype: float64

Создание через скаляр

Если передан скаляр, а индексы - нет, то будет одно значение в серии

In [3]:
pd.Series(1)  # одно значение, по умолчанию задается нулевой индекс

0    1
dtype: int64

А если индексы передаются, то скаляр повторится столько раз, сколько есть индексов.

In [4]:
pd.Series(8, index=['a', 'b'])  # два индекса = два значения

a    8
b    8
dtype: int64

Разные типы данных в серии 

In [None]:
pd.Series(['a', 1, 0.4], index=['a', 'b', 'c'])

a      a
b      1
c    0.4
dtype: object

### DataFrame

DataFrame - это двумерная структура данных, где могут содержаться колонки с разными типами данных. Это очень похоже на таблицу.

Так же как и серии, DataFrame принимает много различных типов данных для создания:
1. Dict 1D np.arrays, lists, dicts или Series
2. 2-D np.array
3. Структурированный массив
4. Список dict
4. Series
5. Другой DataFrame


Можно создать таким образом:
```
pd.DataFrame(data, index=index, columns=columns)
```

Вместе с данными `data`, можно опционально передавать индексы и колонки.


Посмотрим на некоторые виды создания DataFrame.


Создание через dict серий

Индексы в результате - объединение индексов серий.

А название колонок - ключи словаря.


In [None]:
d = {
    'feature_1': pd.Series([1, 2, 3], index=['a', 'b', 'c']),
    'feature_2': pd.Series([1, 2, 3, 4, 5], index=['e', 'd', 'c', 'b', 'a']),
}

pd.DataFrame(d)

Unnamed: 0,feature_1,feature_2
a,1.0,5
b,2.0,4
c,3.0,3
d,,2
e,,1


Так же можем индексы передавать.

In [5]:
pd.DataFrame(d, index=['a', 'c', 'e'])  # забираем значения по указанным индексам из ранее сформированного датасета

NameError: name 'd' is not defined

И можем передавать названия колонок.

Если таких колонок не было в ключах словаря, то появится колонка с пропусками.

In [None]:
pd.DataFrame(d, index=['a', 'c', 'e'], columns=['feature_2', 'feature_3'])  # значений feature_3 нет => NaN

Unnamed: 0,feature_2,feature_3
a,5,
c,3,
e,1,


Создание через dict np.arrays/lists

array/list должны быть все одного размера.

In [None]:
d = {
    'feature_1': [1, 2, 3],
    'feature_2': np.array([5, 4, 3, 2, 1])
}

pd.DataFrame(d)  # ошибка, так массивы разной длины

ValueError: ignored

Если передается индексы, то они должны быть такого же размера.

In [6]:
d = {
    'feature_1': [1, 2, 3],
    'feature_2': np.array([5, 4, 3])
}

pd.DataFrame(d, index=['a', 'b', 'c'])

NameError: name 'np' is not defined

Создание через список dicts


In [7]:
data = [
    {'feature_1': 1, 'feature_2': 2},
    {'feature_1': 5, 'feature_2': 10, 'feature_3': 20}
]

pd.DataFrame(data)

Unnamed: 0,feature_1,feature_2,feature_3
0,1,2,
1,5,10,20.0


И естественно можно передавать индексы и колонки.

In [8]:
pd.DataFrame(data, index=['index_1', 'index_2'], columns=['feature_1', 'feature_3'])

Unnamed: 0,feature_1,feature_3
index_1,1,
index_2,5,20.0


## Практика

### Загрузка данных и создание ДатаФрейма

In [22]:
data = pd.read_csv('customers.txt', sep = ' ')  # считываем файл, в качестве разделителя ставим пробел

In [23]:
data.shape  # смотрим размерность того, что у нас получилось

(99, 4)

Вот и ещё один способ создания DataFrame - через 2D np.array.

In [24]:
df = pd.DataFrame(data)
df

Unnamed: 0,3.800000000000000000e+01,7.410000000000000000e+02,2.000000000000000000e+00,0.000000000000000000e+00
0,32.0,630.0,11.0,0.0
1,52.0,2730.0,7.0,1.0
2,33.0,552.0,2.0,0.0
...,...,...,...,...
96,31.0,782.0,4.0,0.0
97,38.0,793.0,4.0,0.0
98,38.0,800.0,8.0,0.0


Индексы оставим дефолтные, а вот признаки переименуем.


In [26]:
df.columns = ['age', 'sum', 'num_purchases', 'is_interested']  # заводим названия колонок по порядку
df

Unnamed: 0,age,sum,num_purchases,is_interested
0,32.0,630.0,11.0,0.0
1,52.0,2730.0,7.0,1.0
2,33.0,552.0,2.0,0.0
...,...,...,...,...
96,31.0,782.0,4.0,0.0
97,38.0,793.0,4.0,0.0
98,38.0,800.0,8.0,0.0


In [27]:
df.columns  # проверяем, что у нас получилось

Index(['age', 'sum', 'num_purchases', 'is_interested'], dtype='object')

###  Отображение датафрейма

метод **head()** возвращает первые n объектов, если n не указывать, то вернутся 5 объектов.

In [28]:
df.head()

Unnamed: 0,age,sum,num_purchases,is_interested
0,32.0,630.0,11.0,0.0
1,52.0,2730.0,7.0,1.0
2,33.0,552.0,2.0,0.0
3,35.0,409.0,5.0,0.0
4,46.0,1882.0,2.0,1.0


метод **tail()** возвращает последние n объектов, если n не указывать, то вернутся 5 объектов.

In [29]:
df.tail()

Unnamed: 0,age,sum,num_purchases,is_interested
94,40.0,1088.0,10.0,0.0
95,31.0,745.0,3.0,0.0
96,31.0,782.0,4.0,0.0
97,38.0,793.0,4.0,0.0
98,38.0,800.0,8.0,0.0


метод **sample()** возвращает случайный объект из датафрейма.

In [30]:
df.sample()

Unnamed: 0,age,sum,num_purchases,is_interested
54,43.0,1452.0,7.0,0.0


Если указать атрибут frac, то вернется доля объектов.

In [32]:
df.sample(frac=0.5)  # в нашем случае 50%

Unnamed: 0,age,sum,num_purchases,is_interested
17,24.0,1811.0,5.0,1.0
43,36.0,569.0,3.0,0.0
85,30.0,1010.0,9.0,0.0
...,...,...,...,...
1,52.0,2730.0,7.0,1.0
9,26.0,1492.0,3.0,0.0
96,31.0,782.0,4.0,0.0


метод **describe()** выводит краткую статистическую сводку таблицу.

In [33]:
df.describe()

Unnamed: 0,age,sum,num_purchases,is_interested
count,99.000000,99.000000,99.000000,99.000000
mean,35.111111,1033.323232,4.383838,0.171717
std,6.603785,589.041643,2.261962,0.379054
...,...,...,...,...
50%,34.000000,903.000000,4.000000,0.000000
75%,40.000000,1339.500000,5.000000,0.000000
max,52.000000,3159.000000,11.000000,1.000000


метод **info()** выводит информацию про пропущенные объекты и типы данных.

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   age            99 non-null     float64
 1   sum            99 non-null     float64
 2   num_purchases  99 non-null     float64
 3   is_interested  99 non-null     float64
dtypes: float64(4)
memory usage: 3.2 KB


**shape** можем узнать размерность нашей таблицы.

In [35]:
df.shape

(99, 4)

**columns** можем узнать названия колонок

In [36]:
df.columns

Index(['age', 'sum', 'num_purchases', 'is_interested'], dtype='object')

**index** можем узнать названия индексов

In [37]:
df.index

RangeIndex(start=0, stop=99, step=1)

**empty** можем узнать, а не пустой ли наш датафрейм

In [38]:
df.empty

False

**dtypes** показывает типы данных

In [39]:
df.dtypes

age              float64
sum              float64
num_purchases    float64
is_interested    float64
dtype: object

Меняем признак is_interested с float на int, т.к. он бинарный, имеет только значения 0 и 1 и представляет из себя метку, а интересен ли покупатель, сделал ли он покупок на сумму больше, чем 1500.

### Взятие колонки из датафрейма

Чтобы взять конкрентый признак из DataFrame можно к нему обратиться через квадратные скобки `[]`. Возвращается структура данных - pd.Series.

In [40]:
df['is_interested']

0     0.0
1     1.0
2     0.0
     ... 
96    0.0
97    0.0
98    0.0
Name: is_interested, Length: 99, dtype: float64

In [42]:
df.is_interested  # нельзя обратиться к признаку, в содержании названия которого есть пробел

0     0.0
1     1.0
2     0.0
     ... 
96    0.0
97    0.0
98    0.0
Name: is_interested, Length: 99, dtype: float64

Если несколько колонок, то в формате списка

In [43]:
df[['num_purchases', 'age']]

Unnamed: 0,num_purchases,age
0,11.0,32.0
1,7.0,52.0
2,2.0,33.0
...,...,...
96,4.0,31.0
97,4.0,38.0
98,8.0,38.0


**Метод astype** может поменять тип данных на целочисленный у признака.

In [44]:
df['is_interested'].astype('int')

0     0
1     1
2     0
     ..
96    0
97    0
98    0
Name: is_interested, Length: 99, dtype: int32

Теперь данный признак имеет тип int. Проверим через dtypes

In [45]:
df.dtypes

age              float64
sum              float64
num_purchases    float64
is_interested    float64
dtype: object

Но здесь он до сих с типом данных float, а так вышло, потому что метод astype (как и многие другие методы) ничего не меняет в исходном датафрейме, а возвращает измененную копию.

Так что, чтобы изменения вступили в силу нужно явно переопределить признак.

In [46]:
df['is_interested'] = df['is_interested'].astype('int')  # присваиваем столбцу новое значение

df.dtypes

age              float64
sum              float64
num_purchases    float64
is_interested      int32
dtype: object

### Полезные методы датафрейма и серии

метод **unique()** может узнать, а сколько есть уникальных значений в признаке количества покупок.

In [47]:
df['num_purchases'].unique()

array([11.,  7.,  2.,  5.,  8.,  4.,  3., 10.,  6.,  9.])

метод **nunique()** вернет количество, сколько таких объектов есть.

In [48]:
df['num_purchases'].nunique()

10

метод **value_counts()** считает количество записей по определенному признаку

In [49]:
df.value_counts('num_purchases')

num_purchases
2.0     22
3.0     22
4.0     17
        ..
9.0      5
10.0     2
11.0     1
Length: 10, dtype: int64

Запись в другом виде

In [50]:
df['num_purchases'].value_counts()

2.0     22
3.0     22
4.0     17
        ..
9.0      5
10.0     2
11.0     1
Name: num_purchases, Length: 10, dtype: int64

А еще можем нормализовать подсчитанные частоты через атрибут `normalize=True`

In [None]:
df['num_purchases'].value_counts(normalize=True)

2.0     0.23
3.0     0.22
4.0     0.17
        ... 
9.0     0.05
10.0    0.02
11.0    0.01
Name: num_purchases, Length: 10, dtype: float64

### Методы агрегации

- **sum()**

Посчитаем, сколько денег суммарно нам принесли все пользователи.

In [None]:
df['sum'].sum()

103040.0

- **mean()**

Посчитаем теперь, какой средний возраст у наших покупателей.

In [52]:
df['age'].mean()

35.111111111111114

- **max()**

Узнаем, какое максимальное количество покупок совершалось.

In [53]:
df['num_purchases'].max()

11.0

- **argmax()**

Давайте найдем индекс этого покупателя и посмотрим на остальные его признаки.

In [51]:
idx = df['num_purchases'].argmax()
idx

0

### Взятие объекта по индексу


Теперь нужно взять строку по этому индексу, для этого есть метод loc

In [54]:
df.loc[idx]

age               32.0
sum              630.0
num_purchases     11.0
is_interested      0.0
Name: 0, dtype: float64

При этом есть еще один подход, с помощью которого это можно сделать - это iloc.

В чем их отличие?

Для этого возьмем небольшой игрушечный пример и поймем разницу.

In [None]:
toy_df = pd.DataFrame({
    'feature_1': [1, 2, 3],
    'feature_2': ['one', 'two', 'three']
}, index=[9, 5, 2])

toy_df

Unnamed: 0,feature_1,feature_2
9,1,one
5,2,two
2,3,three


#### loc

Данный метод берет объект по конкретному индексу.

In [None]:
toy_df.loc[9]

feature_1      1
feature_2    one
Name: 9, dtype: object

Если такого индекса нет, то будет ошибка `KeyError`.

In [None]:
toy_df.loc[8]

KeyError: ignored

При работе со срезами последний объект возвращается.

In [None]:
toy_df.loc[:2]

Unnamed: 0,feature_1,feature_2
9,1,one
5,2,two
2,3,three


Так же можно брать объекты не только по индексу через loc, но и по колонке, если её название укажем через запятую.

In [None]:
toy_df.loc[9, 'feature_2']

'one'

А можно и несколько индексов, и несколько признаков указывать. 

In [None]:
toy_df.loc[[2, 9], ['feature_2', 'feature_1']]

Unnamed: 0,feature_2,feature_1
2,three,3
9,one,1


#### iloc

Данный метод берет объект по порядковому индексу.

In [None]:
toy_df

Unnamed: 0,feature_1,feature_2
9,1,one
5,2,two
2,3,three


In [None]:
toy_df.iloc[0]

feature_1      1
feature_2    one
Name: 9, dtype: object

Если такого порядкового индекса нет, то будет ошибка `IndexError`. Такая ошибка бывает, когда хотите взять элемент в списке, который выходит за рамки массива.

In [None]:
toy_df.iloc[8]

IndexError: ignored

При работе со срезами последний объект НЕ возвращается.

In [None]:
toy_df.iloc[:2]

Unnamed: 0,feature_1,feature_2
9,1,one
5,2,two


Так же можно брать объекты не только по порядковому индексу через iloc, но и по колонке, если её порядковый индекс указать через запятую.

In [None]:
toy_df

Unnamed: 0,feature_1,feature_2
9,1,one
5,2,two
2,3,three


In [None]:
toy_df.iloc[1, 0]

2

А можно и несколько порядковых индексов, и несколько порядковых индексов признаков указать.

In [None]:
toy_df.iloc[[1, 0], [1, 0]]

Unnamed: 0,feature_2,feature_1
5,two,2
9,one,1


### Создание нового признака

Вернемся к нашим данным с покупателями и создадим новый признак - средний чек покупателя.

И округляем до двух знаков после запятой.

In [55]:
df['avg_check'] = round(df['sum'] / df['num_purchases'], 2)
df.head()

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check
0,32.0,630.0,11.0,0,57.27
1,52.0,2730.0,7.0,1,390.0
2,33.0,552.0,2.0,0,276.0
3,35.0,409.0,5.0,0,81.8
4,46.0,1882.0,2.0,1,941.0


И еще создадим новый признак, который показывает, к какой группе относится наш покупатель:
- small средний чек (< 150)
- medium средний чек (>= 150, < 600)
- large средний чек (>= 600)

Для начала создадим пустой новый признак, к примеру, заполним его нулями.

In [56]:
df['check_category'] = 0

df.head()

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,32.0,630.0,11.0,0,57.27,0
1,52.0,2730.0,7.0,1,390.0,0
2,33.0,552.0,2.0,0,276.0,0
3,35.0,409.0,5.0,0,81.8,0
4,46.0,1882.0,2.0,1,941.0,0


#### Удаление признака
Кстати, если вы создали что-то лишнее или не так назвали, то без проблем можете удалить признак из набора данных через метод drop.


In [None]:
df['cccheck_category'] = 0
df.head()

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category,cccheck_category
0,38.0,741.0,2.0,0,370.5,0,0
1,32.0,630.0,11.0,0,57.27,0,0
2,52.0,2730.0,7.0,1,390.0,0,0
3,33.0,552.0,2.0,0,276.0,0,0
4,35.0,409.0,5.0,0,81.8,0,0


Но один важный нюанс, если мы вызовем код с таким синтакисом, то ничего не поменяется в исходном наборе данных.

Признак всё еще на месте.

In [None]:
df.drop(columns=['cccheck_category'])

df.head()

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category,cccheck_category
0,38.0,741.0,2.0,0,370.5,0,0
1,32.0,630.0,11.0,0,57.27,0,0
2,52.0,2730.0,7.0,1,390.0,0,0
3,33.0,552.0,2.0,0,276.0,0,0
4,35.0,409.0,5.0,0,81.8,0,0


Чтобы признак удалился, нужно либо явно переопределить датафрейм

In [None]:
df = df.drop(columns=['cccheck_category'])

Либо указать в методе `drop` атрибут `inplace=True`, тогда перезапись произойдет на месте.

In [None]:
df.drop(columns=['cccheck_category'], inplace=True)
df.head()

KeyError: ignored

Но вот сейчас признак не удалился потому что такой колонки больше нет в нашем датафрейме.

### Фильтрация данных


Фильтрация в pandas возможна с помощью булевых масок.

К примеру, чтобы узнать, кто тратит в среднем меньше 150 можно воспользоваться таким синтакисом.

Возвращается булевая маска.

**small средний чек (< 150)**

In [None]:
df['avg_check'] < 150

0     False
1      True
2     False
      ...  
97    False
98    False
99     True
Name: avg_check, Length: 100, dtype: bool

Теперь можем передать эту булевую маску в датафрейм для фильтрации.

In [None]:
df[df['avg_check'] < 150]

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
1,32.0,630.0,11.0,0,57.27,0
4,35.0,409.0,5.0,0,81.80,0
7,30.0,891.0,8.0,0,111.38,0
...,...,...,...,...,...,...
92,34.0,379.0,9.0,0,42.11,0
95,40.0,1088.0,10.0,0,108.80,0
99,38.0,800.0,8.0,0,100.00,0


Чтобы поменялась исходная версия нужно передавать булевую маску в loc, это очень полезно, если эти данные затем хотим как-то видоизменить.

И написать то значение, на которое хотим поменять старое.

Предупреждений нет и новая категория появилась в наших данных.

In [None]:
df.loc[df['avg_check'] < 150, 'check_category'] = 'small avg check'

df.head()

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.5,0
1,32.0,630.0,11.0,0,57.27,small avg check
2,52.0,2730.0,7.0,1,390.0,0
3,33.0,552.0,2.0,0,276.0,0
4,35.0,409.0,5.0,0,81.8,small avg check


Остается провернуть всё тоже самое для двух других категорий.

**medium средний чек (>= 150, < 600)**


Здесь нас ждут два условия.

В pandas для операции логическое И нужно использовать не привычный `and`, а знак `&`.

In [None]:
df.loc[(df['avg_check'] >= 150) & (df['avg_check'] < 600)]

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.50,0
2,52.0,2730.0,7.0,1,390.00,0
3,33.0,552.0,2.0,0,276.00,0
...,...,...,...,...,...,...
96,31.0,745.0,3.0,0,248.33,0
97,31.0,782.0,4.0,0,195.50,0
98,38.0,793.0,4.0,0,198.25,0


Так как условие уже довольно внушительное, то давайте его запишим в новую переменную.

In [None]:
condition = (df['avg_check'] >= 150) & (df['avg_check'] < 600)
df.loc[condition]

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.50,0
2,52.0,2730.0,7.0,1,390.00,0
3,33.0,552.0,2.0,0,276.00,0
...,...,...,...,...,...,...
96,31.0,745.0,3.0,0,248.33,0
97,31.0,782.0,4.0,0,195.50,0
98,38.0,793.0,4.0,0,198.25,0


Теперь здесь остается взять новый признак и переписать его значение для этих людей на medium avg check.

In [None]:
df.loc[condition, 'check_category'] = 'medium avg check'
df.head()

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.5,medium avg check
1,32.0,630.0,11.0,0,57.27,small avg check
2,52.0,2730.0,7.0,1,390.0,medium avg check
3,33.0,552.0,2.0,0,276.0,medium avg check
4,35.0,409.0,5.0,0,81.8,small avg check


**large средний чек (>= 600)**

И еще одна категория

In [None]:
condition = (df['avg_check'] >= 600)
df.loc[condition, 'check_category'] = 'large avg check'

Проверим, что мы всё сделали правильно, и у нас теперь есть три категории.

In [None]:
df['check_category'].value_counts()

medium avg check    59
small avg check     27
large avg check     14
Name: check_category, dtype: int64

#### Комбинация условий

Выше посмотрели на булевую маску с несколькими условиями, давайте остановимся здесь еще раз.

Есть две логические операции: И, ИЛИ.


**Логическое И**

Требует, чтобы два условия выполнялось, как было в примере выше.

In [None]:
df.loc[(df['avg_check'] >= 150) & (df['avg_check'] < 600)]

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.50,medium avg check
2,52.0,2730.0,7.0,1,390.00,medium avg check
3,33.0,552.0,2.0,0,276.00,medium avg check
...,...,...,...,...,...,...
96,31.0,745.0,3.0,0,248.33,medium avg check
97,31.0,782.0,4.0,0,195.50,medium avg check
98,38.0,793.0,4.0,0,198.25,medium avg check


А можем переписать данное условие без использования оператора И.

In [None]:
df.loc[df['avg_check'].between(150, 600)]

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.50,medium avg check
2,52.0,2730.0,7.0,1,390.00,medium avg check
3,33.0,552.0,2.0,0,276.00,medium avg check
...,...,...,...,...,...,...
96,31.0,745.0,3.0,0,248.33,medium avg check
97,31.0,782.0,4.0,0,195.50,medium avg check
98,38.0,793.0,4.0,0,198.25,medium avg check


**Логическое ИЛИ**

Для ИЛИ достаточно выполнения одного условия.

In [None]:
df[(df['num_purchases'] == 2) | (df['num_purchases'] == 3)]

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.50,medium avg check
3,33.0,552.0,2.0,0,276.00,medium avg check
5,46.0,1882.0,2.0,1,941.00,large avg check
...,...,...,...,...,...,...
91,31.0,801.0,2.0,0,400.50,medium avg check
94,30.0,893.0,3.0,0,297.67,medium avg check
96,31.0,745.0,3.0,0,248.33,medium avg check


При этом верхнее условие можем немного переписать использую метод `isin`.

In [None]:
df[df['num_purchases'].isin([2, 3])]

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.50,medium avg check
3,33.0,552.0,2.0,0,276.00,medium avg check
5,46.0,1882.0,2.0,1,941.00,large avg check
...,...,...,...,...,...,...
91,31.0,801.0,2.0,0,400.50,medium avg check
94,30.0,893.0,3.0,0,297.67,medium avg check
96,31.0,745.0,3.0,0,248.33,medium avg check


**Логическое НЕ**

Еще есть одна интересная логическая операция НЕ.

Она полностью обращает булевую маску.

In [None]:
df['check_category'] == 'small avg check'

0     False
1      True
2     False
      ...  
97    False
98    False
99     True
Name: check_category, Length: 100, dtype: bool

In [None]:
~(df['check_category'] == 'small avg check')

0      True
1     False
2      True
      ...  
97     True
98     True
99    False
Name: check_category, Length: 100, dtype: bool

In [None]:
df[~(df['check_category'] == 'small avg check')]

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.50,medium avg check
2,52.0,2730.0,7.0,1,390.00,medium avg check
3,33.0,552.0,2.0,0,276.00,medium avg check
...,...,...,...,...,...,...
96,31.0,745.0,3.0,0,248.33,medium avg check
97,31.0,782.0,4.0,0,195.50,medium avg check
98,38.0,793.0,4.0,0,198.25,medium avg check


Или тоже самое могли провернуть через оператор `!=`.

In [None]:
df[df['check_category'] != 'small avg check']

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
0,38.0,741.0,2.0,0,370.50,medium avg check
2,52.0,2730.0,7.0,1,390.00,medium avg check
3,33.0,552.0,2.0,0,276.00,medium avg check
...,...,...,...,...,...,...
96,31.0,745.0,3.0,0,248.33,medium avg check
97,31.0,782.0,4.0,0,195.50,medium avg check
98,38.0,793.0,4.0,0,198.25,medium avg check


Кстати, мы сейчас можем с вами вернуться к методу `describe()`и посчитать основные статистики для не численного признака.

In [None]:
df.describe(include=['object'])

Unnamed: 0,check_category
count,100
unique,3
top,medium avg check
freq,59


### Сортировка данных

In [None]:
df.sort_values('age')

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
68,14.0,3159.0,2.0,1,1579.50,large avg check
70,21.0,2177.0,3.0,1,725.67,large avg check
14,23.0,1964.0,2.0,1,982.00,large avg check
...,...,...,...,...,...,...
80,49.0,2388.0,3.0,1,796.00,large avg check
57,50.0,2560.0,2.0,1,1280.00,large avg check
2,52.0,2730.0,7.0,1,390.00,medium avg check


А можем посортировать в другом порядке, используя атрибут `ascending=False`.

In [None]:
df.sort_values('age', ascending=False)

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
2,52.0,2730.0,7.0,1,390.00,medium avg check
57,50.0,2560.0,2.0,1,1280.00,large avg check
80,49.0,2388.0,3.0,1,796.00,large avg check
...,...,...,...,...,...,...
14,23.0,1964.0,2.0,1,982.00,large avg check
70,21.0,2177.0,3.0,1,725.67,large avg check
68,14.0,3159.0,2.0,1,1579.50,large avg check


И можно сортироваться по нескольким признакам за раз, если указать их в списке.

Сначала сортировка идет по первому признаку, а если в этом признаке будут одинаковые значения, то выходит второй признак для сортировки.

In [None]:
df.sort_values(['age', 'num_purchases']).head(6)

Unnamed: 0,age,sum,num_purchases,is_interested,avg_check,check_category
68,14.0,3159.0,2.0,1,1579.5,large avg check
70,21.0,2177.0,3.0,1,725.67,large avg check
14,23.0,1964.0,2.0,1,982.0,large avg check
18,24.0,1811.0,5.0,1,362.2,medium avg check
75,25.0,1697.0,2.0,1,848.5,large avg check
52,25.0,1610.0,5.0,1,322.0,medium avg check


Набор данных сохраним в файл csv (comma separeted values) через метод `to_csv()`.

In [None]:
df.to_csv('processed_data.csv', sep=';', index=False)

In [5]:
import pandas as pd
df = pd.read_csv('customers.txt', sep = ' ')
df.columns = ['age', 'sum', 'num_purchases', 'is_interested'] 
df.head()

Unnamed: 0,age,sum,num_purchases,is_interested
0,32.0,630.0,11.0,0.0
1,52.0,2730.0,7.0,1.0
2,33.0,552.0,2.0,0.0
3,35.0,409.0,5.0,0.0
4,46.0,1882.0,2.0,1.0


**replace()** позволяет сделать замену в каком-то признаке, используя весь датафрейм

In [8]:
# меняем флаг на да/нет
df.replace(
    {'is_interested':
        {0: 'no', 1: 'yes'}
    }
)

Unnamed: 0,age,sum,num_purchases,is_interested
0,32.0,630.0,11.0,no
1,52.0,2730.0,7.0,yes
2,33.0,552.0,2.0,no
3,35.0,409.0,5.0,no
4,46.0,1882.0,2.0,yes
...,...,...,...,...
94,40.0,1088.0,10.0,no
95,31.0,745.0,3.0,no
96,31.0,782.0,4.0,no
97,38.0,793.0,4.0,no


Чтобы изменения вступили в силу, нужно указать атрибут inplace=True

In [9]:
df.replace(
    {'is_interested':
        {0: 'no', 1: 'yes'}
    },
    inplace=True
)

df.head()

Unnamed: 0,age,sum,num_purchases,is_interested
0,32.0,630.0,11.0,no
1,52.0,2730.0,7.0,yes
2,33.0,552.0,2.0,no
3,35.0,409.0,5.0,no
4,46.0,1882.0,2.0,yes


**rename()** позволит изменить названия признака можно с помощью метода rename

In [10]:
df.rename({'sum': 'sum_purchases'})

Unnamed: 0,age,sum,num_purchases,is_interested
0,32.0,630.0,11.0,no
1,52.0,2730.0,7.0,yes
2,33.0,552.0,2.0,no
3,35.0,409.0,5.0,no
4,46.0,1882.0,2.0,yes
...,...,...,...,...
94,40.0,1088.0,10.0,no
95,31.0,745.0,3.0,no
96,31.0,782.0,4.0,no
97,38.0,793.0,4.0,no


Но нужно указывать, какую именно оси хочется изменить, потому что по умолчанию меняются индексы

In [11]:
df.rename({0: '000'})

Unnamed: 0,age,sum,num_purchases,is_interested
000,32.0,630.0,11.0,no
1,52.0,2730.0,7.0,yes
2,33.0,552.0,2.0,no
3,35.0,409.0,5.0,no
4,46.0,1882.0,2.0,yes
...,...,...,...,...
94,40.0,1088.0,10.0,no
95,31.0,745.0,3.0,no
96,31.0,782.0,4.0,no
97,38.0,793.0,4.0,no


Columns - это чтобы поменять названия колонок

In [12]:
df.rename(columns={'sum': 'sum_purchases'})

Unnamed: 0,age,sum_purchases,num_purchases,is_interested
0,32.0,630.0,11.0,no
1,52.0,2730.0,7.0,yes
2,33.0,552.0,2.0,no
3,35.0,409.0,5.0,no
4,46.0,1882.0,2.0,yes
...,...,...,...,...
94,40.0,1088.0,10.0,no
95,31.0,745.0,3.0,no
96,31.0,782.0,4.0,no
97,38.0,793.0,4.0,no


Для применения изменений

In [13]:
df.rename(columns={'sum': 'sum_purchases'}, inplace=True)
df.head()

Unnamed: 0,age,sum_purchases,num_purchases,is_interested
0,32.0,630.0,11.0,no
1,52.0,2730.0,7.0,yes
2,33.0,552.0,2.0,no
3,35.0,409.0,5.0,no
4,46.0,1882.0,2.0,yes


Можно передавать функцию, по которой делать переименования

In [14]:
df.rename(columns=lambda x: x + '_1')

Unnamed: 0,age_1,sum_purchases_1,num_purchases_1,is_interested_1
0,32.0,630.0,11.0,no
1,52.0,2730.0,7.0,yes
2,33.0,552.0,2.0,no
3,35.0,409.0,5.0,no
4,46.0,1882.0,2.0,yes
...,...,...,...,...
94,40.0,1088.0,10.0,no
95,31.0,745.0,3.0,no
96,31.0,782.0,4.0,no
97,38.0,793.0,4.0,no


Метод **set_axis**, который позволяет передать список новых именования признаков (с axis=1)

In [16]:
df.set_axis(['client_age', 'sum_purchases', 'num_purchases', 'is_interested'], axis=1)

Unnamed: 0,client_age,sum_purchases,num_purchases,is_interested
0,32.0,630.0,11.0,no
1,52.0,2730.0,7.0,yes
2,33.0,552.0,2.0,no
3,35.0,409.0,5.0,no
4,46.0,1882.0,2.0,yes
...,...,...,...,...
94,40.0,1088.0,10.0,no
95,31.0,745.0,3.0,no
96,31.0,782.0,4.0,no
97,38.0,793.0,4.0,no


## Методы объединения

**pd.concat()** позволяет приконкатенировать два датафрейма вместе по указанной оси

In [17]:
df1 = pd.DataFrame({
    'col1': [0, 1, 2],
    'col2': ['zero', 'one', 'two']
}, index=[101, 104, 108])

df1

Unnamed: 0,col1,col2
101,0,zero
104,1,one
108,2,two


In [18]:
df2 = pd.DataFrame({
    'col2': ['z', 'c', 'v'],
    'col3': [0, 1, 2],
    'col4': ['zero', 'one', 'two']
}, index=[101, 105, 108])

df2

Unnamed: 0,col2,col3,col4
101,z,0,zero
105,c,1,one
108,v,2,two


Добавление строчек через **axis**

In [19]:
# добавление строчек
pd.concat([df1, df2], axis=0)

Unnamed: 0,col1,col2,col3,col4
101,0.0,zero,,
104,1.0,one,,
108,2.0,two,,
101,,z,0.0,zero
105,,c,1.0,one
108,,v,2.0,two


In [20]:
# добавление по столбцам
pd.concat([df1, df2], axis=1)

Unnamed: 0,col1,col2,col2.1,col3,col4
101,0.0,zero,z,0.0,zero
104,1.0,one,,,
108,2.0,two,v,2.0,two
105,,,c,1.0,one


**append()** позволяет добавлять новые строки в таблицу

In [21]:
df1.append(df2)

  df1.append(df2)


Unnamed: 0,col1,col2,col3,col4
101,0.0,zero,,
104,1.0,one,,
108,2.0,two,,
101,,z,0.0,zero
105,,c,1.0,one
108,,v,2.0,two


Добавление одного объекта

In [24]:
new_data = {'col1': 1136,
            'col2': 0,
            'col3': 3271,
            'col4': 2
            }
            
df1.append(new_data, ignore_index=True)

  df1.append(new_data, ignore_index=True)


Unnamed: 0,col1,col2,col3,col4
0,0,zero,,
1,1,one,,
2,2,two,,
3,1136,0,3271.0,2.0


**merge()**

In [32]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})
df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})

In [37]:
df1

Unnamed: 0,employee,group
0,Bob,Accounting
1,Jake,Engineering
2,Lisa,Engineering
3,Sue,HR


In [38]:
df2

Unnamed: 0,employee,hire_date
0,Lisa,2004
1,Bob,2008
2,Jake,2012
3,Sue,2014


In [33]:
df3 = pd.merge(df1, df2)

In [34]:
df4 = pd.DataFrame({'group': ['Accounting', 'Accounting',
                              'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux',
                               'spreadsheets', 'organization']})

In [36]:
df5 = pd.merge(df1, df2, on = 'employee')
df5

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


In [39]:
df5['group'].unique()

array(['Accounting', 'Engineering', 'HR'], dtype=object)

In [41]:
df5['hire_date'].agg(['min', 'mean', 'max'])

min     2004.0
mean    2009.5
max     2014.0
Name: hire_date, dtype: float64

In [42]:
grouped = df5.groupby('group')
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000213D1B3E460>

In [43]:
grouped.median()['hire_date']

group
Accounting     2008.0
Engineering    2008.0
HR             2014.0
Name: hire_date, dtype: float64

In [45]:
df5.groupby('group')['hire_date'].agg(['sum', 'mean'])

Unnamed: 0_level_0,sum,mean
group,Unnamed: 1_level_1,Unnamed: 2_level_1
Accounting,2008,2008.0
Engineering,4016,2008.0
HR,2014,2014.0
