# Введение в обработку табличных данных и в библиотеку Pandas

Библиотеки в Python представляют собой наборы связанных модулей, объединенных для решения определенных задач или предоставления специфического функционала. Они расширяют базовый функционал Python, позволяя разработчикам использовать готовые решения для различных целей, вместо того чтобы писать все с нуля. Библиотеки могут быть как встроенными в Python, например, os, sys или math, так и сторонними, которые необходимо устанавливать отдельно.

Модули в Python - это файлы с расширением .py, содержащие код на языке Python. Они служат для хранения функций, классов, переменных и других элементов, которые могут быть использованы в других программах. Модули позволяют организовать код, сделать его более читаемым и повторно используемым. Для импорта модуля используется инструкция import, которая позволяет получить доступ к его содержимому в текущей программе.

In [None]:
import pandas as pd # загружаем необходимую библиотеку

Модуль pandas языка Python поддерживает работу с широким спектром форматов файлов, включая:
* Comma-separated values (CSV) - стандартный формат для обмена данными между различными программами.
* XLSX - формат электронных таблиц Microsoft Excel.
* Plain Text (txt) - простой текстовый формат, который может использоваться для хранения небольших объемов данных.
* JSON - формат обмена данными, основанный на JavaScript Object Notation.
* и многие другие....

Для начала давайте откроем наш файл:

In [None]:
df = pd.read_csv('customer_shopping_data.csv') # открываем нужный файл и записываем его в переменную df
df.head() # выводим первые пять строк

Unnamed: 0,invoice_no,customer_id,gender,age,category,quantity,price,payment_method,invoice_date,shopping_mall
0,I138884,C241288,Female,28,Clothing,5,1500.4,Credit Card,5/8/2022,Kanyon
1,I317333,C111565,Male,21,Shoes,3,1800.51,Debit Card,12/12/2021,Forum Istanbul
2,I127801,C266599,Male,20,Clothing,1,300.08,Cash,9/11/2021,Metrocity
3,I173702,C988172,Female,66,Shoes,5,3000.85,Credit Card,16/05/2021,Metropol AVM
4,I337046,C189076,Female,53,Books,4,60.6,Cash,24/10/2021,Kanyon


Описание колонок:

* invoice_no - номер счёта-фактуры
* customer_id - id клиента
* gender - пол
* age - возраст
* category - категория покупок
* quantity - количество
* price - цена
* payment_method - способ оплаты
* invoice_date - дата
* shopping_mall - название ТРЦ

Можно узнать, сколько всего строк и столбцов в нашей таблице:

In [None]:
df.shape # размерность таблички

(99457, 10)

Получается, что всего 99457 строк и 10 столбцов.

Также можно достать более развернутую информацию про наши данные:

In [None]:
df.info() # метод info() возвращает информацию о таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99457 entries, 0 to 99456
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   invoice_no      99457 non-null  object 
 1   customer_id     99457 non-null  object 
 2   gender          99457 non-null  object 
 3   age             99457 non-null  int64  
 4   category        99457 non-null  object 
 5   quantity        99457 non-null  int64  
 6   price           99457 non-null  float64
 7   payment_method  99457 non-null  object 
 8   invoice_date    99457 non-null  object 
 9   shopping_mall   99457 non-null  object 
dtypes: float64(1), int64(2), object(7)
memory usage: 7.6+ MB


Как прочитать таблицу выше?
1. `<class 'pandas.core.frame.DataFrame'>` – Python видит нашу таблицу как объект DataFrame.
2. `RangeIndex: 99457 entries, 0 to 99456` – в таблице 99457 строк с индексами от 0 до 99456. В Python все считается с 0, а не 1, как мы привыкли.
3. `Data columns (total 10 columns):` – в таблице 10 колонок.
4. После выводится небольшая таблица с информацией о названии колонки (`Column`), количестве непустых ячеек в колонке (`Non-Null Count`), а также тип данных (`Dtype`).
5. `dtypes: float64(1), int64(2), object(7)` – сводка по количеству столбцов с разными типами данных.
6. `memory usage: 7.6+ MB` – сколько памяти занимает таблица.

## Обращение к данным в таблице

### Обращение к столбцам

`датафрейм['столбец']` или `датафрейм.столбец` – обращение к одному столбцу

`датафрейм[['столбец 1', 'столбец 2', ...]]` – обращение к нескольким столбцам

In [None]:
df['price'] # данные столбца с ценами

0        1500.40
1        1800.51
2         300.08
3        3000.85
4          60.60
          ...   
99452      58.65
99453      10.46
99454      10.46
99455    4200.00
99456      35.19
Name: price, Length: 99457, dtype: float64

In [None]:
['category', 'price']

In [None]:
df[['category', 'price']] # мини-таблица с категориями товаров и ценами

Unnamed: 0,category,price
0,Clothing,1500.40
1,Shoes,1800.51
2,Clothing,300.08
3,Shoes,3000.85
4,Books,60.60
...,...,...
99452,Souvenir,58.65
99453,Food & Beverage,10.46
99454,Food & Beverage,10.46
99455,Technology,4200.00


## Фильтрация данных

### Фильтрация по столбцу

`датафрейм[датафрейм['столбец'] <оператор сравнения> условие]`

|Оператор|Значение|
|:---:|:---:|
|==|равно|
|!=|не равно|
|>|больше чем|
|<|меньше чем|
|>=|больше или равно чем|
|<=|меньше или равно чем|

In [None]:
5 == 5

True

Найдем покупки, где цена более 3000:

In [None]:
df[df['price'] < 100]

Unnamed: 0,invoice_no,customer_id,gender,age,category,quantity,price,payment_method,invoice_date,shopping_mall
4,I337046,C189076,Female,53,Books,4,60.60,Cash,24/10/2021,Kanyon
6,I121056,C151197,Female,49,Cosmetics,1,40.66,Cash,13/03/2022,Istinye Park
10,I306368,C240286,Female,36,Food & Beverage,2,10.46,Cash,25/12/2022,Metrocity
11,I139207,C191708,Female,29,Books,1,15.15,Credit Card,28/10/2022,Emaar Square Mall
16,I294687,C300786,Male,65,Books,2,30.30,Debit Card,16/01/2021,Metrocity
...,...,...,...,...,...,...,...,...,...,...
99450,I170504,C226974,Female,28,Books,1,15.15,Cash,28/02/2023,Zorlu Center
99452,I219422,C441542,Female,45,Souvenir,5,58.65,Credit Card,21/09/2022,Kanyon
99453,I325143,C569580,Male,27,Food & Beverage,2,10.46,Cash,22/09/2021,Forum Istanbul
99454,I824010,C103292,Male,63,Food & Beverage,2,10.46,Debit Card,28/03/2021,Metrocity


Найдем покупки, совершенные женщинами:

In [None]:
df[df['gender'] == 'Female']

Unnamed: 0,invoice_no,customer_id,gender,age,category,quantity,price,payment_method,invoice_date,shopping_mall
0,I138884,C241288,Female,28,Clothing,5,1500.40,Credit Card,5/8/2022,Kanyon
3,I173702,C988172,Female,66,Shoes,5,3000.85,Credit Card,16/05/2021,Metropol AVM
4,I337046,C189076,Female,53,Books,4,60.60,Cash,24/10/2021,Kanyon
5,I227836,C657758,Female,28,Clothing,5,1500.40,Credit Card,24/05/2022,Forum Istanbul
6,I121056,C151197,Female,49,Cosmetics,1,40.66,Cash,13/03/2022,Istinye Park
...,...,...,...,...,...,...,...,...,...,...
99447,I281214,C288090,Female,37,Toys,3,107.52,Cash,21/02/2021,Metropol AVM
99448,I332105,C231387,Female,65,Shoes,4,2400.68,Credit Card,29/08/2021,Metropol AVM
99450,I170504,C226974,Female,28,Books,1,15.15,Cash,28/02/2023,Zorlu Center
99452,I219422,C441542,Female,45,Souvenir,5,58.65,Credit Card,21/09/2022,Kanyon


### Фильтрация по нескольким условиям

`&` - и \
`|` - или

Все условия должны быть в скобках!

Найдем покупки, совершенные женщинами старше 40 из категории одежды:

In [None]:
df[(df['gender'] == 'Female')|(df['age'] > 40)]

Unnamed: 0,invoice_no,customer_id,gender,age,category,quantity,price,payment_method,invoice_date,shopping_mall
0,I138884,C241288,Female,28,Clothing,5,1500.40,Credit Card,5/8/2022,Kanyon
3,I173702,C988172,Female,66,Shoes,5,3000.85,Credit Card,16/05/2021,Metropol AVM
4,I337046,C189076,Female,53,Books,4,60.60,Cash,24/10/2021,Kanyon
5,I227836,C657758,Female,28,Clothing,5,1500.40,Credit Card,24/05/2022,Forum Istanbul
6,I121056,C151197,Female,49,Cosmetics,1,40.66,Cash,13/03/2022,Istinye Park
...,...,...,...,...,...,...,...,...,...,...
99451,I675411,C513603,Male,50,Toys,5,179.20,Cash,9/10/2021,Metropol AVM
99452,I219422,C441542,Female,45,Souvenir,5,58.65,Credit Card,21/09/2022,Kanyon
99454,I824010,C103292,Male,63,Food & Beverage,2,10.46,Debit Card,28/03/2021,Metrocity
99455,I702964,C800631,Male,56,Technology,4,4200.00,Cash,16/03/2021,Istinye Park


In [None]:
df[(df['gender'] == 'Female')&(df['age'] > 40)&(df['category'] == 'Clothing')]

Unnamed: 0,invoice_no,customer_id,gender,age,category,quantity,price,payment_method,invoice_date,shopping_mall
9,I326945,C283361,Female,60,Clothing,2,600.16,Credit Card,22/08/2021,Kanyon
14,I336189,C555402,Female,67,Clothing,2,600.16,Credit Card,3/6/2022,Kanyon
18,I993048,C218149,Female,46,Clothing,2,600.16,Cash,26/07/2021,Metropol AVM
37,I187519,C450287,Female,59,Clothing,2,600.16,Credit Card,8/7/2022,Metrocity
47,I205366,C241642,Female,43,Clothing,4,1200.32,Debit Card,7/11/2022,Zorlu Center
...,...,...,...,...,...,...,...,...,...,...
99408,I949512,C217355,Female,47,Clothing,2,600.16,Credit Card,21/02/2021,Metrocity
99435,I141871,C298790,Female,62,Clothing,3,900.24,Cash,2/2/2022,Emaar Square Mall
99436,I579905,C265057,Female,57,Clothing,5,1500.40,Cash,27/03/2022,Cevahir AVM
99440,I887161,C137631,Female,58,Clothing,1,300.08,Cash,22/06/2021,Kanyon


In [None]:
df[df['shopping_mall'].str.contains('P')]

Unnamed: 0,invoice_no,customer_id,gender,age,category,quantity,price,payment_method,invoice_date,shopping_mall
6,I121056,C151197,Female,49,Cosmetics,1,40.66,Cash,13/03/2022,Istinye Park
25,I195396,C285161,Male,51,Toys,2,71.68,Debit Card,16/05/2021,Istinye Park
29,I209744,C251229,Male,29,Cosmetics,3,121.98,Credit Card,29/04/2021,Istinye Park
51,I202367,C317478,Female,41,Books,3,45.45,Cash,24/02/2023,Istinye Park
52,I664787,C237330,Female,53,Cosmetics,2,81.32,Credit Card,12/1/2023,Istinye Park
...,...,...,...,...,...,...,...,...,...,...
99425,I584546,C764488,Female,39,Toys,2,71.68,Debit Card,26/09/2022,Istinye Park
99426,I126160,C145665,Female,19,Shoes,1,600.17,Debit Card,8/1/2022,Istinye Park
99429,I208840,C219131,Female,58,Toys,1,35.84,Credit Card,18/02/2023,Istinye Park
99442,I105959,C131810,Female,45,Clothing,4,1200.32,Debit Card,1/2/2021,Istinye Park


Если хочется, то можно дальше использовать именно отфильтрованные данные:

In [None]:
df2 = df[(df['gender'] == 'Female')&(df['age'] > 40)&(df['category'] == 'Clothing')]

## Сортировка данных

### По одному условию

`датафрейм.sort_values('столбец')` – сортировка по одному столбцу (от наименьшего к наибольшему)
`датафрейм.sort_values('столбец', ascending=False)` – сортировка по одному столбцу (от наибольшего к наименьшему)

In [None]:
df.sort_values('price')

Unnamed: 0,invoice_no,customer_id,gender,age,category,quantity,price,payment_method,invoice_date,shopping_mall
69828,I296894,C778937,Female,24,Food & Beverage,1,5.23,Debit Card,5/6/2022,Mall of Istanbul
76187,I276335,C281076,Female,52,Food & Beverage,1,5.23,Debit Card,8/3/2022,Metrocity
90918,I102783,C816576,Female,56,Food & Beverage,1,5.23,Cash,5/2/2023,Istinye Park
41259,I201878,C310192,Male,57,Food & Beverage,1,5.23,Debit Card,12/6/2021,Emaar Square Mall
28956,I243737,C118327,Male,54,Food & Beverage,1,5.23,Cash,11/11/2022,Metropol AVM
...,...,...,...,...,...,...,...,...,...,...
57523,I321312,C286227,Male,21,Technology,5,5250.00,Credit Card,31/12/2022,Forum Istanbul
41985,I117110,C157996,Female,67,Technology,5,5250.00,Credit Card,14/01/2023,Metropol AVM
96366,I216069,C491682,Male,69,Technology,5,5250.00,Cash,3/10/2021,Kanyon
85440,I573681,C772125,Female,47,Technology,5,5250.00,Cash,30/07/2022,Viaport Outlet


In [None]:
df.sort_values(['age', 'price'], ascending = [True, False])

Unnamed: 0,invoice_no,customer_id,gender,age,category,quantity,price,payment_method,invoice_date,shopping_mall
1469,I857861,C272918,Male,18,Technology,5,5250.00,Cash,30/04/2022,Mall of Istanbul
11507,I161897,C131511,Female,18,Technology,5,5250.00,Cash,27/12/2021,Viaport Outlet
20396,I268105,C312131,Male,18,Technology,5,5250.00,Credit Card,29/04/2021,Mall of Istanbul
26836,I246625,C311215,Male,18,Technology,5,5250.00,Cash,29/11/2022,Cevahir AVM
28087,I129827,C599136,Female,18,Technology,5,5250.00,Cash,28/12/2021,Mall of Istanbul
...,...,...,...,...,...,...,...,...,...,...
97251,I119564,C218137,Female,69,Food & Beverage,1,5.23,Debit Card,19/07/2021,Metrocity
98206,I147947,C201510,Female,69,Food & Beverage,1,5.23,Credit Card,15/08/2022,Mall of Istanbul
98373,I148114,C277250,Male,69,Food & Beverage,1,5.23,Cash,9/5/2022,Mall of Istanbul
98464,I245951,C418711,Female,69,Food & Beverage,1,5.23,Cash,20/11/2022,Mall of Istanbul


## Простейшая аналитика


### Немного про категориальные переменные:

Узнаем, какие есть уникальные категории покупок:

In [None]:
df['category'].unique()

array(['Clothing', 'Shoes', 'Books', 'Cosmetics', 'Food & Beverage',
       'Toys', 'Technology', 'Souvenir'], dtype=object)

Теперь узнаем, какие из них встречаются чаще, а какие реже:

In [None]:
df['category'].value_counts()

category
Clothing           34487
Cosmetics          15097
Food & Beverage    14776
Toys               10087
Shoes              10034
Souvenir            4999
Technology          4996
Books               4981
Name: count, dtype: int64

### И про числовые:

Минимальная цена:

In [None]:
df['price'].min()

5.23

Средняя цена:

In [None]:
df['price'].mean()

689.2563209226097

Давайте посмотрим на описательные статистики с помощью метода `.describe()`.

* **count** – число непустых (заполненных) значений
* **mean** – среднее арифметическое
* **std** – стандартное отклонение (показатель разброса данных относительно среднего значения)
* **min** – минимальное значение
* **max** – максимальное значение
* **25%** – нижний квартиль (значение, которое 25% значений не превышают)
* **50%** – медиана (значение, которое 50% значений не превышают)
* **75%** – верхний квартиль (значение, которое 75% значений не превышают)

In [None]:
df['price'].describe()

count    99457.000000
mean       689.256321
std        941.184567
min          5.230000
25%         45.450000
50%        203.300000
75%       1200.320000
max       5250.000000
Name: price, dtype: float64

А если по отдельным категориям?

In [None]:
df.groupby('category')['price'].mean()

category
Books                45.568621
Clothing            901.084021
Cosmetics           122.448626
Food & Beverage      15.671948
Shoes              1807.388568
Souvenir             34.894345
Technology         3156.935548
Toys                107.733185
Name: price, dtype: float64