# Робота з табличними даними в Pandas



1. #### Огляд та призначення Pandas
2. #### Встановлення та настроювання Pandas
3. #### Об'єкти Series та DataFrame
4. #### Статистична обробка даних в Pandas

## 1. Огляд та призначення Pandas

__pandas__ — [програмна бібліотека, написана для мови програмування Python для маніпулювання даними та їхнього аналізу](https://uk.wikipedia.org/wiki/Pandas)

<table>
  <tr>
      <td><a href="https://pandas.pydata.org"><img src="icon_pandas.png" width=200 /></a></td>
      <td><a href="https://pypi.org/project/pandas2/"><img src="icon_pypi.png" width=200 /></a></td>
      <td><a href="https://github.com/pandas-dev/pandas"><img src="icon_github.png" width=200 /></a></td>
  </tr>
</table>

__ПЕРЕВАГИ__:
- Добре представлення даних
- Мінімальне використання програмного коду
- Ефективна обробка великих об'ємів даних
- Багатофункціональність
- Природня інтеграція з Python
- Легкість в настроювані

__НЕДОЛІКИ__:
- Занадто складний синтаксис
- Високий барєр входження
- Бідна документація

## 2. Встановлення та настроювання Pandas

- В [Anaconda](https://www.anaconda.com) __Pandas__ встановлюється за замовчанням.
- З офіційного [сайту](https://pandas.pydata.org) 
- Ручна инсталяция включає:
    - встановлення [__numpy__](https://numpy.org)
    - встановлення [__pandas__](https://pypi.org/project/pandas2/)
 

In [2]:
!pip list | grep pand

pandas                            1.5.3
pandocfilters                     1.5.0


In [1]:
# активація pandas
import pandas as pd

In [3]:
type(pd)

module

In [4]:
len(dir(pd))

144

In [5]:
print(pd.__doc__)


pandas - a powerful data analysis and manipulation library for Python

**pandas** is a Python package providing fast, flexible, and expressive data
structures designed to make working with "relational" or "labeled" data both
easy and intuitive. It aims to be the fundamental high-level building block for
doing practical, **real world** data analysis in Python. Additionally, it has
the broader goal of becoming **the most powerful and flexible open source data
analysis / manipulation tool available in any language**. It is already well on
its way toward this goal.

Main Features
-------------
Here are just a few of the things that pandas does well:

  - Easy handling of missing data in floating point as well as non-floating
    point data.
  - Size mutability: columns can be inserted and deleted from DataFrame and
    higher dimensional objects
  - Automatic and explicit data alignment: objects can be explicitly aligned
    to a set of labels, or the user can simply ignore the labels and

## 3. Об'єкти Series та DataFrame

Два __фундаментальних__ об'єкти:
1. [Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html) - це об'єкт бібліотеки pandas, спроектований для представлення __одномірних__ структур даних, схожих на масиви, але з додатковими можливостями.
2. [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) - це __таблична__ структура даних, що нагадує таблиці Microsoft Excel.

Деякі додаткові(службові) об'єкти:
- [Index](https://pandas.pydata.org/docs/reference/api/pandas.Index.html) - використовується для швидкого доступу до елементів даних
- [array](https://pandas.pydata.org/docs/reference/arrays.html) - надбудова над __numpy array__ для роботи з датами та часом
- [MultiIndex](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.MultiIndex.html) - для роботи з три та більше вимірними таблицями

- ...

### 3.1 Об'єкт Series
1. одновимірний масив даних
2. містить тільки один тип даних, наприклад, тільки __int__, тільки __str__, тільки об'єкт певного типу тощо


![image.png](attachment:image.png)

#### Створення

In [10]:
# Створення об'єкта Series з списка
names = pd.Series(["Іванов", "Петров", "Сидоров"]) 
print(names)
arr = np.arange(5, dtype='float')
numb = pd.Series(arr)
print(), print(numb)

0     Іванов
1     Петров
2    Сидоров
dtype: object

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
dtype: float64


(None, None)

In [11]:
# Створення з словника
tn = {
    "Іванов" : 123,
    "Петров" : 345
}
ser_tn = pd.Series(tn)
print(ser_tn, "\n", type(ser_tn))

Іванов    123
Петров    345
dtype: int64 
 <class 'pandas.core.series.Series'>


#### Атрибути  об'єкта Series

In [12]:
len(dir(ser_tn))

421

In [14]:
print(ser_tn) 
print("\nзначення", ser_tn.values, type(ser_tn.values))
print("\nіндекси", ser_tn.index, type(ser_tn.index))
ser_tn.index[0]

Іванов    123
Петров    345
dtype: int64

значення [123 345] <class 'numpy.ndarray'>

індекси Index(['Іванов', 'Петров'], dtype='object') <class 'pandas.core.indexes.base.Index'>


'Іванов'

#### Методи

In [16]:
ser_tn

Іванов    123
Петров    345
dtype: int64

In [18]:
# перелік вмісту: items()
tuple(ser_tn.items())[0]

('Іванов', 123)

In [19]:
# min, max, sum ...
print(ser_tn.min())
print(ser_tn.max())
print(ser_tn.mean())

123
345
234.0


In [23]:
# створення Series з окремих об'єктів
datas = [222, 444, 333]
indexes = ("b", "a", "c")
ser = pd.Series(data=datas, index=indexes)
print(ser.head())
print(), print(list(ser.items()))
ser['a']

b    222
a    444
c    333
dtype: int64

[('b', 222), ('a', 444), ('c', 333)]


444

In [24]:
# сортування складових частин
print(sorted(ser.keys()))
print(sorted(ser.values))

# сортування об'єкта в цілому 
print(ser.sort_index())
print(ser.sort_values())

['a', 'b', 'c']
[222, 333, 444]
a    444
b    222
c    333
dtype: int64
b    222
c    333
a    444
dtype: int64


In [26]:
ser

b    222
a    444
c    333
dtype: int64

In [25]:
# перевірки вмісту (інспекція)
print(ser.is_unique)
print(ser.is_monotonic_increasing)
print()
print(ser.isin([444, 222]))

True
False

b     True
a     True
c    False
dtype: bool


In [27]:
# робота з індексами
ser_num = pd.Series(np.random.rand(1000))
print(ser_num.tail(5))
print(), print(ser_num[300:305])

995    0.040249
996    0.879300
997    0.155666
998    0.672419
999    0.685208
dtype: float64

300    0.867740
301    0.196614
302    0.508618
303    0.088051
304    0.746230
dtype: float64


(None, None)

### 3.2 Об'єкт DataFrame

__DataFrame__ складається з упорядкованої колекції колонок, кожна з яких містить значення різних типів (числове, рядкове, булеве тощо).

Має два індекси - для рядків та для колонок

[Докладніше про DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

![image-2.png](attachment:image-2.png)

In [28]:
# pd.DataFrame() - конструктор 
df = pd.DataFrame()
print(type(df))
len(dir(df))

<class 'pandas.core.frame.DataFrame'>


438

#### Створення DataFrame

In [29]:
# з ітерируємого об'єкту(список, словник, кортеж і т.п.)
lst = [[1, 2, 3],
       ['a', 'b', 'c']
      ]
df = pd.DataFrame(lst)
print(df)

   0  1  2
0  1  2  3
1  a  b  c


In [30]:
df?

In [33]:
# з додатковими можливостями
lst = [[1, 2, 3], ['a', 'b', 'c']]
df = pd.DataFrame(data=lst, columns=('колонка 1', 'колонка 1', 'колонка 3'),
                  index=[10,10])
df

Unnamed: 0,колонка 1,колонка 1.1,колонка 3
10,1,2,3
10,a,b,c


In [38]:
# з словника
dct = {'a':['1','2','3'], 'b':[10,20,30], 'c':np.arange(3)}
df = pd.DataFrame(dct)
df

Unnamed: 0,a,b,c
0,1,10,0
1,2,20,1
2,3,30,2


In [39]:
pd.read_csv?

In [44]:
# створення з файлу
# with open("work_file.csv", "w")as tf:
#     tf.writelines(["вася,", "2005\n", "петя,", "2001\n", "галя,", "2002"])
#     tf.seek(0)

df = pd.read_csv("work_file.csv", names=["ім'я", "рік"])
df

Unnamed: 0,ім'я,рік
0,вася,2005
1,петя,2001
2,галя,2002


#### Модифікація DataFrame

In [45]:
df

Unnamed: 0,ім'я,рік
0,вася,2005
1,петя,2001
2,галя,2002


In [46]:
# додавання пустої колонки
df['місто'] = ''
df

Unnamed: 0,ім'я,рік,місто
0,вася,2005,
1,петя,2001,
2,галя,2002,


In [52]:
# додавання заповненої колонки
df['стать'] = ['чол', 'чол', 'жін']
df

Unnamed: 0,ім'я,рік,місто,стать
0,вася,2005,,чол
1,петя,2001,,чол
2,галя,2002,,жін


In [54]:
df

Unnamed: 0,ім'я,рік,місто,стать
0,вася,2005,,чол
1,петя,2001,,чол
2,галя,2002,,жін


In [57]:
# модифікація вмісту  по індексу `iloc`
df.iloc[0,2] = 'полтава'
# модифікація вмісту по назві `loc`
df.loc[1, 'місто'] = 'пирятин'
df

Unnamed: 0,ім'я,рік,місто,стать
0,вася,2005.0,полтава,чол
1,петя,2001.0,пирятин,чол
2,галя,2002.0,,жін
c,,,пирятин,
1,,,пирятин,


#### Читання/доступ до об'єктів DataFrame

In [58]:
df


Unnamed: 0,ім'я,рік,місто,стать
0,вася,2005.0,полтава,чол
1,петя,2001.0,пирятин,чол
2,галя,2002.0,,жін
c,,,пирятин,
1,,,пирятин,


In [59]:
df

Unnamed: 0,ім'я,рік,місто,стать
0,вася,2005.0,полтава,чол
1,петя,2001.0,пирятин,чол
2,галя,2002.0,,жін
c,,,пирятин,
1,,,пирятин,


In [60]:
# доступ до рядка по індексу`iloc`
print(df.iloc[0])
print(type(df.iloc[0]))

ім'я        вася
рік       2005.0
місто    полтава
стать        чол
Name: 0, dtype: object
<class 'pandas.core.series.Series'>


In [None]:
df

In [61]:
# до інтервалу рядків
df.iloc[0:2]

Unnamed: 0,ім'я,рік,місто,стать
0,вася,2005.0,полтава,чол
1,петя,2001.0,пирятин,чол


In [63]:
df.loc[:, "рік"]

0    2005.0
1    2001.0
2    2002.0
c       NaN
1       NaN
Name: рік, dtype: float64

In [62]:
# доступ до колонки за ім'ям
print(df["рік"])

0    2005.0
1    2001.0
2    2002.0
c       NaN
1       NaN
Name: рік, dtype: float64


In [66]:
# відбір рядків по умові
# df['стать'] == 'чол' # - не вірно!
cond = df['стать'] == 'чол'
df[cond]

Unnamed: 0,ім'я,рік,місто,стать
0,вася,2005.0,полтава,чол
1,петя,2001.0,пирятин,чол


In [67]:
df.loc[df['рік'] > 2001]

Unnamed: 0,ім'я,рік,місто,стать
0,вася,2005.0,полтава,чол
2,галя,2002.0,,жін


In [68]:
# відбір рядків по комплексній умові
filt = (df['рік'] > 2000) & (df['місто'] != '')
df[filt]

Unnamed: 0,ім'я,рік,місто,стать
0,вася,2005.0,полтава,чол
1,петя,2001.0,пирятин,чол


In [69]:
# відбір рядків та деяких колонок
filt_row = (df['рік'] > 2000) & (df['місто'] != '')
df.loc[filt_row, ["ім'я", "стать"]]

Unnamed: 0,ім'я,стать
0,вася,чол
1,петя,чол


#### інспектування DataFrame

In [70]:
# Огляд структури 
print(df)
print(df.dtypes)
print(df.index)
print(df.columns)
print(df.axes)
print(df.shape)

   ім'я     рік    місто стать
0  вася  2005.0  полтава   чол
1  петя  2001.0  пирятин   чол
2  галя  2002.0            жін
c   NaN     NaN  пирятин   NaN
1   NaN     NaN  пирятин   NaN
ім'я      object
рік      float64
місто     object
стать     object
dtype: object
Index([0, 1, 2, 'c', '1'], dtype='object')
Index(['ім'я', 'рік', 'місто', 'стать'], dtype='object')
[Index([0, 1, 2, 'c', '1'], dtype='object'), Index(['ім'я', 'рік', 'місто', 'стать'], dtype='object')]
(5, 4)


In [72]:
# загальна характеристика
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 0 to 1
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ім'я    3 non-null      object 
 1   рік     3 non-null      float64
 2   місто   5 non-null      object 
 3   стать   3 non-null      object 
dtypes: float64(1), object(3)
memory usage: 372.0+ bytes


NoneType

In [74]:
# дескриптивна статистика в розрізі типів даних в колонках
# print(df["ім\'я"].describe())
print(df.describe())

               рік
count     3.000000
mean   2002.666667
std       2.081666
min    2001.000000
25%    2001.500000
50%    2002.000000
75%    2003.500000
max    2005.000000


## 4. Статистична обробка даних в Pandas

In [77]:
# https://diia.data.gov.ua
data_path = "./DATA/"
stolen_cars = pd.read_json(data_path + "carswanted.json")
stolen_cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74437 entries, 0 to 74436
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   organunit           74437 non-null  object
 1   insertdate          74437 non-null  object
 2   brandmodel          74437 non-null  object
 3   cartype             74437 non-null  object
 4   color               74437 non-null  object
 5   vehiclenumber       74437 non-null  object
 6   bodynumber          74437 non-null  object
 7   chassisnumber       74437 non-null  object
 8   enginenumber        74437 non-null  object
 9   illegalseizuredate  74437 non-null  object
dtypes: object(10)
memory usage: 5.7+ MB


#### Попередній аналіз

1. Оцінка таблиці "ззовні"
2. Отримання загальної інформації про поля та формат вцілому
3. Перегляд елементарних статистик


In [78]:
stolen_cars.head(3)

Unnamed: 0,organunit,insertdate,brandmodel,cartype,color,vehiclenumber,bodynumber,chassisnumber,enginenumber,illegalseizuredate
0,ОБУХІВСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В КИЇВСЬКІЙ ОБ...,2021-05-14T15:00:30.000+03:00,BMW - X5,Легковий автотранспорт,ЧОРНИЙ,АІ9055НТ,WBAZW41050L844526,,N57D30A30818330,2021-05-12T03:00:00.000+03:00
1,ЖИТОМИРСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ЖИТОМИРСЬКІ...,2021-06-04T18:15:39.000+03:00,PEUGEOT - 307,Легковий автотранспорт,СІРИЙ,ВС4073НК,VF33CRHYB83212421,,10DYRC3000943,2021-06-04T03:00:00.000+03:00
2,СЛОВ’ЯНСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ДОНЕЦЬКІЙ ОБЛ.,2021-06-20T12:52:58.000+03:00,RENAULT - MEGANE 1.4,Легковий автотранспорт,СИНІЙ,NОS14213,VF1KA0W0522540597,,,2021-06-19T03:00:00.000+03:00


In [79]:
# розмір таблиці
stolen_cars.shape

(74437, 10)

In [80]:
stolen_cars.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 74437 entries, 0 to 74436
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   organunit           74437 non-null  object
 1   insertdate          74437 non-null  object
 2   brandmodel          74437 non-null  object
 3   cartype             74437 non-null  object
 4   color               74437 non-null  object
 5   vehiclenumber       74437 non-null  object
 6   bodynumber          74437 non-null  object
 7   chassisnumber       74437 non-null  object
 8   enginenumber        74437 non-null  object
 9   illegalseizuredate  74437 non-null  object
dtypes: object(10)
memory usage: 5.7+ MB


In [81]:
# список найменувань стовпчиків
stolen_cars.columns

Index(['organunit', 'insertdate', 'brandmodel', 'cartype', 'color',
       'vehiclenumber', 'bodynumber', 'chassisnumber', 'enginenumber',
       'illegalseizuredate'],
      dtype='object')

In [82]:
# типи автомобілів
stolen_cars.cartype.unique()

array(['Легковий автотранспорт', 'Мотоцикл', 'Вантажний автотранспорт',
       'Мопед', 'Тракторний причіп', 'Автопричіп', 'Моторолер',
       'Автобус (мікроавтобус)', 'Трактор'], dtype=object)

In [83]:
# марки автомобілів
stolen_cars.brandmodel.unique()

array(['BMW - X5', 'PEUGEOT - 307', 'RENAULT - MEGANE 1.4', ...,
       'Діон - 250 СВ', 'MERCEDES-BENZ - GLA 200 CDI',
       'MERCEDES-BENZ - G350'], dtype=object)

In [84]:
stolen_cars.describe()

Unnamed: 0,organunit,insertdate,brandmodel,cartype,color,vehiclenumber,bodynumber,chassisnumber,enginenumber,illegalseizuredate
count,74437,74437,74437,74437,74437,74437.0,74437.0,74437.0,74437.0,74437
unique,802,34780,18596,9,242,63308.0,50948.0,26816.0,47142.0,8958
top,ДАРНИЦЬКЕ УПРАВЛІННЯ ПОЛІЦІЇ ГУНП В М. КИЄВІ,2007-06-22T03:00:00.000+03:00,HONDA,Легковий автотранспорт,ЧОРНИЙ,,,,,2014-04-28T03:00:00.000+03:00
freq,2031,310,1147,43054,12335,10834.0,22996.0,47046.0,26678.0,835


#### Сортування та впорядкування таблиць

__Два методи__:
- [`sort_index`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html)
- [`sort_values`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [85]:
stolen_cars.head(5)

Unnamed: 0,organunit,insertdate,brandmodel,cartype,color,vehiclenumber,bodynumber,chassisnumber,enginenumber,illegalseizuredate
0,ОБУХІВСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В КИЇВСЬКІЙ ОБ...,2021-05-14T15:00:30.000+03:00,BMW - X5,Легковий автотранспорт,ЧОРНИЙ,АІ9055НТ,WBAZW41050L844526,,N57D30A30818330,2021-05-12T03:00:00.000+03:00
1,ЖИТОМИРСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ЖИТОМИРСЬКІ...,2021-06-04T18:15:39.000+03:00,PEUGEOT - 307,Легковий автотранспорт,СІРИЙ,ВС4073НК,VF33CRHYB83212421,,10DYRC3000943,2021-06-04T03:00:00.000+03:00
2,СЛОВ’ЯНСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ДОНЕЦЬКІЙ ОБЛ.,2021-06-20T12:52:58.000+03:00,RENAULT - MEGANE 1.4,Легковий автотранспорт,СИНІЙ,NОS14213,VF1KA0W0522540597,,,2021-06-19T03:00:00.000+03:00
3,ОБОЛОНСЬКЕ УПРАВЛІННЯ ПОЛІЦІЇ ГУНП В М. КИЄВІ,2021-07-02T16:00:22.000+03:00,MITSUBISHI - OUTLANDER,Легковий автотранспорт,ЧОРНИЙ,КА4816ВВ,JA4AZ3A39GZ042736,,4J12RM0771,2021-07-02T03:00:00.000+03:00
4,ЧЕРНІГІВСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ЧЕРНІГІВСЬ...,2021-07-19T18:19:03.000+03:00,SPARK - SP80S-15,Мотоцикл,ЧЕРВОНИЙ,СВ2304АВ,,L2BB9NCC9HB420061,1P47QMD91703169,2021-07-19T03:00:00.000+03:00


In [86]:
# впорядкування по стовпчику/рядку
stolen_cars.sort_index(axis=1).head(3)

Unnamed: 0,bodynumber,brandmodel,cartype,chassisnumber,color,enginenumber,illegalseizuredate,insertdate,organunit,vehiclenumber
0,WBAZW41050L844526,BMW - X5,Легковий автотранспорт,,ЧОРНИЙ,N57D30A30818330,2021-05-12T03:00:00.000+03:00,2021-05-14T15:00:30.000+03:00,ОБУХІВСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В КИЇВСЬКІЙ ОБ...,АІ9055НТ
1,VF33CRHYB83212421,PEUGEOT - 307,Легковий автотранспорт,,СІРИЙ,10DYRC3000943,2021-06-04T03:00:00.000+03:00,2021-06-04T18:15:39.000+03:00,ЖИТОМИРСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ЖИТОМИРСЬКІ...,ВС4073НК
2,VF1KA0W0522540597,RENAULT - MEGANE 1.4,Легковий автотранспорт,,СИНІЙ,,2021-06-19T03:00:00.000+03:00,2021-06-20T12:52:58.000+03:00,СЛОВ’ЯНСЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ДОНЕЦЬКІЙ ОБЛ.,NОS14213


In [87]:
# сортування по показчиках
stolen_cars.sort_values(['cartype', 'color'])

Unnamed: 0,organunit,insertdate,brandmodel,cartype,color,vehiclenumber,bodynumber,chassisnumber,enginenumber,illegalseizuredate
2510,СОЛОМ’ЯНСЬКЕ УПРАВЛІННЯ ПОЛІЦІЇ ГУНП В М. КИЄВІ,2002-09-25T03:00:00.000+03:00,VOLKSWAGEN,Автобус (мікроавтобус),067,,WV2ZZZ70Z2H046548,,ACV318988,2002-09-24T03:00:00.000+03:00
39826,ЗАЛІЗНИЧНИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП У ЛЬВІВСЬКІЙ О...,1996-04-19T03:00:00.000+03:00,VOLKSWAGENEUROVAN,Автобус (мікроавтобус),БEЛЫЙ,С662306,WU2ZZZ70ZSH111270,,AAC059750,1996-04-18T03:00:00.000+03:00
620,СЄВЄРОДОНЕЦЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ЛУГАНСЬК...,2021-11-09T11:08:55.000+02:00,MERCEDES-BENZ - SPRINTER 311 C,Автобус (мікроавтобус),БІЛИЙ,ВВ4443СР,WDB9066331S122317,,64698551249936,2021-11-08T02:00:00.000+02:00
621,СЄВЄРОДОНЕЦЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ЛУГАНСЬК...,2021-11-09T11:11:11.000+02:00,VOLKSWAGEN - CRAFTER,Автобус (мікроавтобус),БІЛИЙ,ВВ5222СТ,WV1ZZZ2EZ86014169,,,2021-11-08T02:00:00.000+02:00
622,СЄВЄРОДОНЕЦЬКИЙ ВІДДІЛ ПОЛІЦІЇ ГУНП В ЛУГАНСЬК...,2021-11-09T11:13:46.000+02:00,MERCEDES-BENZ - SPRINTER 316 C,Автобус (мікроавтобус),БІЛИЙ,ВВ4555СН,WDB9036621R597126,,61298150846955,2021-11-08T02:00:00.000+02:00
...,...,...,...,...,...,...,...,...,...,...
62616,ЛИМАНСЬКЕ ВІДДІЛЕННЯ ПОЛІЦІЇ СЛОВ’ЯНСЬКОГО ВІД...,2011-04-08T03:00:00.000+03:00,ПТ - 2ПТС4,Тракторний причіп,ЧЕРВОНИЙ,06604ТМ,,0,,2011-04-08T03:00:00.000+03:00
72032,КОСТЯНТИНІВСЬКЕ ВІДДІЛЕННЯ ПОЛІЦІЇ БАХМУТСЬКОГ...,2020-01-16T19:48:28.000+02:00,BODEX - KIS 3W,Тракторний причіп,ЧЕРВОНИЙ,АН6465ХТ,,SU90333GH8SBU1713,,2014-11-11T02:00:00.000+02:00
12989,ПЕРШОТРАВНЕВИЙ РВ В М.ЧЕРНІВЦІ УМВСУ В ЧЕРНІВЕ...,2004-08-28T03:00:00.000+03:00,ПГC4,Тракторний причіп,ЧЕРНЫЙ,4685ЧС,,001197,,2004-08-20T03:00:00.000+03:00
58891,ТАЛАЛАЇВСЬКЕ ВІДДІЛЕННЯ ПОЛІЦІЇ ПРИЛУЦЬКОГО ВІ...,2015-01-26T02:00:00.000+02:00,2ПТС-4,Тракторний причіп,ЧОРНИЙ,8170ФЮ,,300468,,2014-09-27T03:00:00.000+03:00


#### Групування, узагальненя та агрегація даних

1. [`groupby`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)
2. [`pivot-table`](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html)
3. [`crosstab`](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html)

Cхема роботи __groupby__
![image.png](attachment:image.png)

In [89]:
# Групування по типу автомобілів з підрахунком кількості
by_types = stolen_cars.groupby(by=['cartype'])['cartype'].count()
by_types

cartype
Автобус (мікроавтобус)      1052
Автопричіп                  1884
Вантажний автотранспорт     4659
Легковий автотранспорт     43054
Мопед                      10974
Моторолер                   2747
Мотоцикл                    9059
Трактор                      925
Тракторний причіп             83
Name: cartype, dtype: int64

In [92]:
stolen_cars.groupby('cartype')['cartype'].agg(['count'])

Unnamed: 0_level_0,count
cartype,Unnamed: 1_level_1
Автобус (мікроавтобус),1052
Автопричіп,1884
Вантажний автотранспорт,4659
Легковий автотранспорт,43054
Мопед,10974
Моторолер,2747
Мотоцикл,9059
Трактор,925
Тракторний причіп,83


In [93]:
# елементарні статистики виборки
by_types.describe()

count        9.000000
mean      8270.777778
std      13579.673006
min         83.000000
25%       1052.000000
50%       2747.000000
75%       9059.000000
max      43054.000000
Name: cartype, dtype: float64

Зведені таблиці __pivot_table__
![image.png](attachment:image.png)

In [94]:
color_by_type = stolen_cars.pivot_table(index='color', columns='cartype',  
                        values = 'insertdate', aggfunc='count',)
color_by_type.tail(14)

cartype,Автобус (мікроавтобус),Автопричіп,Вантажний автотранспорт,Легковий автотранспорт,Мопед,Моторолер,Мотоцикл,Трактор,Тракторний причіп
color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
ФИОЛЕТОВЫЙ,,,,3.0,1.0,,1.0,,
ЧEPHO KPACHЫЙ,,,,,,,1.0,,
ЧEPHЫЙ,,1.0,,13.0,2.0,,61.0,,
ЧЕPHЫЙ,,,,,,,1.0,,
ЧЕРHЫЙ,,,,9.0,,,,,
ЧЕРВОНИЙ,53.0,118.0,283.0,4195.0,2076.0,428.0,2457.0,69.0,6.0
ЧЕРНО БЕЛЫЙ,,,,,,,1.0,,
ЧЕРНО-БЕЛЫЙ,,,,,1.0,,,,
ЧЕРНО-КРАСНЫЙ,,,,,1.0,,,,
ЧЕРНЫЙ,,,1.0,12.0,124.0,57.0,223.0,1.0,1.0


In [None]:
import pivottablejs as pv

In [None]:
pv.pivot_ui(stolen_cars)

In [95]:
# деяка стилізація та форматування табліць
# https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html
color_by_type.tail(7).style.format("{:.0f}", na_rep = "")

cartype,Автобус (мікроавтобус),Автопричіп,Вантажний автотранспорт,Легковий автотранспорт,Мопед,Моторолер,Мотоцикл,Трактор,Тракторний причіп
color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
ЧЕРНО-БЕЛЫЙ,,,,,1.0,,,,
ЧЕРНО-КРАСНЫЙ,,,,,1.0,,,,
ЧЕРНЫЙ,,,1.0,12.0,124.0,57.0,223.0,1.0,1.0
ЧОРНИЙ,14.0,57.0,49.0,6665.0,3288.0,703.0,1548.0,9.0,2.0
ЧОРНО-СЕРЫЙ,,,,,1.0,,,,
ЧОРНЫЙ,,,,,1.0,2.0,3.0,,
ЯРКО-СИНИЙ,,,,,,,1.0,,


In [None]:
pd.crosstab?

# ПИТАННЯ ? 