# Робота з табличними даними в Pandas



1. #### Огляд та призначення Pandas
2. #### Встановлення та настроювання Pandas
3. #### Об'єкти Series та DataFrame
4. #### Статистична обробка даних в Pandas

## 1. Огляд та призначення Pandas

__pandas__ — [програмна бібліотека, написана для мови програмування Python для маніпулювання даними та їхнього аналізу](https://uk.wikipedia.org/wiki/Pandas)

<table style= "border-width: 5px">
  <tr>
      <td><a href="https://pandas.pydata.org"><img src="attachment:image.png" width=200 /></a></td>
      <td><a href="https://pypi.org/project/pandas2/"><img src="attachment:image-3.png" width=200 /></a></td>
      <td><a href="https://github.com/pandas-dev/pandas"><img src="attachment:image-2.png" width=200 /></a></td>
  </tr>
</table>


__ПЕРЕВАГИ__:
- Добре представлення даних
- Мінімальне використання програмного коду
- Ефективна обробка великих об'ємів даних
- Багатофункціональність
- Природня інтеграція з Python
- Легкість в настроювані

__НЕДОЛІКИ__:
- Занадто складний синтаксис
- Високий барєр входження
- Бідна документація

## 2. Встановлення та настроювання Pandas

- В [Anaconda](https://www.anaconda.com) __Pandas__ встановлюється за замовчанням.
- З офіційного [сайту](https://pandas.pydata.org) 
- Ручна инсталяция включає:
    - встановлення [__numpy__](https://numpy.org)
    - встановлення [__pandas__](https://pypi.org/project/pandas2/)
 

In [None]:
# активація pandas
import pandas as pd

In [None]:
print(pd.__doc__)

## 3. Об'єкти Series та DataFrame

Два __фундаментальних__ об'єкти:
1. [Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html) - це об'єкт бібліотеки pandas, спроектований для представлення __одномірних__ структур даних, схожих на масиви, але з додатковими можливостями.
2. [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html) - це __таблична__ структура даних, що нагадує таблиці Microsoft Excel.

Деякі додаткові(службові) об'єкти:
- [Index](https://pandas.pydata.org/docs/reference/api/pandas.Index.html) - використовується для швидкого доступу до елементів даних
- [array](https://pandas.pydata.org/docs/reference/arrays.html) - надбудова над __numpy array__ для роботи з датами та часом
- [MultiIndex](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.MultiIndex.html) - для роботи з три та більше вимірними таблицями

- ...

### 3.1 Об'єкт Series
1. одновимірний масив даних
2. містить тільки один тип даних, наприклад, тільки __int__, тільки __str__, тільки об'єкт певного типу тощо


![image.png](attachment:image.png)

#### Створення

In [None]:
# Створення об'єкта Series з списка
names = pd.Series(["Іванов", "Петров", "Сидоров"]) 
print(names)
arr = np.arange(5, dtype='float')
numb = pd.Series(arr)
print(), print(numb)

In [None]:
# Створення з словника
tn = {
    "Іванов" : 123,
    "Петров" : 345
}
ser_tn = pd.Series(tn)
print(ser_tn, "\n", type(ser_tn))

#### Атрибути  об'єкта Series

In [None]:
dir(ser_tn)

In [None]:
print(ser_tn) 
print("\nзначення", ser_tn.values, type(ser_tn.values))
print("\nіндекси", ser_tn.index, type(ser_tn.index))

#### Методи

In [None]:
# перелік вмісту: items()
list(ser_tn.items())

In [None]:
# min, max, sum ...
print(ser_tn.min())
print(ser_tn.max())
print(ser_tn.mean())

In [None]:
# створення Series з окремих об'єктів
datas = [222, 444, 333]
indexes = ["b", "a", "c"]
ser = pd.Series(data=datas, index=indexes)
print(ser.head())
print(), print(list(ser.items()))

In [None]:
# сортування складових частин
print(sorted(ser.keys()))
print(sorted(ser.values))

# сортування об'єкта в цілому 
print(ser.sort_index())
print(ser.sort_values())



In [None]:
# перевірки вмісту (інспекція)
print(ser.is_unique)
print(ser.is_monotonic)
print()
print(ser.isin([111, 333]))

In [None]:
# робота з індексами
ser_num = pd.Series(np.random.rand(1000))
print(ser_num.tail(5))
print(), print(ser_num[300:305])

### 3.2 Об'єкт DataFrame

__DataFrame__ складається з упорядкованої колекції колонок, кожна з яких містить значення різних типів (числове, рядкове, булеве тощо).

Має два індекси - для рядків та для колонок

[Докладніше про DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

![image-2.png](attachment:image-2.png)

In [None]:
# pd.DataFrame() - конструктор 
df = pd.DataFrame()
print(type(df))
print(dir(df))

#### Створення DataFrame

In [None]:
# з ітерируємого об'єкту(список, словник, кортеж і т.п.)
lst = [[1, 2, 3], ['a', 'b', 'c']]
df = pd.DataFrame(lst)
df

In [None]:
# з додатковими можливостями
lst = [[1, 2, 3], ['a', 'b', 'c']]
df = pd.DataFrame(lst, columns=['колонка 1', 'колонка 2', 'колонка 3'], index=[10,20])
df

In [None]:
# з словника
dct = {'a':[1,2,3], 'b':[10,20,30], 'c':['aa','bb','cc']}
df = pd.DataFrame(dct)
df

In [None]:
# створення з файлу
with open("work_file.csv", "w")as tf:
    tf.writelines(["вася,", "2005\n", "петя,", "2001\n", "галя,", "2002"])
    tf.seek(0)
df = pd.read_csv("work_file.csv", names=["ім'я", "рік"])
df

#### Модифікація DataFrame

In [None]:
# додавання пустої колонки
df['місто'] = ''
df

In [None]:
# додавання заповненої колонки
df['стать'] = ['чол', 'чол', 'жін']
df

In [None]:
# модифікація вмісту  по індексу `iloc`
df.iloc[0,2] = 'полтава'
# модифікація вмісту по назві `loc`
df.loc[1, 'місто'] = 'пирятин'
df

#### Читання/доступ до об'єктів DataFrame

In [None]:
df

In [None]:
# доступ до рядка по індексу`iloc`
print(df.iloc[0])
print(type(df.iloc[0]))

In [None]:
# до інтервалу рядків
df.iloc[0:2]

In [None]:
# доступ до колонки за ім'ям
print(df["рік"])

In [None]:
# відбір рядків по умові
# df['стать'] == 'чол' - не вірно!
df[df['стать'] == 'чол']

In [None]:
df.loc[df['рік'] > 2001]

In [None]:
# відбір рядків по комплексній умові
df[(df['рік'] > 2000) & (df['місто'] != '')]

In [None]:
# відбір рядків та деяких колонок
filt_row = (df['рік'] > 2000) & (df['місто'] != '')
df.loc[filt_row, ["ім'я", "стать"]]

#### інспектування DataFrame

In [None]:
# Огляд структури 
print(df)
print(df.dtypes)
print(df.index)
print(df.columns)
print(df.axes)
print(df.shape)

In [None]:
# загальна характеристика
df.info()

In [None]:
# дескриптивна статистика в розрізі типів даних в колонках
print(df["ім\'я"].describe())
print(df['рік'].describe())

## 4. Статистична обробка даних в Pandas

In [None]:
# https://diia.data.gov.ua
data_path = "../DATA/"
stolen_cars = pd.read_json(data_path + "carswanted.json")

#### Попередній аналіз

1. Оцінка таблиці "ззовні"
2. Отримання загальної інформації про поля та формат вцілому
3. Перегляд елементарних статистик


In [None]:
stolen_cars.head(3)

In [None]:
# розмір таблиці
stolen_cars.shape

In [None]:
stolen_cars.info()

In [None]:
# список найменувань стовпчиків
stolen_cars.columns

In [None]:
# типи автомобілів
stolen_cars.cartype.unique()

In [None]:
# марки автомобілів
stolen_cars.brandmodel.unique()

In [None]:
stolen_cars.describe()

#### Сортування та впорядкування таблиць

__Два методи__:
- [`sort_index`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html)
- [`sort_values`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [None]:
stolen_cars.head(5)

In [None]:
# впорядкування по стовпчику/рядку
stolen_cars.sort_index(axis=1).head(3)

In [None]:
# сортування по показчиках
stolen_cars.sort_values(['cartype', 'color'])

#### Групування, узагальненя та агрегація даних

1. [`groupby`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)
2. [`pivot-table`](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html)
3. [`crosstab`](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html)

Cхема роботи __groupby__
![image.png](attachment:image.png)

In [None]:
# Групування по типу автомобілів з підрахунком кількості
by_types = stolen_cars.groupby(by=['cartype'])['cartype'].count()
by_types

In [None]:
stolen_cars.groupby('cartype')['cartype'].agg(['count'])

In [None]:
# елементарні статистики виборки
by_types.describe()

Зведені таблиці __pivot_table__
![image.png](attachment:image.png)

In [None]:
color_by_type = stolen_cars.pivot_table(index='color', columns='cartype',  
                        values = 'insertdate', aggfunc='count',)
color_by_type.head(7)

In [None]:
# деяка стилізація та форматування табліць
# https://pandas.pydata.org/pandas-docs/stable/user_guide/style.html
color_by_type.tail(7).style.format("{:.0f}", na_rep = "")

In [None]:
pd.crosstab?

# ПИТАННЯ ? 