# Популярність Pandas:

- python-based (а python легко вивчити)
- велике ком'юніті (26.1k Github stars, 10.7k forks)
- продуктивність (під капотом - numpy, який написаний на C та Fortran)
- гнучкість (розглянемо пізніше)
- робота з різними типами (CSV, Excel, JSON, HTML, HDFStore, Parquet, SQL, BigQuery)
- інтеграція з Machine Learning (scikit-learn)
- інтеграція з Big Data (див. [Apache Arrow](https://arrow.apache.org))

[Документація](https://pandas.pydata.org/docs/reference/index.html)

**Apache Parquet** - це вільний колоночний формат зберігання даних екосистеми Apache Hadoop (в т.ч. Apache Spark) у вигляді бінарного файлу.   
**Apache Arrow** - набір правил організації плоских і ієрархічних даних, для ефективних аналітичних операцій 
(спільний проект Pandas, Spark, Parquet, Drill, Impala, Hbase, Kudu, Cassandra)

# Підключаємо необхідні бібліотеки

In [18]:
import numpy as np              # біблиотека для аналізу даних
import pandas as pd             # біблиотека для аналізу даних
      
import matplotlib.pyplot as plt # біблиотека для побудови графіків
import seaborn as sns           # біблиотека для побудови графіків, що базується на matplotlib (не обов'язково)

import sqlite3, pymysql, psycopg2      # Драйвери для роботи з базами даних SQLite3, PostgreSQL та MySQL
from sqlalchemy import create_engine   # Потужна бібліотека для роботи з SQL базами даних 

import pyarrow # fastparquet    # Драйвер для роботи з parquet-файлами (не обов'язково)

In [21]:
from IPython.display import Image     # Вбудовані функції для зручної роботи з IPython в Jupyter Lab
%matplotlib inline   

## Визначаємо глобальні змінні

In [19]:
# З'єднання з базою даних через драйвери
lt_conn = sqlite3.connect('/home/sirius/git/workshops/PandasIntro_GenomicsUA/database.db')
'''
pg_conn = psycopg2.connect(dbname='dwh', user='dkazanzhy', password='mypass', 
                           host='10.20.3.24', port=5432)
'''
ms_conn = pymysql.connect(database='census', user='student', password='datacamp', 
                          host='courses.csrrinzqubik.us-east-1.rds.amazonaws.com', port=3306)

# створюємо підключення до БД через connection string SQLAlchemy
lt_string = 'sqlite:////home/sirius/git/workshops/PandasIntro_GenomicsUA/database.db'
pg_string = 'postgresql+psycopg2://login:password@10.20.3.24:5432/dwh'
ms_string = 'mysql+pymysql://student:datacamp@courses.csrrinzqubik.us-east-1.rds.amazonaws.com:3306/census'

db_engine = create_engine(lt_string) # Створюємо об'єкт DB engine

# Структури даних в Pandas
---
## Series

In [None]:
# створюємо серію
simple_list = ['a', 'b', 'c', 'd']
simple_ser = pd.Series(simple_list)

simple_ser

In [None]:
# доступ до елементів серії
simple_list[1:3]

In [None]:
# арифметичні операциі над серіями
num_series_1 = pd.Series([1,4,6,7,8])
num_series_2 = pd.Series([10,20,30,40,55])

num_series_1 + num_series_2

In [None]:
# вирівнювання по індексам
num_series_1 = pd.Series([1,4,6,7,8], index = ['a','b','c','d','e'])
num_series_2 = pd.Series([10,20,30,40,55], index = ['e','d','c','b','a'])

num_series_1 + num_series_2

## DataFrame

In [None]:
# створюємо таблицю з dictionary
data_dict = {'name': ['Olexiy', 'Andriy', 'Sergiy', 'Denys', 'Anna', 'Kyrylo'],
             'age': [36, 31, 23, 19, None, 42],
             'department': ['analytics', 'programmers', 'sales', 'accountant', 'sales', 'analytics'],
             'salary': [1100.5, 1675.3, 1057.6, None, 1567.2, 1205.7]}

data = pd.DataFrame(data_dict)

data

In [None]:
# по суті таблиця це набор серій
ser1 = pd.Series(['a', 'b', 'c', 'a', 'c'])
ser2 = pd.Series([10, 13, 9, 5, 15])

df = pd.DataFrame({'mark': ser1, 
                   'val': ser2})

df

In [None]:
# Відібрати один стовпчик
data['department'] # data.department

In [None]:
# Відібрати кілька стовпчиків
data[['name', 'department']]

In [None]:
# зробити копію
df = data.copy()

In [None]:
# Назви стовпців
data.columns

In [None]:
# Назви рядків, або індекс
data.index

# Завантаження даних з зовнішніх ресурсів
---
## Завантаження даних з CSV

In [None]:
staff_dict = pd.read_csv('staff_dict.csv', 
                         sep=';', 
                         header=0,
                         dtype={'id': int, 'name': str, 'Age': int, 'Experience': int, 'Salary': float})

staff_dict

## Завантаження даних з Excel

In [None]:
# з локального Excel файлу
staff_dict_excel = pd.read_excel('staff_dict.xlsx',
                                index_col='id',
                                sheet_name='staff_dict')

staff_dict_excel

## Завантаження даних з parquet

In [40]:
staff_dict_parquet = pd.read_parquet('staff_dict.parquet')

staff_dict_parquet

Unnamed: 0,id,name,Age,Experience,Salary
0,1,John,34,7,2000
1,2,Stan,21,1,1200
2,3,Mark,29,3,1600
3,4,Karl,25,2,900
4,5,Mike,38,9,2850
5,6,Alex,28,4,1850
6,7,Julia,42,5,1300
7,8,Fred,39,6,1600
8,9,Linda,19,1,800


## Завантаження даних з бази даних

In [41]:
# Створюємо об'єкт DB engine
db_engine = create_engine(lt_string) 

# формируємо запит 
query = """ 
        SELECT id, name, Age, Experience, Salary
        FROM staff_table;
        """
# отримати результат SQL запиту
# pd.read_sql_query(query, con=db_connec, index_col = 'id')
# pd.read_sql_table('staff_table', con=db_connec, index_col = 'id')
staff_dict_sql = pd.read_sql(query, con=db_engine, index_col = 'id')

staff_dict_sql

Unnamed: 0_level_0,name,Age,Experience,Salary
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,John,34,7,2000
2,Stan,21,1,1200
3,Mark,29,3,1600
4,Karl,25,2,900
5,Mike,38,9,2850
6,Alex,28,4,1850
7,Julia,42,5,1300
8,Fred,39,6,1600
9,Linda,19,1,800


# Перевірка завантажених даних

In [None]:
# Перевірка розмірності таблиці
staff_dict.shape

In [None]:
# Перші 3 рядка
staff_dict.head(3)

In [None]:
# Останні 5 рядків
staff_dict.tail(5)

In [None]:
# Подивитись колонки та їх типи даних
staff_dict.info()

In [None]:
# Подивитись колонки та їх типи даних
staff_dict.dtypes

In [None]:
# Отримати основну описову статистику числових типів
staff_dict.describe()

In [None]:
# Отримати основну описову статистику окремої колонки
staff_dict.name.describe()

# Типи даних

In [24]:
Image(url='https://pbpython.com/images/pandas_dtypes.png')

# Основні операції манипуляції з даними

In [None]:
# отобрать строки, сотрудники старше 30 лет
data[ data.age > 30 ]

In [None]:
# отбираем данные по нескольким условиям
data[ (data.age < 40) & ( data.department == 'analytics' ) ]

In [None]:
# загрузка данных
# таблицы продаж
sales_1 = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                        sheet_name='sales_1')

sales_2 = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                        sheet_name='sales_2')

# справочник магазинов
shops = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                      sheet_name='shop')
# справочник товаров
products = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                          sheet_name='products')
# справочник менеджеров по продажам
managers = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                          sheet_name='managers')

## Анализ структуры загруженных данных

In [None]:
# таблица продаж
sales_1.head(5)

In [None]:
# посмотреть количество строк и столбцов
sales_1.shape

In [None]:
# типы данных в таблице продаж
sales_1.dtypes

In [None]:
# общие сведения о данных в таблице
sales_1.info()

In [None]:
# справочник магазинов
shops

In [None]:
# справочник товаров
products.head()

In [None]:
# справочник менеджеров по продажам
managers

## Переименование столбцов и вертикальное объединение таблиц

In [None]:
{'sales_1': sales_1.columns,
 'sales_2': sales_2.columns}

In [None]:
# попытка вертикально объединить таблицы
sales = pd.concat([sales_1, sales_2])
sales

In [None]:
# переименовываем столбцы
sales_2.rename(columns = {'id': 'sale_id', 'sale_date': 'date', 'Shop': 'shop'}, inplace=True)
sales_2

In [None]:
## Горизонтальное соединение таблиц по ключу
sales_total = pd.merge(sales, shops, left_on = 'shop', right_on = 'shop_id', how='inner').\
                 merge(products, left_on = 'product', right_on = 'product_id', how='inner').\
                 merge(managers, left_on = 'manager', right_on = 'manager_id', how='inner')

sales_total


## Добавление вычисляемых столбцов

In [None]:
# рассчитываем сумму транзакции
sales_total['transaction_sum'] = sales_total['price'] * sales_total['count']

# расчитываем бонус менеджера
sales_total['manager_bonus'] = sales_total['transaction_sum'] * ( sales_total['percent'] / 100 )

sales_total

## Группировка и агрегация данных

In [None]:
# рассчитываем сводные данные по менеджерам
mangers_stat = sales_total.groupby('manager_name').\
                           agg({'manager_bonus': 'sum',
                                'transaction_sum': ['sum', 'mean'],
                                'sale_id': pd.Series.nunique}).\
                           reset_index().\
                           sort_values(by=('manager_bonus',  'sum'), ascending=False)

# переименовываем столбцы
mangers_stat.columns = ['name', 'bonus', 'sale_sum', 'avg_transaction', 'transaction']

# округление
mangers_stat = mangers_stat.round({'avg_transaction': 2})

mangers_stat

## Визуализация результатов

In [None]:
# переносим имя менеджера в индекс
mangers_stat.index = mangers_stat.name
# строим визуализацию результатов
mangers_stat.bonus.plot(kind='barh')

# альтернативный вариант, вызвать метод bar()
#mangers_stat.bonus.plot.bar()

In [None]:
# линейный график продаж
sales_total.groupby('date').agg({'transaction_sum': sum}).plot()

In [None]:
# расчёт и визуализация нарастающего итога
cumsum_sales = sales_total.groupby('date').\
                           agg({'manager_bonus': sum}).\
                           manager_bonus.cumsum().\
                           plot(kind='area')


In [None]:
# скользящее среднее
cumsum_sales = sales_total.groupby('date').\
                           agg({'manager_bonus': sum}).\
                           manager_bonus.\
                           rolling(window=20).\
                           mean().\
                           plot()


In [None]:
# сравниваем данные с прошлым днём
import datetime # библиотека для работы с временными рядами

# суммируем данные по дням
daily_sales = sales_total.groupby('date').agg({'transaction_sum': sum})

# делаем копию полученного результата, сдвигая продажи на 1 день
yesterday_sales = daily_sales.copy().shift(1)

# рассчитываем разницу между текущим, и предыдущим днём в процентах
daily_sales['step_rate'] = round((daily_sales.transaction_sum - yesterday_sales.transaction_sum) / yesterday_sales.transaction_sum * 100, 2)

# строим график с помощью matplotlib
plt.bar(x=daily_sales.index, height=daily_sales['step_rate'])
# увеличиваем размер графика
plt.gcf().set_size_inches(12, 4)

In [None]:
# сравниваем продажи по странам
sales_total.boxplot(column=['manager_bonus'], by=['manager_name'])

# Сводные таблицы в pandas

In [None]:
pd.pivot_table(sales_total, 
               index = 'manager_name', 
               columns = 'shop_name', 
               values = 'sale_id', 
               aggfunc = pd.Series.nunique)

In [None]:
pd.pivot_table(sales_total, 
               index = 'product_name', 
               columns = 'country', 
               values = 'transaction_sum', 
               aggfunc = sum,
               margins = True)

# Лабка
---
## Iris

In [26]:
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

iris = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)

iris.columns = names
#iris['class'].astype('category')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


## Щось з DataCamp

In [5]:
db_engine = create_engine(ms_string)

pd.read_sql('SELECT * FROM census;', db_engine)

Unnamed: 0,state,sex,age,pop2000,pop2008
0,Illinois,M,0,89600,95012
1,Illinois,M,1,88445,91829
2,Illinois,M,2,88729,89547
3,Illinois,M,3,88868,90037
4,Illinois,M,4,91947,91111
...,...,...,...,...,...
10844,Texas,F,31,155658,166391
10845,Texas,F,32,150518,165038
10846,Texas,F,33,148996,168463
10847,Texas,F,34,152593,163898


## База ДержЛікСлужби

In [43]:
dls = pd.read_excel('http://usuan.dls.gov.ua/xlsx.php', skiprows=1)

dls.head()

Unnamed: 0,Назва субєкта господарювання,Код за ЄДРПОУ,Дата початку дії ліцензії,Дата закінчення ліцензії,Юридична адреса,Види діяльності,Номенклатура/список таблиці,Коментар
0,"АКЦІОНЕРНЕ ТОВАРИСТВО ""ПІВДЕННИЙ ГІРНИЧО-ЗБАГА...",191000,28-05-2014,28-05-2019,"ДНІПРОПЕТРОВСЬКА ОБЛ., МІСТО КРИВИЙ РІГ",придбання; зберігання; використання; реалізаці...,прекурсорів (списку 2 таблиці ІV) Переліку нар...,Безстрокова
1,КОЛОМИЙСЬКИЙ МІЖРАЙОННИЙ ФТИЗІОПУЛЬМОНОЛОГІЧНИ...,31509861,13-08-2015,13-08-2020,"78200, ІВАНО-ФРАНКІВСЬКА ОБЛ., МІСТО КОЛОМИЯ, ...",придбання; зберігання; перевезення; використан...,наркотичних засобів (списку 1 таблиці ІІ та сп...,видати ліцензію на право провадження господарс...
2,ФІЗИЧНА ОСОБА - ПІДПРИЄМЕЦЬ КУЛІКОВА ЄВГЕНІЯ М...,2824607743,13-08-2015,13-08-2020,"49018, МІСТО ДНІПРОПЕТРОВСЬК, Ж/М ПАРУС, БУДИН...",придбання; зберігання; використання; знищення,"психотропних речовин (списку 2 таблиці ІІ), пр...",видати ліцензію на право провадження господарс...
3,"ДЕРЖАВНА ОРГАНІЗАЦІЯ ""КОМБІНАТ ""АЙСТРА"" ДЕРЖАВ...",14373259,13-08-2015,13-08-2020,"ЧЕРНІГІВСЬКА ОБЛ., МІСТО ЧЕРНІГІВ, ВУЛИЦЯ ЧУДІ...",придбання; зберігання; перевезення; використан...,прекурсорів (списку 2 таблиці ІV) Переліку нар...,видати ліцензію на право провадження господарс...
4,ЗАПОРІЗЬКИЙ ДЕРЖАВНИЙ МЕДИЧНИЙ УНІВЕРСИТЕТ,2010741,13-08-2015,13-08-2020,"ЗАПОРІЗЬКА ОБЛ., МІСТО ЗАПОРІЖЖЯ, ПРОСПЕКТ МАЯ...",придбання; зберігання; перевезення; використан...,наркотичних засобів (списку 1 таблиці ІІ та сп...,видати ліцензію на право провадження господарс...


In [None]:
dls = df.rename(columns={
    'Назва субєкта господарювання': 'name',
    'Код за ЄДРПОУ': 'edrpou',
    'Дата початку дії ліцензії': 'start_date',
    'Дата закінчення ліцензії': 'end_date',
    'Юридична адреса': 'address',
    'Види діяльності': 'activities',
    'Номенклатура/список таблиці': 'list',
    'Коментар': 'comment',
})