# Популярність Pandas:
- python-based (а python легко вивчити)
- велике ком'юніті (26.1k Github stars, 10.7k forks)
- продуктивність (під капотом - numpy, написаний на C та Fortran)
- гнучкість
- робота з різними типами (CSV, Excel, JSON, HTML, HDFStore, Parquet, SQL, BigQuery)

[Документація](https://pandas.pydata.org/docs/reference/index.html)

# Підключаємо необхідні бібліотеки

In [2]:
import numpy as np              # біблиотека для аналізу даних
import pandas as pd             # біблиотека для аналізу даних
      
import matplotlib.pyplot as plt # біблиотека для побудови графіків
import seaborn as sns           # біблиотека для побудови графіків, що базується на matplotlib

import sqlite3                  # підключення до бази даних SQLite3  
from sqlalchemy import create_engine   # Потужна бібліотека для роботи з SQL базами даних 

import pymysql, psycopg2        # Драйвери для роботи з базами даних PostgreSQL та MySQL

%matplotlib inline     

## Визначаємо глобальні змінні

In [4]:
lite_string = '/home/sirius/git//database.db'
lite_connec = sqlite3.connect(lite_string)

postgres_string = 'postgresql+psycopg2://login:password@10.20.3.24:5432/dwh'
postgres_engine = psycopg2.connect(postgres_string)

mysql_string = 'mysql+pymysql://student:datacamp@courses.csrrinzqubik.us-east-1.rds.amazonaws.com:3306/census'
mysql_engine = pymysql.connect(mysql_string)

db_string = 'sqlite:////home/sirius/pandas_intro/database.db'
db_engine = create_engine(db_string) # Створюємо об'єкт DB engine

OperationalError: unable to open database file

# Структури даних в Pandas
---
## Series

In [None]:
# створюємо серію
simple_list = ['a', 'b', 'c', 'd']
simple_ser = pd.Series(simple_list)

simple_ser

In [None]:
# доступ до елементів серії
simple_list[1:3]

In [None]:
# арифметичні операциі над серіями
num_series_1 = pd.Series([1,4,6,7,8])
num_series_2 = pd.Series([10,20,30,40,55])

num_series_1 + num_series_2

In [None]:
# вирівнювання по індексам
num_series_1 = pd.Series([1,4,6,7,8], index = ['a','b','c','d','e'])
num_series_2 = pd.Series([10,20,30,40,55], index = ['e','d','c','b','a'])

num_series_1 + num_series_2

## DataFrame

In [None]:
# створюємо таблицю з dictionary
data_dict = {'name': ['Olexiy', 'Andriy', 'Sergiy', 'Denys', 'Anna', 'Kyrylo'],
             'age': [36, 31, 23, 19, None, 42],
             'department': ['analytics', 'programmers', 'sales', 'accountant', 'sales', 'analytics'],
             'salary': [1100.5, 1675.3, 1057.6, None, 1567.2, 1205.7]}

data = pd.DataFrame(data_dict)

data

In [None]:
# по суті таблиця це набор серій
ser1 = pd.Series(['a', 'b', 'c', 'a', 'c'])
ser2 = pd.Series([10, 13, 9, 5, 15])

df = pd.DataFrame({'mark': ser1, 
                   'val': ser2})

df

In [None]:
# зробити копію
df = data.copy()

In [None]:
# Назви стовпців
data.columns

In [None]:
# Назви рядків, або індекс
data.index

# Завантаження даних з зовнішніх ресурсів
---
## Завантаження даних з CSV файлу

In [None]:
staff_dict = pd.read_csv('staff_dict.csv', 
                         sep=';', 
                         header=0,
                         dtype={'id': int, 'name': str, 'Age': int, 'Experience': int, 'Salary': float})

staff_dict

## Завантаження даних з Excel

In [None]:
# з локального Excel файлу
staff_dict_excel = pd.read_excel('staff_dict.xlsx',
                                index_col='id',
                                sheet_name='staff_dict')

staff_dict_excel

In [None]:
# з мережевого Excel файлу

dls = pd.read_excel('http://usuan.dls.gov.ua/xlsx.php', skiprows=1)

dls.head()

## Завантаження даних з бази даних

In [None]:
# створюємо підключення до БД
db_connec = sqlite3.connect('/home/sirius/pandas_intro/database.db')

# формируємо запит 
query = """ 
        SELECT id, name, Age, Experience, Salary
        FROM staff_table;
        """
# отримати результат SQL запиту
# pd.read_sql_query(query, con=db_connec, index_col = 'id')
# pd.read_sql_table('staff_table', con=db_connec, index_col = 'id')
staff_dict_sql = pd.read_sql(query, con=db_connec, index_col = 'id')

staff_dict_sql

In [None]:
# отобрать несколько столбцов
data[['name', 'department']]

In [None]:
# отобрать строки, сотрудники старше 30 лет
data[ data.age > 30 ]

In [None]:
# отбираем данные по нескольким условиям
data[ (data.age < 40) & ( data.department == 'analytics' ) ]

# Проверка загруженных данных

In [None]:
# Перевірка розмірності таблиці
data.shape

In [None]:
# Перевірка типів даних
data.dtypes

In [None]:
# посмотреть 3 первые строки
staff_dict.head(3)

In [None]:
# посмотреть 3 последние строки
staff_dict.tail(3)

In [None]:
# посмотреть структуру таблицы
staff_dict.dtypes

In [None]:
# получить описательные статистики
staff_dict.describe()

In [None]:
# получить описательные статистики по категориальной переменной
staff_dict.name.describe()

# Основные операции по манипуляции с данными

In [None]:
# загрузка данных
# таблицы продаж
sales_1 = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                        sheet_name='sales_1')

sales_2 = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                        sheet_name='sales_2')

# справочник магазинов
shops = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                      sheet_name='shop')
# справочник товаров
products = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                          sheet_name='products')
# справочник менеджеров по продажам
managers = pd.read_excel('D:/Google Диск/Отчётность/Netpeak/Выступления/ProductStar/Основы Python. Работа с библиотекой Pandas/sales.xlsx',
                          sheet_name='managers')

## Анализ структуры загруженных данных

In [None]:
# таблица продаж
sales_1.head(5)

In [None]:
# посмотреть количество строк и столбцов
sales_1.shape

In [None]:
# типы данных в таблице продаж
sales_1.dtypes

In [None]:
# общие сведения о данных в таблице
sales_1.info()

In [None]:
# справочник магазинов
shops

In [None]:
# справочник товаров
products.head()

In [None]:
# справочник менеджеров по продажам
managers

## Переименование столбцов и вертикальное объединение таблиц

In [None]:
dls = df.rename(columns={
    'Назва субєкта господарювання': 'name',
    'Код за ЄДРПОУ': 'edrpou',
    'Дата початку дії ліцензії': 'start_date',
    'Дата закінчення ліцензії': 'end_date',
    'Юридична адреса': 'address',
    'Види діяльності': 'activities',
    'Номенклатура/список таблиці': 'list',
    'Коментар': 'comment',
})

In [None]:
{'sales_1': sales_1.columns,
 'sales_2': sales_2.columns}

In [None]:
# попытка вертикально объединить таблицы
sales = pd.concat([sales_1, sales_2])
sales

In [None]:
# переименовываем столбцы
sales_2.rename(columns = {'id': 'sale_id', 'sale_date': 'date', 'Shop': 'shop'}, inplace=True)
sales_2

In [None]:
## Горизонтальное соединение таблиц по ключу
sales_total = pd.merge(sales, shops, left_on = 'shop', right_on = 'shop_id', how='inner').\
                 merge(products, left_on = 'product', right_on = 'product_id', how='inner').\
                 merge(managers, left_on = 'manager', right_on = 'manager_id', how='inner')

sales_total


## Добавление вычисляемых столбцов

In [None]:
# рассчитываем сумму транзакции
sales_total['transaction_sum'] = sales_total['price'] * sales_total['count']

# расчитываем бонус менеджера
sales_total['manager_bonus'] = sales_total['transaction_sum'] * ( sales_total['percent'] / 100 )

sales_total

## Группировка и агрегация данных

In [None]:
# рассчитываем сводные данные по менеджерам
mangers_stat = sales_total.groupby('manager_name').\
                           agg({'manager_bonus': 'sum',
                                'transaction_sum': ['sum', 'mean'],
                                'sale_id': pd.Series.nunique}).\
                           reset_index().\
                           sort_values(by=('manager_bonus',  'sum'), ascending=False)

# переименовываем столбцы
mangers_stat.columns = ['name', 'bonus', 'sale_sum', 'avg_transaction', 'transaction']

# округление
mangers_stat = mangers_stat.round({'avg_transaction': 2})

mangers_stat

## Визуализация результатов

In [None]:
# переносим имя менеджера в индекс
mangers_stat.index = mangers_stat.name
# строим визуализацию результатов
mangers_stat.bonus.plot(kind='barh')

# альтернативный вариант, вызвать метод bar()
#mangers_stat.bonus.plot.bar()

In [None]:
# линейный график продаж
sales_total.groupby('date').agg({'transaction_sum': sum}).plot()

In [None]:
# расчёт и визуализация нарастающего итога
cumsum_sales = sales_total.groupby('date').\
                           agg({'manager_bonus': sum}).\
                           manager_bonus.cumsum().\
                           plot(kind='area')


In [None]:
# скользящее среднее
cumsum_sales = sales_total.groupby('date').\
                           agg({'manager_bonus': sum}).\
                           manager_bonus.\
                           rolling(window=20).\
                           mean().\
                           plot()


In [None]:
# сравниваем данные с прошлым днём
import datetime # библиотека для работы с временными рядами

# суммируем данные по дням
daily_sales = sales_total.groupby('date').agg({'transaction_sum': sum})

# делаем копию полученного результата, сдвигая продажи на 1 день
yesterday_sales = daily_sales.copy().shift(1)

# рассчитываем разницу между текущим, и предыдущим днём в процентах
daily_sales['step_rate'] = round((daily_sales.transaction_sum - yesterday_sales.transaction_sum) / yesterday_sales.transaction_sum * 100, 2)

# строим график с помощью matplotlib
plt.bar(x=daily_sales.index, height=daily_sales['step_rate'])
# увеличиваем размер графика
plt.gcf().set_size_inches(12, 4)

In [None]:
# сравниваем продажи по странам
sales_total.boxplot(column=['manager_bonus'], by=['manager_name'])

# Сводные таблицы в pandas

In [None]:
pd.pivot_table(sales_total, 
               index = 'manager_name', 
               columns = 'shop_name', 
               values = 'sale_id', 
               aggfunc = pd.Series.nunique)

In [None]:
pd.pivot_table(sales_total, 
               index = 'product_name', 
               columns = 'country', 
               values = 'transaction_sum', 
               aggfunc = sum,
               margins = True)

# Лабка
---
## Iris

In [5]:
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']

iris = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', header=None)

iris.columns = names
#iris['class'].astype('category')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


## Щось з DataCamp

In [15]:
db_string = 'mysql+pymysql://student:datacamp@courses.csrrinzqubik.us-east-1.rds.amazonaws.com:3306/census'
db_engine = create_engine(db_string)

pd.read_sql('SELECT * FROM census;', db_engine)

Unnamed: 0,state,sex,age,pop2000,pop2008
0,Illinois,M,0,89600,95012
1,Illinois,M,1,88445,91829
2,Illinois,M,2,88729,89547
3,Illinois,M,3,88868,90037
4,Illinois,M,4,91947,91111
...,...,...,...,...,...
10844,Texas,F,31,155658,166391
10845,Texas,F,32,150518,165038
10846,Texas,F,33,148996,168463
10847,Texas,F,34,152593,163898
