# Сводные таблицы

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame({'date': ['2021-01-01', '2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'], 
                   'category': ['Авто', 'Дача', 'Дача', 'Авто', 'Дача'],
                   'cost': [100, 200, 300, 400, 500]})
df

Unnamed: 0,date,category,cost
0,2021-01-01,Авто,100
1,2021-01-01,Дача,200
2,2021-01-01,Дача,300
3,2021-01-02,Авто,400
4,2021-01-02,Дача,500


In [4]:
df.groupby('date').agg({'cost': 'sum'})

Unnamed: 0_level_0,cost
date,Unnamed: 1_level_1
2021-01-01,600
2021-01-02,900


In [7]:
df.groupby(['date', 'category'], as_index=False).agg({'cost': 'sum'})

Unnamed: 0,date,category,cost
0,2021-01-01,Авто,100
1,2021-01-01,Дача,500
2,2021-01-02,Авто,400
3,2021-01-02,Дача,500


In [6]:
df.groupby(['date', 'category']).agg({'cost': 'sum'}).reset_index()

Unnamed: 0,date,category,cost
0,2021-01-01,Авто,100
1,2021-01-01,Дача,500
2,2021-01-02,Авто,400
3,2021-01-02,Дача,500


In [9]:
df.pivot_table(index='date', columns='category', values='cost', aggfunc='sum', margins=True)

category,Авто,Дача,All
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-01-01,100,500,600
2021-01-02,400,500,900
All,500,1000,1500


# Вопрос 1
Объединение датафреймов по разным столбцам

In [10]:
import pandas as pd

In [11]:
df_1 = pd.DataFrame({'date_left': ['2021-01-01'], 'value_left': [100]})
df_1

Unnamed: 0,date_left,value_left
0,2021-01-01,100


In [12]:
df_2 = pd.DataFrame({'date_right': ['2021-01-01', '2022-02-01'], 'value_right': [200, 300]})
df_2

Unnamed: 0,date_right,value_right
0,2021-01-01,200
1,2022-02-01,300


In [13]:
df_1.merge(df_2, left_on='date_left', right_on='date_right', how='left')

Unnamed: 0,date_left,value_left,date_right,value_right
0,2021-01-01,100,2021-01-01,200


# Вопрос 2
Объединение нескольких датафреймов

In [14]:
df_3 = pd.DataFrame({'date_3': ['2021-01-01', '2022-02-01'], 'value_3': [400, 500]})
df_3

Unnamed: 0,date_3,value_3
0,2021-01-01,400
1,2022-02-01,500


In [15]:
# вариант 1
(df_1
 .merge(df_2, left_on='date_left', right_on='date_right')  # комментарии
 .merge(df_3, left_on='date_left', right_on='date_3')
)


Unnamed: 0,date_left,value_left,date_right,value_right,date_3,value_3
0,2021-01-01,100,2021-01-01,200,2021-01-01,400


In [16]:
# вариант 2
from functools import reduce

df_1 = pd.DataFrame({'date': ['2021-01-01'], 'value_1': [100]})
df_2 = pd.DataFrame({'date': ['2021-01-01'], 'value_2': [200]})
df_3 = pd.DataFrame({'date': ['2021-01-01'], 'value_3': [300]})

In [17]:
data = [1, 2, 3, 4, 5]

reduce(lambda a, b: a + b, data)

15

In [18]:
a = 1
b = 2
a+b

3

In [19]:
a = 3
b = 3
a+b

6

In [20]:
a = 6
b = 4
a+b

10

In [21]:
reduce(lambda a, b: a.merge(b, how='left', on='date'), [df_1, df_2, df_3])

Unnamed: 0,date,value_1,value_2,value_3
0,2021-01-01,100,200,300


# Задача про LEFT JOIN
- Есть таблица left_table из 100 строк
- Объединяем ее с right_table
- Сколько строк может быть на выходе?

In [22]:
import pandas as pd

In [23]:
left_table = pd.DataFrame({'date': ['2021-01-01'], 'value_left': [100]})
left_table

Unnamed: 0,date,value_left
0,2021-01-01,100


In [27]:
right_table = pd.DataFrame({'date': ['2021-01-01', '2021-01-02', '2021-01-01'], 
                            'value_right': [200, 300, 600]})
right_table

Unnamed: 0,date,value_right
0,2021-01-01,200
1,2021-01-02,300
2,2021-01-01,600


In [28]:
left_table.merge(right_table, on='date', how='left')

Unnamed: 0,date,value_left,value_right
0,2021-01-01,100,200
1,2021-01-01,100,600


In [26]:
left_table.merge(right_table, on='date', how='right')

Unnamed: 0,date,value_left,value_right
0,2021-01-01,100.0,200
1,2021-01-02,,300


### Пример посложнее

In [29]:
left_table = pd.DataFrame({'date': ['2021-01-01', '2021-01-01'], 'value': [100, 150]})
left_table

Unnamed: 0,date,value
0,2021-01-01,100
1,2021-01-01,150


In [30]:
right_table = pd.DataFrame({'date': ['2021-01-01', '2021-01-01'], 'value_right': [200, 400]})
right_table

Unnamed: 0,date,value_right
0,2021-01-01,200
1,2021-01-01,400


In [31]:
left_table.merge(right_table, on='date', how='left')

Unnamed: 0,date,value,value_right
0,2021-01-01,100,200
1,2021-01-01,100,400
2,2021-01-01,150,200
3,2021-01-01,150,400


Поиск дубликатов

In [32]:
right_table

Unnamed: 0,date,value_right
0,2021-01-01,200
1,2021-01-01,400


In [34]:
right_table.duplicated(['date'])

0    False
1     True
dtype: bool

In [35]:
# полные дубликаты строк

right_table[right_table.duplicated()]

Unnamed: 0,date,value_right


In [36]:
# дубликаты по столбцу (набору столбцов)

right_table[right_table.duplicated(['date'])]

Unnamed: 0,date,value_right
1,2021-01-01,400


In [39]:
# удаление дубликатов
right_table.drop_duplicates('date', keep='first')

Unnamed: 0,date,value_right
0,2021-01-01,200


### CROSS JOIN
Каждый с каждым

In [40]:
df_names = pd.DataFrame({'names': ['Лена', 'Настя', 'Витя']})
df_names

Unnamed: 0,names
0,Лена
1,Настя
2,Витя


In [41]:
df_dates = pd.DataFrame({'names': ['2021-01-01', '2021-01-02', '2021-01-03']})
df_dates

Unnamed: 0,names
0,2021-01-01
1,2021-01-02
2,2021-01-03


In [42]:
df_names.merge(df_dates, how='cross')

Unnamed: 0,names_x,names_y
0,Лена,2021-01-01
1,Лена,2021-01-02
2,Лена,2021-01-03
3,Настя,2021-01-01
4,Настя,2021-01-02
5,Настя,2021-01-03
6,Витя,2021-01-01
7,Витя,2021-01-02
8,Витя,2021-01-03


In [43]:
df_names['fake'] = True
df_names

Unnamed: 0,names,fake
0,Лена,True
1,Настя,True
2,Витя,True


In [44]:
df_dates['fake'] = True
df_dates

Unnamed: 0,names,fake
0,2021-01-01,True
1,2021-01-02,True
2,2021-01-03,True


In [45]:
df_names.merge(df_dates, on='fake', how='left', suffixes=['_names', '_dates'])

Unnamed: 0,names_names,fake,names_dates
0,Лена,True,2021-01-01
1,Лена,True,2021-01-02
2,Лена,True,2021-01-03
3,Настя,True,2021-01-01
4,Настя,True,2021-01-02
5,Настя,True,2021-01-03
6,Витя,True,2021-01-01
7,Витя,True,2021-01-02
8,Витя,True,2021-01-03


# Задачка с собеседований
Для каждого номера счета и даты посчитать разницу доходов и расходов

In [46]:
import pandas as pd
import sqlite3  # MySQL - pymysql, Postgres - psycorpg2

In [None]:
con = sqlite3.connect('finance.db')
con

In [47]:
# еще один вариант через sqlalchemy

from sqlalchemy import create_engine

In [48]:
con = create_engine(
    "sqlite:///finance.db",
)

In [49]:
credit = pd.read_sql("""
    select date, account, value from credit
    """, con)
credit

Unnamed: 0,date,account,value
0,2021-01-01,111,50
1,2021-01-01,222,100
2,2021-01-01,111,55
3,2021-01-02,111,45


# Подвох №1
Если в задаче ничего не сказано про дубликаты, то считайте, что они есть.

In [50]:
debit = pd.read_sql("""
    select date, account, value from debit
    """, con)
debit

Unnamed: 0,date,account,value
0,2021-01-01,111,100
1,2021-01-01,222,200
2,2021-01-01,111,110
3,2021-01-02,111,90
4,2021-01-03,111,90


### Ошибочное объединение

In [None]:
debit.merge(credit, how='left', on=['date', 'account'])

In [None]:
pd.read_sql("""
    select d.date, d.account, d.value, c.value from debit d
    left join credit c
    on d.date=c.date and d.account = c.account
    """, con)

### Добавляем группировку

In [None]:
debit_grouped = debit.groupby(['date', 'account']).sum().reset_index()
debit_grouped

In [None]:
credit_grouped = credit.groupby(['date', 'account']).sum().reset_index()
credit_grouped

In [None]:
pd.read_sql("""
    select d.date, d.account, d.value from (
        select date, account, sum(value) as value
        from debit
        group by date, account
    ) d
    """, con)

In [None]:
pd.read_sql("""
    select c.date, c.account, c.value from (
        select date, account, sum(value) as value
        from credit
        group by date, account
    ) c
    """, con)

### И только после группировки объединяем

In [None]:
debit_grouped.merge(credit_grouped, on=['date', 'account'], how='outer')

In [None]:
pd.read_sql("""
    select d.date, d.account, d.value from (
        select date, account, sum(value) as value
        from debit
        group by date, account
    ) d
    
    left outer join
    
    (select c.date, c.account, c.value from (
        select date, account, sum(value) as value
        from credit
        group by date, account
    ) c) c_2
    
    on d.date=c_2.date and d.account=c_2.account
    """, con)

### Вариант получше через UNION

In [None]:
credit['value'] = -credit['value']
credit

In [None]:
pd.concat([debit, credit]).groupby(['date', 'account']).sum()

In [None]:
pd.read_sql(""" 
    select date, account, sum(value) from (
        select date, account, value
        from debit

        union all

        select date, account, -value
        from credit
    )
    group by date, account
    """, con)

# Простая база данных

Запись датафрейма в базу данных

In [None]:
import pandas as pd
import sqlite3

In [None]:
df = pd.read_csv('keywords.csv')
df.head()

In [None]:
con = sqlite3.connect('keywords.db')

In [None]:
df.to_sql('keywords', con, if_exists='replace')

Чтение из базы

In [None]:
con = sqlite3.connect('keywords.db')

In [None]:
pd.read_sql('select * from keywords limit 5', con)

In [None]:
df_sql = pd.read_sql('select * from keywords where keyword like "%вконтакте%";', con)
df_sql

Построчная обработка

In [None]:
cur = con.cursor()  # в MySQL есть разные типы курсоров (типа SSDictCursor)

In [None]:
# Умеет отправлять запросы по созданию и редактированию таблиц
cur.execute('select * from keywords where keyword like "%вконтакте%";')

In [None]:
f = open()
f.readline()

In [None]:
line = cur.fetchone()  # fetchall() fetchmany()
line

In [None]:
another_line = cur.fetchone()
another_line

In [None]:
f = open('result.csv', 'w')

for i, line in enumerate(cur.execute('select * from keywords where keyword like "%вконтакте%";')):
    print(i, line)
    
    if i > 5:
        break

# Рекомендации для работы с БД
1. Между вами и БД есть сеть.
2. В первых запросах указывать в конце оператор limit 5;
3. Никогда не делайте аналитику на боевых таблицах --> попросите админов сделать вам реплику нужных таблиц.