# Сводные таблицы

In [6]:
import pandas as pd

In [7]:
df = pd.DataFrame({'date': ['2021-01-01', '2021-01-01', '2021-01-01', '2021-01-02', '2021-01-02'], 
                   'category': ['Авто', 'Дача', 'Дача', 'Авто', 'Дача'],
                   'cost': [100, 200, 300, 400, 500]})
df

Unnamed: 0,date,category,cost
0,2021-01-01,Авто,100
1,2021-01-01,Дача,200
2,2021-01-01,Дача,300
3,2021-01-02,Авто,400
4,2021-01-02,Дача,500


In [8]:
df.groupby('date').sum()

Unnamed: 0_level_0,cost
date,Unnamed: 1_level_1
2021-01-01,600
2021-01-02,900


In [9]:
df.groupby('date').agg({'cost': 'sum'})

Unnamed: 0_level_0,cost
date,Unnamed: 1_level_1
2021-01-01,600
2021-01-02,900


In [10]:
df.groupby(['date', 'category']).agg({'cost': 'sum'})

Unnamed: 0_level_0,Unnamed: 1_level_0,cost
date,category,Unnamed: 2_level_1
2021-01-01,Авто,100
2021-01-01,Дача,500
2021-01-02,Авто,400
2021-01-02,Дача,500


In [8]:
df.pivot_table(index='date', columns='category', values='cost', aggfunc='sum', margins=True)

category,Авто,Дача,All
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-01-01,100,500,600
2021-01-02,400,500,900
All,500,1000,1500


In [9]:
def my_func(column_values):
    return column_values.max() - column_values.min()

In [10]:
df.pivot_table(index='date', columns='category', values='cost', aggfunc=my_func, margins=True)

category,Авто,Дача,All
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-01-01,0,100,200
2021-01-02,0,0,100
All,300,300,400


### Вопрос по объединениям
Есть таблица из 100 строк. Ее объединяют с другой таблицей по общему столбцу типом LEFT.

Сколько строк может быть на выходе?

# Вопрос 1
Объединение датафреймов по разным столбцам

In [11]:
import pandas as pd

In [12]:
df_1 = pd.DataFrame({'date_left': ['2021-01-01'], 'value_left': [100]})
df_1

Unnamed: 0,date_left,value_left
0,2021-01-01,100


In [13]:
df_2 = pd.DataFrame({'date_right': ['2021-01-01', '2022-02-01'], 'value_right': [200, 300]})
df_2

Unnamed: 0,date_right,value_right
0,2021-01-01,200
1,2022-02-01,300


In [14]:
df_1.merge(df_2, left_on='date_left', right_on='date_right', how='left')

Unnamed: 0,date_left,value_left,date_right,value_right
0,2021-01-01,100,2021-01-01,200


# Вопрос 2
Объединение нескольких датафреймов

In [15]:
df_3 = pd.DataFrame({'date_3': ['2021-01-01', '2022-02-01'], 'value_3': [400, 500]})
df_3

Unnamed: 0,date_3,value_3
0,2021-01-01,400
1,2022-02-01,500


In [16]:
# вариант 1
(df_1
 .merge(df_2, left_on='date_left', right_on='date_right')  # пояснения
 .merge(df_3, left_on='date_left', right_on='date_3')
)


Unnamed: 0,date_left,value_left,date_right,value_right,date_3,value_3
0,2021-01-01,100,2021-01-01,200,2021-01-01,400


In [17]:
# вариант 2
from functools import reduce

df_1 = pd.DataFrame({'date': ['2021-01-01'], 'value_1': [100]})
df_2 = pd.DataFrame({'date': ['2021-01-01'], 'value_2': [200]})
df_3 = pd.DataFrame({'date': ['2021-01-01'], 'value_3': [300]})

In [18]:
reduce(lambda x, y: x + y, [1, 2, 3, 4, 5])

15

In [None]:
1 + 2 == 3
3 + 3 == 6
6 + 4 == 10
10 + 5 == 15

In [19]:
reduce(lambda x, y: x * y, [1, 2, 3, 4, 5])

120

In [None]:
1 * 2 == 2
2 * 3 == 6
6 * 4 == 24
24 * 5 == 120

In [20]:
reduce(lambda a, b: a.merge(b, how='left', on='date'), [df_1, df_2, df_3])

Unnamed: 0,date,value_1,value_2,value_3
0,2021-01-01,100,200,300


In [None]:
df_1.merge(df_2) == res
res.merge(df_3)

# Задача про LEFT JOIN
- Есть таблица left_table из 100 строк
- Объединяем ее с right_table
- Сколько строк может быть на выходе?

Constraint

In [21]:
import pandas as pd

In [22]:
left_table = pd.DataFrame({'date': ['2021-01-01'], 'value_left': [100]})
left_table

Unnamed: 0,date,value_left
0,2021-01-01,100


In [26]:
right_table = pd.DataFrame({'date': ['2021-01-01', '2021-01-02', '2021-01-01'], 
                            'value_right': [200, 300, 500]})
right_table

Unnamed: 0,date,value_right
0,2021-01-01,200
1,2021-01-02,300
2,2021-01-01,500


In [27]:
left_table.merge(right_table, on='date', how='left')

Unnamed: 0,date,value_left,value_right
0,2021-01-01,100,200
1,2021-01-01,100,500


In [25]:
left_table.merge(right_table, on='date', how='right')

Unnamed: 0,date,value_left,value_right
0,2021-01-01,100.0,200
1,2021-01-02,,300


### Пример посложнее

In [28]:
left_table = pd.DataFrame({'date': ['2021-01-01', '2021-01-01'], 'value': [100, 150]})
left_table

Unnamed: 0,date,value
0,2021-01-01,100
1,2021-01-01,150


In [29]:
right_table = pd.DataFrame({'date': ['2021-01-01', '2021-01-01'], 'value_right': [200, 400]})
right_table

Unnamed: 0,date,value_right
0,2021-01-01,200
1,2021-01-01,400


In [30]:
left_table.merge(right_table, on='date', how='left')

Unnamed: 0,date,value,value_right
0,2021-01-01,100,200
1,2021-01-01,100,400
2,2021-01-01,150,200
3,2021-01-01,150,400


Поиск дубликатов

In [31]:
right_table

Unnamed: 0,date,value_right
0,2021-01-01,200
1,2021-01-01,400


In [33]:
right_table.duplicated('date')  # является ли строка дубликатом одной из предыдущих

0    False
1     True
dtype: bool

In [34]:
# полные дубликаты строк

right_table[right_table.duplicated()]

Unnamed: 0,date,value_right


In [35]:
# дубликаты по столбцу (набору столбцов)

right_table[right_table.duplicated(['date'])]

Unnamed: 0,date,value_right
1,2021-01-01,400


In [36]:
# удаление дубликатов
right_table.drop_duplicates('date', keep='first')

Unnamed: 0,date,value_right
0,2021-01-01,200


### CROSS JOIN
Каждый с каждым

In [37]:
df_names = pd.DataFrame({'names': ['Лена', 'Настя', 'Витя']})
df_names

Unnamed: 0,names
0,Лена
1,Настя
2,Витя


In [38]:
df_dates = pd.DataFrame({'names': ['2021-01-01', '2021-01-02', '2021-01-03']})
df_dates

Unnamed: 0,names
0,2021-01-01
1,2021-01-02
2,2021-01-03


In [39]:
df_names.merge(df_dates, how='cross')

Unnamed: 0,names_x,names_y
0,Лена,2021-01-01
1,Лена,2021-01-02
2,Лена,2021-01-03
3,Настя,2021-01-01
4,Настя,2021-01-02
5,Настя,2021-01-03
6,Витя,2021-01-01
7,Витя,2021-01-02
8,Витя,2021-01-03


In [40]:
df_names['fake'] = True
df_names

Unnamed: 0,names,fake
0,Лена,True
1,Настя,True
2,Витя,True


In [41]:
df_dates['fake'] = True
df_dates

Unnamed: 0,names,fake
0,2021-01-01,True
1,2021-01-02,True
2,2021-01-03,True


In [42]:
df_names.merge(df_dates, on='fake', how='left', suffixes=['_names', '_dates'])

Unnamed: 0,names_names,fake,names_dates
0,Лена,True,2021-01-01
1,Лена,True,2021-01-02
2,Лена,True,2021-01-03
3,Настя,True,2021-01-01
4,Настя,True,2021-01-02
5,Настя,True,2021-01-03
6,Витя,True,2021-01-01
7,Витя,True,2021-01-02
8,Витя,True,2021-01-03


In [43]:
3 * 3

9

In [44]:
1000 * 1000

1000000

In [45]:
10**6 * 10**6

1000000000000

# Задачка с собеседований
Для каждого номера счета и даты посчитать разницу доходов и расходов

In [46]:
import pandas as pd
import sqlite3  # MySQL - pymysql, Postgres - psycorpg2

In [47]:
con = sqlite3.connect('finance.db')
con

<sqlite3.Connection at 0x7fc0ba1f3300>

In [48]:
# еще один вариант через sqlalchemy

from sqlalchemy import create_engine

In [49]:
con = create_engine(
    "sqlite:///finance.db",
)

In [50]:
credit = pd.read_sql("""
    select date, account, value from credit
    """, con)
credit

Unnamed: 0,date,account,value
0,2021-01-01,111,50
1,2021-01-01,222,100
2,2021-01-01,111,55
3,2021-01-02,111,45


In [51]:
debit = pd.read_sql("""
    select date, account, value from debit
    """, con)
debit

Unnamed: 0,date,account,value
0,2021-01-01,111,100
1,2021-01-01,222,200
2,2021-01-01,111,110
3,2021-01-02,111,90
4,2021-01-03,111,90


### Подвох 1
Если в условии задачи ничего не сказано про дубликаты, то считайте, что они есть.

### Ошибочное объединение

In [52]:
debit.merge(credit, how='left', on=['date', 'account'])

Unnamed: 0,date,account,value_x,value_y
0,2021-01-01,111,100,50.0
1,2021-01-01,111,100,55.0
2,2021-01-01,222,200,100.0
3,2021-01-01,111,110,50.0
4,2021-01-01,111,110,55.0
5,2021-01-02,111,90,45.0
6,2021-01-03,111,90,


In [None]:
pd.read_sql("""
    select d.date, d.account, d.value, c.value from debit d
    left join credit c
    on d.date=c.date and d.account = c.account
    """, con)

### Добавляем группировку

In [53]:
debit_grouped = debit.groupby(['date', 'account']).sum().reset_index()
debit_grouped

Unnamed: 0,date,account,value
0,2021-01-01,111,210
1,2021-01-01,222,200
2,2021-01-02,111,90
3,2021-01-03,111,90


In [54]:
credit_grouped = credit.groupby(['date', 'account']).sum().reset_index()
credit_grouped

Unnamed: 0,date,account,value
0,2021-01-01,111,105
1,2021-01-01,222,100
2,2021-01-02,111,45


In [None]:
pd.read_sql("""
    select d.date, d.account, d.value from (
        select date, account, sum(value) as value
        from debit
        group by date, account
    ) d
    """, con)

In [None]:
pd.read_sql("""
    select c.date, c.account, c.value from (
        select date, account, sum(value) as value
        from credit
        group by date, account
    ) c
    """, con)

### И только после группировки объединяем

### Подвох 2
Какой тип объединения выбрать?

Если в таблицах есть даты, то считайте, что они могут не пересекаться.

In [55]:
debit_grouped.merge(credit_grouped, on=['date', 'account'], how='outer')

Unnamed: 0,date,account,value_x,value_y
0,2021-01-01,111,210,105.0
1,2021-01-01,222,200,100.0
2,2021-01-02,111,90,45.0
3,2021-01-03,111,90,


In [None]:
pd.read_sql("""
    select d.date, d.account, d.value from (
        select date, account, sum(value) as value
        from debit
        group by date, account
    ) d
    
    left outer join
    
    (select c.date, c.account, c.value from (
        select date, account, sum(value) as value
        from credit
        group by date, account
    ) c) c_2
    
    on d.date=c_2.date and d.account=c_2.account
    """, con)

### Вариант получше через UNION

Если можно обойтись без JOIN, то скорее всего это проще и удобнее

In [None]:
100 + (-50)

In [56]:
credit['value'] = -credit['value']
credit

Unnamed: 0,date,account,value
0,2021-01-01,111,-50
1,2021-01-01,222,-100
2,2021-01-01,111,-55
3,2021-01-02,111,-45


In [58]:
pd.concat([debit, credit]).groupby(['date', 'account']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,value
date,account,Unnamed: 2_level_1
2021-01-01,111,105
2021-01-01,222,100
2021-01-02,111,45
2021-01-03,111,90


In [None]:
pd.read_sql(""" 
    select date, account, sum(value) from (
        select date, account, value
        from debit

        union all

        select date, account, -value
        from credit
    )
    group by date, account
    """, con)

# Простая база данных

Запись датафрейма в базу данных

In [59]:
import pandas as pd
import sqlite3

In [60]:
df = pd.read_csv('keywords.csv')
df.head()

Unnamed: 0,keyword,shows
0,вк,64292779
1,одноклассники,63810309
2,порно,41747114
3,ютуб,39995567
4,вконтакте,21014195


In [61]:
con = sqlite3.connect('keywords.db')

In [62]:
df.to_sql('keywords', con, if_exists='replace')

100000

In [63]:
con.close()

Чтение из базы

In [64]:
con = sqlite3.connect('keywords.db')

In [65]:
pd.read_sql('select * from keywords limit 5', con)

Unnamed: 0,index,keyword,shows
0,0,вк,64292779
1,1,одноклассники,63810309
2,2,порно,41747114
3,3,ютуб,39995567
4,4,вконтакте,21014195


In [66]:
df_sql = pd.read_sql('select * from keywords where keyword like "%вконтакте%";', con)
df_sql

Unnamed: 0,index,keyword,shows
0,4,вконтакте,21014195
1,14,вконтакте моя страница,5971451
2,317,вконтакте вход на страницу,488442
3,530,моя страница вконтакте,5971451
4,896,вконтакте социальная сеть,202480
...,...,...,...
84,96819,оренбург онлайн вконтакте,3894
85,97029,раскрутка групп в вконтакте,3782
86,98809,весь арзамас вконтакте,3623
87,99696,моя страница вконтакте одноклассники,16548


Построчная обработка

In [67]:
cur = con.cursor()  # в MySQL есть разные типы курсоров (типа SSDictCursor)

In [68]:
# Умеет отправлять запросы по созданию и редактированию таблиц
cur.execute('select * from keywords where keyword like "%вконтакте%";')

<sqlite3.Cursor at 0x7fc07866f7a0>

In [69]:
f = open('keywords.csv')
f.readline()

'keyword,shows\n'

In [70]:
line = cur.fetchone()  # fetchall() fetchmany()
line

(4, 'вконтакте', 21014195)

In [71]:
another_line = cur.fetchone()
another_line

(14, 'вконтакте моя страница', 5971451)

# Рекомендации для работы с БД
1. Между вами и БД есть сеть.
2. В первых запросах указывать в конце оператор limit 5;
3. Никогда не делайте аналитику на боевых таблицах --> попросите админов сделать вам реплику нужных таблиц.

In [72]:
f = open('result.csv', 'w')

for i, line in enumerate(cur.execute('select * from keywords where keyword like "%вконтакте%";')):
    print(i, line)
    
    if i > 5:
        break

0 (4, 'вконтакте', 21014195)
1 (14, 'вконтакте моя страница', 5971451)
2 (317, 'вконтакте вход на страницу', 488442)
3 (530, 'моя страница вконтакте', 5971451)
4 (896, 'вконтакте социальная сеть', 202480)
5 (1003, 'вконтакте вход', 190587)
6 (1093, 'вконтакте моя', 173001)
