In [2]:
import pandas as pd
import numpy as np
import sqlalchemy as sql

In [3]:
df_main = pd.read_csv('main.csv')
df_net = pd.read_csv('net_property.csv')
df_seats = pd.read_csv('seats_property.csv')
df_type = pd.read_csv('type_property.csv')

## Продолжаем работать с датасетом про общепит. Хорошие новости - отдел безопасности оформил вам доступ к базе данных нашей организации и теперь вы сможете подключаться к ней и забирать новые данные. Для удобства будем работать с SQLITE3.

В базе данных содержатся сведения об организациях общепита:

    Выручка
    Число сотрудников
    Налоги
    Оценка на Яндекс
    Оценка на 2GIS
    Проверок

за 2019 - 2022 года. Сведения в таблицах представлены следующим образом
![image.png](attachment:image.png)

    ID - тот самый ID из main.csv
    YEAR - год отчета
    INDICATOR_NAME - показатель
    VALUE - значение показателя.

Например, первая строчка говорит нам о том, что выручка для организации с ID 20988 в 2020 году составила 29 337 447.

## Задание 1

Для каждой организации из main.csv подтяните выручку и число сотрудников за 2020, 2021 и 2022.<br> 
Посчитайте дельту по выручке и сотрудникам между 2022 и 2020. Отсортируйте организации по убыванию выручки.<br> 
Для организаций с одинаковой выручкой выполните сортировку по возрастанию ID.<br>
Если у организации нет данных по выручке или числу сотрудников за 2020 или 2022, то исключите их.<br>
Названия колонок сделайте на русском языке.

![image.png](attachment:image.png)

Загрузите в формате csv (разделитель запятая, индекс не добавляйте).

#### 1586 rows × 11 columns


In [331]:
con = sql.create_engine('sqlite:///indicators_db.sqlite3')

table_names = pd.read_sql_query("SELECT * FROM sqlite_master WHERE type='table';", con)
df_2022 = pd.read_sql_query(f"SELECT * from {table_names['tbl_name'][1]}", con)

df = df_2022.pivot(index='ID', columns=['INDICATOR_NAME', 'YEAR'], values='VALUE').reset_index()

df = df[['ID', 'Выручка', 'Число сотрудников']] 
df.set_index('ID')
df.columns = list(map(lambda col: f'{col[0]} {col[1]}'.strip(), df.columns))

df = pd.merge(df_main, df, on='ID', how='left')

mask = df['Выручка 2020'].notna() & df['Выручка 2022'].notna() & df['Число сотрудников 2020'].notna() & df['Число сотрудников 2022'].notna()
df = df[mask]

df.insert(6,'Дельта по выручке', df['Выручка 2022'] - df['Выручка 2020'])
df.insert(10,'Дельта по сотрудникам', df['Число сотрудников 2022'] - df['Число сотрудников 2020'])

df = df.sort_values(['Дельта по выручке', 'ID'], ascending=[False, True])

result = df.rename(columns={'ID': 'Идентификатор', 'Name': 'Наименование', 'Address': 'Адрес'})
result.to_csv('result.csv', index=False)
result

Unnamed: 0,Идентификатор,Наименование,Адрес,Выручка 2020,Выручка 2021,Выручка 2022,Дельта по выручке,Число сотрудников 2020,Число сотрудников 2021,Число сотрудников 2022,Дельта по сотрудникам
9205,342920,СИДРОВ ПРОЛИВ (пивной бар),"город Москва, проспект Вернадского, дом 86В",20302399.0,,39959846.0,19657447.0,6.0,11.0,14.0,8.0
9596,374427,Море лосося,"город Москва, улица Адмирала Макарова, дом 6, ...",20000135.0,,39484937.0,19484802.0,7.0,,19.0,12.0
5890,360584,"Выпечка, шаурма","Российская Федерация, город Москва, внутригоро...",20114682.0,23403344.0,39418028.0,19303346.0,13.0,,11.0,-2.0
8745,344731,Кофе с собой,"Российская Федерация, город Москва, внутригоро...",21020009.0,39682516.0,39851594.0,18831585.0,8.0,,10.0,2.0
4904,373914,Кафе,"город Москва, улица Айвазовского, владение 7, ...",20663231.0,31079091.0,38834892.0,18171661.0,7.0,16.0,14.0,7.0
...,...,...,...,...,...,...,...,...,...,...,...
9140,129686,Три правила,"город Москва, улица Мичуринский Проспект, Олим...",39778987.0,,21141214.0,-18637773.0,15.0,17.0,8.0,-7.0
4338,344859,Хлеб с маслом,"город Москва, Манежная площадь, дом 1, строение 2",38772086.0,,20065466.0,-18706620.0,13.0,8.0,15.0,2.0
1411,150865,Lost Bar,"город Москва, Новокосинская улица, дом 22",39338589.0,34587746.0,20463995.0,-18874594.0,15.0,18.0,15.0,0.0
2868,239777,Surf Coffee,"город Москва, Берсеневская набережная, дом 14,...",39515097.0,28540582.0,20432343.0,-19082754.0,19.0,,9.0,-10.0


## Задание 2

Коллеги уже пишут вам в чат и просят посчитать суммарную выручку по организациям за __2022__  год:  
**`357706, 198181, 27549`**  

Через несколько минут приходит еще одно сообщение, просят добавить к ним еще четыре:  
**`217895, 201139, 357706, 20105`**  

Вы почти успели импортировать pandas и коллеги снова просят добавить к ним еще организаций из [списка](https://stepik.org/media/attachments/lesson/840580/%D0%92%D1%8B%D1%80%D1%83%D1%87%D0%BA%D0%B0_%D0%BF%D0%BE_%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D1%8F%D0%BC.xlsx).

Посчитайте, пожалуйста, суммарную выручку за 2022 год.  
Если у каких-то организаций нет выручки за 2022 год, то возьмите самую свежую доступную (за другой год).  
Ответ округлите до целого.


In [115]:
id_query = (357706, 198181, 27549, 217895, 201139, 357706, 20105)

id_list = pd.read_excel("Выручка_по_компаниям.xlsx", sheet_name='Лист1')
id_list = tuple(set(pd.concat([id_list.iloc[:,0], pd.Series(id_query)])))


In [176]:
con = sql.create_engine('sqlite:///indicators_db.sqlite3')

df = pd.read_sql('''SELECT VALUE FROM
                    (SELECT * FROM org_indicators_2019 
                    WHERE INDICATOR_NAME LIKE 'Выручка'
                    UNION ALL SELECT * FROM org_indicators_2020_2022
                    WHERE INDICATOR_NAME LIKE "Выручка")''' + \
                    f'WHERE ID IN {id_list} GROUP BY ID HAVING MAX(YEAR)' + \
                    ' ORDER BY ID, YEAR desc'
                 ,con
                )

df.VALUE.sum()



462125109

In [287]:
table_names = pd.read_sql_query("SELECT * FROM sqlite_master WHERE type='table';", con)

df_2019 = pd.read_sql_query(f"SELECT * from {table_names['tbl_name'][0]}", con)
df_2022 = pd.read_sql_query(f"SELECT * from {table_names['tbl_name'][1]}", con)

df = pd.concat([df_2019, df_2022]).query("INDICATOR_NAME =='Выручка' & VALUE.notna()").drop_duplicates(subset='ID', keep='last')

print(df.query(f"ID in {id_list}").VALUE.sum())


462125109


## Задание 3

Выгрузите организации, где число сотрудников в 2020 году 15 и больше.  
Если за 2020 год данных по сотрудникам нет, то возьмите за 2019 год.  
Отсортируйте по возрастанию числа сотрудников.  
Если число сотрудников одинаковое, то организации должны идти по убыванию ID.  

Пример выгрузки:  
![image.png](attachment:image.png)

In [179]:
con = sql.create_engine('sqlite:///indicators_db.sqlite3')

# df = pd.read_sql('''
#                     SELECT * FROM org_indicators_2019 
#                     WHERE INDICATOR_NAME LIKE 'Число сотрудников' 
#                     UNION ALL SELECT * FROM org_indicators_2020_2022
#                     WHERE INDICATOR_NAME LIKE "Число сотрудников" 
#                     AND YEAR <= 2020 
#                  '''
#                  ,con
#                 )
# df = df.groupby('ID').tail(1).query("VALUE >= 15")
# df = df.sort_values(['VALUE', 'ID'], ascending=[True, False])
# result = df.rename(columns={'ID':'Идентификатор', 'VALUE': 'Сотрудники 2019_2020'}) 
# result.to_csv('result_task3.csv', index=False)


df = pd.read_sql('''
                   SELECT ID as 'Идентификатор', VALUE as 'Сотрудники 2019_2020'
                    FROM (SELECT ID, VALUE FROM (SELECT * FROM org_indicators_2019 
                    WHERE INDICATOR_NAME LIKE 'Число сотрудников'
                    UNION ALL SELECT * FROM org_indicators_2020_2022 
                    WHERE INDICATOR_NAME LIKE 'Число сотрудников' AND YEAR <= 2020)
                    GROUP BY ID HAVING MAX(YEAR)
                    ORDER BY VALUE asc, ID desc, year desc)
                    where VALUE >=15
                  '''
                  ,con
                 ) #.to_csv('result_task3.csv', index=False)

df



Unnamed: 0,Идентификатор,Сотрудники 2019_2020
0,375648,15
1,375575,15
2,375534,15
3,375320,15
4,375119,15
...,...,...
3136,20838,19
3137,20503,19
3138,20315,19
3139,20045,19


## Задание 4

Найдите ТОП-10 организаций, которые за период 2019-2022 заплатили больше всего налогов и при этом платили налог все 4 года.   
В выгрузке должен быть идентификатор, наименование, адрес, налоги по годам и суммарный налог.  
Сортировка по убыванию уплаты налогов и по названию в алфавитном порядке (для равных по уплате налога).  

Пример результата:  
![image.png](attachment:image.png)

In [356]:
con = sql.create_engine('sqlite:///indicators_db.sqlite3')

df = pd.read_sql('''
                    SELECT ID, YEAR, VALUE FROM org_indicators_2019 WHERE INDICATOR_NAME LIKE 'Налоги' 
                    UNION ALL SELECT ID, YEAR, VALUE FROM org_indicators_2020_2022 WHERE INDICATOR_NAME LIKE 'Налоги'
                 '''
                  ,con
                 )

df = df.pivot(index='ID', columns='YEAR', values='VALUE')
df = df[df.notna().all(axis=1)]
df['Total'] = df.sum(axis=1)

result = df_main.merge(df, on='ID')

result.columns = ['Идентификатор', 'Наименование', 'Адрес', 'Налоги (2019 г.)',
                   'Налоги (2020 г.)', 'Налоги (2021 г.)', 'Налоги (2022 г.)', 'Налоги (Всего)']

result.nlargest(10, 'Налоги (Всего)').to_csv('result_task4.csv', index=False)

# result.sort_values(['Налоги (Всего)', 'Наименование'], ascending=[False, True]).head(10)


In [355]:
result.sort_values(['Налоги (Всего)', 'Наименование'], ascending=[False, True]).head(10)

Unnamed: 0,Идентификатор,Наименование,Адрес,Налоги (2019г.),Налоги (2020г.),Налоги (2021г.),Налоги (2022г.),Налоги (Всего)
1858,259110,Кафе Плов Хаус,"Российская Федерация, город Москва, внутригоро...",781647.0,778240.0,787289.0,690317.0,3037493.0
940,360850,"Пекарня, шашлыки","Российская Федерация, город Москва, внутригоро...",743416.0,708866.0,782963.0,719909.0,2955154.0
1726,238923,Мята,"Российская Федерация, город Москва, внутригоро...",740341.0,762886.0,666885.0,760670.0,2930782.0
1533,293423,Буханка,"город Москва, улица Полины Осипенко, дом 10, к...",728116.0,758394.0,690844.0,734469.0,2911823.0
865,205809,SeDelice Французская пекарня,"Российская Федерация, город Москва, внутригоро...",790908.0,728516.0,632571.0,732026.0,2884021.0
141,326049,Кебаб Хаус,"Российская Федерация, город Москва, внутригоро...",773919.0,692267.0,746153.0,652210.0,2864549.0
1513,348665,2Bro,"Российская Федерация, город Москва, внутригоро...",792857.0,531143.0,790359.0,682982.0,2797341.0
410,288923,Кальян-бар Otrada Lounge,"Российская Федерация, город Москва, внутригоро...",538933.0,689504.0,798771.0,755940.0,2783148.0
221,303983,Жалал Абад,"Российская Федерация, город Москва, внутригоро...",783555.0,618359.0,680750.0,680120.0,2762784.0
1094,298149,Munterra,"город Москва, Большой Харитоньевский переулок,...",498451.0,758751.0,710255.0,780775.0,2748232.0
