# Знакомство с базой данных

В самостоятельном проекте этого курса вы будете работать с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle. 

Анализировать рынок инвестиций без подготовки может быть непросто. Поэтому сначала познакомьтесь с важными понятиями, которые вам встретятся в работе с базой данных. 

Венчурные фонды — это финансовые организации, которые могут позволить себе высокий риск и инвестировать в компании с инновационной бизнес-идеей или разработанной новой технологией, то есть в стартапы. Цель венчурных фондов — в будущем получить значительную прибыль, которая в разы превысит размер их трат на инвестиции в компанию. Если стартап подорожает, венчурный фонд может получить долю в компании или фиксированный процент от её выручки. 

Чтобы процесс финансирования стал менее рискованным, его делят на стадии — раунды. Тот или иной раунд зависит от того, какого уровня развития достигла компания. 

Первые этапы — предпосевной и посевной раунды. Предпосевной раунд предполагает, что компания как таковая ещё не создана и находится в стадии замысла. Следующий — посевной — раунд знаменует рост проекта: создатели компании разрабатывают бизнес-модель и привлекают инвесторов. 

Если компании требуется ментор или наставник — она привлекает бизнес-ангела. Бизнес-ангелы — инвесторы, которые помимо финансовой поддержки предлагают экспертную помощь. Такой раунд называют ангельским. 

Когда стартап становится компанией с проверенной бизнес-моделью и начинает зарабатывать самостоятельно, предложений инвесторов становится больше. Это раунд A, а за ним следуют и другие: B, C, D — на этих этапах компания активно развивается и готовится к IPO. 
Иногда выделяют венчурный раунд — финансирование, которое могло поступить от венчурного фонда на любом этапе: начальном или более позднем. 

В данных об инвестициях вам встретятся упоминания раундов, но самостоятельный проект не предполагает, что вы должны разбираться в их специфике лучше любого инвестора. Главное — понимать, как устроены данные. 
Вы уже знаете, что такое ER-диаграмма. Работу с новой базой данных лучше начать с изучения схемы.

<image src="image.png" alt="Cхема база данных">

Теперь можно познакомиться с данными, которые хранят таблицы.

**acquisition**

Содержит информацию о покупках одних компаний другими.
Таблица включает такие поля:

- первичный ключ id — идентификатор или уникальный номер покупки;
- внешний ключ acquiring_company_id — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
- внешний ключ acquired_company_id — ссылается на таблицу company — идентификатор компании, которую покупают;
- term_code — способ оплаты сделки:
  - cash — наличными;
  - stock — акциями компании;
  - cash_and_stock — смешанный тип оплаты: наличные и акции.
- price_amount — сумма покупки в долларах;
- acquired_at — дата совершения сделки;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**company**

Содержит информацию о компаниях-стартапах.

- первичный ключ id — идентификатор, или уникальный номер компании;
- name — название компании;
- category_code — категория деятельности компании, например:
  - news — специализируется на работе с новостями;
  - social — специализируется на социальной работе.
- status — статус компании:
  - acquired — приобретена;
  - operating — действует;
  - ipo — вышла на IPO;
  - closed — перестала существовать.
- founded_at — дата основания компании;
- closed_at — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
- domain — домен сайта компании;
- network_username — профиль фонда в корпоративной сети биржи;
- country_code — код страны, например, USA для США, GBR для Великобритании;
- investment_rounds — число раундов, в которых компания участвовала как инвестор;
- funding_rounds — число раундов, в которых компания привлекала инвестиции;
- funding_total — сумма привлечённых инвестиций в долларах;
- milestones — количество важных этапов в истории компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**education**

Хранит информацию об уровне образования сотрудников компаний.

- первичный ключ id — уникальный номер записи с информацией об образовании;
- внешний ключ person_id — ссылается на таблицу people — идентификатор человека, информация о котором представлена в записи;
- degree_type — учебная степень, например:
  - BA — Bachelor of Arts — бакалавр гуманитарных наук;
  - MS — Master of Science — магистр естественных наук.
- instituition — учебное заведение, название университета;
- graduated_at — дата завершения обучения, выпуска;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**fund**

Хранит информацию о венчурных фондах. 

- первичный ключ id — уникальный номер венчурного фонда;
- name — название венчурного фонда;
- founded_at — дата основания фонда;
- domain — домен сайта фонда;
- network_username — профиль фонда в корпоративной сети биржи;
- country_code — код страны фонда;
- investment_rounds — число инвестиционных раундов, в которых фонд принимал участие;
- invested_companies — число компаний, в которые инвестировал фонд;
- milestones — количество важных этапов в истории фонда;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**funding_round**

Содержит информацию о раундах инвестиций. 

- первичный ключ id — уникальный номер инвестиционного раунда;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;
- funded_at — дата проведения раунда;
- funding_round_type — тип инвестиционного раунда, например:
  - venture — венчурный раунд;
  - angel — ангельский раунд;
  - series_a — раунд А.
- raised_amount — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
- pre_money_valuation — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
- participants — количество участников инвестиционного раунда;
- is_first_round — является ли этот раунд первым для компании;
- is_last_round — является ли этот раунд последним для компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**investment**

Содержит информацию об инвестициях венчурных фондов в компании-стартапы.

- первичный ключ id — уникальный номер инвестиции;
- внешний ключ funding_round_id — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;
- внешний ключ fund_id — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**people**

Содержит информацию о сотрудниках компаний-стартапов.

- первичный ключ id — уникальный номер сотрудника;
- first_name — имя сотрудника;
- last_name — фамилия сотрудника;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа;
- network_username — профиль фонда в корпоративной сети биржи;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

In [1]:
#!pip install csv-to-sqlite

In [2]:
import numpy as np # linear algebra
import pandas as pd
import csv_to_sqlite
import sqlite3
import csv

In [3]:
# downlaud dataframes
funding_round = pd.read_csv("funding_rounds.csv", low_memory=False)
acquisition = pd.read_csv("acquisitions.csv", low_memory=False)
company = pd.read_csv("objects.csv", low_memory=False)
people = pd.read_csv("people.csv", low_memory=False)
education = pd.read_csv("degrees.csv", low_memory=False)
investment = pd.read_csv("investments.csv", low_memory=False)
fund = pd.read_csv("funds.csv", low_memory=False)

In [4]:
funding_round.to_csv('funding_round.csv', index=False)
acquisition.to_csv('acquisition.csv', index=False)
company.to_csv('company.csv', index=False)
people.to_csv('people.csv', index=False)
education.to_csv('education.csv', index=False)
investment.to_csv('investment.csv', index=False)
fund.to_csv('fund.csv', index=False)

In [5]:
# translating dataframe formarts from csv to sqlite
options=csv_to_sqlite.CsvOptions(typing_style='full',encoding='utf-8')
input_name = ['funding_round.csv', 'acquisition.csv', 
              'company.csv', 'people.csv', 'education.csv',
              'investment.csv', 'fund.csv']
database_name = 'output.sqlite'
if os.path.exists(database_name):
    os.remove(database_name)
csv_to_sqlite.write_csv(input_name, database_name, options)

<IPython.core.display.Javascript object>


Written 943926 rows into 7 tables in 123.297 seconds


943926

## Задания №1.

### Отобразите все записи из таблицы company по компаниям, которые закрылись.

In [6]:
con=sqlite3.connect('output.sqlite')
company_closed = pd.read_sql_query('''SELECT *
                         FROM company
                         WHERE status='closed';''',con)
company_closed

Unnamed: 0,id,entity_type,entity_id,parent_id,name,normalized_name,permalink,category_code,status,founded_at,...,last_funding_at,funding_rounds,funding_total_usd,first_milestone_at,last_milestone_at,milestones,relationships,created_by,created_at,updated_at
0,c:10012,Company,10012,,moviestring.com,moviestring,/company/moviestring-com,games_video,closed,2008-08-22,...,,0,0.0,,,0,1,,2008-08-24 23:07:26,2010-10-01 00:12:22
1,c:1006,Company,1006,,Youlicit,youlicit,/company/youlicit,web,closed,2006-09-01,...,2008-01-01,1,0.0,,,0,5,initial-importer,2007-10-02 09:45:00,2013-10-19 10:39:54
2,c:10062,Company,10062,,Workstir,workstir,/company/workstir,web,closed,,...,2009-06-01,1,0.0,2008-11-12,2009-04-01,2,4,,2008-08-25 18:26:25,2013-10-16 09:57:06
3,c:10092,Company,10092,,FairSoftware,fairsoftware,/company/fairsoftware,web,closed,2007-01-01,...,2007-01-01,1,100000.0,2009-01-16,2009-01-16,1,1,,2008-08-25 23:41:44,2013-10-15 04:33:46
4,c:101,Company,101,,SellABand,sellaband,/company/sellaband,games_video,closed,2006-08-01,...,2008-04-08,1,5000000.0,2008-03-10,2012-05-10,5,3,initial-importer,2007-07-04 05:29:56,2010-04-29 21:39:39
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2768,r:8963,Product,8963,c:11424,PlayCrafter,playcrafter,/product/playcrafter,,closed,2008-07-22,...,,0,0.0,,,0,0,,2008-10-22 05:06:15,2011-08-08 18:39:03
2769,r:9055,Product,9055,c:12152,MacFeeder Sverige,macfeeder sverige,/product/macfeeder-sverige,,closed,2008-07-01,...,,0,0.0,,,0,0,,2008-10-25 17:59:46,2009-08-29 03:32:49
2770,r:9291,Product,9291,c:12,Twicco,twicco,/product/twicco,,closed,2009-11-04,...,,0,0.0,,,0,0,,2008-11-05 07:11:04,2013-10-17 12:56:39
2771,r:9320,Product,9320,c:13193,WW.DataServices,ww dataservices,/product/ww-dataservices,,closed,2006-04-01,...,,0,0.0,,,0,0,,2008-11-06 16:16:26,2009-01-07 05:33:26


## Задания №2.

### Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total.

In [7]:

found_total_for_news_comp = pd.read_sql_query('''SELECT SUM(funding_total_usd)
                                                 FROM company
                                                 WHERE category_code='news'
                                                 AND country_code='USA'
                                                 GROUP BY name
                                                 ORDER BY SUM(funding_total_usd) DESC;''',
                                              con)
found_total_for_news_comp

Unnamed: 0,SUM(funding_total_usd)
0,622552813.0
1,250000000.0
2,160500000.0
3,128000000.0
4,126500000.0
...,...
210,0.0
211,0.0
212,0.0
213,0.0


## Задания №3.

### Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [8]:
s_price_amount = pd.read_sql_query('''SELECT SUM(price_amount)
                                        FROM acquisition
                                        WHERE term_code='cash'
                                        AND STRFTIME('%Y', acquired_at) BETWEEN 2011 AND 2013;''',
                                              con)
s_price_amount

Unnamed: 0,SUM(price_amount)
0,


## Задания №4.

### Отобразите имя, фамилию и названия аккаунтов людей в поле network_username, у которых названия аккаунтов начинаются на 'Silver'.

In [13]:
f_l_name = pd.read_sql_query('''SELECT first_name,last_name,affiliation_name
                                        FROM people
                                        WHERE affiliation_name LIKE 'Silver%';''',
                                              con)
f_l_name

Unnamed: 0,first_name,last_name,affiliation_name
0,Mike,Eynon,Silver Tail Systems
1,John,O'Farrell,Silver Spring Networks
2,Raj,Gajwani,SilverDock
3,Madhav,SBSS,Silverlink Communications
4,Craig,Stouffer,Silver Peak Systems
5,Andy,Ball,Silverback Marketing
6,Aaron,Gowell,SilverRail
7,Carissa,Reiniger,Silver Lining Ltd
8,Richard,Dale,Silverlink Communications
9,Marc,Frechette,"SilverTech, Inc."


## Задания №5.

### Выведите на экран всю информацию о людях, у которых названия аккаунтов в поле network_username содержат подстроку 'money', а фамилия начинается на 'K'.

In [14]:
usernet_name = pd.read_sql_query('''SELECT *
                                        FROM people
                                        WHERE affiliation_name LIKE '%money%' AND last_name like 'K%';''',
                                              con)
usernet_name

Unnamed: 0,id,object_id,first_name,last_name,birthplace,affiliation_name
0,134417,p:165626,Vijay,Khubchandani,India,MoneyLeo


## Задания №6.

### Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

In [16]:
tot_fund = pd.read_sql_query('''SELECT country_code,SUM(funding_total_usd)
                                        FROM company
                                        GROUP BY country_code
                                        ORDER BY SUM(funding_total_usd) DESC;''',
                                              con)
tot_fund

Unnamed: 0,country_code,SUM(funding_total_usd)
0,USA,3.105884e+11
1,GBR,1.770562e+10
2,,1.085592e+10
3,CHN,1.068974e+10
4,CAN,9.866362e+09
...,...,...
173,ARA,0.000000e+00
174,AND,0.000000e+00
175,AIA,0.000000e+00
176,AGO,0.000000e+00


## Задания №7.

### Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату. Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [17]:
data_fund = pd.read_sql_query('''SELECT funded_at,
                                        MIN(raised_amount) AS min_investment, 
                                        MAX(raised_amount) AS max_investment
                                        FROM funding_round
                                        GROUP BY funded_at
                                        HAVING MIN(raised_amount) > 0
                                        AND MIN(raised_amount) <> MAX(raised_amount);''',
                                              con)
data_fund

Unnamed: 0,funded_at,min_investment,max_investment
0,1960-11-01,75000.0,861030.0
1,1995-01-01,2000000.0,10000000.0
2,1999-03-01,750000.0,25000000.0
3,1999-04-01,1360000.0,16000000.0
4,1999-05-01,1500000.0,5000000.0
...,...,...,...
1281,2013-11-10,240000.0,13000000.0
1282,2013-11-13,50000.0,79000000.0
1283,2013-11-17,250000.0,7500000.0
1284,2013-11-28,111500.0,90000000.0


## Задания №8.

### Создайте поле с категориями:

- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
- Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
- Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.

### Отобразите все поля таблицы fund и новое поле с категориями.

In [18]:
cat_invest = pd.read_sql_query('''SELECT *,
                                  CASE
                                    WHEN invested_companies>=100 THEN 'high_activity'
                                    WHEN invested_companies<20 THEN 'low_activity'
                                    ELSE 'middle_activity'
                                  END
                                 FROM fund;''',
                                 con)
cat_invest

DatabaseError: Execution failed on sql 'SELECT *,
                                  CASE
                                    WHEN invested_companies>=100 THEN 'high_activity'
                                    WHEN invested_companies<20 THEN 'low_activity'
                                    ELSE 'middle_activity'
                                  END
                                 FROM fund;': no such column: invested_companies

## Задания №9.

### Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [None]:
round_invest = pd.read_sql_query('''SELECT 
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity,
       ROUND(avg(investment_rounds))
FROM fund
group by activity
order by ROUND(avg(investment_rounds)) asc;''',
                                 con)


## Задания №10.

### Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. 

### Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю.

### Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.

In [None]:
avg_comp = pd.read_sql_query('''select country_code, min(invested_companies),
max(invested_companies),
avg(invested_companies) as avg_comp
from fund
where founded_at between '2010-01-01' AND '2012-12-31'
group by country_code
having min(invested_companies)>0
order by avg_comp desc,country_code
limit 10;
''',
                                 con)


## Задания №11.

### Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [None]:
edu_inc = pd.read_sql_query('''select p.first_name,p.last_name,e.instituition
from people as p left join education as e on p.id=e.person_id;
''',
                                 con)


## Задания №12.

### Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [None]:
task_12 = pd.read_sql_query('''select c.name,count(distinct(e.instituition)) as inst
from company as c join people as p on c.id=p.company_id
left join education as e on p.id=e.person_id
group by c.name
order by inst desc
limit 5;
''',
                                 con)


## Задания №13.

### Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [None]:
task_13 = pd.read_sql_query('''select distinct c.name
from company as c join funding_round as fr on c.id=fr.company_id
where c.status='closed' and fr.is_first_round=1 and fr.is_last_round=1
;
''',con)

## Задания №14.

### Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [None]:
task_14 = pd.read_sql_query('''select distinct p.id 
from people as p
WHERE p.company_id IN (
    SELECT c.id
    FROM company c
    JOIN funding_round fr ON c.id = fr.company_id
    WHERE c.status = 'closed'
    AND fr.is_first_round = 1
    AND fr.is_last_round = 1
);
''',con)

## Задания №15.

### Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [None]:
task_15 = pd.read_sql_query('''SELECT DISTINCT p.id AS employee_id, 
                e.instituition AS university
FROM people p
JOIN education e ON p.id = e.person_id
WHERE p.company_id IN (
    SELECT c.id
    FROM company c
    JOIN funding_round fr ON c.id = fr.company_id
    WHERE c.status = 'closed'
    AND fr.is_first_round = 1
    AND fr.is_last_round = 1
);

''',con)

## Задания №16.

### Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

In [None]:
task_16 = pd.read_sql_query('''SELECT p.id AS employee_id, 
       COUNT(e.instituition) AS university_count
FROM people p
JOIN education e ON p.id = e.person_id
WHERE p.company_id IN (
    SELECT c.id
    FROM company c
    JOIN funding_round fr ON c.id = fr.company_id
    WHERE c.status = 'closed'
    AND fr.is_first_round = 1
    AND fr.is_last_round = 1
)
GROUP BY p.id;


''',con)

## Задания №17.

### Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

In [None]:
task_17 = pd.read_sql_query('''SELECT AVG(university_count) AS average_universities
FROM (
    SELECT p.id AS employee_id, 
           COUNT(e.instituition) AS university_count
    FROM people p
    JOIN education e ON p.id = e.person_id
    WHERE p.company_id IN (
        SELECT c.id
        FROM company c
        JOIN funding_round fr ON c.id = fr.company_id
        WHERE c.status = 'closed'
        AND fr.is_first_round = 1
        AND fr.is_last_round = 1
    )
    GROUP BY p.id
) AS employee_universities;


''',con)

## Задания №18.

### Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Socialnet.

In [None]:
task_18 = pd.read_sql_query('''SELECT AVG(university_count) AS average_universities
FROM (
    SELECT p.id AS employee_id, 
           COUNT(e.instituition) AS university_count
    FROM people p
    JOIN education e ON p.id = e.person_id
    WHERE p.company_id = (
        SELECT id
        FROM company
        WHERE name = 'Socialnet'
    )
    GROUP BY p.id
) AS employee_universities;

''',con)

## Задания №19.

### Составьте таблицу из полей:

  - name_of_fund — название фонда;
  - name_of_company — название компании;
  - amount — сумма инвестиций, которую привлекла компания в раунде.

### В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [None]:
task_19 = pd.read_sql_query('''SELECT f.name AS name_of_fund,
       c.name AS name_of_company,
       fr.raised_amount AS amount
FROM funding_round fr
JOIN company c ON fr.company_id = c.id
join investment i on fr.id=i.funding_round_id
JOIN fund f ON i.fund_id = f.id
WHERE c.milestones > 6
  AND fr.funded_at BETWEEN '2012-01-01' AND '2013-12-31';


''',con)

## Задания №20.

### Выгрузите таблицу, в которой будут такие поля:

  - название компании-покупателя;
  - сумма сделки;
  - название компании, которую купили;
  - сумма инвестиций, вложенных в купленную компанию;
  - доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до  ближайшего целого числа.

### Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы. 

### Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

In [None]:
task_20 = pd.read_sql_query('''SELECT acq.name AS acquiring_company,
       a.price_amount AS deal_amount,
       ac.name AS acquired_company,
       ac.funding_total AS investment_amount,
       ROUND(a.price_amount / ac.funding_total) AS multiple
FROM acquisition a
JOIN company acq ON a.acquiring_company_id = acq.id
JOIN company ac ON a.acquired_company_id = ac.id
WHERE a.price_amount > 0
  AND ac.funding_total > 0
ORDER BY a.price_amount DESC, ac.name ASC
LIMIT 10;
''',con)

## Задания №21.

### Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.

In [None]:
task_21 = pd.read_sql_query('''SELECT c.name AS company_name,
       extract(MONTH from fr.funded_at) 
FROM company c
JOIN funding_round fr ON c.id = fr.company_id
WHERE c.category_code = 'social'
  AND fr.funded_at BETWEEN '2010-01-01' AND '2013-12-31'
  AND fr.raised_amount > 0;

''',con)

## Задания №22.

### Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля: 

  - номер месяца, в котором проходили раунды;
  - количество уникальных названий фондов из США, которые инвестировали в этом месяце;
  - количество компаний, купленных за этот месяц;
  - общая сумма сделок по покупкам в этом месяце.

In [None]:
task_22 = pd.read_sql_query('''WITH
fund_count_monthly AS
   (SELECT EXTRACT('month' from fr.funded_at) AS month,
           COUNT(DISTINCT invest.fund_id) AS fund_count
    FROM funding_round AS fr
    INNER JOIN investment AS invest ON fr.id = invest.funding_round_id
    WHERE EXTRACT('year' from fr.funded_at) BETWEEN 2010 AND 2013
      AND invest.fund_id IN (SELECT id
                             FROM fund
                             WHERE country_code = 'USA')
    GROUP BY month),

acquired_company_monthly AS
   (SELECT EXTRACT('month' from acquired_at) AS month,
           COUNT(acquired_company_id) AS company_count,
           SUM(price_amount) AS total_price
    FROM acquisition
    WHERE EXTRACT('year' from acquired_at) BETWEEN 2010 AND 2013
    GROUP BY month)
    
SELECT fcm.month,
       fcm.fund_count,
       acm.company_count,
       acm.total_price
FROM fund_count_monthly AS fcm
JOIN acquired_company_monthly AS acm ON fcm.month = acm.month;
''',con)

## Задания №23.

### Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

In [None]:
task_23 = pd.read_sql_query('''WITH 
funding_2011 as
   (SELECT country_code AS country, 
           AVG(funding_total) AS avg_invest_2011
    FROM company AS comp
    WHERE EXTRACT('year' from founded_at) = 2011
    GROUP BY country_code),

funding_2012 as
   (SELECT country_code AS country, 
           AVG(funding_total) AS avg_invest_2012
    FROM company AS comp
    WHERE EXTRACT('year' from founded_at) = 2012
    GROUP BY country_code),

funding_2013 as
   (SELECT country_code AS country, 
           AVG(funding_total) AS avg_invest_2013
    FROM company AS comp
    WHERE EXTRACT('year' from founded_at) = 2013
    GROUP BY country_code)

SELECT f11.country,
       f11.avg_invest_2011,
       f12.avg_invest_2012,
       f13.avg_invest_2013 
FROM funding_2011 AS f11
INNER JOIN funding_2012 AS f12 ON f11.country = f12.country
INNER JOIN funding_2013 AS f13 ON f11.country = f13.country
ORDER BY f11.avg_invest_2011 DESC;
''',con)