# Startup investment

В данном проекте будем работать с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle. 

Венчурные фонды — это финансовые организации, которые могут позволить себе высокий риск и инвестировать в компании с инновационной бизнес-идеей или разработанной новой технологией, то есть в стартапы. Цель венчурных фондов — в будущем получить значительную прибыль, которая в разы превысит размер их трат на инвестиции в компанию. Если стартап подорожает, венчурный фонд может получить долю в компании или фиксированный процент от её выручки. 
Чтобы процесс финансирования стал менее рискованным, его делят на стадии — раунды. Тот или иной раунд зависит от того, какого уровня развития достигла компания. 

Первые этапы — предпосевной и посевной раунды. Предпосевной раунд предполагает, что компания как таковая ещё не создана и находится в стадии замысла. Следующий — посевной — раунд знаменует рост проекта: создатели компании разрабатывают бизнес-модель и привлекают инвесторов. 

Если компании требуется ментор или наставник — она привлекает бизнес-ангела. Бизнес-ангелы — инвесторы, которые помимо финансовой поддержки предлагают экспертную помощь. Такой раунд называют ангельским. 

Когда стартап становится компанией с проверенной бизнес-моделью и начинает зарабатывать самостоятельно, предложений инвесторов становится больше. Это раунд A, а за ним следуют и другие: B, C, D — на этих этапах компания активно развивается и готовится к IPO. 
Иногда выделяют венчурный раунд — финансирование, которое могло поступить от венчурного фонда на любом этапе: начальном или более позднем. 

## Схема данных

- acquisition
Содержит информацию о покупках одних компаний другими.
Таблица включает такие поля:
- первичный ключ id — идентификатор или уникальный номер покупки;
- внешний ключ acquiring_company_id — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
- внешний ключ acquired_company_id — ссылается на таблицу company — идентификатор компании, которую покупают;
- term_code — способ оплаты сделки:
- cash — наличными;
- stock — акциями компании;
- cash_and_stock — смешанный тип оплаты: наличные и акции.
- price_amount — сумма покупки в долларах;
- acquired_at — дата совершения сделки;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

company
Содержит информацию о компаниях-стартапах.
- первичный ключ id — идентификатор, или уникальный номер компании;
- name — название компании;
- category_code — категория деятельности компании, например:
- news — специализируется на работе с новостями;
- social — специализируется на социальной работе.
- status — статус компании:
- acquired — приобретена;
- operating — действует;
- ipo — вышла на IPO;
- closed — перестала существовать.
- founded_at — дата основания компании;
- closed_at — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
- domain — домен сайта компании;
- network_username — профиль фонда в корпоративной сети биржи;
- country_code — код страны, например, USA для США, GBR для Великобритании;
- investment_rounds — число раундов, в которых компания участвовала как инвестор;
- funding_rounds — число раундов, в которых компания привлекала инвестиции;
- funding_total — сумма привлечённых инвестиций в долларах;
- milestones — количество важных этапов в истории компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

education
Хранит информацию об уровне образования сотрудников компаний.
- первичный ключ id — уникальный номер записи с информацией об образовании;
- внешний ключ person_id — ссылается на таблицу people — идентификатор человека, информация о котором представлена в записи;
- degree_type — учебная степень, например:
- BA — Bachelor of Arts — бакалавр гуманитарных наук;
- MS — Master of Science — магистр естественных наук.
- instituition — учебное заведение, название университета;
- graduated_at — дата завершения обучения, выпуска;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

fund
Хранит информацию о венчурных фондах. 
- первичный ключ id — уникальный номер венчурного фонда;
- name — название венчурного фонда;
- founded_at — дата основания фонда;
- domain — домен сайта фонда;
- network_username — профиль фонда в корпоративной сети биржи;
- country_code — код страны фонда;
- investment_rounds — число инвестиционных раундов, в которых фонд принимал участие;
- invested_companies — число компаний, в которые инвестировал фонд;
- milestones — количество важных этапов в истории фонда;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

funding_round
Содержит информацию о раундах инвестиций. 
- первичный ключ id — уникальный номер инвестиционного раунда;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;
- funded_at — дата проведения раунда;
- funding_round_type — тип инвестиционного раунда, например:
- venture — венчурный раунд;
- angel — ангельский раунд;
- series_a — раунд А.
- raised_amount — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
- pre_money_valuation — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
- participants — количество участников инвестиционного раунда;
- is_first_round — является ли этот раунд первым для компании;
- is_last_round — является ли этот раунд последним для компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

investment
Содержит информацию об инвестициях венчурных фондов в компании-стартапы.
- первичный ключ id — уникальный номер инвестиции;
- внешний ключ funding_round_id — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;
- внешний ключ fund_id — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

people
Содержит информацию о сотрудниках компаний-стартапов.
- первичный ключ id — уникальный номер сотрудника;
- first_name — имя сотрудника;
- last_name — фамилия сотрудника;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа;
- network_username — профиль фонда в корпоративной сети биржи;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine

In [2]:
db_config = {
    'user': 'postgres', # имя пользователя
    'pwd': 'PostGRE16', # пароль
    'host': 'localhost',
    'port': 5432, # порт подключения
    'db': 'startup' # название базы данных
} 

In [3]:
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db'],
)

In [4]:
engine = create_engine(connection_string)

##### 1. Отобразите все записи из таблицы company по компаниям, которые закрылись.

In [5]:
query = '''
SELECT *
FROM company
WHERE status = 'closed'
'''
pd.read_sql_query(query, con = engine)

Unnamed: 0,id,name,category_code,status,founded_at,closed_at,domain,twitter_username,country_code,investment_rounds,funding_rounds,funding_total,milestones,created_at,updated_at
0,10012,moviestring.com,games_video,closed,2008-08-22,2010-01-01,moviestring.com,,,0,0,0.0,0,2008-08-24 23:07:26,2010-10-01 00:12:22
1,1006,Youlicit,web,closed,2006-09-01,2010-05-22,youlicit.com,youlicit,USA,0,1,0.0,0,2007-10-02 09:45:00,2013-10-19 10:39:54
2,10062,Workstir,web,closed,,2011-12-17,workstir.com,,USA,0,1,0.0,2,2008-08-25 18:26:25,2013-10-16 09:57:06
3,10092,FairSoftware,web,closed,2007-01-01,2012-07-24,fairsoftware.net,,USA,0,1,100000.0,1,2008-08-25 23:41:44,2013-10-15 04:33:46
4,101,SellABand,games_video,closed,2006-08-01,2010-02-23,sellaband.com,sellaband,DEU,0,1,5000000.0,5,2007-07-04 05:29:56,2010-04-29 21:39:39
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2579,9899,Ultimate Football Network,network_hosting,closed,2008-01-16,2011-07-26,ultimatefootballnetwork.com,,,0,1,120000.0,1,2008-08-21 21:48:50,2013-10-08 10:12:46
2580,9920,Phokki,web,closed,2008-06-01,2013-07-04,phokki.com,phokki,,0,1,45000.0,2,2008-08-22 16:25:17,2013-10-12 08:32:52
2581,9937,Browsercast.com,web,closed,2002-06-09,2011-11-23,browsercast.com,,USA,0,1,400000.0,0,2008-08-22 20:46:30,2013-10-05 04:40:28
2582,9977,Carticipate,mobile,closed,2008-05-22,2012-08-15,carticipate.com,carticipate,USA,0,1,130000.0,2,2008-08-24 05:43:05,2013-10-04 07:11:45


##### 2.Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total.

In [6]:
query = '''
SELECT  
       funding_total
FROM company
WHERE category_code = 'news'AND
      country_code = 'USA'
ORDER BY funding_total DESC

'''
pd.read_sql_query(query, con = engine)

Unnamed: 0,funding_total
0,622553000.0
1,250000000.0
2,160500000.0
3,128000000.0
4,126500000.0
...,...
210,0.0
211,0.0
212,0.0
213,0.0


##### 3.Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [14]:
query = '''
SELECT SUM (price_amount)
FROM acquisition
WHERE term_code='cash' AND
    EXTRACT (YEAR FROM CAST(acquired_at AS date)) BETWEEN 2011 AND 2013
'''
pd.read_sql_query(query, con = engine)

Unnamed: 0,sum
0,413285800000.0


##### 6.Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

In [19]:
query = '''
SELECT country_code, 
       SUM(funding_total)
FROM company       
GROUP BY country_code
ORDER BY SUM(funding_total) DESC
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,country_code,sum
0,USA,3.105884e+11
1,GBR,1.770562e+10
2,,1.085592e+10
3,CHN,1.068974e+10
4,CAN,9.866362e+09
...,...,...
171,TZA,0.000000e+00
172,VCT,0.000000e+00
173,VIR,0.000000e+00
174,YEM,0.000000e+00


##### 7. Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению

In [20]:
query = '''
SELECT funded_at,
       MAX(raised_amount),
       MIN(raised_amount)
FROM funding_round       
GROUP BY funded_at
HAVING MIN(raised_amount) > 0 AND 
       MIN(raised_amount) != MAX(raised_amount)
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,funded_at,max,min
0,2012-08-22,75000000.0,40000.0
1,2010-07-25,9000000.0,3278250.0
2,2002-03-01,8959150.0,2844180.0
3,2010-10-11,200000000.0,28000.0
4,2007-01-18,23000000.0,5500000.0
...,...,...,...
1261,2007-03-22,29840000.0,376000.0
1262,2008-03-16,6500000.0,1500000.0
1263,2007-08-19,12000000.0,1500000.0
1264,2009-01-27,20000000.0,225000.0


##### 8. Создайте поле с категориями:
- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
 - Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
  - Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.Отобразите все поля таблицы fund и новое поле с категориями.

In [22]:
query = '''
SELECT *,

       CASE
       WHEN invested_companies >=100 
       THEN 'high_activity'
       WHEN invested_companies >=20 AND invested_companies <100 
       THEN            'middle_activity'
       WHEN invested_companies <20 
       THEN 'low_activity'
       END
FROM fund       
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,id,name,founded_at,domain,twitter_username,country_code,investment_rounds,invested_companies,milestones,created_at,updated_at,case
0,13131,,,,,,0,0,0,2013-08-19 18:46:55,2013-08-19 19:55:07,low_activity
1,1,Greylock Partners,1965-01-01,greylock.com,greylockvc,USA,307,196,0,2007-05-25 20:18:23,2012-12-27 00:42:24,high_activity
2,10,Mission Ventures,1996-01-01,missionventures.com,,USA,58,33,0,2007-06-05 05:24:58,2013-10-10 22:06:31,middle_activity
3,100,"Kapor Enterprises, Inc.",,kei.com,,USA,2,1,0,2007-07-12 09:42:21,2008-11-21 05:41:53,low_activity
4,1000,Speed Ventures,,,,,0,0,1,2008-04-13 23:52:27,2008-12-10 09:37:18,low_activity
...,...,...,...,...,...,...,...,...,...,...,...,...
34951,9995,TxtLoan,2008-01-01,txtloan.co.uk,TxtLoan,GBR,0,0,0,2012-10-25 10:03:09,2013-06-26 13:06:29,low_activity
34952,9996,founder's Capital,,,,,0,0,0,2012-10-25 11:58:45,2012-11-03 22:41:25,low_activity
34953,9997,Axel Johnson,1920-01-01,axeljohnson.com,,USA,1,1,0,2012-10-25 11:59:57,2013-05-20 13:06:23,low_activity
34954,9998,Liberty City Ventures,2012-07-01,libertycityventures.com,LCVentures,USA,5,5,0,2012-10-25 20:57:09,2013-11-12 15:33:24,low_activity


##### 9. Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [26]:
query = '''
SELECT 
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity,
       ROUND(AVG(investment_rounds))
FROM fund
GROUP BY activity
ORDER BY ROUND(AVG(investment_rounds))
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,activity,round
0,low_activity,2.0
1,middle_activity,51.0
2,high_activity,252.0


##### 10.Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.

In [23]:
query = '''
SELECT country_code,
       MIN (invested_companies),
       MAX (invested_companies),
       AVG (invested_companies)
FROM fund
WHERE (EXTRACT (YEAR FROM CAST(founded_at AS date))
        BETWEEN 2010 AND 2012)
GROUP BY country_code
HAVING MIN (invested_companies)>0
ORDER BY AVG (invested_companies) DESC
LIMIT 10
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,country_code,min,max,avg
0,BGR,25,35,30.0
1,CHL,29,29,29.0
2,UKR,8,10,9.0
3,LTU,5,5,5.0
4,IRL,4,5,4.5
5,KEN,3,3,3.0
6,LBN,3,3,3.0
7,MUS,3,3,3.0
8,JPN,1,6,2.833333
9,HKG,2,3,2.666667


##### 11.Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [25]:
query = '''
SELECT DISTINCT
        pe.first_name,
        pe.last_name,
        e.instituition
FROM people AS pe
LEFT JOIN education AS e ON e.person_id=pe.id

'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,first_name,last_name,instituition
0,Bruce,Lawler,Purdue University
1,Elizabeth,Golluscio,
2,Mohit,Goyal,
3,Peter,Goldthorp,
4,Dirk,Kanngiesser,Technical University of Dortmund
...,...,...,...
252402,Shawn,Fanning,
252403,Nick,Grouf,Harvard University
252404,Shaul,Shabtay,
252405,Dick,Spalding,Harvard College


##### 12. Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [27]:
query = '''
SELECT
        c.name,
        COUNT( DISTINCT e.instituition)
FROM company AS c
JOIN people AS p ON p.company_id=c.id
JOIN education AS e ON e.person_id=p.id
GROUP BY c.name
ORDER BY  COUNT( DISTINCT e.instituition) DESC
LIMIT 5
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,name,count
0,Google,167
1,Yahoo!,115
2,Microsoft,111
3,Knight Foundation,74
4,Comcast,66


##### 13. Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [47]:
query = '''
SELECT DISTINCT name
FROM company AS c 
JOIN funding_round as fr ON fr.company_id=c.id
WHERE status='closed' AND fr.is_first_round=1 AND fr.is_last_round=1
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,name
0,.Fox Networks
1,10BestThings
2,11i Solutions
3,169 ST.
4,1bib
...,...
1514,Zoodak
1515,Zooomr
1516,Zubka
1517,Zygo Communications


##### 14. Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [29]:
query = '''
SELECT DISTINCT id
FROM people 
WHERE company_id IN (
SELECT DISTINCT c.id
FROM company AS c 
JOIN funding_round as fr ON fr.company_id=c.id
WHERE status='closed' AND fr.is_first_round=1 AND fr.is_last_round=1)
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,id
0,62
1,97
2,98
3,225
4,226
...,...
511,226545
512,230719
513,243739
514,248905


##### 15. Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [44]:
query = '''
SELECT DISTINCT p.id,
       COUNT(e.instituition) 
FROM people AS p
JOIN education AS e ON e.person_id=p.id
WHERE company_id IN (
SELECT DISTINCT c.id
FROM company AS c 
JOIN funding_round as fr ON fr.company_id=c.id
WHERE status='closed' AND fr.is_first_round=1 AND fr.is_last_round=1)
GROUP BY p.id
ORDER BY p.id
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,id,count
0,349,27
1,699,9
2,779,18
3,968,9
4,972,9
...,...,...
207,196278,9
208,230719,27
209,243739,18
210,248905,9


##### 16. Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

In [37]:
query = '''
SELECT p.id,
       COUNT(e.instituition) 
FROM people AS p
JOIN education AS e ON e.person_id=p.id
WHERE company_id IN (
SELECT DISTINCT c.id
FROM company AS c 
JOIN funding_round as fr ON fr.company_id=c.id
WHERE status='closed' AND fr.is_first_round=1 AND fr.is_last_round=1)
GROUP BY p.id
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,id,count
0,2574,9
1,75510,9
2,43411,9
3,18665,9
4,6178,18
...,...,...
207,44475,9
208,76234,9
209,968,9
210,9397,18


##### 17. Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

In [38]:
query = '''
SELECT AVG(pod.counti)
FROM(

SELECT p.id,
       COUNT(e.instituition) AS counti 
FROM people AS p
JOIN education AS e ON e.person_id=p.id
WHERE company_id IN (
SELECT DISTINCT c.id
FROM company AS c 
JOIN funding_round as fr ON fr.company_id=c.id
WHERE status='closed' AND fr.is_first_round=1 AND fr.is_last_round=1)
GROUP BY p.id) AS pod
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,avg
0,12.735849


##### 18. Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Socialnet.

In [50]:
query = '''
SELECT AVG(pod.counti)
FROM(

SELECT p.id,
       COUNT(e.instituition) AS counti 
FROM people AS p
JOIN education AS e ON e.person_id=p.id
WHERE company_id IN (
SELECT DISTINCT c.id
FROM company AS c 
WHERE name = 'Socialnet')
GROUP BY p.id) AS pod
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,avg
0,


##### 19. Составьте таблицу из полей:
- name_of_fund — название фонда;
- name_of_company — название компании;
- amount — сумма инвестиций, которую привлекла компания в раунде.
- В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [52]:
query = '''
SELECT DISTINCT f.name AS name_of_fund,
       c.name AS name_of_company,
       fr.raised_amount AS amount
FROM company AS c
JOIN investment AS i ON i.company_id=c.id
JOIN fund AS f ON f.id=i.fund_id
JOIN funding_round AS fr ON fr.id=i.funding_round_id
WHERE c.milestones > 6 AND (EXTRACT(YEAR FROM CAST(fr.funded_at AS timestamp)) BETWEEN 2012 AND 2013)

'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,name_of_fund,name_of_company,amount
0,Accel Partners,OpenX,25011200.0
1,Advance Publication,Gigya,15300000.0
2,Benchmark,Gigya,15300000.0
3,Benchmark,Gigya,25000000.0
4,DAG Ventures,Gigya,15300000.0
5,DAG Ventures,Gigya,25000000.0
6,Greenspring Associates,Gigya,25000000.0
7,Index Ventures,OpenX,25011200.0
8,Mayfield Fund,Gigya,15300000.0
9,Mayfield Fund,Gigya,25000000.0


##### 20. Выгрузите таблицу, в которой будут такие поля:
- название компании-покупателя;
- сумма сделки;
- название компании, которую купили;
- сумма инвестиций, вложенных в купленную компанию;
- доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.
- Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы. 
- Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

In [53]:
query = '''
WITH acquisition_data AS

(
        SELECT
            a.acquiring_company_id AS acquirer_id,
            a.price_amount AS acquisition_amount,
            a.acquired_company_id AS target_id,
            target.funding_total AS investment_amount
        FROM acquisition AS a
        LEFT JOIN company AS acquirer ON a.acquiring_company_id = acquirer.id
        LEFT JOIN company AS target ON a.acquired_company_id = target.id
        LEFT JOIN funding_round AS fr ON target.id = fr.company_id
        GROUP BY a.acquiring_company_id, a.acquired_company_id, a.price_amount, target.funding_total
        HAVING a.price_amount > 0 AND target.funding_total > 0
)

SELECT acquirer.name AS acquiring_company,
       ad.acquisition_amount,
       target.name AS acquired_company,
       ad.investment_amount,
       --ROUND(ad.acquisition_amount/ad.investment_amount) AS ratio
       ROUND(CASE WHEN ad.investment_amount > 0 THEN ad.acquisition_amount / ad.investment_amount ELSE NULL END) AS ratio
FROM acquisition_data AS ad
LEFT JOIN company AS acquirer ON ad.acquirer_id = acquirer.id
LEFT JOIN company AS target ON ad.target_id = target.id
ORDER BY ad.acquisition_amount DESC, acquired_company
LIMIT 10

'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,acquiring_company,acquisition_amount,acquired_company,investment_amount,ratio
0,Microsoft,8500000000.0,Skype,76805000.0,111.0
1,Scout Labs,4900000000.0,Varian Semiconductor Equipment Associates,4800000.0,1021.0
2,Broadcom,3700000000.0,Aeluros,7970000.0,464.0
3,Broadcom,3700000000.0,NetLogic Microsystems,188527000.0,20.0
4,Level 3 Communications,3000000000.0,Global Crossing,41000000.0,73.0
5,Yahoo!,2870000000.0,GeoCities,40000000.0,72.0
6,eBay,2600000000.0,Skype,76805000.0,34.0
7,Salesforce,2500000000.0,ExactTarget,238210000.0,10.0
8,Johnson & Johnson,2300000000.0,Crucell,443000000.0,5.0
9,IAC,1850000000.0,Ask.com,25000000.0,74.0


##### 21. .Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.

In [54]:
query = '''
SELECT name,
       EXTRACT(MONTH FROM funded_at) 
FROM company AS c

JOIN funding_round AS fr ON fr.company_id=c.id
WHERE (c.category_code='social') AND (EXTRACT(YEAR FROM funded_at) BETWEEN 2010 AND 2013) AND raised_amount >0

'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,name,extract
0,Klout,1.0
1,WorkSimple,3.0
2,HengZhi,1.0
3,Twitter,1.0
4,SocialGO,1.0
...,...,...
2191,"VUID, Inc.",11.0
2192,PromoteU,8.0
2193,ShareThis,3.0
2194,Publer,6.0


##### 22. Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
- номер месяца, в котором проходили раунды;
- количество уникальных названий фондов из США, которые инвестировали в этом месяце;
- количество компаний, купленных за этот месяц;
- общая сумма сделок по покупкам в этом месяце.

In [55]:
query = '''
WITH 
total AS (
SELECT EXTRACT (month FROM acquired_at) AS month,
       SUM (price_amount) sum_amount,
       COUNT (acquired_company_id) count_comp
FROM acquisition
WHERE EXTRACT (YEAR FROM acquired_at) BETWEEN 2010 AND 2013    
GROUP BY month),
usa AS (
SELECT EXTRACT (MONTH FROM fr.funded_at) AS month,
       
       COUNT (DISTINCT CASE WHEN f.country_code='USA' THEN f.name END) count_fund
      
FROM funding_round AS fr
JOIN investment  AS i ON i.funding_round_id=fr.id
JOIN FUND AS f ON f.id=i.fund_id
WHERE (EXTRACT(YEAR FROM fr.funded_at) BETWEEN 2010 AND 2013)
GROUP BY month
)
SELECT total.month,
       usa.count_fund,

       total.count_comp,
       total.sum_amount
FROM total JOIN usa ON total.month=usa.month
ORDER BY total.month
       
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,month,count_fund,count_comp,sum_amount
0,1.0,815,1800,81325000000.0
1,2.0,637,1254,124170800000.0
2,3.0,695,1374,178504700000.0
3,4.0,718,1233,91151140000.0
4,5.0,695,1596,258036700000.0
5,6.0,785,1575,156264800000.0
6,7.0,803,1464,149562200000.0
7,8.0,726,1362,233127900000.0
8,9.0,793,1473,209222600000.0
9,10.0,764,1419,145670100000.0


##### 23. Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

In [56]:
query = '''
WITH
inv_2011 AS(
        SELECT country_code,
        AVG (funding_total) AS avg21
        FROM company       
        WHERE EXTRACT(YEAR FROM founded_at)=2011
        GROUP BY country_code),
inv_2012 AS(
        SELECT country_code,
        AVG (funding_total) AS avg22
        FROM company       
        WHERE EXTRACT(YEAR FROM founded_at)=2012
        GROUP BY country_code),
inv_2013 AS(
        SELECT country_code,
        AVG (funding_total) AS avg23
        FROM company       
        WHERE EXTRACT(YEAR FROM founded_at)=2013
        GROUP BY country_code)
SELECT inv_2011.country_code,
       inv_2011.avg21,
       inv_2012.avg22,
       inv_2013.avg23
FROM inv_2011
INNER JOIN inv_2012 ON inv_2011.country_code=inv_2012.country_code
INNER JOIN inv_2013 ON inv_2011.country_code=inv_2013.country_code
ORDER BY inv_2011.avg21 DESC
       
'''      
pd.read_sql_query(query, con = engine)

Unnamed: 0,country_code,avg21,avg22,avg23
0,PER,4.000000e+06,4.100000e+04,2.500000e+04
1,USA,2.243955e+06,1.206706e+06,1.093364e+06
2,HKG,2.180783e+06,2.262273e+05,0.000000e+00
3,PHL,1.750000e+06,4.218750e+03,2.500000e+03
4,ARE,1.718000e+06,1.972222e+05,3.533333e+04
...,...,...,...,...
73,CRI,0.000000e+00,0.000000e+00,4.000000e+04
74,SVN,0.000000e+00,2.396160e+05,0.000000e+00
75,BHR,0.000000e+00,0.000000e+00,2.000000e+04
76,UGA,0.000000e+00,0.000000e+00,6.040000e+04
