# Startup Investments

Нам нужно проанализировать данные о фондах и инвестициях и написать запросы к базе SQL. 

## Обзор данных

acquisition

Содержит информацию о покупках одних компаний другими.
Таблица включает такие поля:
	• первичный ключ id— идентификатор или уникальный номер покупки;
	• внешний ключ acquiring_company_id— ссылается на таблицу company— идентификатор компании-покупателя, то есть той, что покупает другую компанию;
	• внешний ключ acquired_company_id— ссылается на таблицу company— идентификатор компании, которую покупают;
	• term_code— способ оплаты сделки: 
		○ cash— наличными;
		○ stock— акциями компании;
		○ cash_and_stock— смешанный тип оплаты: наличные и акции.
	• price_amount— сумма покупки в долларах;
	• acquired_at— дата совершения сделки;
	• created_at— дата и время создания записи в таблице;
	• updated_at— дата и время обновления записи в таблице.

company

Содержит информацию о компаниях-стартапах.
	• первичный ключ id— идентификатор, или уникальный номер компании;
	• name— название компании;
	• category_code— категория деятельности компании, например: 
		○ news— специализируется на работе с новостями;
		○ social— специализируется на социальной работе.
	• status— статус компании: 
		○ acquired— приобретена;
		○ operating— действует;
		○ ipo— вышла на IPO;
		○ closed— перестала существовать.
	• founded_at— дата основания компании;
	• closed_at— дата закрытия компании, которую указывают в том случае, если компании больше не существует;
	• domain— домен сайта компании;
	• network_username— профиль фонда в корпоративной сети биржи;
	• country_code— код страны, например, USA для США, GBR для Великобритании;
	• investment_rounds— число раундов, в которых компания участвовала как инвестор;
	• funding_rounds— число раундов, в которых компания привлекала инвестиции;
	• funding_total— сумма привлечённых инвестиций в долларах;
	• milestones— количество важных этапов в истории компании;
	• created_at— дата и время создания записи в таблице;
	• updated_at— дата и время обновления записи в таблице.
	
education

Хранит информацию об уровне образования сотрудников компаний.
	• первичный ключ id— уникальный номер записи с информацией об образовании;
	• внешний ключ person_id— ссылается на таблицу people— идентификатор человека, информация о котором представлена в записи;
	• degree_type— учебная степень, например: 
		○ BA— Bachelor of Arts — бакалавр гуманитарных наук;
		○ MS— Master of Science — магистр естественных наук.
	• instituition— учебное заведение, название университета;
	• graduated_at— дата завершения обучения, выпуска;
	• created_at— дата и время создания записи в таблице;
	• updated_at— дата и время обновления записи в таблице.

fund

Хранит информацию о венчурных фондах. 
	• первичный ключ id— уникальный номер венчурного фонда;
	• name— название венчурного фонда;
	• founded_at— дата основания фонда;
	• domain— домен сайта фонда;
	• network_username— профиль фонда в корпоративной сети биржи;
	• country_code— код страны фонда;
	• investment_rounds— число инвестиционных раундов, в которых фонд принимал участие;
	• invested_companies— число компаний, в которые инвестировал фонд;
	• milestones— количество важных этапов в истории фонда;
	• created_at— дата и время создания записи в таблице;
	• updated_at— дата и время обновления записи в таблице.

funding_round

Содержит информацию о раундах инвестиций. 
	• первичный ключ id— уникальный номер инвестиционного раунда;
	• внешний ключ company_id— ссылается на таблицу company— уникальный номер компании, участвовавшей в инвестиционном раунде;
	• funded_at— дата проведения раунда;
	• funding_round_type— тип инвестиционного раунда, например: 
		○ venture— венчурный раунд;
		○ angel— ангельский раунд;
		○ series_a— раунд А.
	• raised_amount— сумма инвестиций, которую привлекла компания в этом раунде в долларах;
	• pre_money_valuation— предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
	• participants— количество участников инвестиционного раунда;
	• is_first_round— является ли этот раунд первым для компании;
	• is_last_round— является ли этот раунд последним для компании;
	• created_at— дата и время создания записи в таблице;
	• updated_at— дата и время обновления записи в таблице.

investment

Содержит информацию об инвестициях венчурных фондов в компании-стартапы.
	• первичный ключ id— уникальный номер инвестиции;
	• внешний ключ funding_round_id— ссылается на таблицу funding_round— уникальный номер раунда инвестиции;
	• внешний ключ company_id— ссылается на таблицу company— уникальный номер компании-стартапа, в которую инвестируют;
	• внешний ключ fund_id— ссылается на таблицу fund— уникальный номер фонда, инвестирующего в компанию-стартап;
	• created_at— дата и время создания записи в таблице;
	• updated_at— дата и время обновления записи в таблице.

people

Содержит информацию о сотрудниках компаний-стартапов.
	• первичный ключ id— уникальный номер сотрудника;
	• first_name— имя сотрудника;
	• last_name— фамилия сотрудника;
	• внешний ключ company_id— ссылается на таблицу company— уникальный номер компании-стартапа;
	• network_username— профиль фонда в корпоративной сети биржи;
	• created_at— дата и время создания записи в таблице;
	• updated_at— дата и время обновления записи в таблице.

## Задания

1.
Отобразите все записи из таблицы company по компаниям, которые закрылись.

In [None]:
select *
from company
where status='closed'

2.
Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total.

In [None]:
SELECT funding_total
FROM company
WHERE category_code ='news' 
   AND country_code ='USA'
ORDER BY funding_total DESC

3.
Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [None]:
with deals as
(select id,price_amount,acquired_at
from acquisition
where term_code='cash' 
and acquired_at between '2011-01-01' and '2013-12-31')
select sum(price_amount)
from deals

4.
Отобразите имя, фамилию и названия аккаунтов людей в поле network_username, у которых названия аккаунтов начинаются на 'Silver'.

In [None]:
select first_name,last_name, network_username
from people 
where network_username like 'Silver%'

5.
Выведите на экран всю информацию о людях, у которых названия аккаунтов в поле network_username содержат подстроку 'money', а фамилия начинается на 'K'.

In [None]:
select *
from people 
where network_username like '%money%' and last_name like 'K%'

6.
Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

In [None]:
select country_code, sum(funding_total)
from company
group by country_code
order by sum(funding_total) desc

7.
Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [None]:
select funded_at, 
    min(raised_amount), 
    max(raised_amount)
from funding_round
group by funded_at
having min(raised_amount)<>0 and min(raised_amount)<>max(raised_amount)

8.
Создайте поле с категориями:
Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.
Отобразите все поля таблицы fund и новое поле с категориями.

In [None]:
select *,
case
    when invested_companies>+100 then 'high_activity'
    when invested_companies between 20 and 99 then 'middle_activity'
    when invested_companies<20 then 'low_activity'
end
from fund

9.
Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [None]:
select CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity, 
round(avg(investment_rounds))
from fund
group by activity
order by avg(investment_rounds)

10.
Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. 
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. 
Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.

In [None]:
select country_code, 
    min(invested_companies), 
    max(invested_companies), 
    avg(invested_companies)  
from fund
where founded_at between '2010-01-01' and '2012-12-31'
group by country_code
having min(invested_companies)<>0
order by avg(invested_companies) desc, country_code
limit 10

11.
Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [None]:
select first_name, last_name, instituition
from people as p
LEFT JOIN education as e on p.id = e.person_id

12.
Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [None]:
select c.name, count(distinct e.instituition) as edu
from company as c 
join people as p on c.id = p.company_id
join education as e on p.id=e.person_id
group by c.name
order by edu desc
limit 5

13.
Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [None]:
select distinct name
from company as c
join funding_round as fr on c.id=fr.company_id
where status='closed' and fr.is_last_round =1 and fr.is_first_round = 1

14.
Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [None]:
select distinct id
from people 
where company_id in (
    select distinct c.id
from company as c
join funding_round as fr on c.id=fr.company_id
where status='closed' and fr.is_last_round =1 and fr.is_first_round = 1
)

15.
Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [None]:
select distinct p.id, e.instituition
from people as p
join education as e on p.id=e.person_id
where company_id in (
    select distinct c.id
    from company as c
    join funding_round as fr on c.id=fr.company_id
    where status='closed' and fr.is_last_round =1 and fr.is_first_round = 1
)

16.
Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

In [None]:
select distinct p.id, count(e.instituition)
from people as p
join education as e on p.id=e.person_id
where company_id in (
    select distinct c.id
    from company as c
    join funding_round as fr on c.id=fr.company_id
    where status='closed' and fr.is_last_round =1 and fr.is_first_round = 1
)
group by p.id

17.
Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

In [None]:
select avg (pe.int_count)
from (select distinct p.id, count(e.instituition) as int_count
from people as p
join education as e on p.id=e.person_id
where company_id in (
    select distinct c.id
    from company as c
    join funding_round as fr on c.id=fr.company_id
    where status='closed' and fr.is_last_round =1 and fr.is_first_round = 1
)
group by p.id) as pe

18.
Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Socialnet.

In [None]:
select avg (pe.int_count)
from (select distinct p.id, count(e.instituition) as int_count
from people as p
join education as e on p.id=e.person_id
where company_id = (
    select  c.id
    from company as c
    where name='Socialnet' 
)
group by p.id) as pe

19.
Составьте таблицу из полей:
name_of_fund — название фонда;
name_of_company — название компании;
amount — сумма инвестиций, которую привлекла компания в раунде.
В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [None]:
select 
    f.name as name_of_fund, 
    c.name as name_of_company, 
    fr.raised_amount as amount
 from investment as i 
 join company as c on c.id = i.company_id
 join fund as f on f.id=i.fund_id
 join funding_round as fr on fr.id = i.funding_round_id
 where c.milestones >6 and fr.funded_at between '2012-01-01' and '2013-12-31'

20.
Выгрузите таблицу, в которой будут такие поля:
название компании-покупателя;
сумма сделки;
название компании, которую купили;
сумма инвестиций, вложенных в купленную компанию;
доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.
Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы. 
Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

In [None]:
select cb.name, a.price_amount, ci.name, ci.funding_total, round(a.price_amount/ci.funding_total)
from acquisition as a 
join company as cb on cb.id= a.acquiring_company_id
join company as ci on ci.id= a.acquired_company_id
where a.price_amount>0 and ci.funding_total>0
order by a.price_amount desc, ci.name
limit 10

21.
Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.

In [None]:
select  c.name, extract (month from cast(fr.funded_at as date))
from company as c 
join funding_round as fr on fr.company_id=c.id
where fr.funded_at between '2010-01-01' and '2013-12-31'
    and c.category_code = 'social'
    and fr.raised_amount>0

22.
Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
номер месяца, в котором проходили раунды;
количество уникальных названий фондов из США, которые инвестировали в этом месяце;
количество компаний, купленных за этот месяц;
общая сумма сделок по покупкам в этом месяце.

In [None]:
with
m as (
    select distinct extract (month from funded_at) as month
    from funding_round
    order by month),
cmc as
(select extract (month from funded_at )as month,
      count(distinct f.name) as fonds
from fund as f 
join investment as i on i.fund_id=f.id
join funding_round as fr on fr.id= i.funding_round_id
where f.country_code = 'USA' and extract (year from funded_at) in (2010,2011,2012,2013)
    group by month),
b as 
(select extract(month from acquired_at) as month, 
    count(acquired_company_id) as companies_i_count,
    sum(price_amount) as price_sum
from acquisition
where extract(year from acquired_at) in (2010,2011,2012,2013)
group by month)

select m.month,  cmc.fonds, b.companies_i_count, b.price_sum
from m
join cmc on m.month=cmc.month
join b on m.month=b.month

23.
Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

In [None]:
WITH
inv_2011 AS (
    select country_code, avg(funding_total) as avg_funding_11
    from company
    where extract (year from founded_at) = 2011
    group by country_code),  
inv_2012 AS (
    select country_code, avg(funding_total) as avg_funding_12
    from company
    where extract (year from founded_at) = 2012
    group by country_code), 
inv_2013 AS (
    select country_code, avg(funding_total) as avg_funding_13
    from company
    where extract (year from founded_at) = 2013
    group by country_code)

SELECT inv_2011.country_code,
       inv_2011.avg_funding_11,
       inv_2012.avg_funding_12,
       inv_2013.avg_funding_13
FROM inv_2011
JOIN inv_2012 on inv_2011.country_code=inv_2012.country_code
JOIN inv_2013 on inv_2012.country_code=inv_2013.country_code
order by inv_2011.avg_funding_11 desc