# Проект по исследованию данных об инвестициях венчурных фондов в компании-стартапы

**Цель исследования** - овладеть базовыми навыками SQL.

**Задачи исследования** - произвести различные выгрузки данных венчурных фондов с помощью SQL.

**Источник данных** - база данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle.

**Навыки и инструменты** - SQL, обработка данных, выгрузка данных. 

# Схема базы данных

![%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202023-05-25%20%D0%B2%2012.53.36.png](attachment:%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202023-05-25%20%D0%B2%2012.53.36.png)

# Описание таблиц, содержащихся в базе данных

**`acquisition`**

Содержит информацию о покупках одних компаний другими:
* `первичный ключ id` — идентификатор или уникальный номер покупки;
* `внешний ключ acquiring_company_id` — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
* `внешний ключ acquired_company_id` — ссылается на таблицу company — идентификатор компании, которую покупают;
* `term_code` — способ оплаты сделки:
* `cash` — наличными;
* `stock` — акциями компании;
* `cash_and_stock` — смешанный тип оплаты: наличные и акции.
* `price_amount` — сумма покупки в долларах;
* `acquired_at` — дата совершения сделки;* 
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

**`company`**

Содержит информацию о компаниях-стартапах:
* `первичный ключ id` — идентификатор, или уникальный номер компании;
* `name` — название компании;
* `category_code` — категория деятельности компании, например:
* `news` — специализируется на работе с новостями;
* `social` — специализируется на социальной работе.
* `status` — статус компании:
* `acquired` — приобретена;
* `operating` — действует;
* `ipo` — вышла на IPO;
* `closed` — перестала существовать.
* `founded_at` — дата основания компании;
* `closed_at` — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
* `domain` — домен сайта компании;
* `twitter_username` — название профиля компании в твиттере;
* `country_code` — код страны, например, USA для США, GBR для Великобритании;
* `investment_rounds` — число раундов, в которых компания участвовала как инвестор;
* `funding_rounds` — число раундов, в которых компания привлекала инвестиции;
* `funding_total` — сумма привлечённых инвестиций в долларах;
* `milestones` — количество важных этапов в истории компании;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

**`education`**

Хранит информацию об уровне образования сотрудников компаний:
* `первичный ключ id` — уникальный номер записи с информацией об образовании;
* `внешний ключ person_id` — ссылается на таблицу people — идентификатор человека, информация о котором представлена в * записи;
* `degree_type` — учебная степень, например:
* `BA` — Bachelor of Arts — бакалавр гуманитарных наук;
* `MS` — Master of Science — магистр естественных наук.
* `instituition` — учебное заведение, название университета;
* `graduated_at` — дата завершения обучения, выпуска;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

**`fund`**

Хранит информацию о венчурных фондах:
* `первичный ключ id` — уникальный номер венчурного фонда;
* `name` — название венчурного фонда;
* `founded_at` — дата основания фонда;
* `domain` — домен сайта фонда;
* `twitter_username` — профиль фонда в твиттере;
* `country_code` — код страны фонда;
* `investment_rounds` — число инвестиционных раундов, в которых фонд принимал участие;
* `invested_companies` — число компаний, в которые инвестировал фонд;
* `milestones` — количество важных этапов в истории фонда;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

**`funding_round`**

Содержит информацию о раундах инвестиций: 
* `первичный ключ id` — уникальный номер инвестиционного раунда;
* `внешний ключ company_id` — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;
* `funded_at` — дата проведения раунда;
* `funding_round_type` — тип инвестиционного раунда, например:
* `venture` — венчурный раунд;
* `angel` — ангельский раунд;
* `series_a` — раунд А.
* `raised_amount` — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
* `pre_money_valuation` — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
* `participants` — количество участников инвестиционного раунда;
* `is_first_round` — является ли этот раунд первым для компании;
* `is_last_round` — является ли этот раунд последним для компании;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

**`investment`**

Содержит информацию об инвестициях венчурных фондов в компании-стартапы:
* `первичный ключ id` — уникальный номер инвестиции;
* `внешний ключ funding_round_id` — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;
* `внешний ключ company_id` — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;
* `внешний ключ fund_id` — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

**`people`**

Содержит информацию о сотрудниках компаний-стартапов:
* `первичный ключ id` — уникальный номер сотрудника;
* `first_name` — имя сотрудника;
* `last_name` — фамилия сотрудника;
* `внешний ключ company_id` — ссылается на таблицу company — уникальный номер компании-стартапа;
* `twitter_username` — профиль сотрудника в твиттере;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

**Задание 1**

Посчитайте, сколько компаний закрылось.

In [None]:
SELECT COUNT(id)
FROM company
WHERE status = 'closed';

**Задача 2**

Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы `company`. Отсортируйте таблицу по убыванию значений в поле `funding_total`.

In [None]:
SELECT SUM(funding_total)
FROM company
WHERE category_code = 'news'
AND country_code = 'USA'
GROUP BY company,
         funding_total
ORDER BY funding_total DESC;

**Задача 3**

Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [None]:
SELECT SUM(price_amount)
FROM acquisition
WHERE EXTRACT(YEAR FROM CAST(acquired_at AS date)) BETWEEN 2011 AND 2013
AND term_code = 'cash'

**Задача 4**

Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на `'Silver'`.

In [None]:
SELECT first_name,
       last_name,
       twitter_username
FROM people
WHERE twitter_username LIKE 'Silver%'

**Задача 5**

Выведите на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку `'money'`, а фамилия начинается на `'K'`.

In [None]:
SELECT *
FROM people
WHERE twitter_username LIKE '%money%'
AND last_name LIKE 'K%'

**Задача 6**

Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

In [None]:
SELECT country_code,
       SUM(funding_total)
FROM company
GROUP BY country_code
ORDER BY SUM(funding_total) DESC

**Задача 7**

Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [None]:
SELECT funded_at,
       MIN(raised_amount),
       MAX(raised_amount)
FROM funding_round
GROUP BY funded_at
HAVING MIN(raised_amount) <> 0 AND MIN(raised_amount) <> MAX(raised_amount)

**Задача 8**

Создайте поле с категориями:
* Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию `high_activity`.
* Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию `middle_activity`.
* Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию `low_activity`.

Отобразите все поля таблицы `fund` и новое поле с категориями.

In [None]:
SELECT *,
       CASE 
           WHEN invested_companies < 20 THEN 'low_activity'
           WHEN invested_companies >= 20 AND invested_companies < 100 THEN 'middle_activity'
           ELSE 'high_activity'
       END
FROM fund

**Задача 9**

Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [None]:
SELECT CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity,
       ROUND(AVG(investment_rounds))
FROM fund
GROUP BY activity
ORDER BY AVG(investment_rounds)

**Задача 10**

Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. 
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. 
Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.

In [None]:
SELECT country_code,
       MIN(invested_companies),
       MAX(invested_companies),
       AVG(invested_companies)      
FROM fund
WHERE EXTRACT(YEAR FROM CAST(founded_at AS timestamp)) BETWEEN 2010 AND 2012
GROUP BY country_code
HAVING MIN(invested_companies) <> 0
ORDER BY AVG(invested_companies) DESC
LIMIT 10;

**Задача 11**

Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [None]:
SELECT ppl.first_name,
       ppl.last_name,
       edu.instituition
FROM people AS ppl
LEFT JOIN education AS edu ON ppl.id = edu.person_id

**Задача 12**

Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [None]:
WITH
good_company AS
(SELECT id AS id_company,
       name AS name_company
FROM company),
good_people AS
(SELECT id AS id_staff,
       company_id
FROM people)
SELECT good_company.name_company,
       COUNT(DISTINCT edu.instituition)
FROM good_company
LEFT JOIN good_people ON good_company.id_company = good_people.company_id
LEFT JOIN education AS edu ON good_people.id_staff = edu.person_id
GROUP BY good_company.name_company
ORDER BY COUNT(DISTINCT edu.instituition) DESC
LIMIT 5;

**Задача 13**

Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [None]:
WITH
round AS
(SELECT company_id
FROM funding_round
WHERE is_first_round = 1
AND is_last_round = 1),

comp AS 
(SELECT DISTINCT name,
       id
FROM company
WHERE status = 'closed')

SELECT DISTINCT comp.name
FROM comp
JOIN round ON round.company_id = comp.id

**Задача 14**

Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [None]:
WITH
round AS
(SELECT company_id
FROM funding_round
WHERE is_first_round = 1
AND is_last_round = 1),

comp AS 
(SELECT DISTINCT name,
       id
FROM company
WHERE status = 'closed'),

staff AS
(SELECT company_id,
       id
FROM people)

SELECT DISTINCT staff.id
FROM comp
JOIN round ON round.company_id = comp.id
JOIN staff ON staff.company_id = round.company_id

**Задача 15**

Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [None]:
WITH
round AS
(SELECT company_id
FROM funding_round
WHERE is_first_round = 1
AND is_last_round = 1),

comp AS 
(SELECT DISTINCT name,
       id
FROM company
WHERE status = 'closed'),

staff AS
(SELECT company_id,
       id
FROM people)

SELECT DISTINCT staff.id,
       edu.instituition
FROM comp
JOIN round ON round.company_id = comp.id
JOIN staff ON staff.company_id = round.company_id
JOIN education AS edu ON staff.id = edu.person_id

**Задача 16**

Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

In [None]:
SELECT person_id,
       COUNT(instituition)
FROM education AS edu
WHERE person_id IN (SELECT ppl.id
                    FROM people AS ppl
                    WHERE ppl.company_id IN (SELECT id
                                             FROM company AS comp
                                             WHERE status = 'closed'
                                             AND id IN (SELECT company_id
                                                        FROM funding_round
                                                        WHERE is_first_round = 1
                                                        AND is_last_round = 1)))
GROUP BY person_id

**Задача 17**

Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

In [None]:
SELECT AVG(count)
FROM 
(SELECT person_id,
       COUNT(instituition)
FROM education AS edu
WHERE person_id IN (SELECT ppl.id
                    FROM people AS ppl
                    WHERE ppl.company_id IN (SELECT id
                                             FROM company AS comp
                                             WHERE status = 'closed'
                                             AND id IN (SELECT company_id
                                                        FROM funding_round
                                                        WHERE is_first_round = 1
                                                        AND is_last_round = 1)))
GROUP BY person_id) AS good_edu

**Задача 18**

Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Facebook*.

***_(сервис, запрещённый на территории РФ)_**

In [None]:
SELECT AVG(count)
FROM 
(SELECT person_id,
       COUNT(instituition)
FROM education AS edu
WHERE person_id IN (SELECT ppl.id
                    FROM people AS ppl
                    WHERE ppl.company_id IN (SELECT id
                                             FROM company AS comp
                                             WHERE name = 'Facebook'))
GROUP BY person_id) AS F

**Задача 19**

Составьте таблицу из полей:
* `name_of_fund` — название фонда;
* `name_of_company` — название компании;
* `amount` — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше 6 важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.


In [None]:
SELECT fund.name AS name_of_fund,
       comp.name AS name_of_company,
       fr.raised_amount AS amount
FROM investment AS inv
LEFT JOIN fund ON fund.id = inv.fund_id
LEFT JOIN company AS comp ON comp.id = inv.company_id
JOIN funding_round AS fr ON fr.id = inv.funding_round_id
WHERE EXTRACT(YEAR FROM CAST(funded_at AS timestamp)) BETWEEN 2012 AND 2013
AND inv.company_id IN (SELECT id
                   FROM company
                   WHERE milestones > 6)

**Задача 20**

Выгрузите таблицу, в которой будут такие поля:
* `название компании-покупателя`;
* `сумма сделки`;
* `название компании, которую купили`;
* `сумма инвестиций, вложенных в купленную компанию`;
* `доля`, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы. 

Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

In [None]:
WITH
buyer_comp AS
(SELECT ac.id AS id_deal,
       ac.acquiring_company_id,
       comp.name AS name_buyer,
       ac.acquired_company_id,
       ac.price_amount
FROM acquisition AS ac
LEFT JOIN company AS comp ON ac.acquiring_company_id = comp.id
WHERE price_amount <> 0
ORDER BY id_deal),

sale_comp AS
(SELECT ac.id AS id_deal,
       ac.acquiring_company_id,
       comp.name AS name_sale,
       ac.acquired_company_id,
       comp.funding_total
FROM acquisition AS ac
LEFT JOIN company AS comp ON ac.acquired_company_id = comp.id
WHERE price_amount <> 0
AND funding_total <> 0
ORDER BY id_deal)

SELECT name_buyer,
       price_amount,
       name_sale,
       funding_total,
       ROUND(price_amount/funding_total) AS profit_share
FROM buyer_comp
JOIN sale_comp ON buyer_comp.id_deal = sale_comp.id_deal
ORDER BY price_amount DESC,
         name_sale
LIMIT 10;

**Задача 21**

Выгрузите таблицу, в которую войдут названия компаний из категории `social`, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.

In [None]:
SELECT comp.name,
       EXTRACT(MONTH FROM CAST(fr.funded_at AS timestamp))
FROM company as comp
JOIN funding_round AS fr ON fr.company_id = comp.id
WHERE comp.category_code = 'social'
AND EXTRACT(YEAR FROM CAST(fr.funded_at AS timestamp)) BETWEEN 2010 AND 2013
AND raised_amount <> 0

**Задача 22**

Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
* номер месяца, в котором проходили раунды;
* количество уникальных названий фондов из США, которые инвестировали в этом месяце;
* количество компаний, купленных за этот месяц;
* общая сумма сделок по покупкам в этом месяце.

In [None]:
WITH

asq_comp AS 
(SELECT EXTRACT (MONTH FROM CAST(acquired_at AS timestamp)) AS month_acquired,
       COUNT(acquired_company_id) AS count_acquired_company,
       SUM(price_amount) AS total
FROM acquisition
WHERE EXTRACT (MONTH FROM CAST(acquired_at AS timestamp))  <> 0
AND EXTRACT (YEAR FROM CAST(acquired_at AS timestamp)) BETWEEN 2010 AND 2013
GROUP BY month_acquired
ORDER BY month_acquired),

f_comp AS
(SELECT EXTRACT (MONTH FROM CAST(fr.funded_at AS timestamp)) AS month_funding_round,
        COUNT(DISTINCT f.name) AS count_fund_USA
FROM investment AS inv
JOIN funding_round AS fr ON fr.id = inv.funding_round_id
LEFT JOIN fund AS f ON f.id = inv.fund_id
WHERE EXTRACT (YEAR FROM CAST(fr.funded_at AS timestamp)) BETWEEN 2010 AND 2013
AND f.country_code = 'USA'
GROUP BY month_funding_round)

SELECT f_comp.month_funding_round AS month,
       f_comp.count_fund_USA,
       asq_comp.count_acquired_company,
       asq_comp.total
FROM f_comp
LEFT JOIN asq_comp ON asq_comp.month_acquired = f_comp.month_funding_round

**Задача 23**

Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

In [None]:
WITH

av_11 AS
(SELECT country_code,
       AVG(funding_total) AS avg_inv_2011
FROM company
WHERE EXTRACT(YEAR FROM CAST(founded_at AS timestamp)) = 2011
GROUP BY country_code),

av_12 AS
(SELECT country_code,
       AVG(funding_total) AS avg_inv_2012
FROM company
WHERE EXTRACT(YEAR FROM CAST(founded_at AS timestamp)) = 2012
GROUP BY country_code),

av_13 AS
(SELECT country_code,
       AVG(funding_total) AS avg_inv_2013
FROM company
WHERE EXTRACT(YEAR FROM CAST(founded_at AS timestamp)) = 2013
GROUP BY country_code)

SELECT av_11.country_code,
       av_11.avg_inv_2011,
       av_12.avg_inv_2012,
       avg_inv_2013
FROM av_11
JOIN av_12 ON av_11.country_code = av_12.country_code
JOIN av_13 ON av_11.country_code = av_13.country_code
ORDER BY av_11.avg_inv_2011 DESC