<h1>Анализ венчурных фондов и инвестиций в компании-стартапы<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Описание-проекта" data-toc-modified-id="Описание-проекта-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Описание проекта</a></span></li><li><span><a href="#Исследование" data-toc-modified-id="Исследование-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Исследование</a></span></li></ul></div>

## Описание проекта

**Область исследования**:\
База данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы.\
Она основана на датасете [Startup Investments](https://www.kaggle.com/datasets/justinas/startup-investments), опубликованном на платформе Kaggle.

**Задача**:\
Необходимо, делая запросы к базе, проанализировать рынок фондов и инвестиций.

**Структура данных:**

![Схема БД](https://code.s3.yandex.net/SQL%20for%20data%20and%20analytics/ER/basic_sql_project_ERD.png)

**Таблица `acquisition`**

Содержит информацию о покупках одних компаний другими.
| Поле                      | Описание                                                                 |
|---------------------------|--------------------------------------------------------------------------|
| `id`                       | Идентификатор или уникальный номер покупки                              |
| `acquiring_company_id`     | Идентификатор компании-покупателя (внешний ключ, ссылается на таблицу `company`) |
| `acquired_company_id`      | Идентификатор компании, которую покупают (внешний ключ, ссылается на таблицу `company`) |
| `term_code`                | Способ оплаты сделки (cash, stock, cash_and_stock)                       |
| `price_amount`             | Сумма покупки в долларах                                                |
| `acquired_at`              | Дата совершения сделки                                                  |
| `created_at`               | Дата и время создания записи в таблице                                  |
| `updated_at`               | Дата и время обновления записи в таблице                                |

**Таблица `company`**

Содержит информацию о компаниях-стартапах.
| Поле                      | Описание                                                                 |
|---------------------------|--------------------------------------------------------------------------|
| `id`                       | Идентификатор или уникальный номер компании                             |
| `name`                     | Название компании                                                        |
| `category_code`            | Категория деятельности компании (например: news, social)               |
| `status`                   | Статус компании (acquired, operating, ipo, closed)                       |
| `founded_at`               | Дата основания компании                                                 |
| `closed_at`                | Дата закрытия компании (если больше не существует)                      |
| `domain`                   | Домен сайта компании                                                     |
| `network_username`         | Профиль фонда в корпоративной сети биржи                                |
| `country_code`             | Код страны (например: USA для США, GBR для Великобритании)             |
| `investment_rounds`        | Число раундов, в которых компания участвовала как инвестор             |
| `funding_rounds`           | Число раундов, в которых компания привлекала инвестиции                 |
| `funding_total`            | Сумма привлечённых инвестиций в долларах                                |
| `milestones`               | Количество важных этапов в истории компании                             |
| `created_at`               | Дата и время создания записи в таблице                                  |
| `updated_at`               | Дата и время обновления записи в таблице                                |

**Таблица `education`**

Хранит информацию об уровне образования сотрудников компаний.
| Поле                      | Описание                                                                 |
|---------------------------|--------------------------------------------------------------------------|
| `id`                       | Уникальный номер записи с информацией об образовании                    |
| `person_id`                | Идентификатор человека (внешний ключ, ссылается на таблицу `people`)    |
| `degree_type`              | Учебная степень (например: BA — бакалавр гуманитарных наук, MS — магистр естественных наук) |
| `instituition`             | Учебное заведение (название университета)                               |
| `graduated_at`             | Дата завершения обучения (выпуска)                                      |
| `created_at`               | Дата и время создания записи в таблице                                  |
| `updated_at`               | Дата и время обновления записи в таблице                                |

**Таблица `fund`**

Хранит информацию о венчурных фондах. 
| Поле                      | Описание                                                                 |
|---------------------------|--------------------------------------------------------------------------|
| `id`                       | Уникальный номер венчурного фонда                                        |
| `name`                     | Название венчурного фонда                                                |
| `founded_at`               | Дата основания фонда                                                    |
| `domain`                   | Домен сайта фонда                                                        |
| `network_username`         | Профиль фонда в корпоративной сети биржи                                |
| `country_code`             | Код страны фонда                                                        |
| `investment_rounds`        | Число инвестиционных раундов, в которых фонд принимал участие          |
| `invested_companies`       | Число компаний, в которые инвестировал фонд                             |
| `milestones`               | Количество важных этапов в истории фонда                                 |
| `created_at`               | Дата и время создания записи в таблице                                  |
| `updated_at`               | Дата и время обновления записи в таблице                                |

**Таблица `funding_round`**

Содержит информацию о раундах инвестиций. 
| Поле                      | Описание                                                                 |
|---------------------------|--------------------------------------------------------------------------|
| `id`                       | Уникальный номер инвестиционного раунда                                 |
| `company_id`               | Уникальный номер компании, участвовавшей в инвестиционном раунде (внешний ключ, ссылается на таблицу `company`) |
| `funded_at`                | Дата проведения раунда                                                  |
| `funding_round_type`       | Тип инвестиционного раунда (venture, angel, series_a)                   |
| `raised_amount`            | Сумма инвестиций, которую привлекла компания в этом раунде в долларах   |
| `pre_money_valuation`      | Предварительная оценка стоимости компании до инвестиций в долларах      |
| `participants`             | Количество участников инвестиционного раунда                            |
| `is_first_round`           | Является ли этот раунд первым для компании                              |
| `is_last_round`            | Является ли этот раунд последним для компании                           |
| `created_at`               | Дата и время создания записи в таблице                                  |
| `updated_at`               | Дата и время обновления записи в таблице                                |

**Таблица `investment`**

Содержит информацию об инвестициях венчурных фондов в компании-стартапы.
| Поле                      | Описание                                                                 |
|---------------------------|--------------------------------------------------------------------------|
| `id`                       | Уникальный номер инвестиции                                             |
| `funding_round_id`         | Уникальный номер раунда инвестиции (внешний ключ, ссылается на таблицу `funding_round`) |
| `company_id`               | Уникальный номер компании-стартапа, в которую инвестируют (внешний ключ, ссылается на таблицу `company`) |
| `fund_id`                  | Уникальный номер фонда, инвестирующего в компанию-стартап (внешний ключ, ссылается на таблицу `fund`) |
| `created_at`               | Дата и время создания записи в таблице                                  |
| `updated_at`               | Дата и время обновления записи в таблице                                |

**Таблица `people`**

Содержит информацию о сотрудниках компаний-стартапов.
| Поле                      | Описание                                                                 |
|---------------------------|--------------------------------------------------------------------------|
| `id`                       | Уникальный номер сотрудника                                             |
| `first_name`               | Имя сотрудника                                                           |
| `last_name`                | Фамилия сотрудника                                                        |
| `company_id`               | Уникальный номер компании-стартапа (внешний ключ, ссылается на таблицу `company`) |
| `network_username`         | Профиль фонда в корпоративной сети биржи                                |
| `created_at`               | Дата и время создания записи в таблице                                  |
| `updated_at`               | Дата и время обновления записи в таблице                                |


## Исследование

1. Отобразите все записи из таблицы company по компаниям, которые закрылись.

In [3]:
SELECT *
FROM company
WHERE status LIKE 'closed';

SyntaxError: invalid syntax (615646814.py, line 1)

2. Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total.

In [None]:
SELECT
funding_total
FROM company
WHERE category_code LIKE 'news'
AND country_code LIKE 'USA'
ORDER BY funding_total DESC;

3. Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [None]:
SELECT
SUM(price_amount)
FROM acquisition
WHERE term_code LIKE 'cash'
AND EXTRACT(YEAR FROM acquired_at) IN (2011, 2012, 2013);

4. Отобразите имя, фамилию и названия аккаунтов людей в поле network_username, у которых названия аккаунтов начинаются на 'Silver'.

In [None]:
SELECT
first_name, 
last_name,
network_username
FROM people
WHERE network_username LIKE 'Silver%';

5. Выведите на экран всю информацию о людях, у которых названия аккаунтов в поле network_username содержат подстроку 'money', а фамилия начинается на 'K'.

In [None]:
SELECT *
FROM people
WHERE network_username LIKE '%money%'
AND last_name LIKE '%K%';

6. Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

In [None]:
SELECT
    c.country_code,
    SUM(c.funding_total) AS total_funding
FROM company AS c
GROUP BY c.country_code
ORDER BY total_funding DESC;

7. Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [None]:
SELECT
funded_at, 
MIN(raised_amount) AS min,
MAX(raised_amount) AS max
FROM funding_round
GROUP BY funded_at
HAVING MIN(raised_amount) != 0
AND MIN(raised_amount) != MAX(raised_amount);

8. Создайте поле с категориями:
- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
- Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.

Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.
Отобразите все поля таблицы fund и новое поле с категориями.

In [None]:
SELECT *,
    CASE
        WHEN invested_companies < 20 THEN 'low_activity'
        WHEN invested_companies >= 20 AND invested_companies < 100 THEN 'middle_activity'
        ELSE 'high_activity'
    END AS activity
FROM fund

9. Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [None]:
WITH
a AS (
    SELECT *,
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity
FROM fund)

SELECT
activity,
ROUND(AVG(investment_rounds)) AS investment_rounds
FROM a
GROUP BY activity
ORDER BY investment_rounds;

10. Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. 

Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. 

Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.

In [None]:
SELECT
country_code,
MIN(invested_companies),
MAX(invested_companies),
AVG(invested_companies)

FROM fund
WHERE EXTRACT(YEAR FROM founded_at) IN (2010, 2011, 2012)

GROUP BY country_code
HAVING MIN(invested_companies) > 0
ORDER BY AVG(invested_companies) DESC, country_code
LIMIT 10;

11. Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [None]:
SELECT
p.first_name AS first_name,
p.last_name AS last_name,
e.instituition
FROM people AS p
LEFT JOIN education AS e ON p.id=e.person_id;

12. Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [None]:
SELECT
    c.name AS company_name,
    COALESCE(e.unique_instituition_count, 0) AS unique_instituition_count
FROM company AS c
LEFT JOIN (
    SELECT
        p.company_id,
        COUNT(DISTINCT e.instituition) AS unique_instituition_count
    FROM people AS p
    JOIN education AS e ON p.id = e.person_id
    GROUP BY p.company_id
) AS e ON c.id = e.company_id
ORDER BY unique_instituition_count DESC
LIMIT 5;

13. Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [None]:
SELECT 
DISTINCT(c.name)
FROM company AS c
JOIN funding_round AS fr ON c.id = fr.company_id
WHERE c.status = 'closed'
AND fr.is_first_round = 1 AND fr.is_last_round = 1;

14. Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [None]:
SELECT
DISTINCT(p.id)
FROM (SELECT 
    DISTINCT(c.id)
    FROM company AS c
    JOIN funding_round AS fr ON c.id = fr.company_id
    WHERE c.status = 'closed'
    AND fr.is_first_round = 1 AND fr.is_last_round = 1) AS com
JOIN people AS p ON com.id=p.company_id;

15. Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [None]:
WITH
s AS (SELECT
DISTINCT(p.id)
FROM (SELECT 
    DISTINCT(c.id)
    FROM company AS c
    JOIN funding_round AS fr ON c.id = fr.company_id
    WHERE c.status = 'closed'
    AND fr.is_first_round = 1 AND fr.is_last_round = 1) AS com
JOIN people AS p ON com.id=p.company_id)



SELECT
DISTINCT(s.id) AS person_id,
e.instituition AS instituition
FROM s
JOIN education AS e ON s.id=e.person_id
GROUP BY s.id, instituition

16. Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

In [None]:
WITH
l AS (SELECT 
        c.id
        FROM company AS c
        JOIN funding_round AS fr ON c.id = fr.company_id
        WHERE c.status = 'closed'
        AND fr.is_first_round = 1 
        AND fr.is_last_round = 1),

s AS (SELECT
      DISTINCT(p.id)
      FROM l
      JOIN people AS p ON l.id = p.company_id),

b AS (SELECT
      s.id AS person_id,
      e.instituition AS instituition
      FROM s
      JOIN education AS e ON s.id = e.person_id)


SELECT 
person_id,
COUNT (instituition)
FROM b
GROUP BY person_id

17. Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

In [None]:
WITH
l AS (SELECT 
        c.id
        FROM company AS c
        JOIN funding_round AS fr ON c.id = fr.company_id
        WHERE c.status = 'closed'
        AND fr.is_first_round = 1 
        AND fr.is_last_round = 1),

s AS (SELECT
      DISTINCT(p.id)
      FROM l
      JOIN people AS p ON l.id = p.company_id),

b AS (SELECT
      s.id AS person_id,
      e.instituition AS instituition
      FROM s
      JOIN education AS e ON s.id = e.person_id),


d AS (SELECT 
      person_id,
      COUNT(instituition) AS count
      FROM b
      GROUP BY person_id),
      
e AS (SELECT 
    SUM(count) AS total_count
    FROM d
    GROUP BY person_id)
    
SELECT
AVG(total_count)
FROM e

18. Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Socialnet.

In [None]:
WITH
l AS (SELECT 
        c.id
        FROM company AS c
        JOIN funding_round AS fr ON c.id = fr.company_id
        WHERE c.status = 'closed'
        AND fr.is_first_round = 1 
        AND fr.is_last_round = 1),

s AS (SELECT
      DISTINCT(p.id)
      FROM l
      JOIN people AS p ON l.id = p.company_id),

b AS (SELECT
      s.id AS person_id,
      e.instituition AS instituition
      FROM s
      JOIN education AS e ON s.id = e.person_id),


d AS (SELECT 
      person_id,
      COUNT(instituition) AS count
      FROM b
      GROUP BY person_id),
      
e AS (SELECT 
    SUM(count) AS total_count
    FROM d
    GROUP BY person_id),
    
f AS (SELECT
AVG(total_count)
FROM e),

    
x AS (SELECT
e.person_id,
COUNT(e.instituition)
FROM education e
JOIN people p ON e.person_id = p.id
JOIN company c ON p.company_id = c.id
WHERE c.name LIKE 'Socialnet'
GROUP BY e.person_id),

w AS (SELECT 
    SUM(count) AS total_count
    FROM x
    GROUP BY person_id)
    
SELECT
AVG(total_count)
FROM w

19. Составьте таблицу из полей:
- name_of_fund — название фонда;
- name_of_company — название компании;
- amount — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [None]:
SELECT
f.name AS name_of_fund,
c.name AS name_of_company,
fr.raised_amount AS amount

FROM fund f
JOIN investment i ON f.id = i.fund_id
JOIN funding_round fr ON i.funding_round_id = fr.id
JOIN company c ON fr.company_id = c.id


WHERE c.milestones > 6
AND CAST(fr.funded_at AS date) BETWEEN '2012-01-01' AND '2013-12-31'
GROUP BY name_of_fund, name_of_company, amount

20. Выгрузите таблицу, в которой будут такие поля:
- название компании-покупателя;
- сумма сделки;
- название компании, которую купили;
- сумма инвестиций, вложенных в купленную компанию;
- доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы. 

Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

In [None]:
WITH acquisition_data AS (
    SELECT
        c1.name AS acquiring_company_name,
        a.price_amount,
        c2.name AS acquired_company_name,
        c2.funding_total
    FROM acquisition AS a
    JOIN company AS c1 ON a.acquiring_company_id = c1.id
    JOIN company AS c2 ON a.acquired_company_id = c2.id
    WHERE a.price_amount > 0
      AND c2.funding_total > 0
)
SELECT
    acquiring_company_name,
    price_amount,
    acquired_company_name,
    funding_total,
    ROUND(price_amount / funding_total) AS investment_ratio
FROM acquisition_data
ORDER BY price_amount DESC, acquired_company_name
LIMIT 10;

21. Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. 

Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.


In [None]:
SELECT
c.name AS company_name,
EXTRACT(MONTH FROM CAST(funded_at AS timestamp)) AS month
FROM company c
JOIN funding_round fr ON c.id = fr.company_id
WHERE c.category_code LIKE 'social'
AND fr.funded_at BETWEEN '2010-01-01' AND '2013-12-31'
AND fr.raised_amount != 0;

22. Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
- номер месяца, в котором проходили раунды;
- количество уникальных названий фондов из США, которые инвестировали в этом месяце;
-  количество компаний, купленных за этот месяц;
- общая сумма сделок по покупкам в этом месяце.


In [None]:
WITH 
funding_data AS (
    SELECT 
        EXTRACT(MONTH FROM fr.funded_at) AS month,
        COUNT(DISTINCT f.name) AS unique_fund_count
    FROM funding_round fr
    JOIN investment i ON fr.id = i.funding_round_id
    JOIN fund f ON i.fund_id = f.id
    WHERE fr.funded_at BETWEEN '2010-01-01' AND '2013-12-31'
      AND f.country_code = 'USA'
    GROUP BY EXTRACT(MONTH FROM fr.funded_at)
),
acquisition_data AS (
    SELECT 
        EXTRACT(MONTH FROM a.acquired_at) AS month,
        COUNT(a.acquired_company_id) AS purchased_companies,
        SUM(a.price_amount) AS total_price
    FROM acquisition a
    WHERE a.acquired_at BETWEEN '2010-01-01' AND '2013-12-31'
    GROUP BY EXTRACT(MONTH FROM a.acquired_at)
)

SELECT 
    gs.month,
    COALESCE(fd.unique_fund_count, 0) AS unique_fund_count,
    COALESCE(ad.purchased_companies, 0) AS purchased_companies,
    COALESCE(ad.total_price, 0) AS total_price
FROM generate_series(1, 12) AS gs (month)
LEFT JOIN funding_data AS fd ON gs.month = fd.month
LEFT JOIN acquisition_data AS ad ON gs.month = ad.month
ORDER BY gs.month;

23. Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. 

Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

In [None]:
WITH

inv_2011 AS (
SELECT 
country_code,
AVG(funding_total) AS avg_funding_2011
FROM company
WHERE EXTRACT (YEAR FROM founded_at) = 2011
GROUP BY country_code),
     
inv_2012 AS (
SELECT
country_code,
AVG(funding_total) AS avg_funding_2012
FROM company
WHERE EXTRACT (YEAR FROM founded_at) = 2012
GROUP BY country_code),

inv_2013 AS (
SELECT
country_code,
AVG(funding_total) AS avg_funding_2013
FROM company
WHERE EXTRACT (YEAR FROM founded_at) = 2013
GROUP BY country_code)


SELECT
i11.country_code, i11.avg_funding_2011, i12.avg_funding_2012, i13.avg_funding_2013
FROM inv_2011 i11
INNER JOIN inv_2012 i12 ON i11.country_code = i12.country_code
INNER JOIN inv_2013 i13 ON i12.country_code = i13.country_code

ORDER BY i11.avg_funding_2011 DESC;