# Проект: Базовый SQL

## Описание

В самостоятельном проекте этого курса вы будете работать с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы.  
Эта база данных основана на датасете **Startup Investments**, опубликованном на популярной платформе для соревнований по исследованию данных **Kaggle**.  

Анализировать рынок инвестиций без подготовки может быть непросто.  
Поэтому сначала познакомьтесь с важными понятиями, которые вам встретятся в работе с базой данных.  

**Венчурные фонды** — это финансовые организации, которые могут позволить себе высокий риск и инвестировать в компании с инновационной бизнес-идеей или разработанной новой технологией, то есть в стартапы.  
Цель венчурных фондов — в будущем получить значительную прибыль, которая в разы превысит размер их трат на инвестиции в компанию.  
Если стартап подорожает, венчурный фонд может получить долю в компании или фиксированный процент от её выручки.  

Чтобы процесс финансирования стал менее рискованным, его делят на стадии — **раунды**.  
Тот или иной раунд зависит от того, какого уровня развития достигла компания.  

**Первые этапы — предпосевной и посевной раунды.**  
Предпосевной раунд предполагает, что компания как таковая ещё не создана и находится в стадии замысла.  
Следующий — посевной — раунд знаменует рост проекта: создатели компании разрабатывают бизнес-модель и привлекают инвесторов.  

Если компании требуется ментор или наставник — она привлекает **бизнес-ангела**.  
**Бизнес-ангелы** — инвесторы, которые помимо финансовой поддержки предлагают экспертную помощь.  
Такой раунд называют **ангельским**.  

Когда стартап становится компанией с проверенной бизнес-моделью и начинает зарабатывать самостоятельно, предложений инвесторов становится больше.  
Это раунд **A**, а за ним следуют и другие: **B, C, D** — на этих этапах компания активно развивается и готовится к **IPO**.  

Иногда выделяют **венчурный раунд** — финансирование, которое могло поступить от венчурного фонда на любом этапе: начальном или более позднем.  

В данных об инвестициях вам встретятся упоминания раундов,  
но самостоятельный проект не предполагает, что вы должны разбираться в их специфике лучше любого инвестора.  
Главное — понимать, как устроены данные.  

Вы уже знаете, что такое **ER-диаграмма**.  
Работу с новой базой данных лучше начать с изучения схемы.

<p align="center">
  <img src="https://code.s3.yandex.net/SQL%20for%20data%20and%20analytics/ER/basic_sql_project_ERD.png" width="800">
</p>

## Описание таблиц базы данных Startup Investments

---

**acquisition**  
Содержит информацию о покупках одних компаний другими.

**Поля:**  
- `id` — первичный ключ, идентификатор или уникальный номер покупки;  
- `acquiring_company_id` — внешний ключ, ссылается на таблицу `company` — идентификатор компании-покупателя (той, что покупает другую компанию);  
- `acquired_company_id` — внешний ключ, ссылается на таблицу `company` — идентификатор компании, которую покупают;  
- `term_code` — способ оплаты сделки:  
  - `cash` — наличными;  
  - `stock` — акциями компании;  
  - `cash_and_stock` — наличными и акциями;  
- `price_amount` — сумма покупки в долларах;  
- `acquired_at` — дата совершения сделки;  
- `created_at` — дата и время создания записи;  
- `updated_at` — дата и время обновления записи.

---

**company**  
Содержит информацию о компаниях-стартапах.

**Поля:**  
- `id` — первичный ключ, уникальный номер компании;  
- `name` — название компании;  
- `category_code` — категория деятельности (например: `news` — работа с новостями, `social` — социальная деятельность);  
- `status` — статус компании:  
  - `acquired` — приобретена;  
  - `operating` — действует;  
  - `ipo` — вышла на IPO;  
  - `closed` — перестала существовать;  
- `founded_at` — дата основания компании;  
- `closed_at` — дата закрытия компании (если компания больше не существует);  
- `domain` — домен сайта компании;  
- `network_username` — профиль фонда в корпоративной сети;  
- `country_code` — код страны (например, `USA` — США, `GBR` — Великобритания);  
- `investment_rounds` — число раундов, в которых компания участвовала как инвестор;  
- `funding_rounds` — число раундов, в которых компания привлекала инвестиции;  
- `funding_total` — сумма привлечённых инвестиций в долларах;  
- `milestones` — количество ключевых этапов в истории компании;  
- `created_at` — дата и время создания записи;  
- `updated_at` — дата и время обновления записи.

---

**education**  
Хранит информацию об уровне образования сотрудников компаний.

**Поля:**  
- `id` — первичный ключ, уникальный номер записи;  
- `person_id` — внешний ключ, ссылается на таблицу `people` — идентификатор сотрудника;  
- `degree_type` — учебная степень, например:  
  - `BA` — *Bachelor of Arts* (бакалавр гуманитарных наук);  
  - `MS` — *Master of Science* (магистр естественных наук);  
- `institution` — учебное заведение;  
- `graduated_at` — дата выпуска (окончания обучения);  
- `created_at` — дата и время создания записи;  
- `updated_at` — дата и время обновления записи.

---

**fund**  
Хранит информацию о венчурных фондах.

**Поля:**  
- `id` — первичный ключ, уникальный номер фонда;  
- `name` — название венчурного фонда;  
- `founded_at` — дата основания фонда;  
- `domain` — домен сайта фонда;  
- `network_username` — профиль фонда в корпоративной сети;  
- `country_code` — код страны фонда;  
- `investment_rounds` — число инвестиционных раундов, в которых фонд участвовал;  
- `invested_companies` — число компаний, в которые инвестировал фонд;  
- `milestones` — количество ключевых этапов в истории фонда;  
- `created_at` — дата и время создания записи;  
- `updated_at` — дата и время обновления записи.

---

**funding_round**  
Содержит информацию о раундах инвестиций.

**Поля:**  
- `id` — первичный ключ, уникальный номер инвестиционного раунда;  
- `company_id` — внешний ключ, ссылается на таблицу `company` — уникальный номер компании, участвовавшей в раунде;  
- `funded_at` — дата проведения раунда;  
- `funding_round_type` — тип инвестиционного раунда, например:  
  - `venture` — венчурный;  
  - `angel` — ангельский;  
  - `series_a` — раунд A;  
- `raised_amount` — сумма инвестиций в долларах;  
- `pre_money_valuation` — предварительная оценка стоимости компании (до инвестиций), в долларах;  
- `participants` — количество участников инвестиционного раунда;  
- `is_first_round` — является ли этот раунд первым для компании;  
- `is_last_round` — является ли этот раунд последним;  
- `created_at` — дата и время создания записи;  
- `updated_at` — дата и время обновления записи.

---

**investment**  
Содержит информацию об инвестициях венчурных фондов в компании-стартапы.

**Поля:**  
- `id` — первичный ключ, уникальный номер инвестиции;  
- `funding_round_id` — внешний ключ, ссылается на таблицу `funding_round` — уникальный номер раунда;  
- `company_id` — внешний ключ, ссылается на таблицу `company` — уникальный номер компании-стартапа, в которую инвестируют;  
- `fund_id` — внешний ключ, ссылается на таблицу `fund` — уникальный номер фонда, инвестирующего в стартап;  
- `created_at` — дата и время создания записи;  
- `updated_at` — дата и время обновления записи.

---

**people**  
Содержит информацию о сотрудниках компаний-стартапов.

**Поля:**  
- `id` — первичный ключ, уникальный номер сотрудника;  
- `first_name` — имя сотрудника;  
- `last_name` — фамилия сотрудника;  
- `company_id` — внешний ключ, ссылается на таблицу `company` — уникальный номер компании-стартапа;  
- `network_username` — профиль фонда в корпоративной сети;  
- `created_at` — дата и время создания записи;  
- `updated_at` — дата и время обновления записи.

## Задания

### Задание 1
Отобразите все записи из таблицы company по компаниям, которые закрылись.

```postgresql
SELECT *
FROM company
WHERE status = 'closed';
```

### Задание 2
Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы `company`. Отсортируйте таблицу по убыванию значений в поле `funding_total`.

```postgresql
SELECT *
FROM company
WHERE status = 'closed';
```

### Задание 3
Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

```postgresql
SELECT
    SUM(price_amount) AS total_cash_deals
FROM acquisition
WHERE term_code = 'cash'
  AND acquired_at BETWEEN '2011-01-01' AND '2013-12-31';
```

### Задание 4
Отобразите имя, фамилию и названия аккаунтов людей в поле `network_username`, у которых названия аккаунтов начинаются на `'Silver'`.
```postgresql
SELECT
    first_name,
    last_name,
    network_username
FROM people
WHERE network_username LIKE 'Silver%';
```

### Задание 5
Выведите на экран всю информацию о людях, у которых названия аккаунтов в поле `network_username` содержат подстроку `'money'`, а фамилия начинается на `'K'`.
```postgresql
SELECT
    first_name,
    last_name,
    network_username
FROM people
WHERE network_username LIKE 'Silver%';
```

### Задание 6
Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.
```postgresql
SELECT
    country_code,
    SUM(funding_total) AS total_sum
FROM company
GROUP BY country_code
ORDER BY total_sum DESC
```

### Задание 7
Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.
```postgresql
SELECT
    country_code,
    SUM(funding_total) AS total_sum
FROM company
GROUP BY country_code
ORDER BY total_sum DESC
```

### Задание 8
Создайте поле с категориями:
- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию `high_activity`.
- Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию `middle_activity`.
- Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию `low_activity`.

Отобразите все поля таблицы `fund` и новое поле с категориями.
```postgresql
SELECT
    *,
    CASE
        WHEN invested_companies >= 100 THEN 'high_activity'
        WHEN invested_companies >= 20  THEN 'middle_activity'
        ELSE 'low_activity'
    END AS activity_category
FROM fund;
```

### Задание 9
Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонды принимали участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.
```postgresql
SELECT
    CASE
        WHEN invested_companies >= 100 THEN 'high_activity'
        WHEN invested_companies >= 20  THEN 'middle_activity'
        ELSE 'low_activity'
    END AS activity_category,
    ROUND(AVG(investment_rounds)) AS avg_rounds
FROM fund
GROUP BY activity_category
ORDER BY avg_rounds ASC;
```

### Задание 10
Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. 
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. 
Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.
```postgresql
SELECT country_code,
    MIN(invested_companies),
    MAX(invested_companies),
    AVG(invested_companies)
FROM fund
WHERE CAST(founded_at AS DATE) BETWEEN '2010-01-01' AND '2012-12-31'
GROUP BY country_code
HAVING MIN(invested_companies) > 0
ORDER BY AVG(invested_companies) DESC,
    country_code
LIMIT 10;
```

### Задание 11

Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.
```postgresql
SELECT e.instituition, p.first_name, p.last_name
FROM people AS p
LEFT OUTER JOIN education AS e ON p.id = e.person_id
```

### Задание 12

Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.
```postgresql
SELECT
    c.name AS company_name,
    COUNT(DISTINCT e.instituition) AS universities_count
FROM company AS c
JOIN people AS p ON c.id = p.company_id
JOIN education AS e ON p.id = e.person_id
GROUP BY c.name
ORDER BY universities_count DESC
LIMIT 5;
```

### Задание 13

Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.
```postgresql
SELECT DISTINCT c.name
FROM company AS c
JOIN funding_round AS f ON c.id = f.company_id
WHERE c.status = 'closed'
  AND f.is_first_round = 1
  AND f.is_last_round = 1;
```

### Задание 14

Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.
```postgresql
SELECT DISTINCT p.id AS person_id
FROM company AS c
JOIN funding_round AS f ON c.id = f.company_id
JOIN people AS p ON c.id = p.company_id
WHERE c.status = 'closed'
  AND f.is_first_round = 1
  AND f.is_last_round = 1;
```

### Задание 15

Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.
```postgresql
SELECT DISTINCT
    p.id AS person_id,
    e.instituition AS institution
FROM company AS c
JOIN funding_round AS f ON c.id = f.company_id
JOIN people AS p ON c.id = p.company_id
JOIN education AS e ON p.id = e.person_id
WHERE c.status = 'closed'
  AND f.is_first_round = 1
  AND f.is_last_round = 1;
```

### Задание 16
Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.
```postgresql
SELECT p.id,
COUNT(e.instituition)
FROM people AS p
LEFT JOIN education AS e ON p.id = e.person_id
WHERE p.company_id IN
(SELECT c.id
FROM company AS c
JOIN funding_round AS fr ON c.id = fr.company_id
WHERE STATUS ='closed'
AND is_first_round = 1
AND is_last_round = 1
GROUP BY c.id)
GROUP BY p.id
HAVING COUNT(DISTINCT e.instituition) >0;
```

### Задание 17
Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.
```postgresql
WITH base AS
(SELECT p.id,
COUNT(e.instituition)
FROM people AS p
LEFT JOIN education AS e ON p.id = e.person_id
WHERE p.company_id IN
(SELECT c.id
FROM company AS c
JOIN funding_round AS fr ON c.id = fr.company_id
WHERE STATUS ='closed'
AND is_first_round = 1
AND is_last_round = 1
GROUP BY c.id)
GROUP BY p.id
HAVING COUNT(DISTINCT e.instituition) >0)
SELECT AVG(COUNT)
FROM base;
```

### Задание 18
Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Socialnet.
```postgresql
WITH base AS (
    SELECT
        p.id,
        COUNT(e.instituition) AS universities_count
    FROM people AS p
    LEFT JOIN education AS e ON p.id = e.person_id
    JOIN company AS c ON p.company_id = c.id
    WHERE c.name = 'Socialnet'
    GROUP BY p.id
    HAVING COUNT(e.instituition) > 0
)
SELECT AVG(universities_count) AS avg_universities
FROM base;
```

### Задание 19
Составьте таблицу из полей:
- `name_of_fund` — название фонда;
- `name_of_company` — название компании;
- `amount` — сумма инвестиций, которую привлекла компания в раунде.

```postgresql
SELECT
    f.name AS name_of_fund,
    c.name AS name_of_company,
    fr.raised_amount AS amount
FROM investment AS i
JOIN fund AS f ON i.fund_id = f.id
JOIN company AS c ON i.company_id = c.id
JOIN funding_round AS fr ON i.funding_round_id = fr.id
WHERE c.milestones > 6
  AND EXTRACT(YEAR FROM fr.funded_at) BETWEEN 2012 AND 2013;
```

### Задание 20
Выгрузите таблицу, в которой будут такие поля:
- название компании-покупателя;
- сумма сделки;
- название компании, которую купили;
- сумма инвестиций, вложенных в купленную компанию;
- доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.

Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

```postgresql
WITH acquiring AS
(SELECT c.name AS buyer,
a.price_amount AS price,
a.id AS KEY
FROM acquisition AS a
LEFT JOIN company AS c ON a.acquiring_company_id = c.id
WHERE a.price_amount > 0),
acquired AS
(SELECT c.name AS acquisition,
c.funding_total AS investment,
a.id AS KEY
FROM acquisition AS a
LEFT JOIN company AS c ON a.acquired_company_id = c.id
WHERE c.funding_total > 0)
SELECT acqn.buyer,
acqn.price,
acqd.acquisition,
acqd.investment,
ROUND(acqn.price / acqd.investment) AS uplift
FROM acquiring AS acqn
JOIN acquired AS acqd ON acqn.KEY = acqd.KEY
ORDER BY price DESC, acquisition
LIMIT 10;
```

### Задание 21

Выгрузите таблицу, в которую войдут названия компаний из категории `social`, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.

```postgresql
SELECT
    c.name AS company_name,
    EXTRACT(MONTH FROM fr.funded_at) AS month_num
FROM company AS c
JOIN funding_round AS fr ON fr.company_id = c.id
WHERE c.category_code = 'social'
  AND fr.raised_amount > 0
  AND fr.funded_at BETWEEN '2010-01-01' AND '2013-12-31';
```

### Задание 22
Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
- номер месяца, в котором проходили раунды;
- количество уникальных названий фондов из США, которые инвестировали в этом месяце;
- количество компаний, купленных за этот месяц;
- общая сумма сделок по покупкам в этом месяце.
```postgresql
WITH 
fund AS (SELECT EXTRACT(MONTH FROM fr.funded_at) AS month, 
                COUNT(DISTINCT f.name) AS count
         FROM funding_round AS fr
         LEFT JOIN investment AS i ON i.funding_round_id = fr.id
         LEFT JOIN fund AS f ON f.id = i.fund_id
         WHERE EXTRACT(YEAR FROM fr.funded_at) BETWEEN 2010 AND 2013
           AND f.country_code = 'USA'
         GROUP BY month),
acquisition AS (SELECT EXTRACT(MONTH FROM a.acquired_at) AS month,
                       COUNT(*) AS count,
                       SUM(price_amount) AS sum
                FROM acquisition AS a
                WHERE EXTRACT(YEAR FROM a.acquired_at) BETWEEN 2010 AND 2013
                GROUP BY month)

SELECT f.month, 
       f.count AS fund_count,
       a.count AS company_count,
       a.sum
FROM fund AS f
INNER JOIN acquisition AS a ON a.month = f.month;
```

### Задание 23
Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.
```postgresql
WITH
    inv_2011 AS (
        SELECT
            country_code,
            AVG(funding_total) AS avg_2011
        FROM company
        WHERE EXTRACT(YEAR FROM founded_at) = 2011
          AND country_code IS NOT NULL
          AND funding_total IS NOT NULL
        GROUP BY country_code
    ),
    inv_2012 AS (
        SELECT
            country_code,
            AVG(funding_total) AS avg_2012
        FROM company
        WHERE EXTRACT(YEAR FROM founded_at) = 2012
          AND country_code IS NOT NULL
          AND funding_total IS NOT NULL
        GROUP BY country_code
    ),
    inv_2013 AS (
        SELECT
            country_code,
            AVG(funding_total) AS avg_2013
        FROM company
        WHERE EXTRACT(YEAR FROM founded_at) = 2013
          AND country_code IS NOT NULL
          AND funding_total IS NOT NULL
        GROUP BY country_code
    )
SELECT
    inv_2011.country_code,
    inv_2011.avg_2011,
    inv_2012.avg_2012,
    inv_2013.avg_2013
FROM inv_2011
INNER JOIN inv_2012 USING (country_code)
INNER JOIN inv_2013 USING (country_code)
ORDER BY inv_2011.avg_2011 DESC;
```