# Проект: Базовый SQL
Проект автоматически проверяется в тренажёре SQL. В самостоятельном проекте этого курса работа идёт с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle.

**Важные понятия**<br>

Венчурные фонды — это финансовые организации, которые могут позволить себе высокий риск и инвестировать в компании с инновационной бизнес-идеей или разработанной новой технологией, то есть в стартапы. Цель венчурных фондов — в будущем получить значительную прибыль, которая в разы превысит размер их трат на инвестиции в компанию. Если стартап подорожает, венчурный фонд может получить долю в компании или фиксированный процент от её выручки. <br>

Чтобы процесс финансирования стал менее рискованным, его делят на стадии — раунды. Тот или иной раунд зависит от того, какого уровня развития достигла компания. <br>

Первые этапы — предпосевной и посевной раунды. Предпосевной раунд предполагает, что компания как таковая ещё не создана и находится в стадии замысла. Следующий — посевной — раунд знаменует рост проекта: создатели компании разрабатывают бизнес-модель и привлекают инвесторов. <br>

Если компании требуется ментор или наставник — она привлекает бизнес-ангела. Бизнес-ангелы — инвесторы, которые помимо финансовой поддержки предлагают экспертную помощь. Такой раунд называют ангельским.<br> 
Когда стартап становится компанией с проверенной бизнес-моделью и начинает зарабатывать самостоятельно, предложений инвесторов становится больше. Это раунд A, а за ним следуют и другие: B, C, D — на этих этапах компания активно развивается и готовится к IPO. <br>

Иногда выделяют венчурный раунд — финансирование, которое могло поступить от венчурного фонда на любом этапе: начальном или более позднем. <br>

В данных об инвестициях вам встретятся упоминания раундов, но самостоятельный проект не предполагает, что вы должны разбираться в их специфике лучше любого инвестора. Главное — понимать, как устроены данные. <br>

## ER-диаграмма
![image.png](attachment:image.png)

## Описание данных

**`acquisition`**<br>
Содержит информацию о покупках одних компаний другими.<br>
Таблица включает такие поля:<br>
- первичный ключ `id` — идентификатор или уникальный номер покупки;<br>
- внешний ключ `acquiring_company_id` — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;<br>
- внешний ключ `acquired_company_id` — ссылается на таблицу company — идентификатор компании, которую покупают;
- `term_code` — способ оплаты сделки:<br>
- `cash` — наличными;<br>
- `stock` — акциями компании;<br>
- `cash_and_stock` — смешанный тип оплаты: наличные и акции.<br>
- `price_amount` — сумма покупки в долларах;<br>
- `acquired_at` — дата совершения сделки;<br>
- `created_at` — дата и время создания записи в таблице;<br>
- `updated_at` — дата и время обновления записи в таблице.<br>

**`company`**<br>
Содержит информацию о компаниях-стартапах.<br>
- первичный ключ `id` — идентификатор, или уникальный номер компании;<br>
- `name` — название компании;<br>
- `category_code` — категория деятельности компании, например:<br>
- `news` — специализируется на работе с новостями;<br>
- `social` — специализируется на социальной работе.<br>
- `status` — статус компании:<br>
- `acquired` — приобретена;<br>
- `operating` — действует;<br>
- `ipo` — вышла на IPO;<br>
- `closed` — перестала существовать.<br>
- `founded_at` — дата основания компании;<br>
- `closed_at` — дата закрытия компании, которую указывают в том случае, если компании больше не существует;<br>
- `domain` — домен сайта компании;<br>
- `network_username` — профиль фонда в корпоративной сети биржи;<br>
- `country_code` — код страны, например, USA для США, GBR для Великобритании;<br>
- `investment_rounds` — число раундов, в которых компания участвовала как инвестор;<br>
- `funding_rounds` — число раундов, в которых компания привлекала инвестиции;<br>
- `funding_total` — сумма привлечённых инвестиций в долларах;<br>
- `milestones` — количество важных этапов в истории компании;<br>
- `created_at` — дата и время создания записи в таблице;<br>
- `updated_at` — дата и время обновления записи в таблице.<br>

**`education`**<br>
Хранит информацию об уровне образования сотрудников компаний.<br>
- первичный ключ `id` — уникальный номер записи с информацией об образовании;<br>
- внешний ключ `person_id` — ссылается на таблицу people — идентификатор человека, информация о котором представлена в записи;<br>
- `degree_type` — учебная степень, например:<br>
    - BA — Bachelor of Arts — бакалавр гуманитарных наук;<br>
    - MS — Master of Science — магистр естественных наук.<br>
- `instituition` — учебное заведение, название университета;<br>
- `graduated_at` — дата завершения обучения, выпуска;<br>
- `created_at` — дата и время создания записи в таблице;<br>
- `updated_at` — дата и время обновления записи в таблице.<br>

**`fund`**<br>
Хранит информацию о венчурных фондах. <br>
- первичный ключ `id` — уникальный номер венчурного фонда;<br>
- `name` — название венчурного фонда;<br>
- `founded_at` — дата основания фонда;<br>
- `domain` — домен сайта фонда;<br>
- `network_username` — профиль фонда в корпоративной сети биржи;<br>
- `country_code` — код страны фонда;<br>
- `investment_rounds` — число инвестиционных раундов, в которых фонд принимал участие;<br>
- `invested_companies` — число компаний, в которые инвестировал фонд;<br>
- `milestones` — количество важных этапов в истории фонда;<br>
- `created_at` — дата и время создания записи в таблице;<br>
- `updated_at` — дата и время обновления записи в таблице.<br>

**`funding_round`**<br>
Содержит информацию о раундах инвестиций. <br>
- первичный ключ `id` — уникальный номер инвестиционного раунда;<br>
- внешний ключ `company_id` — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;<br>
- `funded_at` — дата проведения раунда;<br>
- `funding_round_type` — тип инвестиционного раунда, например:<br>
- `venture` — венчурный раунд;<br>
- `angel` — ангельский раунд;<br>
- `series_a` — раунд А.<br>
- `raised_amount` — сумма инвестиций, которую привлекла компания в этом раунде в долларах;<br>
- `pre_money_valuation` — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;<br>
- `participants` — количество участников инвестиционного раунда;<br>
- `is_first_round` — является ли этот раунд первым для компании;<br>
- `is_last_round` — является ли этот раунд последним для компании;<br>
- `created_at` — дата и время создания записи в таблице;<br>
- `updated_at` — дата и время обновления записи в таблице.<br>

**`investment`**<br>
Содержит информацию об инвестициях венчурных фондов в компании-стартапы.<br>
- первичный ключ `id` — уникальный номер инвестиции;<br>
- внешний ключ `funding_round_id` — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;<br>
- внешний ключ `company_id` — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;<br>
- внешний ключ `fund_id` — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;<br>
- `created_at` — дата и время создания записи в таблице;<br>
- `updated_at` — дата и время обновления записи в таблице.<br>

**`people`**<br>
Содержит информацию о сотрудниках компаний-стартапов.<br>
- первичный ключ `id` — уникальный номер сотрудника;<br>
- `first_name` — имя сотрудника;<br>
- `last_name` — фамилия сотрудника;<br>
- внешний ключ `company_id` — ссылается на таблицу company — уникальный номер компании-стартапа;<br>
- `network_username` — профиль фонда в корпоративной сети биржи;<br>
- `created_at` — дата и время создания записи в таблице;<br>
- `updated_at` — дата и время обновления записи в таблице.<br>

## Задания

### 1. Отобразите все записи из таблицы company по компаниям, которые закрылись.

``` sql
SELECT *
FROM company
WHERE status = 'closed';
```

### 2. Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total.

``` sql
SELECT funding_total
FROM company
WHERE category_code = 'news' AND country_code = 'USA'
ORDER BY funding_total DESC
```

### 3. Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

``` sql
SELECT
    SUM(price_amount)
FROM acquisition
WHERE term_code = 'cash' AND DATE(acquired_at) BETWEEN '2011-01-01' AND '2013-12-31'
```

### 4. Отобразите имя, фамилию и названия аккаунтов людей в поле network_username, у которых названия аккаунтов начинаются на 'Silver'.

``` sql
SELECT 
    first_name,
    last_name,
    network_username
FROM people
WHERE network_username LIKE 'Silver%'
```

### 5. Выведите на экран всю информацию о людях, у которых названия аккаунтов в поле network_username содержат подстроку 'money', а фамилия начинается на 'K'.

``` sql
SELECT *
FROM people
WHERE network_username LIKE '%money%' AND last_name LIKE 'K%'
```

### 6. Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

``` sql
SELECT 
    country_code,
    SUM(funding_total)
FROM company
GROUP BY country_code
ORDER BY 2 DESC;
```

### 7. Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

``` sql
SELECT 
    funded_at,
    MIN(raised_amount), 
    MAX(raised_amount)
FROM funding_round
GROUP BY funded_at
HAVING MIN(raised_amount) != 0 AND MIN(raised_amount) != MAX(raised_amount);
```

### 8. Создайте поле с категориями:
- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
- Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
- Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.
Отобразите все поля таблицы fund и новое поле с категориями.

``` sql
SELECT *,
    CASE
        WHEN invested_companies >= 100 THEN 'high_activity'
        WHEN invested_companies >= 20 THEN 'middle_activity'
        WHEN invested_companies < 20 THEN 'low_activity'
    END
FROM fund;
```

### 9. Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

``` sql
WITH X AS
(SELECT *,
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity
FROM fund)
SELECT
    activity,
    ROUND(AVG(investment_rounds))
FROM X
GROUP BY activity
ORDER BY 2;
```

### 10. Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. 
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. 

Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.

``` sql
SELECT
    country_code,
    MIN(invested_companies),
    MAX(invested_companies),
    AVG(invested_companies)
FROM fund
WHERE EXTRACT(YEAR FROM founded_at) BETWEEN 2010 AND 2012
GROUP BY country_code
HAVING MIN(invested_companies) != 0
ORDER BY 4 DESC, 1
LIMIT 10;
```

### 11. Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

``` sql
SELECT
    first_name,
    last_name,
    instituition
FROM 
    people
    LEFT JOIN education ON people.id = education.person_id
```

### 12. Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

``` sql
SELECT
   name,
   COUNT(DISTINCT instituition)
FROM 
    company
    INNER JOIN people ON company.id = people.company_id
    INNER JOIN education ON people.id = education.person_id
GROUP BY name
ORDER BY 2 DESC
LIMIT 5;
```

### 13. Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

``` sql
SELECT DISTINCT
    name
FROM 
    company
    INNER JOIN funding_round ON company.id = funding_round.company_id
WHERE status = 'closed' AND is_first_round = 1 AND is_last_round = 1
```

### 14. Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

``` sql
SELECT DISTINCT people.id
    FROM 
        (SELECT DISTINCT company.id
        FROM 
            company
            INNER JOIN funding_round ON company.id = funding_round.company_id
        WHERE status = 'closed' AND is_first_round = 1 AND is_last_round = 1) AS X
        INNER JOIN people ON X.id = people.company_id
```

### 15. Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

``` sql
WITH P AS    
(SELECT DISTINCT people.id
FROM 
    (SELECT DISTINCT company.id
     FROM company INNER JOIN funding_round ON company.id = funding_round.company_id
     WHERE status = 'closed' AND is_first_round = 1 AND is_last_round = 1) AS X
    INNER JOIN people ON X.id = people.company_id)

SELECT DISTINCT
    P.id, 
    instituition
FROM education INNER JOIN P ON P.id = education.person_id
```

### 16. Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

``` sql
WITH P AS    
(SELECT DISTINCT people.id
FROM 
    (SELECT DISTINCT company.id
     FROM company INNER JOIN funding_round ON company.id = funding_round.company_id
     WHERE status = 'closed' AND is_first_round = 1 AND is_last_round = 1) AS X
    INNER JOIN people ON X.id = people.company_id)

SELECT
    P.id, 
    COUNT(instituition)
FROM education INNER JOIN P ON P.id = education.person_id
GROUP BY P.id 

```

### 17. Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

``` sql
WITH P AS    
(SELECT DISTINCT people.id
FROM 
    (SELECT DISTINCT company.id
     FROM company INNER JOIN funding_round ON company.id = funding_round.company_id
     WHERE status = 'closed' AND is_first_round = 1 AND is_last_round = 1) AS X
    INNER JOIN people ON X.id = people.company_id)
    
SELECT AVG(count)
FROM
(SELECT
    P.id, 
    COUNT(instituition)
FROM education INNER JOIN P ON P.id = education.person_id
GROUP BY P.id) AS Z
```

### 18. Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Socialnet.

``` sql
WITH people_socialnet AS    
(SELECT DISTINCT people.id
FROM company INNER JOIN people ON company.id = people.company_id
WHERE name = 'Socialnet')

    
SELECT AVG(count)
FROM
(SELECT
    people_socialnet.id, 
    COUNT(instituition)
 FROM education INNER JOIN people_socialnet ON people_socialnet.id = education.person_id
 GROUP BY people_socialnet.id) AS Z
```

### 19.Составьте таблицу из полей:
- name_of_fund — название фонда;
- name_of_company — название компании;
- amount — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

``` sql
SELECT 
    fund.name name_of_fund,
    company.name name_of_company,
    funding_round.raised_amount amount
FROM 
    company
    INNER JOIN investment ON company.id = investment.company_id
    INNER JOIN fund ON investment.fund_id = fund.id
    INNER JOIN funding_round ON investment.funding_round_id = funding_round.id
WHERE 
    company.milestones > 6 AND
    funding_round.funded_at BETWEEN '2012-01-01' AND '2013-12-31'
```

### 20. Выгрузите таблицу, в которой будут такие поля:
- название компании-покупателя;
- сумма сделки;
- название компании, которую купили;
- сумма инвестиций, вложенных в купленную компанию;
- доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы. 

Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

``` sql
SELECT
    company_1.name,
    price_amount,
    company_2.name,
    company_2.funding_total,
    ROUND(price_amount / company_2.funding_total)
FROM 
    acquisition
    INNER JOIN company AS company_1  ON acquisition.acquiring_company_id = company_1.id
    INNER JOIN company AS company_2 ON acquisition.acquired_company_id = company_2.id
WHERE price_amount > 0 AND company_2.funding_total > 0
ORDER BY price_amount DESC, company_2.name
LIMIT 10;
```

### 21. Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.

``` sql
SELECT
    name,
    EXTRACT(MONTH FROM funded_at)
FROM company INNER JOIN funding_round ON company.id = funding_round.company_id
WHERE 
    category_code = 'social' AND 
    raised_amount > 0 AND
    EXTRACT(YEAR FROM funded_at) BETWEEN 2010 AND 2013
```

### 22. Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
- номер месяца, в котором проходили раунды;
- количество уникальных названий фондов из США, которые инвестировали в этом месяце;
- количество компаний, купленных за этот месяц;
- общая сумма сделок по покупкам в этом месяце.

``` sql
WITH
X1 AS
(SELECT
    EXTRACT(MONTH FROM funding_round.funded_at) AS month,
    COUNT(DISTINCT fund.name) funds
FROM 
    funding_round
    INNER JOIN investment ON funding_round.id = investment.funding_round_id
    INNER JOIN fund ON investment.fund_id = fund.id
WHERE 
     EXTRACT(YEAR FROM funding_round.funded_at) BETWEEN 2010 AND 2013
     AND country_code = 'USA'
GROUP BY month),
X2 AS 
(SELECT 
    EXTRACT(MONTH FROM acquired_at) AS month,
    COUNT(acquired_company_id),
    SUM(price_amount)
FROM acquisition
WHERE EXTRACT(YEAR FROM acquired_at) BETWEEN 2010 AND 2013
GROUP BY month)

SELECT 
    X1.month, 
    funds,
    count,
    sum
FROM X1 INNER JOIN X2 ON X1.month = X2.month
```

### 23. Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

``` sql
WITH
     inv_2011 AS
     (SELECT country_code, AVG(funding_total) funding_total_avg_2011
      FROM company 
      WHERE EXTRACT(YEAR FROM founded_at) = 2011
      GROUP BY country_code),
      inv_2012 AS
     (SELECT country_code, AVG(funding_total) funding_total_avg_2012
      FROM company 
      WHERE EXTRACT(YEAR FROM founded_at) = 2012
      GROUP BY country_code),
      inv_2013 AS
     (SELECT country_code, AVG(funding_total) funding_total_avg_2013
      FROM company 
      WHERE EXTRACT(YEAR FROM founded_at) = 2013
      GROUP BY country_code)
      
SELECT inv_2011.country_code,
       funding_total_avg_2011,
       funding_total_avg_2012,
       funding_total_avg_2013
FROM 
    inv_2011
    INNER JOIN inv_2012 ON inv_2011.country_code = inv_2012.country_code
    INNER JOIN inv_2013 ON inv_2012.country_code = inv_2013.country_code
ORDER BY 2 DESC;
```