# Исследование данных об инвестициях венчурных фондов в компании-стартапы

## Описание проекта

Необходимо проанализировать данные о фондах и инвестициях и написать запросы к базе. Все запросы производятся к базе данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle (https://www.kaggle.com/datasets/justinas/startup-investments).

## Дополнительная информация

**Венчурные фонды** — это финансовые организации, которые могут позволить себе высокий риск и инвестировать в компании с инновационной бизнес-идеей или разработанной новой технологией, то есть в стартапы. Цель венчурных фондов — в будущем получить значительную прибыль, которая в разы превысит размер их трат на инвестиции в компанию. Если стартап подорожает, венчурный фонд может получить долю в компании или фиксированный процент от её выручки.

Чтобы процесс финансирования стал менее рискованным, его делят на стадии — раунды. Тот или иной раунд зависит от того, какого уровня развития достигла компания.

**Первые этапы** — *предпосевной* и *посевной раунды*. *Предпосевной* раунд предполагает, что компания как таковая ещё не создана и находится в стадии замысла. Следующий — *посевной* — раунд знаменует рост проекта: создатели компании разрабатывают бизнес-модель и привлекают инвесторов.

Если компании требуется ментор или наставник — она привлекает *бизнес-ангела*. **Бизнес-ангелы** — инвесторы, которые помимо финансовой поддержки предлагают экспертную помощь. Такой раунд называют *ангельским*.

Когда стартап становится компанией с проверенной бизнес-моделью и начинает зарабатывать самостоятельно, предложений инвесторов становится больше. Это раунд *A*, а за ним следуют и другие: *B, C, D* — на этих этапах компания активно развивается и готовится к IPO.

Иногда выделяют *венчурный раунд* — финансирование, которое могло поступить от венчурного фонда на любом этапе: начальном или более позднем.

В данных об инвестициях встретятся упоминания раундов, но самостоятельный проект не предполагает, что необходимо разбираться в их специфике лучше любого инвестора. Главное — понимать, как устроены данные.

## Описание данных

Таблица **acquisition** содержит информацию о покупках одних компаний другими.
- первичный ключ **id** — идентификатор или уникальный номер покупки;
- внешний ключ **acquiring_company_id** — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
- внешний ключ **acquired_company_id** — ссылается на таблицу company — идентификатор компании, которую покупают;
- **term_code** — способ оплаты сделки:
- **cash** — наличными;
- **stock** — акциями компании;
- **cash_and_stock** — смешанный тип оплаты: наличные и акции.
- **price_amount** — сумма покупки в долларах;
- **acquired_at** — дата совершения сделки;
- **created_at** — дата и время создания записи в таблице;
- **updated_at** — дата и время обновления записи в таблице.

Таблица **company** содержит информацию о компаниях-стартапах.
- первичный ключ **id** — идентификатор, или уникальный номер компании;
- **name** — название компании;
- **category_code** — категория деятельности компании, например:
- **news** — специализируется на работе с новостями;
- **social** — специализируется на социальной работе.
- **status** — статус компании:
- **acquired** — приобретена;
- **operating** — действует;
- **ipo** — вышла на IPO;
- **closed** — перестала существовать.
- **founded_at** — дата основания компании;
- **closed_at** — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
- **domain** — домен сайта компании;
- **twitter_username** — название профиля компании в твиттере;
- **country_code** — код страны, например, USA для США, GBR для Великобритании;
- **investment_rounds** — число раундов, в которых компания участвовала как инвестор;
- **funding_rounds** — число раундов, в которых компания привлекала инвестиции;
- **funding_total** — сумма привлечённых инвестиций в долларах;
- **milestones** — количество важных этапов в истории компании;
- **created_at** — дата и время создания записи в таблице;
- **updated_at** — дата и время обновления записи в таблице.

Таблица **education** хранит информацию об уровне образования сотрудников компаний.
- первичный ключ **id** — уникальный номер записи с информацией об образовании;
- внешний ключ **person_id** — ссылается на таблицу people — идентификатор человека, информация о котором представлена в записи;
- **degree_type** — учебная степень, например:
- **BA** — Bachelor of Arts — бакалавр гуманитарных наук;
- **MS** — Master of Science — магистр естественных наук.
- **instituition** — учебное заведение, название университета;
- **graduated_at** — дата завершения обучения, выпуска;
- **created_at** — дата и время создания записи в таблице;
- **updated_at** — дата и время обновления записи в таблице.

Таблица **fund** - хранит информацию о венчурных фондах.
- первичный ключ **id** — уникальный номер венчурного фонда;
- **name** — название венчурного фонда;
- **founded_at** — дата основания фонда;
- **domain** — домен сайта фонда;
- **twitter_username** — профиль фонда в твиттере;
- **country_code** — код страны фонда;
- **investment_rounds** — число инвестиционных раундов, в которых фонд принимал участие;
- **invested_companies** — число компаний, в которые инвестировал фонд;
- **milestones** — количество важных этапов в истории фонда;
- **created_at** — дата и время создания записи в таблице;
- **updated_at** — дата и время обновления записи в таблице.

Таблица **funding_round** - содержит информацию о раундах инвестиций.
- первичный ключ **id** — уникальный номер инвестиционного раунда;
- внешний ключ **company_id** — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;
- **funded_at** — дата проведения раунда;
- **funding_round_type** — тип инвестиционного раунда, например:
- **venture** — венчурный раунд;
- **angel** — ангельский раунд;
- **series_a** — раунд А.
- **raised_amount** — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
- **pre_money_valuation** — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
- **participants** — количество участников инвестиционного раунда;
- **is_first_round** — является ли этот раунд первым для компании;
- **is_last_round** — является ли этот раунд последним для компании;
- **created_at** — дата и время создания записи в таблице;
- **updated_at** — дата и время обновления записи в таблице.

Таблица **investment** содержит информацию об инвестициях венчурных фондов в компании-стартапы.
- первичный ключ **id** — уникальный номер инвестиции;
- внешний ключ **funding_round_id** — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;
- внешний ключ **company_id** — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;
- внешний ключ **fund_id** — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;
- **created_at** — дата и время создания записи в таблице;
- **updated_at** — дата и время обновления записи в таблице.

Таблица **people** содержит информацию о сотрудниках компаний-стартапов.
- первичный ключ **id** — уникальный номер сотрудника;
- **first_name** — имя сотрудника;
- **last_name** — фамилия сотрудника;
- внешний ключ **company_id** — ссылается на таблицу company — уникальный номер компании-стартапа;
- **twitter_username** — профиль сотрудника в твиттере;
- **created_at** — дата и время создания записи в таблице;
- **updated_at** — дата и время обновления записи в таблице.

### Задание 1
Посчитайте, сколько компаний закрылось.

In [None]:
SELECT COUNT(status)
FROM company
WHERE status LIKE 'closed';

### Задание 2

Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total.

In [None]:
SELECT SUM(funding_total)
FROM company
WHERE category_code LIKE 'news' AND country_code LIKE 'USA'
GROUP BY name
ORDER BY SUM(funding_total) DESC;

### Задание 3
Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [None]:
SELECT SUM(price_amount)
FROM acquisition
WHERE EXTRACT(YEAR FROM CAST(acquired_at AS date)) BETWEEN 2011 AND 2013 
AND term_code LIKE 'cash';

### Задание 4
Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на 'Silver'.

In [None]:
SELECT first_name, 
       last_name, 
       twitter_username
FROM people
WHERE twitter_username LIKE 'Silver%';

### Задание 5
Выведите на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку 'money', а фамилия начинается на 'K'.

In [None]:
SELECT *
FROM people
WHERE twitter_username LIKE '%money%' AND last_name LIKE 'K%';

### Задание 6
Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

In [None]:
SELECT country_code,
       SUM(funding_total)
FROM company 
GROUP BY country_code
ORDER BY SUM(funding_total) DASC;

### Задание 7
Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [None]:
SELECT funded_at, 
       MIN(raised_amount) AS min, 
       MAX(raised_amount) AS max
FROM funding_round
GROUP BY funded_at
HAVING MIN(raised_amount)<>0 AND MIN(raised_amount)<>MAX(raised_amount);

### Задание 8
Создайте поле с категориями:
- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
- Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
- Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.

Отобразите все поля таблицы fund и новое поле с категориями.

In [None]:
SELECT *,
    CASE 
        WHEN invested_companies>=100 THEN 'high_activity'
        WHEN invested_companies>=20 AND invested_companies<100 THEN 'middle_activity'
        ELSE 'low_activity'
        END
FROM fund;

### Задание 9
Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [None]:
SELECT 
       (CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END) AS activity,
       ROUND(avg(investment_rounds)) AS avg_investment_rounds
FROM fund
GROUP BY activity
ORDER BY avg_investment_rounds;

### Задание 10
Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы.
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. Выгрузите десять самых активных стран-инвесторов.
Отсортируйте таблицу по среднему количеству компаний от большего к меньшему, а затем по коду страны в лексикографическом порядке.

In [None]:
SELECT country_code, 
       AVG(invested_companies),
       MIN(invested_companies),
       MAX(invested_companies)
FROM fund
WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) BETWEEN 2010 AND 2012
GROUP BY country_code
HAVING MIN(invested_companies)<>0
ORDER BY AVG(invested_companies) DESC
LIMIT 10;

### Задание 11
Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [None]:
SELECT p.first_name, 
       p.last_name, 
       e.instituition
FROM education AS e RIGHT JOIN people AS p ON p.id=e.person_id;

### Задание 12

Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [None]:
SELECT c.name, 
       COUNT(DISTINCT e.instituition) AS count_instituition
FROM company AS c LEFT JOIN people AS p ON c.id=p.company_id
LEFT JOIN education AS e ON p.id=e.person_id
WHERE company_id IS NOT null
GROUP BY c.name
ORDER BY count_instituition DESC
LIMIT 5;

### Задание 13
Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [None]:
SELECT DISTINCT c.name
FROM 
    (SELECT * 
     FROM company 
     WHERE status like 'closed') AS c 
LEFT JOIN funding_round AS fr ON c.id=fr.company_id
WHERE fr.is_last_round + fr.is_first_round = 2;

### Задание 14
Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [None]:
SELECT DISTINCT p.id AS people_id
FROM 
    (SELECT DISTINCT *
     FROM 
         (SELECT c.id 
          FROM company AS c
          WHERE status like 'closed') AS c 
LEFT JOIN funding_round AS fr ON c.id=fr.company_id
WHERE fr.is_last_round + fr.is_first_round = 2) AS l 
INNER JOIN people AS p ON p.company_id=l.company_id;

### Задание 15
Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [None]:
SELECT pl.people_id,
       e.instituition
FROM
    (SELECT DISTINCT p.id AS people_id
     FROM 
         (SELECT DISTINCT *
          FROM 
              (SELECT c.id 
               FROM company AS c
               WHERE status like 'closed') AS c 
LEFT JOIN funding_round AS fr ON c.id=fr.company_id
WHERE fr.is_last_round + fr.is_first_round = 2) AS l 
INNER JOIN people AS p ON p.company_id=l.company_id) AS pl
INNER JOIN education AS e ON e.person_id=pl.people_id
GROUP BY pl.people_id, e.instituition;

### Задание 16
Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

In [None]:
SELECT pl.people_id,
     COUNT(e.instituition)
FROM
    (SELECT DISTINCT p.id AS people_id
     FROM 
         (SELECT DISTINCT *
          FROM 
              (SELECT c.id 
               FROM company AS c
               WHERE status like 'closed') AS c 
LEFT JOIN funding_round AS fr ON c.id=fr.company_id
WHERE fr.is_last_round + fr.is_first_round = 2) AS l 
INNER JOIN people AS p ON p.company_id=l.company_id) AS pl
INNER JOIN education AS e ON e.person_id=pl.people_id
GROUP BY pl.people_id;

### Задание 17
Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

In [None]:
SELECT AVG(ep.count)
FROM(
    SELECT pl.people_id,
    COUNT(e.instituition)
    FROM
        (SELECT DISTINCT p.id AS people_id
         FROM 
             (SELECT DISTINCT *
              FROM 
                  (SELECT c.id 
                   FROM company AS c
                   WHERE status LIKE 'closed') AS c 
LEFT JOIN funding_round AS fr ON c.id=fr.company_id
WHERE fr.is_last_round + fr.is_first_round = 2) AS l 
INNER JOIN people AS p on p.company_id=l.company_id) AS pl
INNER JOIN education AS e on e.person_id=pl.people_id
GROUP BY pl.people_id) AS ep;

### Задание 18

Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Facebook*.
*(сервис, запрещённый на территории РФ)

In [None]:
SELECT AVG(ep.count)
FROM(
    SELECT pl.people_id,
         COUNT(e.instituition)
    FROM
        (SELECT distinct p.id AS people_id
         FROM 
             (SELECT c.id 
              FROM company AS c
              WHERE name like 'Facebook') AS c 
INNER JOIN people AS p ON c.id=p.company_id) AS pl
INNER JOIN education AS e ON e.person_id=pl.people_id
GROUP BY pl.people_id) AS ep;

### Задание 19
Составьте таблицу из полей:
- name_of_fund — название фонда;
- name_of_company — название компании;
- amount — сумма инвестиций, которую привлекла компания в раунде.
В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [None]:
SELECT f.name AS name_of_fund,
        c.name AS company_name,
        fr.raised_amount AS amount
FROM company AS c
LEFT JOIN investment AS i on i.company_id=c.id
LEFT JOIN fund AS f on i.fund_id=f.id
INNER JOIN (SELECT * 
           FROM funding_round
           WHERE EXTRACT(YEAR FROM funded_at) BETWEEN 2012 AND 2013) AS fr ON fr.id = i.funding_round_id
WHERE c.milestones > 6
GROUP BY name_of_fund, company_name, amount;

### Задание 20
Выгрузите таблицу, в которой будут такие поля:
- название компании-покупателя;
- сумма сделки;
- название компании, которую купили;
- сумма инвестиций, вложенных в купленную компанию;
- доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.
Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

In [None]:
SELECT c.name AS asquiring_company_name,
        a.price_amount,
        c_1.name AS asqiered_company_name,
        c_1.funding_total,
        ROUND(a.price_amount/c_1.funding_total) AS proportion
FROM acquisition AS a 
LEFT JOIN company AS c ON a.acquiring_company_id=c.id
LEFT JOIN company AS c_1 ON a.acquired_company_id=c_1.id
WHERE a.price_amount<>0 AND c_1.funding_total<>0
ORDER BY a.price_amount DESC, asqiered_company_name
LIMIT 10;

### Задание 21
Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.

In [None]:
SELECT c.name,
EXTRACT(MONTH FROM CAST(fr.funded_at AS date)) AS month
FROM company AS c 
LEFT JOIN funding_round AS fr ON c.id=fr.company_id
WHERE category_code LIKE 'social' 
AND EXTRACT(YEAR FROM cast(funded_at AS date)) BETWEEN 2010 AND 2013;

### Задание 22
Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
- номер месяца, в котором проходили раунды;
- количество уникальных названий фондов из США, которые инвестировали в этом месяце;
- количество компаний, купленных за этот месяц;
- общая сумма сделок по покупкам в этом месяце.

In [None]:
WITH 
y AS (SELECT EXTRACT(MONTH FROM fr.funded_at) AS month,
             COUNT(DISTINCT f.id) AS funds_count
      FROM funding_round AS fr
      LEFT JOIN investment AS i ON fr.id=i.funding_round_id
      LEFT JOIN fund AS f ON i.fund_id=f.id
      WHERE EXTRACT(YEAR FROM fr.funded_at) BETWEEN 2010 AND 2013
      AND f.country_code like 'USA'
      GROUP BY month),

x AS (SELECT EXTRACT(MONTH FROM acquired_at) AS month,
           COUNT(acquired_company_id) AS companies_count,
           SUM(price_amount) AS sum_price_amount
    FROM acquisition
    WHERE EXTRACT(YEAR FROM acquired_at) BETWEEN 2010 AND 2013
    GROUP BY EXTRACT(MONTH FROM acquired_at))
    
SELECT y.*, x.companies_count, 
    x.sum_price_amount
FROM y LEFT JOIN x ON y.month=x.month
ORDER BY y.month;

### Задание 23
Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

In [None]:
WITH
c_1 AS (SELECT country_code,
       AVG(funding_total) AS avg_funding_2011
    FROM company 
    WHERE EXTRACT(YEAR FROM founded_at) = 2011
    GROUP BY country_code),
c_2 AS (SELECT country_code,
       AVG(funding_total) AS avg_funding_2012
       FROM company
       WHERE EXTRACT(YEAR FROM founded_at) = 2012
       GROUP BY country_code),
c_3 AS (SELECT country_code,
       AVG(funding_total) AS avg_funding_2013
       FROM company
       WHERE EXTRACT(YEAR FROM founded_at) = 2013
       GROUP BY country_code)

SELECT  c_1.country_code, 
        c_1.avg_funding_2011, 
        c_2.avg_funding_2012, 
        c_3.avg_funding_2013
FROM c_1 INNER JOIN c_2 ON c_1.country_code=c_2.country_code 
INNER JOIN c_3 ON c_1.country_code=c_3.country_code 
ORDER BY c_1.avg_funding_2011 DESC;