# SQL-запросы. Исследование данных об инвестиции венчурных фондов в компании-стартапы

Проект автоматически проверяется в тренажёре SQL. В самостоятельном проекте этого курса работа идёт с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle.

Некоторые ответы на решение задач будут текстом, а некоторые скрином из тренажера

![image.png](attachment:image.png)

Теперь можно познакомиться с данными, которые хранят таблицы.

**acquisition**
Содержит информацию о покупках одних компаний другими.
Таблица включает такие поля:
- первичный ключ id — идентификатор или уникальный номер покупки;
- внешний ключ acquiring_company_id — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
- внешний ключ acquired_company_id — ссылается на таблицу company — идентификатор компании, которую покупают;
- term_code — способ оплаты сделки:
- cash — наличными;
- stock — акциями компании;
- cash_and_stock — смешанный тип оплаты: наличные и акции.
- price_amount — сумма покупки в долларах;
- acquired_at — дата совершения сделки;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**company**
Содержит информацию о компаниях-стартапах.
- первичный ключ id — идентификатор, или уникальный номер компании;
- name — название компании;
- category_code — категория деятельности компании, например:
- news — специализируется на работе с новостями;
- social — специализируется на социальной работе.
- status — статус компании:
- acquired — приобретена;
- operating — действует;
- ipo — вышла на IPO;
- closed — перестала существовать.
- founded_at — дата основания компании;
- closed_at — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
- domain — домен сайта компании;
- twitter_username — название профиля компании в твиттере;
- country_code — код страны, например, USA для США, GBR для Великобритании;
- investment_rounds — число раундов, в которых компания участвовала как инвестор;
- funding_rounds — число раундов, в которых компания привлекала инвестиции;
- funding_total — сумма привлечённых инвестиций в долларах;
- milestones — количество важных этапов в истории компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**education**
Хранит информацию об уровне образования сотрудников компаний.
- первичный ключ id — уникальный номер записи с информацией об образовании;
- внешний ключ person_id — ссылается на таблицу people — идентификатор человека, информация о котором представлена в записи;
- degree_type — учебная степень, например:
- BA — Bachelor of Arts — бакалавр гуманитарных наук;
- MS — Master of Science — магистр естественных наук.
- instituition — учебное заведение, название университета;
- graduated_at — дата завершения обучения, выпуска;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**fund**
Хранит информацию о венчурных фондах.
- первичный ключ id — уникальный номер венчурного фонда;
- name — название венчурного фонда;
- founded_at — дата основания фонда;
- domain — домен сайта фонда;
- twitter_username — профиль фонда в твиттере;
- country_code — код страны фонда;
- investment_rounds — число инвестиционных раундов, в которых фонд принимал участие;
- invested_companies — число компаний, в которые инвестировал фонд;
- milestones — количество важных этапов в истории фонда;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**funding_round**
Содержит информацию о раундах инвестиций.
- первичный ключ id — уникальный номер инвестиционного раунда;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;
- funded_at — дата проведения раунда;
- funding_round_type — тип инвестиционного раунда, например:
- venture — венчурный раунд;
- angel — ангельский раунд;
- series_a — раунд А.
- raised_amount — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
- pre_money_valuation — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
- participants — количество участников инвестиционного раунда;
- is_first_round — является ли этот раунд первым для компании;
- is_last_round — является ли этот раунд последним для компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**investment**
Содержит информацию об инвестициях венчурных фондов в компании-стартапы.
- первичный ключ id — уникальный номер инвестиции;
- внешний ключ funding_round_id — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;
- внешний ключ fund_id — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**people**
Содержит информацию о сотрудниках компаний-стартапов.
- первичный ключ id — уникальный номер сотрудника;
- first_name — имя сотрудника;
- last_name — фамилия сотрудника;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа;
- twitter_username — профиль сотрудника в твиттере;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

## Задача 1

**Посчитайте, сколько компаний закрылось.**

In [None]:
select count(id)
from company
where status = 'closed';

2584

## Задача 2

**Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total .**

In [None]:
select funding_total
from company
where country_code = 'USA'
    and category_code = 'news'
order by funding_total desc;

6.22553e+08

2.5e+08

1.605e+08

1.28e+08
.....

## Задача 3

**Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.**

In [None]:
select sum(price_amount)
from acquisition
where term_code = 'cash'
    and extract(year from cast(acquired_at as date)) between 2011 and 2013;

1.37762e+11

## Задача 4

**Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на 'Silver'.**

In [None]:
select first_name,
        last_name,
        twitter_username
from people
where twitter_username like 'Silver%';

![image.png](attachment:image.png)

## Задача 5

**Выведите на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку 'money', а фамилия начинается на 'K'.**

In [None]:
select *
from people
where twitter_username like '%money%' and last_name like 'K%';

![image.png](attachment:image.png)

## Задача 6

**Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.**

In [None]:
select country_code,
        sum(funding_total) as sumt
from company
group by country_code
order by sumt desc;

![image.png](attachment:image.png)

## Задача 7

**Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.**

In [None]:
select cast (funded_at as date) as date,
        min(raised_amount),
        max(raised_amount)
from funding_round
group by date
having min(raised_amount) != 0 and min(raised_amount) != max(raised_amount);

![image.png](attachment:image.png)

## Задача 8

**Создайте поле с категориями:**
- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
- Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
- Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.

**Отобразите все поля таблицы fund и новое поле с категориями.**

In [None]:
select *,
        case
            when invested_companies >= 100 then 'high_activity'
            when invested_companies >= 20 and invested_companies < 100  then 'middle_activity'
            when invested_companies < 20 then 'low_activity'
        end
from fund;

![image.png](attachment:image.png)

## Задача 9

**Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.**

In [None]:
with
da as (SELECT *,
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity
    FROM fund)

select da.activity,
       round(avg(f.investment_rounds)) as rounds
from fund as f join da on da.id=f.id
group by activity
order by rounds;

![image.png](attachment:image.png)

## Задача 10

**Выгрузите таблицу с десятью самыми активными инвестирующими странами. Активность страны определите по среднему количеству компаний, в которые инвестируют фонды этой страны.
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды, основанные с 2010 по 2012 год включительно.
Исключите из таблицы страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. Отсортируйте таблицу по среднему количеству компаний от большего к меньшему, а затем по коду страны в лексикографическом порядке.
Для фильтрации диапазона по годам используйте оператор BETWEEN.**

In [None]:
select country_code,
        min(invested_companies) as minf,
        max(invested_companies) as maxf,
        avg(invested_companies) as avgf
from fund
where extract(year from cast(founded_at as date)) between '2010' and '2012'
group by country_code
having min(invested_companies) > 0
order by avgf desc
limit 10;

![image.png](attachment:image.png)

## Задача 11

**Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.**

In [None]:
select pe.first_name,
        pe.last_name,
        i.instituition
from people as pe left join education as i on i.person_id=pe.id;

![image.png](attachment:image.png)

## Задача 12

**Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.**

In [None]:
select co.name as company,
        count(distinct instituition) as con
from people as pe 
join education as e on pe.id=e.person_id
join company as co on co.id = pe.company_id
group by company
order by con desc
limit 5;

![image.png](attachment:image.png)

## Задача 13

**Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.**

In [None]:
select distinct c.name
from company as c
join funding_round as fr on c.id=fr.company_id
where c.status = 'closed'
        and fr.id in (select id
                     from funding_round
                     where is_first_round='1'
                     and is_last_round='1');

![image.png](attachment:image.png)

## Задача 14

**Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.**

In [None]:
with
pr as (select distinct c.id
from company as c
join funding_round as fr on c.id=fr.company_id
where c.status = 'closed'
        and fr.id in (select id
                     from funding_round
                     where is_first_round='1'
                     and is_last_round='1'))

![image.png](attachment:image.png)

## Задача 15

**Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.**

In [None]:
SELECT distinct p.id,
       e.instituition
FROM people AS p
JOIN education AS e ON p.id=e.person_id
WHERE company_id in (SELECT id
                    FROM company
                    WHERE (status='closed') AND (id in (SELECT company_id
                                    FROM funding_round
                                    WHERE is_last_round=1 and is_first_round =1)))

![image.png](attachment:image.png)

## Задача 16

**Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.**

In [None]:
SELECT p.id,
       count(e.instituition)
FROM people AS p
JOIN education AS e ON p.id=e.person_id
WHERE company_id in (SELECT id
                    FROM company
                    WHERE (status='closed') AND (id in (SELECT company_id
                                    FROM funding_round
                                    WHERE is_last_round=1 and is_first_round =1)))
group by p.id;

![image.png](attachment:image.png)

## Задача 17

**Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.**

In [None]:
with 
s as (SELECT p.id,
       count(e.instituition) as inst
FROM people AS p
JOIN education AS e ON p.id=e.person_id
WHERE company_id in (SELECT id
                    FROM company
                    WHERE (status='closed') AND (id in (SELECT company_id
                                    FROM funding_round
                                    WHERE is_last_round=1 and is_first_round =1)))
group by p.id)

select avg(inst)
from s;

1.41509

## Задача 18

**Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Facebook*.
*(сервис, запрещённый на территории РФ)**

In [None]:
with 
s as (SELECT p.id,
       count(e.instituition) as inst
FROM people AS p
JOIN education AS e ON p.id=e.person_id
WHERE company_id in (SELECT id
                    FROM company
                    WHERE name='Facebook')
group by p.id)

select avg(inst)
from s;

1.51111

## Задача 19

**Составьте таблицу из полей:**
- name_of_fund — название фонда;
- name_of_company — название компании;
- amount — сумма инвестиций, которую привлекла компания в раунде.

**В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.**

In [None]:
SELECT f.name AS name_of_fund, 
       c.name AS name_of_company, 
       fr.raised_amount AS amount
FROM investment AS i 
LEFT JOIN company AS c ON c.id = i.company_id
LEFT JOIN fund AS f ON f.id = i.fund_id
INNER JOIN (SELECT * 
           FROM funding_round
           WHERE EXTRACT(YEAR FROM funded_at) BETWEEN 2012 AND 2013) AS fr ON fr.id = i.funding_round_id
WHERE c.milestones > 6;

![image.png](attachment:image.png)

## Задача 20

**Выгрузите таблицу, в которой будут такие поля:**
- название компании-покупателя;
- сумма сделки;
- название компании, которую купили;
- сумма инвестиций, вложенных в купленную компанию;
- доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

**Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.
Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.**

In [None]:
SELECT c1.name,
       a.price_amount,
       c2.name,
       c2.funding_total,
       ROUND(a.price_amount / c2.funding_total)
FROM acquisition a
JOIN company c1 on c1.id = a.acquiring_company_id --кто покупатель
JOIN company c2 on c2.id = a.acquired_company_id --кого покупают
WHERE a.price_amount <> 0 and c2.funding_total <> 0
order by a.price_amount DESC, c2.name
LIMIT 10

![image.png](attachment:image.png)

## Задача 21

**Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Выведите также номер месяца, в котором проходил раунд финансирования.**

In [None]:
select co.name,
        extract(month from cast(fr.funded_at as date))
from company as co

join funding_round as fr on fr.company_id=co.id
where extract(year from cast(fr.funded_at as date)) between 2010 and 2013
    
    and co.category_code = 'social'
    and fr.raised_amount != 0;

![image.png](attachment:image.png)

## Задача 22

**Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:**
- номер месяца, в котором проходили раунды;
- количество уникальных названий фондов из США, которые инвестировали в этом месяце;
- количество компаний, купленных за этот месяц;
-  сумма сделок по покупкам в этом месяце.

In [None]:
WITH 
month_fund AS
  (SELECT EXTRACT(MONTH FROM fr.funded_at) AS MONTH,
          COUNT(DISTINCT f.name) AS count_of_fund
   FROM funding_round AS fr
   LEFT JOIN investment AS i ON i.funding_round_id = fr.id
   LEFT JOIN fund AS f ON i.fund_id = f.id
   WHERE EXTRACT(YEAR FROM fr.funded_at) BETWEEN 2010 AND 2013
     AND f.country_code = 'USA'
   GROUP BY MONTH),
   
month_acquired AS
  (SELECT EXTRACT(MONTH
                  FROM acquired_at) AS MONTH,
          COUNT(acquired_company_id) AS count_of_acquired,
          SUM(price_amount) AS sum_of_acquired
   FROM acquisition
   WHERE EXTRACT(YEAR
                 FROM acquired_at) BETWEEN 2010 AND 2013
   GROUP BY MONTH)

SELECT month_fund.month,
       month_fund.count_of_fund,
       month_acquired.count_of_acquired,
       month_acquired.sum_of_acquired
FROM month_fund
JOIN month_acquired ON month_fund.month = month_acquired.month;

![image.png](attachment:image.png)

## Задача 23

**Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.**

In [None]:
with
y_11 as (
        select country_code,
            extract(year from cast(founded_at as date)) as ye,
            avg(funding_total) as a11
        from company
        where extract(year from cast(founded_at as date)) = 2011
        group by country_code, ye),
y_12 as (select country_code,
            extract(year from cast(founded_at as date)) as yee,
            avg(funding_total) as a12
        from company
        where extract(year from cast(founded_at as date)) = 2012
        group by country_code, yee),
y_13 as (select country_code,
            extract(year from cast(founded_at as date)) as yeee,
            avg(funding_total) as a13
        from company
        where extract(year from cast(founded_at as date)) = 2013
        group by country_code, yeee)
        
select co.country_code,
        avg(y_11.a11) as a2011,
        avg(y_12.a12) as a2012,
        avg(y_13.a13) as a2013
from company as co
join y_11 on y_11.country_code=co.country_code
join y_12 on y_12.country_code=co.country_code
join y_13 on y_13.country_code=co.country_code
group by co.country_code
order by a2011 desc;

![image.png](attachment:image.png)