# SQL-запросы. Исследование данных об инвестиции венчурных фондов в компании-стартапы

Проект автоматически проверяется в тренажёре SQL. В самостоятельном проекте этого курса работа идёт с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle.

Некоторые ответы на решение задач будут текстом, а некоторые скрином из тренажера

![image.png](attachment:image.png)

Теперь можно познакомиться с данными, которые хранят таблицы.

**acquisition**
Содержит информацию о покупках одних компаний другими.
Таблица включает такие поля:
- первичный ключ id — идентификатор или уникальный номер покупки;
- внешний ключ acquiring_company_id — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
- внешний ключ acquired_company_id — ссылается на таблицу company — идентификатор компании, которую покупают;
- term_code — способ оплаты сделки:
- cash — наличными;
- stock — акциями компании;
- cash_and_stock — смешанный тип оплаты: наличные и акции.
- price_amount — сумма покупки в долларах;
- acquired_at — дата совершения сделки;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**company**
Содержит информацию о компаниях-стартапах.
- первичный ключ id — идентификатор, или уникальный номер компании;
- name — название компании;
- category_code — категория деятельности компании, например:
- news — специализируется на работе с новостями;
- social — специализируется на социальной работе.
- status — статус компании:
- acquired — приобретена;
- operating — действует;
- ipo — вышла на IPO;
- closed — перестала существовать.
- founded_at — дата основания компании;
- closed_at — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
- domain — домен сайта компании;
- twitter_username — название профиля компании в твиттере;
- country_code — код страны, например, USA для США, GBR для Великобритании;
- investment_rounds — число раундов, в которых компания участвовала как инвестор;
- funding_rounds — число раундов, в которых компания привлекала инвестиции;
- funding_total — сумма привлечённых инвестиций в долларах;
- milestones — количество важных этапов в истории компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**education**
Хранит информацию об уровне образования сотрудников компаний.
- первичный ключ id — уникальный номер записи с информацией об образовании;
- внешний ключ person_id — ссылается на таблицу people — идентификатор человека, информация о котором представлена в записи;
- degree_type — учебная степень, например:
- BA — Bachelor of Arts — бакалавр гуманитарных наук;
- MS — Master of Science — магистр естественных наук.
- instituition — учебное заведение, название университета;
- graduated_at — дата завершения обучения, выпуска;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**fund**
Хранит информацию о венчурных фондах.
- первичный ключ id — уникальный номер венчурного фонда;
- name — название венчурного фонда;
- founded_at — дата основания фонда;
- domain — домен сайта фонда;
- twitter_username — профиль фонда в твиттере;
- country_code — код страны фонда;
- investment_rounds — число инвестиционных раундов, в которых фонд принимал участие;
- invested_companies — число компаний, в которые инвестировал фонд;
- milestones — количество важных этапов в истории фонда;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**funding_round**
Содержит информацию о раундах инвестиций.
- первичный ключ id — уникальный номер инвестиционного раунда;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;
- funded_at — дата проведения раунда;
- funding_round_type — тип инвестиционного раунда, например:
- venture — венчурный раунд;
- angel — ангельский раунд;
- series_a — раунд А.
- raised_amount — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
- pre_money_valuation — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
- participants — количество участников инвестиционного раунда;
- is_first_round — является ли этот раунд первым для компании;
- is_last_round — является ли этот раунд последним для компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**investment**
Содержит информацию об инвестициях венчурных фондов в компании-стартапы.
- первичный ключ id — уникальный номер инвестиции;
- внешний ключ funding_round_id — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;
- внешний ключ fund_id — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**people**
Содержит информацию о сотрудниках компаний-стартапов.
- первичный ключ id — уникальный номер сотрудника;
- first_name — имя сотрудника;
- last_name — фамилия сотрудника;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа;
- twitter_username — профиль сотрудника в твиттере;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

## Задача 1

**Посчитайте, сколько компаний закрылось.**

In [None]:
select count(id)
from company
where status = 'closed';

2584

## Задача 2

**Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total .**

In [None]:
select funding_total
from company
where country_code = 'USA'
    and category_code = 'news'
order by funding_total desc;

6.22553e+08

2.5e+08

1.605e+08

1.28e+08
.....

## Задача 3

**Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.**

In [None]:
select sum(price_amount)
from acquisition
where term_code = 'cash'
    and extract(year from cast(acquired_at as date)) between 2011 and 2013;

1.37762e+11

## Задача 4

**Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на 'Silver'.**

In [None]:
select first_name,
        last_name,
        twitter_username
from people
where twitter_username like 'Silver%';

![image.png](attachment:image.png)

## Задача 5

**Выведите на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку 'money', а фамилия начинается на 'K'.**

In [None]:
select *
from people
where twitter_username like '%money%' and last_name like 'K%';

![image.png](attachment:image.png)

## Задача 6

**Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.**

In [None]:
select country_code,
        sum(funding_total) as sumt
from company
group by country_code
order by sumt desc;

![image.png](attachment:image.png)

## Задача 7

**Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.**

In [None]:
select cast (funded_at as date) as date,
        min(raised_amount),
        max(raised_amount)
from funding_round
group by date
having min(raised_amount) != 0 and min(raised_amount) != max(raised_amount);

![image.png](attachment:image.png)

## Задача 8

**Создайте поле с категориями:**
- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
- Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
- Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.

**Отобразите все поля таблицы fund и новое поле с категориями.**

In [None]:
select *,
        case
            when invested_companies >= 100 then 'high_activity'
            when invested_companies >= 20 and invested_companies < 100  then 'middle_activity'
            when invested_companies < 20 then 'low_activity'
        end
from fund;

![image.png](attachment:image.png)

## Задача 9

**Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.**

In [None]:
with
da as (SELECT *,
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity
    FROM fund)

select da.activity,
       round(avg(f.investment_rounds)) as rounds
from fund as f join da on da.id=f.id
group by activity
order by rounds;

![image.png](attachment:image.png)

## Задача 10

**Выгрузите таблицу с десятью самыми активными инвестирующими странами. Активность страны определите по среднему количеству компаний, в которые инвестируют фонды этой страны.
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды, основанные с 2010 по 2012 год включительно.
Исключите из таблицы страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. Отсортируйте таблицу по среднему количеству компаний от большего к меньшему, а затем по коду страны в лексикографическом порядке.
Для фильтрации диапазона по годам используйте оператор BETWEEN.**

In [None]:
select country_code,
        min(invested_companies) as minf,
        max(invested_companies) as maxf,
        avg(invested_companies) as avgf
from fund
where extract(year from cast(founded_at as date)) between '2010' and '2012'
group by country_code
having min(invested_companies) > 0
order by avgf desc
limit 10;

![image.png](attachment:image.png)

## Задача 11

**Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.**

In [None]:
select pe.first_name,
        pe.last_name,
        i.instituition
from people as pe left join education as i on i.person_id=pe.id;

![image.png](attachment:image.png)

## Задача 12