# ПРОЕКТ: SQL. Анализ данных о фондах и инвестициях.

**Описание:**

В нашем распоряжении база данных о фондах и инвестициях нам нужно проанализировать данные и написать запросы к базе. 

*Эта база данных основана на датасете [Startup Investments](https://www.kaggle.com/datasets/justinas/startup-investments), опубликованном на популярной платформе для соревнований по исследованию данных Kaggle.*

**Поставленные задачи:**

**Задача №1.**

Составить таблицу из полей:
* name_of_fund — название фонда;
* name_of_company — название компании;
* amount — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

**Задача №2.**

Выгрузить таблицу, в которой будут такие поля:
* название компании-покупателя;
* сумма сделки;
* название компании, которую купили;
* сумма инвестиций, вложенных в купленную компанию;
* доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

1. Не учитывать те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.
2. Отсортировать таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничить таблицу первыми десятью записями.

**Задача №3.**

Выгрузить таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверить, что сумма инвестиций не равна нулю. Вывести также номер месяца, в котором проходил раунд финансирования.

**Задача №4.**

Отобрать данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппировать данные по номеру месяца и получить таблицу, в которой будут поля:
* номер месяца, в котором проходили раунды;
* количество уникальных названий фондов из США, которые инвестировали в этом месяце;
* количество компаний, купленных за этот месяц;
* общая сумма сделок по покупкам в этом месяце.

**Задача №5.**

1. Составить сводную таблицу и вывевести среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. 
2. Отсортировать таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

**ER-диаграмма:**
![image.png](attachment:image.png)

**Описание данных:**

`acquisition` - cодержит информацию о покупках одних компаний другими.

Таблица включает такие поля:
* первичный ключ id — идентификатор или уникальный номер покупки;
* внешний ключ acquiring_company_id — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
* внешний ключ acquired_company_id — ссылается на таблицу company — идентификатор компании, которую покупают;
* term_code — способ оплаты сделки: 
* cash — наличными;
* stock — акциями компании;
* cash_and_stock — смешанный тип оплаты: наличные и акции.
* price_amount — сумма покупки в долларах;
* acquired_at — дата совершения сделки;
* created_at — дата и время создания записи в таблице;
* updated_at — дата и время обновления записи в таблице.

`company` - cодержит информацию о компаниях-стартапах.
* первичный ключ id — идентификатор, или уникальный номер компании;
* name — название компании;
* category_code — категория деятельности компании, например: 
* news — специализируется на работе с новостями;
* social — специализируется на социальной работе.
* status — статус компании: 
* acquired — приобретена;
* operating — действует;
* ipo — вышла на IPO;
* closed — перестала существовать.
* founded_at — дата основания компании;
* closed_at — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
* domain — домен сайта компании;
* twitter_username — название профиля компании в твиттере;
* country_code — код страны, например, USA для США, GBR для Великобритании;
* investment_rounds — число раундов, в которых компания участвовала как инвестор;
* funding_rounds — число раундов, в которых компания привлекала инвестиции;
* funding_total — сумма привлечённых инвестиций в долларах;
* milestones — количество важных этапов в истории компании;
* created_at — дата и время создания записи в таблице;
* updated_at — дата и время обновления записи в таблице.

`education` - хранит информацию об уровне образования сотрудников компаний.
* первичный ключ id — уникальный номер записи с информацией об образовании;
* внешний ключ person_id — ссылается на таблицу people — идентификатор человека, информация о котором представлена в записи;
* degree_type — учебная степень, например: 
* BA — Bachelor of Arts — бакалавр гуманитарных наук;
* MS — Master of Science — магистр естественных наук.
* instituition — учебное заведение, название университета;
* graduated_at — дата завершения обучения, выпуска;
* created_at — дата и время создания записи в таблице;
* updated_at — дата и время обновления записи в таблице.

`fund` - хранит информацию о венчурных фондах. 
* первичный ключ id — уникальный номер венчурного фонда;
* name — название венчурного фонда;
* founded_at — дата основания фонда;
* domain — домен сайта фонда;
* twitter_username — профиль фонда в твиттере;
* country_code — код страны фонда;
* investment_rounds — число инвестиционных раундов, в которых фонд принимал участие;
* invested_companies — число компаний, в которые инвестировал фонд;
* milestones — количество важных этапов в истории фонда;
* created_at — дата и время создания записи в таблице;
* updated_at — дата и время обновления записи в таблице.

`funding_round` - cодержит информацию о раундах инвестиций. 
* первичный ключ id — уникальный номер инвестиционного раунда;
* внешний ключ company_id — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;
* funded_at — дата проведения раунда;
* funding_round_type — тип инвестиционного раунда, например: 
* venture — венчурный раунд;
* angel — ангельский раунд;
* series_a — раунд А.
* raised_amount — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
* pre_money_valuation — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
* participants — количество участников инвестиционного раунда;
* is_first_round — является ли этот раунд первым для компании;
* is_last_round — является ли этот раунд последним для компании;
* created_at — дата и время создания записи в таблице;
* updated_at — дата и время обновления записи в таблице.

`investment` - cодержит информацию об инвестициях венчурных фондов в компании-стартапы.
* первичный ключ id — уникальный номер инвестиции;
* внешний ключ funding_round_id — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;
* внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;
* внешний ключ fund_id — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;
* created_at — дата и время создания записи в таблице;
* updated_at — дата и время обновления записи в таблице.

`people` - cодержит информацию о сотрудниках компаний-стартапов.
* первичный ключ id — уникальный номер сотрудника;
* first_name — имя сотрудника;
* last_name — фамилия сотрудника;
* внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа;
* twitter_username — профиль сотрудника в твиттере;
* created_at — дата и время создания записи в таблице;
* updated_at — дата и время обновления записи в таблице.

# Выполнение поставленных задач.

## Задача №1

Составим таблицу из полей:
* name_of_fund — название фонда;
* name_of_company — название компании;
* amount — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

![image.png](attachment:image.png)

## Задача №2

Выгрузить таблицу, в которой будут такие поля:
* название компании-покупателя;
* сумма сделки;
* название компании, которую купили;
* сумма инвестиций, вложенных в купленную компанию;
* доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

1. Не учитывать те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.
2. Отсортировать таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничить таблицу первыми десятью записями.

![image.png](attachment:image.png)

## Задача №3

Выгрузить таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверить, что сумма инвестиций не равна нулю. Вывести также номер месяца, в котором проходил раунд финансирования.

![image.png](attachment:image.png)

## Задача №4

Отобрать данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппировать данные по номеру месяца и получить таблицу, в которой будут поля:
* номер месяца, в котором проходили раунды;
* количество уникальных названий фондов из США, которые инвестировали в этом месяце;
* количество компаний, купленных за этот месяц;
* общая сумма сделок по покупкам в этом месяце.

![image-3.png](attachment:image-3.png)
![image-2.png](attachment:image-2.png)

## Задача №5

1. Составить сводную таблицу и вывевести среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. 
2. Отсортировать таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

# Вывод:

Мы решили 5 поставленных задач, применив:
* операторы FROM, WHERE, SELECT, BETWEEN, IN, JOIN, GROUP BY, ORDER BY, DISTINCT
* подзапросы в FROM, WHERE
* агрегирующие функции 