# Название проекта: Анализ баз данных Startup Investments

В этом проекте будем работать с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle. 

Основные понятия, которые встретятся в работе с базой данных. 

Венчурные фонды — это финансовые организации, которые могут позволить себе высокий риск и инвестировать в компании с инновационной бизнес-идеей или разработанной новой технологией, то есть в стартапы. Цель венчурных фондов — в будущем получить значительную прибыль, которая в разы превысит размер их трат на инвестиции в компанию. Если стартап подорожает, венчурный фонд может получить долю в компании или фиксированный процент от её выручки. 

Чтобы процесс финансирования стал менее рискованным, его делят на стадии — раунды. Тот или иной раунд зависит от того, какого уровня развития достигла компания. 

Первые этапы — предпосевной и посевной раунды. Предпосевной раунд предполагает, что компания как таковая ещё не создана и находится в стадии замысла. Следующий — посевной — раунд знаменует рост проекта: создатели компании разрабатывают бизнес-модель и привлекают инвесторов. 

Если компании требуется ментор или наставник — она привлекает бизнес-ангела. Бизнес-ангелы — инвесторы, которые помимо финансовой поддержки предлагают экспертную помощь. Такой раунд называют ангельским. 
Когда стартап становится компанией с проверенной бизнес-моделью и начинает зарабатывать самостоятельно, предложений инвесторов становится больше. Это раунд A, а за ним следуют и другие: B, C, D — на этих этапах компания активно развивается и готовится к IPO. 

Иногда выделяют венчурный раунд — финансирование, которое могло поступить от венчурного фонда на любом этапе: начальном или более позднем. 

**Исходные данные**

Таблица **acquisition** содержит информацию о покупках одних компаний другими, включает такие поля:
- первичный ключ id — идентификатор или уникальный номер покупки;
- внешний ключ acquiring_company_id — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
- внешний ключ acquired_company_id — ссылается на таблицу company — идентификатор компании, которую покупают;
- term_code — способ оплаты сделки:
    - cash — наличными;
    - stock — акциями компании;
    - cash_and_stock — смешанный тип оплаты: наличные и акции.
- price_amount — сумма покупки в долларах;
- acquired_at — дата совершения сделки;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

Таблица **company** содержит информацию о компаниях-стартапах, включает такие поля:
- первичный ключ id — идентификатор, или уникальный номер компании;
- name — название компании;
- category_code — категория деятельности компании, например:
    - news — специализируется на работе с новостями;
    - social — специализируется на социальной работе.
- status — статус компании:
    - acquired — приобретена;
    - operating — действует;
    - ipo — вышла на IPO;
    - closed — перестала существовать.
- founded_at — дата основания компании;
- closed_at — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
- domain — домен сайта компании;
- network_username — профиль фонда в корпоративной сети биржи;
- country_code — код страны, например, USA для США, GBR для Великобритании;
- investment_rounds — число раундов, в которых компания участвовала как инвестор;
- funding_rounds — число раундов, в которых компания привлекала инвестиции;
- funding_total — сумма привлечённых инвестиций в долларах;
- milestones — количество важных этапов в истории компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

Таблица **education** хранит информацию об уровне образования сотрудников компаний.
- первичный ключ id — уникальный номер записи с информацией об образовании;
- внешний ключ person_id — ссылается на таблицу people — идентификатор человека, информация о котором представлена в записи;
- degree_type — учебная степень, например:
    - BA — Bachelor of Arts — бакалавр гуманитарных наук;
    - MS — Master of Science — магистр естественных наук.
- instituition — учебное заведение, название университета;
- graduated_at — дата завершения обучения, выпуска;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

Таблица **fund** хранит информацию о венчурных фондах. 
- первичный ключ id — уникальный номер венчурного фонда;
- name — название венчурного фонда;
- founded_at — дата основания фонда;
- domain — домен сайта фонда;
- network_username — профиль фонда в корпоративной сети биржи;
- country_code — код страны фонда;
- investment_rounds — число инвестиционных раундов, в которых фонд принимал участие;
- invested_companies — число компаний, в которые инвестировал фонд;
- milestones — количество важных этапов в истории фонда;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

Таблица **funding_round** содержит информацию о раундах инвестиций. 
- первичный ключ id — уникальный номер инвестиционного раунда;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;
- funded_at — дата проведения раунда;
- funding_round_type — тип инвестиционного раунда, например:
    - venture — венчурный раунд;
    - angel — ангельский раунд;
    - series_a — раунд А.
- raised_amount — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
- pre_money_valuation — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
- participants — количество участников инвестиционного раунда;
- is_first_round — является ли этот раунд первым для компании;
- is_last_round — является ли этот раунд последним для компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

Таблица **investment** содержит информацию об инвестициях венчурных фондов в компании-стартапы.
- первичный ключ id — уникальный номер инвестиции;
- внешний ключ funding_round_id — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;
- внешний ключ fund_id — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

Таблица **people** содержит информацию о сотрудниках компаний-стартапов.
- первичный ключ id — уникальный номер сотрудника;
- first_name — имя сотрудника;
- last_name — фамилия сотрудника;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа;
- network_username — профиль фонда в корпоративной сети биржи;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

                                                    **ER-диаграмма базы**
![image.png](attachment:image.png)

Проект выполняется в SQL-тренажёре Яндекс-Практикума. Нужно проанализировать данные о фондах и инвестициях и написать запросы к базе, для закрепления пройденного материала. 

База данных видна только в тренажере, подключиться из стороннего источника не получится. Ниже приведем задания и запросы, использованные в проекте.

## Отобразите все записи из таблицы company по компаниям, которые закрылись.

In [1]:
query = f'''
SELECT *
FROM company
WHERE status = 'closed'
'''

## Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total.

In [2]:
query = f'''
SELECT funding_total
FROM company
WHERE category_code = 'news'
  AND country_code = 'USA'
ORDER BY funding_total DESC
'''

## Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [26]:
query = f'''
SELECT SUM(price_amount)
FROM acquisition
WHERE term_code = 'cash'
  AND EXTRACT(YEAR FROM acquired_at) BETWEEN 2011 AND 2013
'''

## Отобразите имя, фамилию и названия аккаунтов людей в поле network_username, у которых названия аккаунтов начинаются на 'Silver'.

In [27]:
query = f'''
SELECT first_name,
       last_name,
       network_username
FROM people
WHERE network_username LIKE 'Silver%'
'''

## Выведите на экран всю информацию о людях, у которых названия аккаунтов в поле network_username содержат подстроку 'money', а фамилия начинается на 'K'.

In [28]:
query = f'''
SELECT *
FROM people
WHERE network_username LIKE '%money%'
  AND last_name LIKE 'K%'
'''

## Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

In [29]:
query = f'''
SELECT country_code,
       SUM(funding_total)
FROM company
GROUP BY country_code
ORDER BY SUM(funding_total) DESC
'''

## Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату. Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [30]:
query = f'''
SELECT funded_at,
       MIN(raised_amount),
       MAX(raised_amount)
FROM funding_round
GROUP BY funded_at
HAVING MIN(raised_amount) != 0
   AND MIN(raised_amount) != MAX(raised_amount
'''

## Создайте поле с категориями:
- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
- Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
- Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.

Отобразите все поля таблицы fund и новое поле с категориями.

In [31]:
query = f'''
SELECT *,
       CASE
       WHEN invested_companies >= 100 THEN 'high_activity'
       WHEN invested_companies < 100 AND  invested_companies >= 20 THEN 'middle_activity'
       WHEN invested_companies < 20 THEN 'low_activity'
       END
FROM fund
'''

## Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [32]:
query = f'''
SELECT 
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity,
       ROUND(AVG(investment_rounds))
FROM fund
GROUP BY activity
ORDER BY ROUND(AVG(investment_rounds))
'''

## Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.

In [11]:
query = f'''
SELECT country_code,
       MIN(invested_companies),
       MAX(invested_companies),
       AVG(invested_companies)
FROM fund
WHERE EXTRACT(YEAR FROM founded_at) BETWEEN 2010 AND 2012
GROUP BY country_code
HAVING MIN(invested_companies) != 0
ORDER BY AVG(invested_companies) DESC,
         country_code
LIMIT 10
'''

## Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [33]:
query = f'''
SELECT first_name,
       last_name,
       instituition
FROM people
LEFT OUTER JOIN education ON people.id=education.person_id
'''

## Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [34]:
query = f'''
SELECT name,
       COUNT(DISTINCT(instituition))
FROM company
INNER JOIN people ON company.id=people.company_id
INNER JOIN education ON people.id=education.person_id
GROUP BY name
ORDER BY COUNT(DISTINCT(instituition)) DESC
LIMIT 5
'''

## Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [35]:
query = f'''
SELECT DISTINCT(name)
FROM company
WHERE status = 'closed'
  AND id IN (
      SELECT company_id
      FROM funding_round
      WHERE is_last_round = 1
        AND is_first_round = 1
  )
'''

## Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [36]:
query = f'''
SELECT DISTINCT(id)
FROM people
WHERE company_id IN (
    SELECT DISTINCT(id)
    FROM company
    WHERE status = 'closed'
      AND id IN (
          SELECT company_id
          FROM funding_round
          WHERE is_last_round = 1
            AND is_first_round = 1))
'''

## Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [37]:
query = f'''
SELECT DISTINCT person_id,
       instituition
FROM education
WHERE person_id IN (
    SELECT DISTINCT(id)
    FROM people
    WHERE company_id IN (
        SELECT DISTINCT(id)
        FROM company
        WHERE status = 'closed'
          AND id IN (
                SELECT company_id
                FROM funding_round
                WHERE is_last_round = 1
                  AND is_first_round = 1))
)
'''

## Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

In [38]:
query = f'''
SELECT person_id,
       COUNT(instituition)
FROM education
WHERE person_id IN (
    SELECT DISTINCT(id)
    FROM people
    WHERE company_id IN (
        SELECT DISTINCT(id)
        FROM company
        WHERE status = 'closed'
          AND id IN (
                SELECT company_id
                FROM funding_round
                WHERE is_last_round = 1
                  AND is_first_round = 1)))
GROUP BY person_id
'''

## Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

In [39]:
query = f'''
WITH
avg_instituition AS(
SELECT person_id,
       COUNT(instituition)
FROM education
WHERE person_id IN (
    SELECT DISTINCT(id)
    FROM people
    WHERE company_id IN (
        SELECT DISTINCT(id)
        FROM company
        WHERE status = 'closed'
          AND id IN (
                SELECT company_id
                FROM funding_round
                WHERE is_last_round = 1
                  AND is_first_round = 1)))
GROUP BY person_id
)
SELECT AVG(count)
FROM avg_instituition
'''

## Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Socialnet.

In [40]:
query = f'''
WITH 
socialnet AS (
SELECT id
FROM company
WHERE name = 'Socialnet'
),
count_instituition AS (
SELECT COUNT(instituition) AS count_instituition
FROM people
INNER JOIN socialnet ON people.company_id = socialnet.id
INNER JOIN education ON people.id=education.person_id
GROUP BY people.id
)
SELECT AVG(count_instituition)
FROM count_instituition
'''

## Составьте таблицу из полей:
- name_of_fund — название фонда;
- name_of_company — название компании;
- amount — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [42]:
query = f'''
SELECT fund.name AS name_of_fund,
       company.name AS name_of_company,
       funding_round.raised_amount AS amount
FROM investment
INNER JOIN company ON company.id=investment.company_id
INNER JOIN fund ON fund.id=investment.fund_id
INNER JOIN funding_round ON funding_round.id=investment.funding_round_id
WHERE company.milestones > 6
  AND EXTRACT(YEAR FROM funding_round.funded_at) BETWEEN 2012 AND 2013
'''

## Выгрузите таблицу, в которой будут такие поля:
- название компании-покупателя;
- сумма сделки;
- название компании, которую купили;
- сумма инвестиций, вложенных в купленную компанию;
- доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы. 

Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

In [43]:
query = f'''
SELECT c.name,
       ac.price_amount,
       com.name,
       com.funding_total,
       ROUND(ac.price_amount / com.funding_total)
FROM acquisition AS ac
INNER JOIN company AS c ON ac.acquiring_company_id=c.id
INNER JOIN company AS com ON ac.acquired_company_id=com.id
WHERE com.funding_total > 0
  AND ac.price_amount > 0
ORDER BY ac.price_amount DESC,
         com.name
LIMIT 10
'''

## Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.

In [44]:
query = f'''
SELECT name,
       EXTRACT(MONTH FROM funded_at)
FROM company
INNER JOIN funding_round ON company.id=funding_round.company_id
WHERE category_code = 'social'
  AND raised_amount != 0
  AND EXTRACT(YEAR FROM funded_at) BETWEEN 2010 AND 2013
'''

## Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
- номер месяца, в котором проходили раунды;
- количество уникальных названий фондов из США, которые инвестировали в этом месяце;
- количество компаний, купленных за этот месяц;
- общая сумма сделок по покупкам в этом месяце.

In [45]:
query = f'''
WITH
months_fund AS (
SELECT EXTRACT(MONTH FROM funded_at) AS months,
       COUNT(DISTINCT(fund.name)) AS count_fund
FROM funding_round
INNER JOIN investment ON investment.funding_round_id=funding_round.id
INNER JOIN fund ON fund.id=investment.fund_id
WHERE EXTRACT(YEAR FROM funded_at) BETWEEN 2010 AND 2013
  AND country_code = 'USA'
GROUP BY months
),
months_company AS (
SELECT EXTRACT(MONTH FROM acquired_at) AS months,
       COUNT(acquired_company_id) AS count_company,
       SUM(price_amount) AS sum_amount
FROM acquisition
WHERE EXTRACT(YEAR FROM acquired_at) BETWEEN 2010 AND 2013
GROUP BY months
)
SELECT months_fund.months,
       count_fund,
       count_company,
       sum_amount
FROM months_fund
INNER JOIN months_company ON months_fund.months=months_company.months
'''

## Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

In [24]:
query = f'''
WITH
year_2011 AS (
SELECT country_code AS contry,
       AVG(funding_total) AS year_2011
FROM company
WHERE EXTRACT(YEAR FROM founded_at) = 2011
GROUP BY contry
),
year_2012 AS (
SELECT country_code AS contry,
       AVG(funding_total) AS year_2012
FROM company
WHERE EXTRACT(YEAR FROM founded_at) = 2012
GROUP BY contry
),
year_2013 AS (
SELECT country_code AS contry,
       AVG(funding_total) AS year_2013
FROM company
WHERE EXTRACT(YEAR FROM founded_at) = 2013
GROUP BY contry
)
SELECT year_2011.contry,
       year_2011,
       year_2012,
       year_2013
FROM year_2011
INNER JOIN year_2012 ON year_2011.contry=year_2012.contry
INNER JOIN year_2013 ON year_2011.contry=year_2013.contry
ORDER BY year_2011 DESC
'''

# ВЫВОД

В этом курсе освоили базовые инструменты языка SQL. Теперь можно писать запросы и получать данные из баз.