# Исследование данных об инвестициях венчурных фондов в компании-стартапы

**Описание проекта**<br>
23 задачи с автоматической проверкой в тренажере Практикума.<br>
Пользуемся базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы Startup Investments:<br>
https://www.kaggle.com/justinas/startup-investments

**Цель проекта**<br>
Анализ данных о фондах и инвестициях: сделаем выгрузки данных и ответим на ряд вопросов с помощью языка SQL.

**Вопросы:**

1 - Посчитайте, сколько компаний закрылось.

In [None]:
'''
SELECT COUNT(status)
FROM company
WHERE status = 'closed'
'''

2 - Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. <br>
Отсортируйте таблицу по убыванию значений в поле funding_total.

In [None]:
'''
SELECT funding_total
FROM company
WHERE category_code = 'news'
  AND country_code='USA'
ORDER BY funding_total DESC
'''

3 - Найдите общую сумму сделок по покупке одних компаний другими в долларах. <br>Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [None]:
'''
SELECT SUM(price_amount)
FROM acquisition
WHERE EXTRACT (YEAR
               FROM CAST(acquired_at AS date)) IN (2011,
                                                   2012,
                                                   2013)
  AND term_code = 'cash'
'''

4 - Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на 'Silver'.

In [None]:
'''
SELECT first_name,
       last_name,
       twitter_username
FROM people
WHERE twitter_username LIKE 'Silver%'
'''

5 - Выведите на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку 'money', а фамилия начинается на 'K'.

In [None]:
'''
SELECT *
FROM people
WHERE twitter_username LIKE '%money%'
  AND last_name LIKE 'K%'
'''

6 - Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. <br>
Страну, в которой зарегистрирована компания, можно определить по коду страны. <br>
Отсортируйте данные по убыванию суммы.

In [None]:
'''
SELECT country_code,
       SUM(funding_total) AS total_investments
FROM company
GROUP BY country_code
ORDER BY total_investments DESC
'''

7 - Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.<br>
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [None]:
'''
SELECT funded_at,
       MIN(raised_amount) AS min_inv,
       MAX(raised_amount) AS max_inv
FROM funding_round
GROUP BY funded_at
HAVING MIN(raised_amount) <> 0
AND MIN(raised_amount) <> MAX(raised_amount)
'''

8 - Создайте поле с категориями:
 - Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
 - Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
 - Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.
 
Отобразите все поля таблицы fund и новое поле с категориями.

In [None]:
'''
SELECT *,
       CASE
           WHEN invested_companies >= 100 THEN 'high_activity'
           WHEN invested_companies >= 20
                AND invested_companies < 100 THEN 'middle_activity'
           WHEN invested_companies < 20 THEN 'low_activity'
       END
FROM fund
'''

9 - Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие.<br>
Выведите на экран категории и среднее число инвестиционных раундов.<br>
Отсортируйте таблицу по возрастанию среднего.

In [None]:
'''
SELECT CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity,
       ROUND(AVG(investment_rounds))
FROM fund
GROUP BY activity
ORDER BY round
'''

10 - Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы.<br>
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно.<br>
Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. Выгрузите десять самых активных стран-инвесторов.<br>
Отсортируйте таблицу по среднему количеству компаний от большего к меньшему, а затем по коду страны в лексикографическом порядке.

In [None]:
'''
SELECT country_code,
       MIN(invested_companies),
       MAX(invested_companies),
       AVG(invested_companies) AS avg_funding
FROM fund
WHERE EXTRACT(YEAR
              FROM founded_at) BETWEEN 2010 AND 2012
GROUP BY country_code
HAVING MIN(invested_companies) != 0
ORDER BY avg_funding DESC
LIMIT 10
'''

11 - Отобразите имя и фамилию всех сотрудников стартапов.<br>
Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [None]:
'''
SELECT p.first_name,
       p.last_name,
       e.instituition
FROM people AS p
LEFT JOIN education AS e ON p.id = e.person_id
'''

12 - Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. <br>
Выведите название компании и число уникальных названий учебных заведений. <br>
Составьте топ-5 компаний по количеству университетов.

In [None]:
'''
SELECT c.name,
       COUNT(DISTINCT e.instituition)
FROM company AS c
INNER JOIN people AS p ON c.id = p.company_id
INNER JOIN education AS e ON p.id = e.person_id
GROUP BY c.name
ORDER BY COUNT(e.instituition) DESC
LIMIT 5
'''

13 - Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [None]:
'''
SELECT DISTINCT name
FROM company
WHERE status = 'closed'
  AND id IN
    (SELECT company_id
     FROM funding_round
     WHERE is_first_round = 1
       AND is_last_round = 1)
'''

14 - Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [None]:
'''
SELECT id
FROM people AS p
WHERE company_id IN
    (SELECT id
     FROM company
     WHERE status = 'closed'
       AND id IN
         (SELECT company_id
          FROM funding_round
          WHERE is_first_round = 1
            AND is_last_round = 1))
'''

15 - Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [None]:
'''
SELECT DISTINCT p.id,
                e.instituition
FROM people AS p
INNER JOIN education AS e ON p.id = e.person_id
WHERE company_id IN
    (SELECT c.id
     FROM company AS c
     WHERE status = 'closed'
       AND id IN
         (SELECT fr.company_id
          FROM funding_round AS fr
          WHERE is_first_round = 1
            AND is_last_round = 1))
'''

16 - Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. <br>
При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

In [None]:
'''
SELECT DISTINCT p.id,
                COUNT (e.instituition)
FROM people AS p
INNER JOIN education AS e ON p.id = e.person_id
WHERE company_id IN
    (SELECT c.id
     FROM company AS c
     WHERE status = 'closed'
       AND id IN
         (SELECT fr.company_id
          FROM funding_round AS fr
          WHERE is_first_round = 1
            AND is_last_round = 1))
GROUP BY p.id
'''

17 - Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. <br>
Нужно вывести только одну запись, группировка здесь не понадобится.

In [None]:
'''
WITH count_institute AS
  (SELECT p.id,
          COUNT(e.instituition)
   FROM people AS p
   INNER JOIN education AS e ON p.id=e.person_id
   WHERE p.company_id IN
       (SELECT id
        FROM company
        WHERE status='closed'
          AND id IN
            (SELECT company_id
             FROM funding_round
             WHERE is_first_round=1
               AND is_last_round=1 ) )
   GROUP BY p.id)
SELECT AVG(COUNT)
FROM
  (SELECT COUNT
   FROM count_institute) AS avg_count
'''

18 - Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Facebook*.<br>
*(сервис, запрещённый на территории РФ)

In [None]:
'''
WITH count_institute AS
  (SELECT p.id,
          COUNT(e.instituition)
   FROM people AS p
   INNER JOIN education AS e ON p.id=e.person_id
   WHERE p.company_id IN
       (SELECT id
        FROM company
        WHERE name = 'Facebook' )
   GROUP BY p.id)
SELECT AVG(COUNT)
FROM
  (SELECT COUNT
   FROM count_institute) AS avg_count
'''

19 - Составьте таблицу из полей:
 - name_of_fund — название фонда;
 - name_of_company — название компании;
 - amount — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [None]:
'''
SELECT f.name AS name_of_fund,
       c.name AS name_of_company,
       fr.raised_amount AS amount
FROM investment AS i
LEFT JOIN company AS c ON i.company_id=c.id
LEFT JOIN fund AS f ON f.id=i.fund_id
LEFT JOIN funding_round AS fr ON i.funding_round_id = fr.id
WHERE c.milestones > 6
  AND EXTRACT(YEAR
              FROM CAST(funded_at AS date)) BETWEEN 2012 AND 2013
'''

20 - Выгрузите таблицу, в которой будут такие поля:
 - название компании-покупателя;
 - сумма сделки;
 - название компании, которую купили;
 - сумма инвестиций, вложенных в купленную компанию;
 - доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы. <br>
Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

In [None]:
'''
SELECT cmp.name AS name_acquiring_company,
       acq.price_amount,
       com.name AS name_acquired_company,
       com.funding_total,
       ROUND(acq.price_amount/com.funding_total) AS perc
FROM acquisition AS acq
LEFT OUTER JOIN company AS CMP ON acq.acquiring_company_id=cmp.id
LEFT OUTER JOIN company AS com ON acq.acquired_company_id=com.id
WHERE acq.price_amount > 0
  AND com.funding_total > 0
ORDER BY acq.price_amount DESC
LIMIT 10
'''

21 - Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно.<br>
Проверьте, что сумма инвестиций не равна нулю. <br>
Выведите также номер месяца, в котором проходил раунд финансирования.

In [None]:
'''
SELECT c.name,
       EXTRACT(MONTH
               FROM CAST(fr.funded_at AS date))
FROM company AS c
LEFT OUTER JOIN funding_round AS fr ON fr.company_id =c.id
WHERE c.category_code = 'social'
  AND fr.raised_amount <> 0
  AND EXTRACT(YEAR
              FROM CAST(fr.funded_at AS date)) IN (2010,
                                                   2011,
                                                   2012,
                                                   2013)
'''

22 - Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. <br>
Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
 - номер месяца, в котором проходили раунды;
 - количество уникальных названий фондов из США, которые инвестировали в этом месяце;
 - количество компаний, купленных за этот месяц;
 - общая сумма сделок по покупкам в этом месяце.

In [None]:
'''
WITH fund_count AS
  (SELECT EXTRACT(MONTH
                  FROM CAST(fr.funded_at AS date)) AS month_number,
          COUNT(DISTINCT f.name) AS fund_count_USA
   FROM funding_round AS fr
   LEFT OUTER JOIN investment AS i ON fr.id=i.funding_round_id
   LEFT OUTER JOIN fund AS f ON i.fund_id=f.id
   WHERE f.country_code='USA'
     AND EXTRACT(YEAR
                 FROM CAST(fr.funded_at AS date)) BETWEEN 2010 AND 2013
   GROUP BY EXTRACT(MONTH
                    FROM CAST(fr.funded_at AS date))),
     comp_count AS
  (SELECT EXTRACT(MONTH
                  FROM CAST(acquired_at AS date)) AS month_number,
          COUNT(id) AS company_count,
          SUM(price_amount) AS total_amount
   FROM acquisition
   WHERE EXTRACT(YEAR
                 FROM CAST(acquired_at AS date)) BETWEEN 2010 AND 2013
   GROUP BY EXTRACT(MONTH
                    FROM CAST(acquired_at AS date)))
SELECT fund_count.month_number,
       fund_count_USA,
       company_count,
       total_amount
FROM fund_count
LEFT JOIN comp_count ON fund_count.month_number=comp_count.month_number
'''

23 - Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. <br>
Данные за каждый год должны быть в отдельном поле.<br>
Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

In [None]:
'''
WITH y_2011 AS
  (SELECT country_code,
          AVG(funding_total) AS year_2011
   FROM company
   WHERE EXTRACT(YEAR
                 FROM CAST(founded_at AS date)) = 2011
   GROUP BY country_code),
     y_2012 AS
  (SELECT country_code,
          AVG(funding_total) AS year_2012
   FROM company
   WHERE EXTRACT(YEAR
                 FROM CAST(founded_at AS date)) = 2012
   GROUP BY country_code),
     y_2013 AS
  (SELECT country_code,
          AVG(funding_total) AS year_2013
   FROM company
   WHERE EXTRACT(YEAR
                 FROM CAST(founded_at AS date)) = 2013
   GROUP BY country_code)
SELECT y_2011.country_code,
       year_2011,
       year_2012,
       year_2013
FROM y_2011
INNER JOIN y_2012 ON y_2011.country_code = y_2012.country_code
INNER JOIN y_2013 ON y_2011.country_code = y_2013.country_code
ORDER BY year_2011 DESC
'''