#   Исследование данных об инвестиции венчурных фондов в компании-стартапы

##  Исходные данные 

 Cамостоятельный проект основан на базе данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle. https://www.kaggle.com/datasets/justinas/startup-investments 

## Цель исследования 

Проанализировать данные о фондах и инвестициях, произвести выгрузки данных и ответить на поставленные вопросы с помощью SQL.

### Задания 

Задание 1 

Отобразите все записи из таблицы company по компаниям, которые закрылись.

In [None]:
'''
SELECT COUNT(name)
FROM company
WHERE status = 'closed';
'''

Задание 2

Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total.

In [None]:
'''
SELECT funding_total
FROM company
WHERE country_code = 'USA' and category_code = 'news'
ORDER BY funding_total DESC; 
'''

Задание 3 

Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [None]:
'''
SELECT 
       SUM(price_amount) AS sum_price
FROM acquisition
WHERE 
   term_code = 'cash' AND 
EXTRACT(YEAR FROM CAST(acquired_at AS date)) BETWEEN '2011' AND  '2013';
''' 

Задание 4 

Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на 'Silver'.

In [None]:
'''
SELECT first_name,
       last_name,
       twitter_username
FROM people 
WHERE twitter_username LIKE 'Silver%';
''' 

Задание 5 

Выведите на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку 'money', а фамилия начинается на 'K'.

In [None]:
'''
SELECT *
FROM people
WHERE twitter_username LIKE '%money%' AND
      last_name LIKE '%K%';
''' 

Задание 6 

Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

In [None]:
'''
SELECT SUM(funding_total) AS sum_fund,
       country_code
FROM company
GROUP BY country_code
ORDER BY SUM(funding_total) DESC; 
''' 

 Задание 7 

Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [None]:
'''
SELECT funded_at,
       MIN(raised_amount),
       MAX(raised_amount) 
FROM funding_round 
GROUP BY funded_at
HAVING MIN(raised_amount) != 0 AND  MIN(raised_amount) !=  MAX(raised_amount) ; 
'''

Задание 8 

Создайте поле с категориями:

    Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
    Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
    Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.

Отобразите все поля таблицы fund и новое поле с категориями.

In [None]:
''' 
SELECT *,
     CASE
         WHEN invested_companies >=100 THEN 'high_activity'
         WHEN invested_companies >=20 THEN 'middle_activity'
         ELSE 'low_activity'
      END
FROM fund; 
'''


Задание 9

Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [None]:
''' 
SELECT 
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity,
       ROUND(AVG(investment_rounds)) AS average_rounds
FROM fund
GROUP BY activity
ORDER BY average_rounds ASC;
'''

Задание 10 

Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. 
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. 
Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.

In [None]:
''' 
SELECT country_code, 
       MAX(invested_companies) AS max_invested_companies,
       MIN(invested_companies) AS min_invested_companies,
       AVG(invested_companies) AS avg_invested_companies
FROM fund
WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) BETWEEN '2010' AND '2012' 
GROUP BY country_code
HAVING MIN(invested_companies) > 0 
ORDER BY avg_invested_companies DESC, country_code ASC
LIMIT 10;
'''

Задание 11 

Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [None]:
'''
SELECT first_name,
       last_name, 
      e.instituition AS education_instituition
FROM people AS p 
LEFT OUTER JOIN education AS e ON e.person_id = p.id;
'''


Задание 12 

Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [None]:
''' 
SELECT  
    c.name AS company_name,
    COUNT(DISTINCT(e.instituition))AS count_instituition 
FROM people AS p 
JOIN education AS e ON p.id = e.person_id
JOIN company AS c ON c.id = p.company_id
GROUP BY c.name
ORDER BY count_instituition DESC
LIMIT 5 ; 
'''

Задание 13 

Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [None]:
'''
SELECT name
FROM company AS c
JOIN funding_round AS fr ON fr.company_id = c.id 
WHERE status = 'closed' 
AND is_first_round = 1 
AND is_last_round = 1 
GROUP BY name;
'''

Задание 14 

Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [None]:
'''
SELECT DISTINCT(p.id)
FROM people AS p 
WHERE p.company_id IN (SELECT c.id
                       FROM company AS c 
                       JOIN funding_round AS fr ON fr.company_id = c.id 
                       WHERE status = 'closed'
                       AND is_first_round = 1 
                       AND is_last_round = 1
                       GROUP BY c.id);
'''

Задание 15

Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [None]:
'''
SELECT  p.id,
        e.instituition
FROM  people AS p
LEFT OUTER JOIN education AS e ON p.id = e.person_id     
WHERE p.company_id IN (SELECT c.id
                       FROM company AS c 
                       JOIN funding_round AS fr ON fr.company_id = c.id 
                       WHERE status = 'closed'
                       AND is_first_round = 1 
                       AND is_last_round = 1
                       GROUP BY c.id)
GROUP BY p.id, e.instituition
HAVING e.instituition is NOT NULL;
'''

Задание 16 


Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.

In [None]:
'''
SELECT  p.id,
        COUNT(e.instituition) 
FROM  people AS p
LEFT OUTER JOIN education AS e ON p.id = e.person_id     
WHERE p.company_id IN (SELECT c.id
                       FROM company AS c 
                       JOIN funding_round AS fr ON fr.company_id = c.id 
                       WHERE status = 'closed'
                       AND is_first_round = 1 
                       AND is_last_round = 1
                       GROUP BY c.id)
GROUP BY p.id
HAVING COUNT(DISTINCT(e.instituition)) > 0; 
'''

Задание 17 

Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

In [None]:
'''
WITH 
i AS (SELECT p.id,
        COUNT(e.instituition) 
FROM  people AS p
LEFT OUTER JOIN education AS e ON p.id = e.person_id     
WHERE p.company_id IN (SELECT c.id
                       FROM company AS c 
                       JOIN funding_round AS fr ON fr.company_id = c.id 
                       WHERE status = 'closed'
                       AND is_first_round = 1 
                       AND is_last_round = 1
                       GROUP BY c.id)
GROUP BY p.id
HAVING COUNT(DISTINCT(e.instituition)) > 0)
SELECT AVG (COUNT)
FROM i;
'''

Задание 18 

Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Facebook*.
*(сервис, запрещённый на территории РФ)

In [None]:
'''
WITH 
i AS (SELECT p.id,
        COUNT(e.instituition) 
FROM  people AS p
LEFT OUTER JOIN education AS e ON p.id = e.person_id     
WHERE p.company_id IN (SELECT id
                       FROM company
                       WHERE name = 'Facebook')                     
GROUP BY p.id
HAVING COUNT(DISTINCT(e.instituition)) > 0)
SELECT AVG (COUNT)
FROM i; 
''' 

Задание 19 

Составьте таблицу из полей:

    name_of_fund — название фонда;
    name_of_company — название компании;
    amount — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [None]:
'''
SELECT f.name AS name_of_fund,
       c.name AS name_of_company,
       fr.raised_amount AS amount
FROM investment AS i
LEFT OUTER JOIN company AS c ON c.id = i.company_id 
LEFT OUTER JOIN fund AS f ON i.fund_id = f.id
INNER JOIN ( SELECT * 
             FROM funding_round
            WHERE funded_at  BETWEEN '2012-01-01' AND '2013-12-31')
AS fr ON fr.id = i.funding_round_id
WHERE c.milestones > 6; 
'''

Задание 20

Выгрузите таблицу, в которой будут такие поля:

    название компании-покупателя;
    сумма сделки;
    название компании, которую купили;
    сумма инвестиций, вложенных в купленную компанию;
    доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы. 
Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.

In [None]:
''' 
SELECT c.name AS acquiring_name,
       a.price_amount AS price,
       c2.name AS acquired_name,
       c2.funding_total,
       ROUND((a.price_amount / c2.funding_total))

FROM acquisition AS a
LEFT JOIN company AS c ON a.acquiring_company_id=c.id
LEFT JOIN company AS c2 ON a.acquired_company_id=c2.id
WHERE a.price_amount > 0 AND c2.funding_total >  0
ORDER BY  a.price_amount DESC, acquired_name
LIMIT 10;
'''

Задание 21

Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.

In [None]:
''' 
SELECT c.name,
       EXTRACT(MONTH FROM fr.funded_at)
FROM company AS c
LEFT OUTER JOIN funding_round AS fr ON c.id = fr.company_id
WHERE c.category_code = 'social'
AND EXTRACT(YEAR FROM fr.funded_at)  BETWEEN '2010' AND '2013'
AND fr.raised_amount > 0;
'''

Задание 22 

Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:

    номер месяца, в котором проходили раунды;
    количество уникальных названий фондов из США, которые инвестировали в этом месяце;
    количество компаний, купленных за этот месяц;
    общая сумма сделок по покупкам в этом месяце

In [None]:
'''
WITH month_fund AS
  (SELECT EXTRACT(MONTH
                  FROM fr.funded_at) AS MONTH,
          COUNT(DISTINCT f.name) AS count_of_fund
   FROM funding_round AS fr
   LEFT JOIN investment AS i ON i.funding_round_id = fr.id
   LEFT JOIN fund AS f ON i.fund_id = f.id
   WHERE EXTRACT(YEAR
                 FROM fr.funded_at) BETWEEN '2010' AND '2013'
     AND f.country_code = 'USA'
   GROUP BY MONTH),
     month_acquired AS
  (SELECT EXTRACT(MONTH
                  FROM acquired_at) AS MONTH,
          COUNT(acquired_company_id) AS count_of_acquired,
          SUM(price_amount) AS sum_of_acquired
   FROM acquisition
   WHERE EXTRACT(YEAR
                 FROM acquired_at) BETWEEN '2010' AND '2013'
   GROUP BY MONTH)
 
SELECT month_fund.month,
       month_fund.count_of_fund,
       month_acquired.count_of_acquired,
       month_acquired.sum_of_acquired
FROM month_fund
JOIN month_acquired ON month_fund.month = month_acquired.month; 
'''

Задание 23 

Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

In [None]:
''' WITH y_11 AS
        (SELECT country_code AS country,
         AVG(funding_total) AS y_2011
         FROM company
         WHERE EXTRACT(YEAR FROM founded_at) BETWEEN 2011 AND 2013
         GROUP BY country, EXTRACT(YEAR FROM founded_at)
         HAVING EXTRACT(YEAR FROM founded_at) = '2011'),
y_12 AS
(SELECT country_code AS country,
AVG(funding_total) AS y_2012
FROM company
WHERE EXTRACT(YEAR FROM founded_at) IN(2011, 2012, 2013)
GROUP BY country, EXTRACT(YEAR FROM founded_at)
HAVING EXTRACT(YEAR FROM founded_at) = '2012'),
y_13 AS
(SELECT country_code AS country,
AVG(funding_total) AS y_2013
FROM company
WHERE EXTRACT(YEAR FROM founded_at) IN(2011, 2012, 2013)
GROUP BY country, EXTRACT(YEAR FROM founded_at)
HAVING EXTRACT(YEAR FROM founded_at) = '2013')
SELECT y_11.country, y_2011, y_2012, y_2013
FROM y_11
JOIN y_12 ON y_11.country = y_12.country
JOIN y_13 ON y_12.country = y_13.country
ORDER BY y_2011 DESC; 
'''