<h1>Знакомство с базой данных</h1>

В самостоятельном проекте этого курса вы будете работать с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle.


Анализировать рынок инвестиций без подготовки может быть непросто. Поэтому сначала познакомьтесь с важными понятиями, которые вам встретятся в работе с базой данных.
Венчурные фонды — это финансовые организации, которые могут позволить себе высокий риск и инвестировать в компании с инновационной бизнес-идеей или разработанной новой технологией, то есть в стартапы. Цель венчурных фондов — в будущем получить значительную прибыль, которая в разы превысит размер их трат на инвестиции в компанию. Если стартап подорожает, венчурный фонд может получить долю в компании или фиксированный процент от её выручки.


Чтобы процесс финансирования стал менее рискованным, его делят на стадии — раунды. Тот или иной раунд зависит от того, какого уровня развития достигла компания.
Первые этапы — предпосевной и посевной раунды. Предпосевной раунд предполагает, что компания как таковая ещё не создана и находится в стадии замысла. Следующий — посевной — раунд знаменует рост проекта: создатели компании разрабатывают бизнес-модель и привлекают инвесторов.


Если компании требуется ментор или наставник — она привлекает бизнес-ангела. Бизнес-ангелы — инвесторы, которые помимо финансовой поддержки предлагают экспертную помощь. Такой раунд называют ангельским.
Когда стартап становится компанией с проверенной бизнес-моделью и начинает зарабатывать самостоятельно, предложений инвесторов становится больше. Это раунд A, а за ним следуют и другие: B, C, D — на этих этапах компания активно развивается и готовится к IPO.
Иногда выделяют венчурный раунд — финансирование, которое могло поступить от венчурного фонда на любом этапе: начальном или более позднем.
В данных об инвестициях вам встретятся упоминания раундов, но самостоятельный проект не предполагает, что вы должны разбираться в их специфике лучше любого инвестора. Главное — понимать, как устроены данные.
Вы уже знаете, что такое ER-диаграмма. Работу с новой базой данных лучше начать с изучения схемы.

Схема БД: <https://ibb.co/brWR5wm>

<strong>1.Посчитайте, сколько компаний закрылось.</strong>

SELECT COUNT(*)

FROM company

WHERE status = 'closed';

<strong>2.Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total .</strong>

SELECT funding_total


FROM company


WHERE country_code = 'USA'


AND category_code = 'news'


ORDER BY funding_total DESC;

<strong>3.
Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.</strong>

SELECT SUM(price_amount)


FROM acquisition


WHERE term_code = 'cash'


AND  EXTRACT(YEAR FROM CAST(acquired_at AS date)) BETWEEN 2011 AND 2013;

<strong>4.
Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на 'Silver'.</strong>

SELECT first_name, last_name, twitter_username

FROM people

WHERE twitter_username LIKE 'Silver%';

<strong>5.Выведите на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку 'money', а фамилия начинается на 'K'.</strong>

SELECT *

FROM people

WHERE twitter_username LIKE '%money%'

AND last_name LIKE 'K%';

<strong>6.Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.</strong>

SELECT country_code,

    SUM(funding_total)
    
FROM company

GROUP BY country_code

ORDER BY SUM(funding_total) DESC;

<strong>7.
Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.</strong>

SELECT funded_at, 

    MIN(raised_amount),
    
    MAX(raised_amount)
    
        
FROM funding_round

GROUP BY funded_at

HAVING  MIN(raised_amount) != 0 AND MIN(raised_amount) != MAX(raised_amount);

<strong>8.
Создайте поле с категориями:
Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.
Отобразите все поля таблицы fund и новое поле с категориями.</strong>

SELECT *,

CASE

    WHEN invested_companies >= 100 THEN 'high_activity'
    
    WHEN invested_companies >= 20 AND  invested_companies < 100 THEN 'middle_activity'
    
    WHEN invested_companies != 20  THEN 'low_activity'
    
END
    
FROM fund;

<strong>9.
Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.</strong>

SELECT 

       CASE
       
           WHEN invested_companies>=100 THEN 'high_activity'
           
           WHEN invested_companies>=20 THEN 'middle_activity'
           
           ELSE 'low_activity'
           
       END AS activity,
       
       	ROUND(AVG(investment_rounds)) as investment_rounds

FROM fund

GROUP BY activity

ORDER BY investment_rounds ASC;

<strong>10.
Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы.
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. Выгрузите десять самых активных стран-инвесторов.
Отсортируйте таблицу по среднему количеству компаний от большего к меньшему, а затем по коду страны в лексикографическом порядке.</strong>

SELECT country_code,

AVG(invested_companies),

MIN(invested_companies),

MAX(invested_companies)

FROM fund

WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) BETWEEN '2010' AND '2012'

GROUP BY country_code

HAVING MIN(invested_companies) != 0

ORDER BY AVG(invested_companies) DESC

LIMIT 10;

<strong>11.
Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.</strong>

SELECT p.first_name, p.last_name, e.instituition

FROM people AS p LEFT JOIN education AS e ON p.id = e.person_id;

<strong>12.
Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.</strong>

SELECT c.name,

COUNT(DISTINCT e.instituition)

FROM company AS c

JOIN people AS p ON c.id=p.company_id

JOIN education AS e ON p.id=e.person_id

GROUP BY c.name

ORDER BY COUNT(DISTINCT e.instituition) DESC

LIMIT 5;


<strong>13.
Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.
</strong>

SELECT DISTINCT name

FROM company

WHERE id IN (SELECT company_id

FROM funding_round

WHERE is_first_round = 1 AND is_last_round = 1)

AND status = 'closed';

<strong>14.
Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.</strong>

SELECT DISTINCT id

FROM people

WHERE company_id IN (SELECT id
                     
FROM company
                     
WHERE name IN (SELECT DISTINCT name
               
        FROM company
               
        WHERE id IN (SELECT company_id
                     
        FROM funding_round
                     
        WHERE is_first_round = 1 AND is_last_round = 1)
               
        AND status = 'closed'));

<strong>15.
Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.</strong>

SELECT DISTINCT p.id, e.instituition

FROM people AS p JOIN education AS e ON p.id = e.person_id

WHERE company_id IN (SELECT id

FROM company

WHERE id IN (SELECT company_id

FROM funding_round

WHERE is_first_round = 1 AND is_last_round = 1)

AND status = 'closed');

<strong>16.
Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.</strong>

SELECT DISTINCT p.id,

COUNT(e.instituition)

FROM people AS p JOIN education AS e ON p.id = e.person_id

WHERE company_id IN (SELECT id

FROM company

WHERE id IN (SELECT company_id

FROM funding_round

WHERE is_first_round = 1 AND is_last_round = 1)

AND status = 'closed')

GROUP BY p.id;

<strong>17.
Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.</strong>

SELECT AVG(study)

FROM

(SELECT  p.id,

COUNT(e.instituition) AS study

FROM people AS p JOIN education AS e ON p.id = e.person_id

WHERE company_id IN (SELECT id

FROM company

WHERE id IN (SELECT company_id

FROM funding_round

WHERE is_first_round = 1 AND is_last_round = 1)

AND status = 'closed')

GROUP BY p.id) as kek;

<strong>18.
Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Facebook*.
*(сервис, запрещённый на территории РФ)</strong>

SELECT AVG(study)

FROM

(SELECT person_id,

        COUNT(instituition) AS study
        
FROM education

WHERE person_id IN (SELECT id

            FROM people
            
            WHERE company_id IN (SELECT id
            
                    FROM company
                    
                    WHERE name = 'Facebook'))
                    
GROUP BY person_id) as lel;

<strong>19.
Составьте таблицу из полей:
name_of_fund — название фонда;
name_of_company — название компании;
amount — сумма инвестиций, которую привлекла компания в раунде.
В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.</strong>

SELECT f.name as name_of_fund,

        c.name as name_of_company,
        
        fr.raised_amount as amount
            
        
FROM fund as f

LEFT JOIN investment as i ON f.id = i.fund_id

LEFT JOIN funding_round as fr ON i.funding_round_id = fr.id

LEFT JOIN company as c ON fr.company_id = c.id

WHERE c.milestones > 6

AND EXTRACT(YEAR FROM CAST(fr.funded_at as date)) BETWEEN 2012 AND 2013;

<strong>20.
Выгрузите таблицу, в которой будут такие поля:
название компании-покупателя;
сумма сделки;
название компании, которую купили;
сумма инвестиций, вложенных в купленную компанию;
доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.
Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.
Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.</strong>

SELECT c.name,

a.price_amount,

c_1.name,

c_1.funding_total,

ROUND(a.price_amount/c_1.funding_total) AS percent

FROM acquisition AS a

LEFT JOIN company AS c ON a.acquiring_company_id = c.id

LEFT JOIN company AS c_1 ON a.acquired_company_id = c_1.id

WHERE a.price_amount>0

AND c_1.funding_total>0

ORDER BY a.price_amount DESC

LIMIT 10;

<strong>21.
Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.</strong>

SELECT c.name,

EXTRACT(MONTH FROM CAST(funded_at AS date))

FROM company AS c

LEFT OUTER JOIN funding_round AS f ON c.id = f.company_id

WHERE EXTRACT(YEAR FROM CAST(funded_at AS date)) IN (2010, 2011, 2012, 2013)

AND c.category_code = 'social'

AND raised_amount > 0 ;

<strong>22.
Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
номер месяца, в котором проходили раунды;
количество уникальных названий фондов из США, которые инвестировали в этом месяце;
количество компаний, купленных за этот месяц;
общая сумма сделок по покупкам в этом месяце.</strong>

WITH

month_fund AS

(SELECT EXTRACT(MONTH FROM CAST(funded_at AS date)) AS MONTH,

COUNT(DISTINCT f.name) AS count_of_fund

FROM funding_round AS fr

LEFT JOIN investment AS i ON i.funding_round_id = fr.id

LEFT JOIN fund AS f ON i.fund_id = f.id

WHERE EXTRACT(YEAR FROM CAST(funded_at AS date)) BETWEEN 2010 AND 2013

AND f.country_code='USA'

GROUP BY MONTH),

month_acquired AS

(SELECT EXTRACT(MONTH FROM CAST(acquired_at AS date)) AS MONTH,

COUNT(acquiring_company_id) AS count_month_acquired,

SUM(price_amount) AS sum_price_amount

FROM acquisition

WHERE EXTRACT(YEAR FROM CAST(acquired_at AS date)) BETWEEN 2010 AND 2013

GROUP BY MONTH)

SELECT month_fund.MONTH,

month_fund.count_of_fund,

month_acquired.count_month_acquired,

month_acquired.sum_price_amount

FROM month_fund

JOIN month_acquired ON month_fund.MONTH=month_acquired.MONTH;

<strong>23.
Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.</strong>

WITH

i_2011 AS (SELECT country_code,
           
AVG(funding_total) AS invest_2011
           
FROM company
           
WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) = 2011
           
GROUP BY country_code),

i_2012 AS (SELECT country_code,
           
AVG(funding_total) AS invest_2012
           
FROM company
           
WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) = 2012
           
GROUP BY country_code),


i_2013 AS (SELECT country_code,
           
AVG(funding_total) AS invest_2013
           
FROM company
           
WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) = 2013
           
GROUP BY country_code)



SELECT i1.country_code,

        i1.invest_2011,
    
        i2.invest_2012,
        
        i3.invest_2013
        
FROM i_2011 as i1

INNER JOIN i_2012 AS i2 ON i1.country_code = i2.country_code

INNER JOIN i_2013 AS i3 ON i2.country_code = i3.country_code

ORDER BY  i1.invest_2011 DESC;
