# SQL-проект Исследование данных об инвестиции венчурных фондов в компании-стартапы

**Данные**   
В проекте работа идёт с базой данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы. Эта база данных основана на датасете Startup Investments, опубликованном на популярной платформе для соревнований по исследованию данных Kaggle.  

**Задача**   
Проанализировать данные о фондах и инвестициях, произвести выгрузки данных и ответить на поставленные вопросы с помощью SQL.

## Задания:

### Задание 1
Посчитайте, сколько компаний закрылось.

'''   
SELECT COUNT(name)   
FROM company   
WHERE status ='closed'    
;   
'''

### Задание 2
Отобразите количество привлечённых средств для новостных компаний США.  
Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total.

'''   
SELECT funding_total   
FROM company  
WHERE category_code ='news' AND country_code='USA'   
ORDER BY funding_total DESC;  
'''

### Задание 3
Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

'''   
SELECT SUM(price_amount)  
FROM acquisition  
WHERE term_code = 'cash'  
    AND EXTRACT(YEAR FROM CAST(acquired_at AS timestamp)) BETWEEN 2011 AND 2013;    
'''

### Задание 4
Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на 'Silver'.

'''   
SELECT first_name,  
       last_name,  
       twitter_username  
FROM people  
WHERE twitter_username LIKE 'Silver%';  
'''

### Задание 5
Вывести на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку 'money', а фамилия начинается на 'K'

'''   
SELECT *  
FROM people  
WHERE twitter_username LIKE '%money%'   
     AND last_name LIKE 'K%';  
'''

### Задание 6
Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

'''   
SELECT country_code,  
       SUM(funding_total)  
FROM company  
GROUP BY country_code  
ORDER BY SUM(funding_total) DESC;  
'''

### Задание 7
Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

'''  
SELECT CAST(funded_at AS date),  
       MIN(raised_amount),  
       MAX(raised_amount)  
FROM funding_round  
GROUP BY CAST(funded_at AS date)  
HAVING  MIN(raised_amount) != 0  
      AND MIN(raised_amount) != MAX(raised_amount);  
'''

### Задание 8

Создайте поле с категориями:   
- Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.   
- Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.  
- Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.  

Отобразите все поля таблицы fund и новое поле с категориями.

'''  
SELECT *,  
          CASE  
           WHEN invested_companies  >= 100 THEN 'high_activity'  
           WHEN invested_companies >= 20 AND invested_companies < 100 THEN 'middle_activity'  
           WHEN invested_companies <= 20 THEN 'low_activity'  
       END       
FROM fund;  
'''

### Задание 9
Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

'''  
SELECT CASE  
           WHEN invested_companies>=100 THEN 'high_activity'  
           WHEN invested_companies>=20 THEN 'middle_activity'  
           ELSE 'low_activity'  
       END AS activity,  
       ROUND(AVG(investment_rounds))  
FROM fund  
GROUP BY activity  
ORDER BY ROUND(AVG(investment_rounds));  
'''

### Задание 10
Выгрузите таблицу с десятью самыми активными инвестирующими странами. Активность страны определите по среднему количеству компаний, в которые инвестируют фонды этой страны.  
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды, основанные с 2010 по 2012 год включительно.  
Исключите из таблицы страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю.   Отсортируйте таблицу по среднему количеству компаний от большего к меньшему.  
Для фильтрации диапазона по годам используйте оператор BETWEEN.

'''  
SELECT country_code,  
       AVG(invested_companies),  
       MIN(invested_companies),  
       MAX(invested_companies)  
FROM fund  
WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) BETWEEN '2010' AND '2012'  
GROUP BY country_code  
HAVING MIN(invested_companies) != 0  
ORDER BY AVG(invested_companies) DESC  
LIMIT 10;  
'''

### Задание 11
Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

'''  
SELECT p.first_name,  
       p.last_name,  
       e.instituition  
FROM people AS p  
LEFT JOIN education AS e ON e.person_id=p.id;  
'''

### Задание 12
Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

'''  
SELECT  c.name,  
      COUNT(DISTINCT e.instituition)  
FROM company AS c        
JOIN people AS p ON c.id=p.company_id  
JOIN education AS e ON p.id=e.person_id  
GROUP BY c.name  
ORDER BY COUNT(DISTINCT e.instituition) DESC  
LIMIT 5;  
'''

### Задание 13
Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

'''  
SELECT DISTINCT name  
                     FROM company   
                     WHERE id IN (SELECT company_id  
                                  FROM funding_round  
                                  WHERE is_first_round = 1 AND is_last_round = 1)  
                     AND status = 'closed';  
'''

### Задание 14
Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

'''  
SELECT DISTINCT p.id               
FROM people AS p  
WHERE company_id IN (SELECT id  
                     FROM company   
                     WHERE id IN (SELECT company_id  
                                  FROM funding_round  
                                  WHERE is_first_round = 1 AND is_last_round = 1)   
                     AND status = 'closed');  
'''

### Задание 15
Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

'''  
SELECT DISTINCT p.id,  
                e.instituition  
FROM people AS p JOIN education AS e ON p.id = e.person_id  
WHERE company_id IN (SELECT id  
                     FROM company  
                     WHERE id IN (SELECT company_id  
                                  FROM funding_round  
                                  WHERE is_first_round = 1 AND is_last_round = 1)  
                     AND status = 'closed');  
'''

### Задание 16
Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания.

'''  
SELECT DISTINCT p.id,  
                COUNT(e.instituition)  
FROM people AS p JOIN education AS e ON p.id = e.person_id  
WHERE company_id IN (SELECT id  
                     FROM company   
                     WHERE id IN (SELECT company_id  
                                  FROM funding_round  
                                  WHERE is_first_round = 1 AND is_last_round = 1)  
                     AND status = 'closed')  
GROUP BY p.id;  
'''

### Задание 17
Дополните предыдущий запрос и выведите среднее число учебных заведений, которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

'''  
WITH  
res AS (SELECT p.id,   
      COUNT(e.instituition) AS total_instituition  
      FROM people AS p JOIN education AS e ON p.id = e.person_id  
      WHERE company_id IN (SELECT id  
                     FROM company   
                     WHERE id IN (SELECT company_id  
                                  FROM funding_round  
                                  WHERE is_first_round = 1 AND is_last_round = 1)  
                     AND status = 'closed')  
       GROUP BY p.id)  
  
SELECT AVG(res.total_instituition)  
FROM res;  
'''

### Задание 18

Напишите похожий запрос: выведите среднее число учебных заведений, которые окончили сотрудники компании Facebook.

'''  
WITH  
res AS (SELECT p.id,   
      COUNT(e.instituition) AS total_instituition  
      FROM people AS p JOIN education AS e ON p.id = e.person_id  
      WHERE company_id IN (SELECT id  
                     FROM company   
                     WHERE name = 'Facebook')  
       GROUP BY p.id)  
  
SELECT AVG(res.total_instituition)  
FROM res;  
'''

### Задание 19
Составьте таблицу из полей:  
- name_of_fund — название фонда;  
- name_of_company — название компании;  
- amount — сумма инвестиций, которую привлекла компания в раунде.  

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

'''  
WITH funding_round_filer AS  
(SELECT *  
FROM funding_round  
WHERE EXTRACT(YEAR FROM CAST(funded_at AS date)) IN (2012, 2013))  
  
SELECT  
f.name AS name_of_fund,  
c.name AS name_of_company,  
fr.raised_amount AS amount  
  
FROM investment AS i LEFT JOIN company AS c ON c.id = i.company_id  
LEFT JOIN fund AS f ON f.id=i.fund_id  
  
JOIN funding_round_filer AS fr ON fr.id = i.funding_round_id  
WHERE c.milestones > 6;  
'''

### Задание 20 
Выгрузите таблицу, в которой будут такие поля:  
- название компании-покупателя;  
- сумма сделки;  
- название компании, которую купили;  
- сумма инвестиций, вложенных в купленную компанию;  
- доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.  
Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в алфавитном порядке. Ограничьте таблицу первыми десятью записями.  

'''  
SELECT c.name,  
       a.price_amount,  
       c_1.name,  
	   c_1.funding_total,  
	   ROUND(a.price_amount/c_1.funding_total) AS percent  
FROM acquisition AS a  
LEFT JOIN company AS c ON a.acquiring_company_id = c.id  
LEFT JOIN company AS c_1 ON a.acquired_company_id = c_1.id  
WHERE a.price_amount>0   
 AND c_1.funding_total>0  
ORDER BY a.price_amount DESC  
LIMIT 10;  
'''

### Задание 21
Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год.   
Выведите также номер месяца, в котором проходил раунд финансирования.

'''  
SELECT c.name,  
       EXTRACT(MONTH FROM CAST(funded_at AS date))  
FROM company AS c  
LEFT OUTER JOIN funding_round AS f ON c.id = f.company_id  
WHERE EXTRACT(YEAR FROM CAST(funded_at AS date)) IN (2010, 2011, 2012, 2013)   
      AND c.category_code = 'social';  
'''

### Задание 21  
Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды.  
Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:  
- номер месяца, в котором проходили раунды;  
- количество уникальных названий фондов из США, которые инвестировали в этом месяце;  
- количество компаний, купленных за этот месяц;  
- общая сумма сделок по покупкам в этом месяце.

'''  
WITH   
month_fund AS  
     (SELECT EXTRACT(MONTH FROM CAST(funded_at AS date)) AS MONTH,  
             COUNT(DISTINCT f.name) AS count_of_fund               
      FROM funding_round AS fr  
   LEFT JOIN investment AS i ON i.funding_round_id = fr.id  
   LEFT JOIN fund AS f ON i.fund_id = f.id  
   WHERE EXTRACT(YEAR FROM CAST(funded_at AS date)) BETWEEN 2010 AND 2013  
   AND f.country_code='USA'  
   GROUP BY MONTH),  
        
month_acquired AS  
  (SELECT EXTRACT(MONTH FROM CAST(acquired_at  AS date)) AS MONTH,  
          COUNT(acquiring_company_id) AS count_month_acquired,  
          SUM(price_amount) AS sum_price_amount  
   FROM acquisition  
   WHERE EXTRACT(YEAR FROM CAST(acquired_at  AS date)) BETWEEN 2010 AND 2013  
   GROUP BY MONTH)  
    
SELECT month_fund.MONTH,  
       month_fund.count_of_fund,   
       month_acquired.count_month_acquired,  
       month_acquired.sum_price_amount  
FROM month_fund  
JOIN month_acquired ON month_fund.MONTH=month_acquired.MONTH;  
'''

### Задание 21
Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

'''   
WITH   
inv_2011 AS (SELECT country_code,  
				     AVG(funding_total) AS year_2011  
		     FROM company  
		     WHERE EXTRACT(YEAR FROM founded_at) = 2011  
			 GROUP BY country_code),  
inv_2012 AS (SELECT country_code,  
				    AVG(funding_total) AS year_2012  
			 FROM company  
			 WHERE EXTRACT(YEAR FROM founded_at) = 2012  
			 GROUP BY country_code),  
inv_2013 AS (SELECT country_code,   
				    AVG(funding_total) AS year_2013  
			 FROM company  
			 WHERE EXTRACT(YEAR FROM founded_at) = 2013  
			 GROUP BY country_code)	  
  
SELECT inv_2011.country_code,  
       inv_2011.year_2011,  
       inv_2012.year_2012,  
       inv_2013.year_2013  
FROM inv_2011  
JOIN inv_2012 ON inv_2011.country_code=inv_2012.country_code  
JOIN inv_2013 ON inv_2013.country_code=inv_2012.country_code  
ORDER BY year_2011 DESC;   
'''