# Исследование данных об инвестиции венчурных фондов в компании-стартапы

## Цель проекта

Выполнить анализ данных о фондах и инвестициях и написать запросы к базе данных.

## Описание базы данных

![Схема БД](https://pictures.s3.yandex.net/resources/1_Baza_dannykh_1673427255.png "Схема БД")

**Таблица acquisition**

Содержит информацию о покупках одних компаний другими.

Таблица включает такие поля:

- первичный ключ id — идентификатор или уникальный номер покупки;
- внешний ключ acquiring_company_id — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
- внешний ключ acquired_company_id — ссылается на таблицу company — идентификатор компании, которую покупают;
- term_code — способ оплаты сделки:
    - cash — наличными;
    - stock — акциями компании;
    - cash_and_stock — смешанный тип оплаты: наличные и акции.
- price_amount — сумма покупки в долларах;
- acquired_at — дата совершения сделки;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.


**Таблица company**

Содержит информацию о компаниях-стартапах.
- первичный ключ id — идентификатор, или уникальный номер компании;
- name — название компании;
- category_code — категория деятельности компании, например:
- news — специализируется на работе с новостями;
- social — специализируется на социальной работе.
- status — статус компании:
    - acquired — приобретена;
    - operating — действует;
    - ipo — вышла на IPO;
- closed — перестала существовать.
- founded_at — дата основания компании;
- closed_at — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
- domain — домен сайта компании;
- twitter_username — название профиля компании в твиттере;
- country_code — код страны, например, USA для США, GBR для Великобритании;
- investment_rounds — число раундов, в которых компания участвовала как инвестор;
- funding_rounds — число раундов, в которых компания привлекала инвестиции;
- funding_total — сумма привлечённых инвестиций в долларах;
- milestones — количество важных этапов в истории компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**Таблица education**

Хранит информацию об уровне образования сотрудников компаний.

- первичный ключ id — уникальный номер записи с информацией об образовании;
- внешний ключ person_id — ссылается на таблицу people — идентификатор человека, информация о котором представлена в записи;
- degree_type — учебная степень, например:
    - BA — Bachelor of Arts — бакалавр гуманитарных наук;
    - MS — Master of Science — магистр естественных наук.
- instituition — учебное заведение, название университета;
- graduated_at — дата завершения обучения, выпуска;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**Таблица fund**

Хранит информацию о венчурных фондах. 

- первичный ключ id — уникальный номер венчурного фонда;
- name — название венчурного фонда;
- founded_at — дата основания фонда;
- domain — домен сайта фонда;
- twitter_username — профиль фонда в твиттере;
- country_code — код страны фонда;
- investment_rounds — число инвестиционных раундов, в которых фонд принимал участие;
- invested_companies — число компаний, в которые инвестировал фонд;
- milestones — количество важных этапов в истории фонда;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.


**Таблица funding_round**

Содержит информацию о раундах инвестиций. 
- первичный ключ id — уникальный номер инвестиционного раунда;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании, участвовавшей в инвестиционном раунде;
- funded_at — дата проведения раунда;
- funding_round_type — тип инвестиционного раунда, например:
    - venture — венчурный раунд;
    - angel — ангельский раунд;
    - series_a — раунд А.
- raised_amount — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
- pre_money_valuation — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
- participants — количество участников инвестиционного раунда;
- is_first_round — является ли этот раунд первым для компании;
- is_last_round — является ли этот раунд последним для компании;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**Таблица investment**

Содержит информацию об инвестициях венчурных фондов в компании-стартапы.

- первичный ключ id — уникальный номер инвестиции;
- внешний ключ funding_round_id — ссылается на таблицу funding_round — уникальный номер раунда инвестиции;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа, в которую инвестируют;
- внешний ключ fund_id — ссылается на таблицу fund — уникальный номер фонда, инвестирующего в компанию-стартап;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

**Таблица people**

Содержит информацию о сотрудниках компаний-стартапов.
- первичный ключ id — уникальный номер сотрудника;
- first_name — имя сотрудника;
- last_name — фамилия сотрудника;
- внешний ключ company_id — ссылается на таблицу company — уникальный номер компании-стартапа;
- twitter_username — профиль сотрудника в твиттере;
- created_at — дата и время создания записи в таблице;
- updated_at — дата и время обновления записи в таблице.

## Подключение библиотек

In [1]:
# импортируем библиотеки
import pandas as pd

from sqlalchemy import create_engine

In [None]:
db_config = {
    'user': 'praktikum_student', # имя пользователя
    'pwd': '*****', # пароль
    'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
    'port': 6432, # порт подключения
    'db': '*****' # название базы данных
}  
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db'],
) 
engine = create_engine(connection_string) 

## Запросы к БД

**Задание 1. Посчитайте, сколько компаний закрылось.**

In [None]:
query = '''
SELECT COUNT(id)
FROM company
WHERE status = 'closed'
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 2. Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total**

In [None]:
query = '''
SELECT SUM(funding_total)
FROM company
WHERE country_code = 'USA' AND category_code = 'news'
GROUP BY name
ORDER BY SUM(funding_total) DESC
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 3. Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно**

In [None]:
query = '''
SELECT SUM(price_amount)
FROM acquisition
WHERE term_code = 'cash' 
AND (EXTRACT(YEAR FROM CAST(acquired_at AS date)) >= '2011' AND EXTRACT(YEAR FROM CAST(acquired_at AS date)) <= '2013')
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 4. Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на 'Silver'.**

In [None]:
query = '''
SELECT first_name,
       last_name,
       twitter_username
FROM people
WHERE twitter_username LIKE 'Silver%'
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 5. Выведите на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку 'money', а фамилия начинается на 'K'.**

In [None]:
query = '''
SELECT *
FROM people
WHERE twitter_username LIKE '%money%' AND last_name LIKE 'K%'
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 6. Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.**

In [None]:
query = '''
SELECT country_code,
       SUM(funding_total)
FROM company
GROUP BY country_code
ORDER BY SUM(funding_total) DESC
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 7. Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.**

In [None]:
query = '''
SELECT funded_at,
       MIN(raised_amount),
       MAX(raised_amount)
FROM funding_round
GROUP BY funded_at
HAVING MIN(raised_amount) <> 0 
AND MIN(raised_amount) <> MAX(raised_amount)
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 8. Создайте поле с категориями:
Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.
Отобразите все поля таблицы fund и новое поле с категориями.**

In [None]:
query = '''
SELECT *,
       CASE
          WHEN invested_companies >= 100 THEN 'high_activity'
          WHEN invested_companies >= 20 AND invested_companies < 100 THEN 'middle_activity'
          WHEN invested_companies < 20 THEN 'low_activity'
       END
FROM fund
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 9. Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.**

In [None]:
query = '''
SELECT 
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity,
       ROUND(AVG(investment_rounds)) AS avg_invest
FROM fund
GROUP BY activity
ORDER BY avg_invest
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 10. Проанализируйте, в каких странах находятся фонды, которые чаще всего инвестируют в стартапы. 
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды этой страны, основанные с 2010 по 2012 год включительно. Исключите страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. 
Выгрузите десять самых активных стран-инвесторов: отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Затем добавьте сортировку по коду страны в лексикографическом порядке.**

In [None]:
query = '''
SELECT country_code,
       MIN(invested_companies),
       MAX(invested_companies),
       AVG(invested_companies) AS avg_comp
FROM fund
WHERE CAST(founded_at AS date) BETWEEN '01-01-2010' AND '31-12-2012'
GROUP BY country_code
HAVING MIN(invested_companies) <> 0
ORDER BY avg_comp DESC, country_code ASC
LIMIT 10
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 11. Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.**

In [None]:
query = '''
SELECT p.first_name,
       p.last_name,
       e.instituition
FROM people AS p
LEFT JOIN education AS e ON p.id=e.person_id
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 12. 
Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.**

In [None]:
query = '''
SELECT c.name,
       COUNT(DISTINCT e.instituition) AS count_inst
FROM company AS c
INNER JOIN people AS p ON c.id=p.company_id
INNER JOIN education AS e ON p.id=e.person_id
GROUP BY c.name
ORDER BY count_inst DESC
LIMIT 5
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 13.
Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.**

In [None]:
query = '''
SELECT DISTINCT c.name
FROM company AS c
LEFT JOIN funding_round AS f ON c.id=f.company_id
WHERE is_first_round=1 AND is_last_round=1 AND c.status='closed'
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 14.
Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.**

In [None]:
query = '''
SELECT DISTINCT p.id
FROM people AS p
INNER JOIN company AS c ON p.company_id=c.id
WHERE c.name IN (SELECT DISTINCT c.name
                  FROM company AS c
                  LEFT JOIN funding_round AS f ON c.id=f.company_id
                  WHERE is_first_round=1 AND is_last_round=1 AND c.status='closed')
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 15.
Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.**

In [None]:
query = '''
SELECT DISTINCT p.id,
       e.instituition
FROM people AS p
INNER JOIN education AS e ON p.id=e.person_id
WHERE p.id IN (SELECT DISTINCT p.id
    FROM people AS p
    INNER JOIN company AS c ON p.company_id=c.id
    WHERE c.name IN (SELECT DISTINCT c.name
                      FROM company AS c
                      LEFT JOIN funding_round AS f ON c.id=f.company_id
                      WHERE is_first_round=1 AND is_last_round=1 AND c.status='closed'))
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 16.
Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания. При подсчёте учитывайте, что некоторые сотрудники могли окончить одно и то же заведение дважды.**

In [None]:
query = '''
SELECT DISTINCT p.id,
       COUNT(e.instituition)
FROM people AS p
INNER JOIN education AS e ON p.id=e.person_id
WHERE p.id IN (SELECT DISTINCT p.id
    FROM people AS p
    INNER JOIN company AS c ON p.company_id=c.id
    WHERE c.name IN (SELECT DISTINCT c.name
                      FROM company AS c
                      LEFT JOIN funding_round AS f ON c.id=f.company_id
                      WHERE is_first_round=1 AND is_last_round=1 AND c.status='closed'))
GROUP BY p.id
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 17.
Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.**

In [None]:
query = '''
 SELECT AVG(temp_view.count_inst)   
 FROM (SELECT DISTINCT p.id,
              COUNT(e.instituition) AS count_inst
        FROM people AS p
        INNER JOIN education AS e ON p.id=e.person_id
        WHERE p.id IN (SELECT DISTINCT p.id
            FROM people AS p
            INNER JOIN company AS c ON p.company_id=c.id
            WHERE c.name IN (SELECT DISTINCT c.name
                              FROM company AS c
                              LEFT JOIN funding_round AS f ON c.id=f.company_id
                              WHERE is_first_round=1 AND is_last_round=1 AND c.status='closed'))
        GROUP BY p.id) AS temp_view
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 18.
Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Facebook*.
*(сервис, запрещённый на территории РФ)**

In [None]:
query = '''
 SELECT AVG(temp_view.count_inst)   
 FROM (SELECT DISTINCT p.id,
              COUNT(e.instituition) AS count_inst
        FROM people AS p
        INNER JOIN education AS e ON p.id=e.person_id
        INNER JOIN company AS c ON p.company_id=c.id
        WHERE p.id IN (SELECT DISTINCT p.id
            FROM people AS p
            INNER JOIN company AS c ON p.company_id=c.id
            WHERE c.name='Facebook')
        GROUP BY p.id) AS temp_view
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 19.
Составьте таблицу из полей:**
- name_of_fund — название фонда;
- name_of_company — название компании;
- amount — сумма инвестиций, которую привлекла компания в раунде.
В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.**

In [None]:
query = '''
-- milestones — количество важных этапов в истории фонда
SELECT f.name AS name_of_fund,
       c.name AS name_of_company,
       fr.raised_amount AS funding_round
FROM investment AS i
INNER JOIN company AS c ON i.company_id=c.id
INNER JOIN fund AS f ON i.fund_id=f.id
INNER JOIN funding_round AS fr ON i.funding_round_id=fr.id
WHERE c.milestones > 6
AND (fr.funded_at BETWEEN '01-01-2012' AND '31-12-2013')
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 20.
Выгрузите таблицу, в которой будут такие поля:**
- название компании-покупателя;
- сумма сделки;
- название компании, которую купили;
- сумма инвестиций, вложенных в купленную компанию;

**доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.**
 
**Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.**

**Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в лексикографическом порядке. Ограничьте таблицу первыми десятью записями.**

In [None]:
query = '''
WITH
name_v1 AS (SELECT c.name AS name_acquiring,
             a.id AS id,
             a.price_amount AS price
             FROM acquisition AS a
             INNER JOIN company AS c ON a.acquiring_company_id=c.id),
name_v2 AS (SELECT c.name AS name_acquired,
             a.id AS id,
             c.funding_total AS funding_total
             FROM acquisition AS a
             INNER JOIN company AS c ON a.acquired_company_id=c.id)
SELECT name_v1.name_acquiring, name_v1.price, name_v2.name_acquired, name_v2.funding_total,
       ROUND(name_v1.price / name_v2.funding_total) AS ratio
FROM name_v1
INNER JOIN name_v2 ON name_v1.id=name_v2.id
WHERE name_v1.price > 0 AND name_v2.funding_total > 0
ORDER BY name_v1.price DESC, name_v2.name_acquired
LIMIT 10
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 21.
Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Проверьте, что сумма инвестиций не равна нулю. Выведите также номер месяца, в котором проходил раунд финансирования.**

In [None]:
query = '''
SELECT c.name,
       EXTRACT(MONTH FROM CAST(fr.funded_at AS date))
FROM company AS c
INNER JOIN funding_round AS fr ON c.id=fr.company_id
WHERE c.category_code='social'
AND fr.raised_amount <> 0
AND EXTRACT(YEAR FROM CAST(fr.funded_at AS date)) BETWEEN 2010 AND 2013
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 22.
Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и 
получите таблицу, в которой будут поля:**
- номер месяца, в котором проходили раунды;
- количество уникальных названий фондов из США, которые инвестировали в этом месяце;
- количество компаний, купленных за этот месяц;
- общая сумма сделок по покупкам в этом месяце.

In [None]:
query = '''
WITH
    t_funding AS (SELECT EXTRACT(MONTH FROM CAST(fr.funded_at AS date)) AS month_round,
                       COUNT(DISTINCT f.name) AS count_f_n
                FROM funding_round AS fr
                INNER JOIN investment AS i ON fr.id=i.funding_round_id
                INNER JOIN fund AS f ON i.fund_id=f.id
                WHERE EXTRACT(YEAR FROM CAST(fr.funded_at AS date)) BETWEEN 2010 AND 2013
                AND f.country_code='USA'
                GROUP BY month_round
    ),
    t_acq AS (SELECT EXTRACT(MONTH FROM CAST(a.acquired_at AS date)) AS month_acq,
                     COUNT(a.acquired_company_id) AS count_acq_com,
                     SUM(a.price_amount) AS sum_amount
             FROM acquisition AS a
             WHERE EXTRACT(YEAR FROM CAST(a.acquired_at AS date)) BETWEEN 2010 AND 2013
             GROUP BY month_acq)

SELECT t_funding.month_round,
       t_funding.count_f_n,
       t_acq.count_acq_com,
       t_acq.sum_amount
FROM t_funding
INNER JOIN t_acq ON t_funding.month_round=t_acq.month_acq
'''

df = pd.read_sql_query(query, con = engine) 
df

**Задание 23.
Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.**

In [None]:
query = '''
WITH
        t_2011 AS (SELECT c.country_code AS country,
                      AVG(c.funding_total) AS avg_f      
               FROM company AS c
               WHERE EXTRACT(YEAR FROM CAST(c.founded_at AS date)) = '2011'
               GROUP BY country),
        t_2012 AS (SELECT c.country_code AS country,
                      AVG(c.funding_total) AS avg_f      
               FROM company AS c
               WHERE EXTRACT(YEAR FROM CAST(c.founded_at AS date)) = '2012'
               GROUP BY country),
        t_2013 AS (SELECT c.country_code AS country,
                      AVG(c.funding_total) AS avg_f      
               FROM company AS c
               WHERE EXTRACT(YEAR FROM CAST(c.founded_at AS date)) = '2013'
               GROUP BY country)
SELECT t_2011.country AS country,
       t_2011.avg_f,
       t_2012.avg_f,
       t_2013.avg_f
FROM t_2011
INNER JOIN t_2012 ON t_2011.country=t_2012.country
INNER JOIN t_2013 ON t_2011.country=t_2013.country
ORDER BY t_2011.avg_f DESC
'''

df = pd.read_sql_query(query, con = engine) 
df