# Анализ фондов и инвестиций

 ## Необходимо проанализировать данные о фондах и инвестициях и написать запросы к базе
 
 ### Описание данных
 ER-диаграмма:

![Image.png](attachment:Image.png)

`acquisition`  
Содержит информацию о покупках одних компаний другими.  
  
Таблица включает такие поля:  

- первичный ключ `id` — идентификатор или уникальный номер покупки;  
- внешний ключ `acquiring_company_id` — ссылается на таблицу `company` — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
- внешний ключ `acquired_company_id` — ссылается на таблицу `company` — идентификатор компании, которую покупают;
- `term_code` — способ оплаты сделки:
    - `cash` — наличными;
    - `stock` — акциями компании;
    - `cash_and_stock` — смешанный тип оплаты: наличные и акции.
- `price_amount` — сумма покупки в долларах;
- `acquired_at` — дата совершения сделки;
- `created_at` — дата и время создания записи в таблице;
- `updated_at` — дата и время обновления записи в таблице.  

`company`  
  
Содержит информацию о компаниях-стартапах.  

- первичный ключ `id` — идентификатор, или уникальный номер компании;
- `name` — название компании;
- `category_code` — категория деятельности компании, например:
    - `news` — специализируется на работе с новостями;
    - `social` — специализируется на социальной работе.
- `status` — статус компании:
    - `acquired` — приобретена;
    - `operating` — действует;
    - `ipo` — вышла на IPO;
    - `closed` — перестала существовать.
- `founded_at` — дата основания компании;
- `closed_at` — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
- `domain` — домен сайта компании;
- `twitter_username` — название профиля компании в твиттере;
- `country_code` — код страны, например, USA для США, GBR для Великобритании;
- `investment_rounds` — число раундов, в которых компания участвовала как инвестор;
- `funding_rounds` — число раундов, в которых компания привлекала инвестиции;
- `funding_total` — сумма привлечённых инвестиций в долларах;
- `milestones` — количество важных этапов в истории компании;
- `created_at` — дата и время создания записи в таблице;
- `updated_at` — дата и время обновления записи в таблице.  
  
`education`  
  
Хранит информацию об уровне образования сотрудников компаний.  

- первичный ключ `id` — уникальный номер записи с информацией об образовании;
- внешний ключ `person_id` — ссылается на таблицу `people` — идентификатор человека, информация о котором представлена в записи;
- `degree_type` — учебная степень, например:
    - `BA` — Bachelor of Arts — бакалавр гуманитарных наук;
    - `MS` — Master of Science — магистр естественных наук.
- `instituition` — учебное заведение, название университета;
- `graduated_at` — дата завершения обучения, выпуска;
- `created_at` — дата и время создания записи в таблице;
- `updated_at` — дата и время обновления записи в таблице.  
  
`fund`  
  
Хранит информацию о венчурных фондах.   
  
- первичный ключ `id` — уникальный номер венчурного фонда;
- `name` — название венчурного фонда;
- `founded_at` — дата основания фонда;
- `domain` — домен сайта фонда;
- `twitter_username` — профиль фонда в твиттере;
- `country_code` — код страны фонда;
- `investment_rounds` — число инвестиционных раундов, в которых фонд принимал участие;
- `invested_companies` — число компаний, в которые инвестировал фонд;
- `milestones` — количество важных этапов в истории фонда;
- `created_at` — дата и время создания записи в таблице;
- `updated_at` — дата и время обновления записи в таблице.  
  
`funding_round`  
  
Содержит информацию о раундах инвестиций.  
  
- первичный ключ `id` — уникальный номер инвестиционного раунда;
- внешний ключ `company_id` — ссылается на таблицу `company` — уникальный номер компании, участвовавшей в инвестиционном раунде;
- `funded_at` — дата проведения раунда;
- `funding_round_type` — тип инвестиционного раунда, например:
    - `venture` — венчурный раунд;
    - `angel` — ангельский раунд;
    - `series_a` — раунд А.
- `raised_amount` — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
- `pre_money_valuation` — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
- `participants` — количество участников инвестиционного раунда;
- `is_first_round` — является ли этот раунд первым для компании;
- `is_last_round` — является ли этот раунд последним для компании;
- `created_at` — дата и время создания записи в таблице;
- `updated_at` — дата и время обновления записи в таблице.  
  
`investment`  
  
Содержит информацию об инвестициях венчурных фондов в компании-стартапы.  
  
- первичный ключ `id` — уникальный номер инвестиции;
- внешний ключ `funding_round_id` — ссылается на таблицу `funding_round` — уникальный номер раунда инвестиции;
- внешний ключ `company_id` — ссылается на таблицу `company` — уникальный номер компании-стартапа, в которую инвестируют;
- внешний ключ `fund_id` — ссылается на таблицу `fund` — уникальный номер фонда, инвестирующего в компанию-стартап;
- `created_at` — дата и время создания записи в таблице;
- `updated_at` — дата и время обновления записи в таблице.  
  
`people`  
  
Содержит информацию о сотрудниках компаний-стартапов.  
  
- первичный ключ `id` — уникальный номер сотрудника;
- `first_name` — имя сотрудника;
- `last_name` — фамилия сотрудника;
- внешний ключ `company_id` — ссылается на таблицу `company` — уникальный номер компании-стартапа;
- `twitter_username` — профиль сотрудника в твиттере;
- `created_at` — дата и время создания записи в таблице;
- `updated_at` — дата и время обновления записи в таблице.

Установим библиотеку.

In [2]:
!pip install psycopg2-binary

Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.6-cp39-cp39-win_amd64.whl (1.2 MB)
     ---------------------------------------- 1.2/1.2 MB 2.3 MB/s eta 0:00:00
Installing collected packages: psycopg2-binary
Successfully installed psycopg2-binary-2.9.6


In [3]:
import os
import pandas as pd
import numpy as np

from sqlalchemy import create_engine

In [4]:
path_to_db_local = 'telecomm_csi.db'
path_to_db_platform = '/datasets/telecomm_csi.db'
path_to_db = None

if os.path.exists(path_to_db_local):
    path_to_db = path_to_db_local
elif os.path.exists(path_to_db_platform):
    path_to_db = path_to_db_platform
else:
    raise Exception('Файл с базой данных SQLite не найден!')

if path_to_db:
    engine = create_engine(f'sqlite:///{path_to_db}', echo=False)

1. Посчитаем, сколько компаний закрылось.

In [5]:
query = """
SELECT COUNT(name)
FROM company
WHere status = 'closed'
"""

2

In [7]:
query = """
SELECT  funding_total
FROM company
WHERE country_code in ('USA')
    AND category_code LIKE '%news%'

ORDER BY funding_total DESC/
"""

3

In [8]:
query = """
SELECT SUM(price_amount)
FROM acquisition
WHERE term_code IN ('cash')
    AND EXTRACT(YEAR FROM CAST(acquired_at AS date)) IN (2011,2012,2013)

"""

In [9]:
4

4

In [10]:
SELECT first_name, last_name, twitter_username
FROM people
WHERE twitter_username LIKE 'Silver%'
GROUP BY first_name, last_name, twitter_username

SyntaxError: invalid syntax (703375444.py, line 1)

In [11]:
5

5

In [12]:
SELECT *
FROM people
WHERE twitter_username LIKE '%money%'
    AND last_name LIKE 'K%'

SyntaxError: invalid syntax (112127360.py, line 1)

In [13]:
6

6

In [14]:
SELECT country_code, 
       SUM(funding_total)


FROM company

GROUP BY country_code
ORDER BY  SUM(funding_total) DESC

SyntaxError: invalid syntax (3976683181.py, line 1)

In [15]:
7

7

In [16]:
SELECT funded_at,
       MIN(raised_amount),
       MAX(raised_amount)
FROM funding_round
GROUP BY funded_at
HAVING MIN(raised_amount) <> 0
    AND MIN(raised_amount) <> MAX(raised_amount)

SyntaxError: invalid syntax (3602018806.py, line 1)

In [17]:
8

8

In [18]:
SELECT *,
      CASE
          WHEN invested_companies >= 100 THEN 'high_activity'
          WHEN invested_companies >= 20
           AND invested_companies < 100 THEN  'middle_activity'
          WHEN invested_companies < 20  THEN  'low_activity'  
      END
FROM fund

SyntaxError: invalid syntax (2816005608.py, line 1)

In [19]:
9

9

In [20]:
SELECT 
       CASE
           WHEN invested_companies>=100 THEN 'high_activity'
           WHEN invested_companies>=20 THEN 'middle_activity'
           ELSE 'low_activity'
       END AS activity,
       ROUND(AVG(investment_rounds))
FROM fund
GROUP BY activity
ORDER BY AVG(investment_rounds)

IndentationError: unexpected indent (1353791353.py, line 2)

In [21]:
10

10

In [23]:
SELECT country_code,
       MIN(invested_companies) as min_invest,
       MAX(invested_companies) as max_invest,
       AVG(invested_companies) as avg_invest 
       
    FROM fund
    WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) IN (2010, 2011, 2012)
    GROUP BY country_code
    Having min(invested_companies) >0
    ORDER BY avg_invest DESC, country_code
       LIMIT 10;

IndentationError: unindent does not match any outer indentation level (<tokenize>, line 6)

In [24]:
11

11

In [25]:
SELECT first_name, last_name, instituition 
FROM people as p
LEFT JOIN education AS e ON e.person_id = p.id

SyntaxError: invalid syntax (368378860.py, line 1)

In [26]:
12

12

In [27]:
SELECT name, COUNT(DISTINCT(instituition)) AS count_institut
FROM company AS c
JOIN people AS p ON C.Id = p.company_id
JOIN education AS e ON e.person_id = p.id
GROUP BY name
ORDER BY count_institut DESC, name
 LIMIT 5;

SyntaxError: invalid syntax (958638165.py, line 1)

In [28]:
13

13

In [29]:
Select name AS company
FROM company AS c

JOIN funding_round AS fr ON c.id = fr.company_id
WHERE is_first_round = 1
    AND is_last_round =1
    AND status = 'closed'
GROUP BY name

SyntaxError: invalid syntax (1839201957.py, line 1)

In [30]:
14

14

In [31]:
Select p.id AS staff
FROM company AS c

JOIN funding_round AS fr  ON c.id = fr.company_id
JOIN people AS p ON c.id = p.company_id
WHERE is_first_round = 1
    AND is_last_round =1
    AND status = 'closed'
GROUP BY staff

SyntaxError: invalid syntax (1423585210.py, line 1)

In [32]:
15

15

In [33]:
Select p.id AS staff,
    instituition AS inst
FROM company AS c

JOIN funding_round AS fr  ON c.id = fr.company_id
JOIN people AS p ON c.id = p.company_id
LEFT JOIN education AS e ON p.id = e.person_id
WHERE is_first_round = 1
    AND is_last_round =1
    AND status = 'closed'
    AND instituition IS NOT NULL
GROUP BY staff, inst 

SyntaxError: invalid syntax (3327954424.py, line 1)

In [34]:
16

16

In [35]:
select a.name,
count(a.inst)
from(SELECT  p.id as name,
e.instituition as inst
FROM people p
right join education e on p.id = e.person_id 
WHERE company_id in
    (SELECT DISTINCT company_id
     FROM company c
     LEFT JOIN funding_round fr ON c.id = fr.company_id
     WHERE status in ('closed')
       AND fr.is_first_round = 1
       AND fr.is_last_round = 1))a
GROUP BY a.name

SyntaxError: invalid syntax (4125809433.py, line 1)

In [36]:
17

17

In [37]:
SELECT AVG(b.count)
FROM(SELECT a.staff,
    COUNT(a.inst)
    FROM(SELECT  p.id AS staff,
         e.instituition as inst
         FROM people p
         RIGHT JOIN education e on p.id = e.person_id 
         WHERE company_id in
            (SELECT DISTINCT company_id
             FROM company c
             LEFT JOIN funding_round fr ON c.id = fr.company_id
             WHERE status in ('closed')
               AND fr.is_first_round = 1
               AND fr.is_last_round = 1)) AS a
     GROUP BY a.staff
    ) AS b

SyntaxError: invalid syntax (2927940623.py, line 1)

In [38]:
18

18

In [39]:
SELECT AVG(b.count)
FROM (SELECT a.staff,
             COUNT(a.inst)
      FROM(SELECT  p.id AS staff,
                   e.instituition AS inst
           FROM people p
           RIGHT JOIN education e on p.id = e.person_id 
           WHERE company_id in
                            (SELECT DISTINCT company_id
                             FROM company c
                             LEFT JOIN funding_round fr ON c.id = fr.company_id
                             WHERE c.name LIKE '%Facebook%')) AS a
           GROUP BY a.staff) AS b

SyntaxError: invalid syntax (3210979260.py, line 1)

In [40]:
19

19

In [41]:
WITH
a AS (Select company_id, 
             id, 
             raised_amount
        FROM funding_round AS fr
        WHERE EXTRACT(YEAR FROM CAST(funded_at AS date)) IN (2012, 2013))
 
SELECT  f.name AS name_of_fund,
       c.name AS name_of_company,
       a.raised_amount AS amount
FROM investment AS i  RIGHT  JOIN company AS c ON i.company_id = c.id
                      LEFT JOIN fund AS f ON i.fund_id = f.id
                      JOIN  a ON a.id = i.funding_round_id

WHERE c.milestones > 6;

SyntaxError: invalid syntax (3123867920.py, line 2)

In [42]:
20

20

In [43]:
WITH

bye AS (select id, 
               name AS company_byers
      from company AS c
      ---where status  not in ('acquired')
       ),
      
sell AS (select id,
                funding_total, 
                name AS company_acquir
      from company AS c
      ---where status in ('acquired')
        )

SELECT bye.company_byers,
        a.price_amount, --- сумма сделки
        sell.company_acquir, --- название компании, которую купили
        sell.funding_total, -- -сумма привлечённых инвестиций в долларах
        ROUND(a.price_amount / sell.funding_total ) as perc
from acquisition as a 
LEFT JOIN bye ON a.acquiring_company_id = bye.id
LEFT JOIN sell ON a.acquired_company_id = sell.id
where  a.price_amount >0 
    AND sell.funding_total >0
order by a.price_amount DESC, sell.company_acquir
LIMIT 10;

SyntaxError: invalid syntax (1304675284.py, line 3)

In [45]:
21

21

In [44]:
With

soc AS (select *
from  company as c
WHere category_code like 'social'
        ),
        
round AS (select *
from funding_round
where extract(YEAR FROM CAST(funded_at AS date)) IN (2010,2011,2012,2013)
    AND raised_amount >0
          )
select name as company,
    extract(MONTH FROM CAST(funded_at AS date))
from soc 
JOIN round ON round.company_id = soc.id

SyntaxError: invalid syntax (3043471190.py, line 3)

In [46]:
22

22

In [47]:
WITH 
fundings AS
               (SELECT EXTRACT(MONTH FROM CAST(fr.funded_at AS DATE)) AS funding_month,
                       COUNT(DISTINCT f.id) AS us_funds
                FROM fund AS f
                LEFT JOIN investment AS i ON f.id = i.fund_id
                LEFT JOIN funding_round AS fr ON i.funding_round_id = fr.id
                WHERE f.country_code = 'USA'
                AND EXTRACT(YEAR FROM CAST(fr.funded_at AS DATE)) BETWEEN 2010 AND 2013
                GROUP BY funding_month),
acquisitions AS

                (SELECT EXTRACT(MONTH FROM CAST(acquired_at AS DATE)) AS funding_month,
                        COUNT(acquired_company_id) AS bought_co,
                        SUM(price_amount) AS sum_total
                FROM acquisition
                WHERE EXTRACT(YEAR FROM CAST(acquired_at AS DATE)) BETWEEN 2010 AND 2013
                GROUP BY funding_month)
                
SELECT fnd.funding_month, fnd.us_funds, acq.bought_co, acq.sum_total
FROM fundings AS fnd
LEFT JOIN acquisitions AS acq ON fnd.funding_month = acq.funding_month;

SyntaxError: invalid syntax (734301503.py, line 2)

In [48]:
23

23

In [49]:
WITH
inv_2011 AS (SELECT
             EXTRACT(YEAR FROM CAST(founded_at AS date)),
             country_code as country, 
             AVG(funding_total) as avg_total_2011
             FROM company 
             WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) = 2011
             GROUP BY country,EXTRACT(YEAR FROM CAST(founded_at AS date))
                 ),
inv_2012 AS (SELECT
             EXTRACT(YEAR FROM CAST(founded_at AS date)),
             country_code as country, 
             AVG(funding_total) as avg_total_2012
             FROM company 
             WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) = 2012
             GROUP BY country,EXTRACT(YEAR FROM CAST(founded_at AS date))
                 ),
inv_2013 AS (SELECT
             EXTRACT(YEAR FROM CAST(founded_at AS date)),
             country_code as country, 
             AVG(funding_total) as avg_total_2013
             FROM company 
             WHERE EXTRACT(YEAR FROM CAST(founded_at AS date)) = 2013
             GROUP BY country,EXTRACT(YEAR FROM CAST(founded_at AS date))
                 )
      
SELECT inv_2011.country,
       inv_2011.avg_total_2011,
       inv_2012.avg_total_2012,
       inv_2013.avg_total_2013
FROM inv_2011
INNER JOIN inv_2012 ON inv_2011.country = inv_2012.country
INNER JOIN inv_2013 ON inv_2012.country = inv_2013.country
Order by inv_2011.avg_total_2011 DESC

SyntaxError: invalid syntax (851174362.py, line 2)