# Проект Анализ данных о фондах и инвестициях (SQL)

На осове данных из базы данных, которая хранит информацию о венчурных фондах и инвестициях в компании-стартапы (основана на датасете Startup Investments, опубликованном на Kaggle) необходимо проанализировать данные о фондах и инвестициях и написать запросы к базе.

## ER-диаграмма

![image.png](attachment:5b0fed89-5d2d-41c1-b938-cd30d214b9a9.png)

## Обзор данных

In [1]:
import sqlite3
import pandas as pd

from sqlalchemy import create_engine

In [2]:
# создадим курсор для подключение к postgresql
con = create_engine('postgresql+psycopg2://ymwbgcqd:NdqD_ylBLBaW5cK8BQw3O3Hg8YdZ2aCl@abul.db.elephantsql.com/ymwbgcqd')

In [3]:
import csv
from io import StringIO
from sqlalchemy import create_engine

def psql_insert_copy(table, conn, keys, data_iter):
    # gets a DBAPI connection that can provide a cursor
    dbapi_conn = conn.connection
    with dbapi_conn.cursor() as cur:
        s_buf = StringIO()
        writer = csv.writer(s_buf)
        writer.writerows(data_iter)
        s_buf.seek(0)

        columns = ', '.join('"{}"'.format(k) for k in keys)
        if table.schema:
            table_name = '{}.{}'.format(table.schema, table.name)
        else:
            table_name = table.name

        sql = 'COPY {} ({}) FROM STDIN WITH CSV'.format(
            table_name, columns)
        cur.copy_expert(sql=sql, file=s_buf)

In [4]:
# напишем функцию для обработки sql запросов
def select(sql):
    return pd.read_sql(sql, con)

### acquisition

In [5]:
# чтение файла `acquisition.csv` и сохранение в переменной `acquisition`
acquisition = pd.read_csv('acquisition.csv', sep=';')

In [6]:
# просмотр первых 5 строк таблицы `acquisition`
acquisition.head()

Unnamed: 0,id,acquiring_company_id,acquired_company_id,term_code,price_amount,acquired_at,created_at,updated_at
0,3485,51271,51272,,993000000,07.05.2010,08.07.2010 12:43,08.07.2010 12:43
1,10239,219391,276941,,993000000,04.11.2013,05.11.2013 03:56,05.11.2013 03:56
2,3551,31279,31278,,993000000,15.07.2010,17.07.2010 01:31,17.07.2010 01:31
3,72,823,822,cash,993000000,01.07.2007,03.09.2007 16:36,25.02.2008 00:23
4,4492,8750,15598,cash,993000000,06.12.2010,07.12.2010 05:12,07.12.2010 05:12


In [7]:
# получение общей информации о таблице `acquisition`
acquisition.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1600 entries, 0 to 1599
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   id                    1600 non-null   int64 
 1   acquiring_company_id  1600 non-null   int64 
 2   acquired_company_id   1600 non-null   int64 
 3   term_code             313 non-null    object
 4   price_amount          1600 non-null   int64 
 5   acquired_at           1596 non-null   object
 6   created_at            1600 non-null   object
 7   updated_at            1600 non-null   object
dtypes: int64(4), object(4)
memory usage: 100.1+ KB


В таблице 8 столбцов. Типы данных в столбцах: object и int64.

Согласно документации к данным:
* первичный ключ `id` — идентификатор или уникальный номер покупки;
* внешний ключ `acquiring_company_id` — ссылается на таблицу company — идентификатор компании-покупателя, то есть той, что покупает другую компанию;
* внешний ключ `acquired_company_id` — ссылается на таблицу company — идентификатор компании, которую покупают;
* `term_code` — способ оплаты сделки:
* `cash` — наличными;
* `stock` — акциями компании;
* `cash_and_stock` — смешанный тип оплаты: наличные и акции.
* `price_amount` — сумма покупки в долларах;
* `acquired_at` — дата совершения сделки;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

В столбцах `acquired_at`, `created_at` и `updated_at` содержатся даты, приведём их в соответствующий тип данных.

In [9]:
# переведём тип данных в столбцах с датами в `datetime64`
acquisition['acquired_at'] = pd.to_datetime(acquisition['acquired_at'])
acquisition['created_at'] = pd.to_datetime(acquisition['created_at'])
acquisition['updated_at'] = pd.to_datetime(acquisition['updated_at'])
acquisition.sample(3)

Unnamed: 0,id,acquiring_company_id,acquired_company_id,term_code,price_amount,acquired_at,created_at,updated_at
403,99,489,1288,cash,30000000,2007-01-08,2007-10-11 13:16:00,2008-02-25 00:23:00
1084,4612,3698,5347,,0,2010-07-09,2010-12-12 08:12:00,2010-12-17 22:58:00
799,2498,8091,34009,,0,2009-10-13,2009-10-15 05:00:00,2009-10-15 05:00:00


In [10]:
# проверим, что тип данных поменялся
acquisition.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1600 entries, 0 to 1599
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id                    1600 non-null   int64         
 1   acquiring_company_id  1600 non-null   int64         
 2   acquired_company_id   1600 non-null   int64         
 3   term_code             313 non-null    object        
 4   price_amount          1600 non-null   int64         
 5   acquired_at           1596 non-null   datetime64[ns]
 6   created_at            1600 non-null   datetime64[ns]
 7   updated_at            1600 non-null   datetime64[ns]
dtypes: datetime64[ns](3), int64(4), object(1)
memory usage: 100.1+ KB


In [11]:
# зальём таблицу в базу данных postgresql
acquisition.to_sql('acquisition', con, index=False, if_exists='replace', method=psql_insert_copy)

In [12]:
# проверим, что таблица загрузилась, выведем первые 5 строк таблицы
sql = '''SELECT *
FROM acquisition
LIMIT 5'''

In [13]:
select(sql)

Unnamed: 0,id,acquiring_company_id,acquired_company_id,term_code,price_amount,acquired_at,created_at,updated_at
0,3485,51271,51272,,993000000,2010-07-05,2010-08-07 12:43:00,2010-08-07 12:43:00
1,10239,219391,276941,,993000000,2013-04-11,2013-05-11 03:56:00,2013-05-11 03:56:00
2,3551,31279,31278,,993000000,2010-07-15,2010-07-17 01:31:00,2010-07-17 01:31:00
3,72,823,822,cash,993000000,2007-01-07,2007-03-09 16:36:00,2008-02-25 00:23:00
4,4492,8750,15598,cash,993000000,2010-06-12,2010-07-12 05:12:00,2010-07-12 05:12:00


### company

In [14]:
# чтение файла `company.csv` и сохранение в переменной `company`
company = pd.read_csv('company.csv', sep=';')

In [15]:
# просмотр первых 5 строк таблицы `company`
company.head()

Unnamed: 0,id,name,category_code,status,founded_at,closed_at,domain,twitter_username,country_code,investment_rounds,funding_rounds,funding_total,milestones,created_at,updated_at
0,1,Wetpaint,web,operating,17.10.2005,,wetpaint-inc.com,BachelrWetpaint,USA,0,3,350000000,5,25.05.2007 06:51,13.04.2013 03:29
1,4,Digg,news,acquired,11.10.2004,,digg.com,digg,USA,0,4,450000000,8,25.05.2007 20:03,13.03.2013 03:09
2,10,Flektor,games_video,acquired,01.01.1901,,flektor.com,,USA,0,0,0,0,31.05.2007 21:11,23.05.2008 23:23
3,12,Twitter,social,ipo,21.03.2006,,twitter.com,twitter,USA,0,8,150000000,6,01.06.2007 08:42,27.08.2013 14:41
4,15,Scribd,news,operating,01.01.2007,,scribd.com,scribd,USA,0,5,250000000,4,02.06.2007 07:34,09.12.2013 20:27


In [16]:
# получение общей информации о таблице `company`
company.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2013 entries, 0 to 2012
Data columns (total 15 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   id                 2013 non-null   int64 
 1   name               2013 non-null   object
 2   category_code      1574 non-null   object
 3   status             2013 non-null   object
 4   founded_at         2013 non-null   object
 5   closed_at          420 non-null    object
 6   domain             1576 non-null   object
 7   twitter_username   936 non-null    object
 8   country_code       1324 non-null   object
 9   investment_rounds  2013 non-null   int64 
 10  funding_rounds     2013 non-null   int64 
 11  funding_total      2013 non-null   int64 
 12  milestones         2013 non-null   int64 
 13  created_at         2013 non-null   object
 14  updated_at         2013 non-null   object
dtypes: int64(5), object(10)
memory usage: 236.0+ KB


В таблице 15 столбцов. Типы данных в столбцах: object и int64.

Согласно документации к данным:
* первичный ключ `id` — идентификатор, или уникальный номер компании;
* `name` — название компании;
* `category_code` — категория деятельности компании, например:
    * `news` — специализируется на работе с новостями;
    * `social` — специализируется на социальной работе.
* `status` — статус компании:
    * `acquired` — приобретена;
    * `operating` — действует;
    * `ipo` — вышла на IPO;
    * `closed` — перестала существовать.
* `founded_at` — дата основания компании;
* `closed_at` — дата закрытия компании, которую указывают в том случае, если компании больше не существует;
* `domain` — домен сайта компании;
* `twitter_username` — название профиля компании в твиттере;
* `country_code` — код страны, например, USA для США, GBR для Великобритании;
* `investment_rounds` — число раундов, в которых компания участвовала как инвестор;
* `funding_rounds` — число раундов, в которых компания привлекала инвестиции;
* `funding_total` — сумма привлечённых инвестиций в долларах;
* `milestones` — количество важных этапов в истории компании;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.


В столбцах `founded_at`, `created_at` и `updated_at` содержатся даты, приведём их в соответствующий тип данных.

In [17]:
# переведём тип данных в столбцах с датами в `datetime64`
company['founded_at'] = pd.to_datetime(company['founded_at'])
company['created_at'] = pd.to_datetime(company['created_at'])
company['updated_at'] = pd.to_datetime(company['updated_at'])
company.head(3)

Unnamed: 0,id,name,category_code,status,founded_at,closed_at,domain,twitter_username,country_code,investment_rounds,funding_rounds,funding_total,milestones,created_at,updated_at
0,1,Wetpaint,web,operating,2005-10-17,,wetpaint-inc.com,BachelrWetpaint,USA,0,3,350000000,5,2007-05-25 06:51:00,2013-04-13 03:29:00
1,4,Digg,news,acquired,2004-11-10,,digg.com,digg,USA,0,4,450000000,8,2007-05-25 20:03:00,2013-03-13 03:09:00
2,10,Flektor,games_video,acquired,1901-01-01,,flektor.com,,USA,0,0,0,0,2007-05-31 21:11:00,2008-05-23 23:23:00


In [18]:
# проверим данные на наличие явных дубликатов
company.duplicated().sum()

63

In [19]:
# удалим дубликаты из таблицы
company.drop_duplicates(inplace=True, ignore_index=True)
company.duplicated().sum()

0

In [20]:
# зальём таблицу в базу данных postgresql
company.to_sql('company', con, index=False, if_exists='replace', method=psql_insert_copy)

In [21]:
# проверим, что таблица загрузилась, выведем первые 5 строк таблицы
sql = '''SELECT *
FROM company
LIMIT 5'''

In [22]:
select(sql)

Unnamed: 0,id,name,category_code,status,founded_at,closed_at,domain,twitter_username,country_code,investment_rounds,funding_rounds,funding_total,milestones,created_at,updated_at
0,1,Wetpaint,web,operating,2005-10-17,,wetpaint-inc.com,BachelrWetpaint,USA,0,3,350000000,5,2007-05-25 06:51:00,2013-04-13 03:29:00
1,4,Digg,news,acquired,2004-11-10,,digg.com,digg,USA,0,4,450000000,8,2007-05-25 20:03:00,2013-03-13 03:09:00
2,10,Flektor,games_video,acquired,1901-01-01,,flektor.com,,USA,0,0,0,0,2007-05-31 21:11:00,2008-05-23 23:23:00
3,12,Twitter,social,ipo,2006-03-21,,twitter.com,twitter,USA,0,8,150000000,6,2007-01-06 08:42:00,2013-08-27 14:41:00
4,15,Scribd,news,operating,2007-01-01,,scribd.com,scribd,USA,0,5,250000000,4,2007-02-06 07:34:00,2013-09-12 20:27:00


### education

In [23]:
# чтение файла `education.csv` и сохранение в переменной `education`
education = pd.read_csv('education.csv', sep=';')

In [24]:
# просмотр первых 5 строк таблицы `education`
education.head()

Unnamed: 0,id,person_id,degree_type,instituition,graduated_at,created_at,updated_at
0,1,6117,MBA,,,19.02.2008 03:17,19.02.2008 03:17
1,2,6136,BA,"Washington University, St. Louis",01.01.1990,19.02.2008 17:58,25.02.2008 00:23
2,3,6136,MS,Boston University,01.01.1992,19.02.2008 17:58,25.02.2008 00:23
3,4,6005,MS,University of Greenwich,01.01.2006,19.02.2008 23:40,25.02.2008 00:23
4,5,5832,BCS,Rice University,,20.02.2008 05:28,20.02.2008 05:28


In [25]:
# получение общей информации о таблице `education`
education.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1471 entries, 0 to 1470
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   id            1471 non-null   int64 
 1   person_id     1471 non-null   int64 
 2   degree_type   1344 non-null   object
 3   instituition  1466 non-null   object
 4   graduated_at  994 non-null    object
 5   created_at    1471 non-null   object
 6   updated_at    1471 non-null   object
dtypes: int64(2), object(5)
memory usage: 80.6+ KB


В таблице 7 столбцов. Типы данных в столбцах: object и int64.

Согласно документации к данным:
* первичный ключ `id` — уникальный номер записи с информацией об образовании;
* внешний ключ `person_id` — ссылается на таблицу `people` — идентификатор человека, информация о котором представлена в записи;
* `degree_type` — учебная степень, например:
    * `BA` — Bachelor of Arts — бакалавр гуманитарных наук;
    * `MS` — Master of Science — магистр естественных наук.
* `instituition` — учебное заведение, название университета;
* `graduated_at` — дата завершения обучения, выпуска;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

В столбцах `created_at` и `updated_at` содержатся даты, приведём их в соответствующий тип данных.

In [26]:
# переведём тип данных в столбцах с датами в `datetime64`
education['created_at'] = pd.to_datetime(education['created_at'])
education['updated_at'] = pd.to_datetime(education['updated_at'])
education.head(3)

Unnamed: 0,id,person_id,degree_type,instituition,graduated_at,created_at,updated_at
0,1,6117,MBA,,,2008-02-19 03:17:00,2008-02-19 03:17:00
1,2,6136,BA,"Washington University, St. Louis",01.01.1990,2008-02-19 17:58:00,2008-02-25 00:23:00
2,3,6136,MS,Boston University,01.01.1992,2008-02-19 17:58:00,2008-02-25 00:23:00


In [27]:
# проверим данные на наличие явных дубликатов
education.duplicated().sum()

6

In [28]:
# удалим дубликаты из таблицы
education.drop_duplicates(inplace=True, ignore_index=True)
education.duplicated().sum()

0

In [29]:
# зальём таблицу в базу данных postgresql
education.to_sql('education', con, index=False, if_exists='replace', method=psql_insert_copy)

In [30]:
# проверим, что таблица загрузилась, выведем первые 5 строк таблицы
sql = '''SELECT *
FROM education
LIMIT 5'''

In [31]:
select(sql)

Unnamed: 0,id,person_id,degree_type,instituition,graduated_at,created_at,updated_at
0,1,6117,MBA,,,2008-02-19 03:17:00,2008-02-19 03:17:00
1,2,6136,BA,"Washington University, St. Louis",01.01.1990,2008-02-19 17:58:00,2008-02-25 00:23:00
2,3,6136,MS,Boston University,01.01.1992,2008-02-19 17:58:00,2008-02-25 00:23:00
3,4,6005,MS,University of Greenwich,01.01.2006,2008-02-19 23:40:00,2008-02-25 00:23:00
4,5,5832,BCS,Rice University,,2008-02-20 05:28:00,2008-02-20 05:28:00


### fund

In [32]:
# чтение файла `fund.csv` и сохранение в переменной `fund`
fund = pd.read_csv('fund.csv', sep=';')

In [33]:
# просмотр первых 5 строк таблицы `fund`
fund.head()

Unnamed: 0,id,name,founded_at,domain,twitter_username,country_code,investment_rounds,invested_companies,milestones,created_at,updated_at
0,13131,,01.01.1900,,,,0,0,0,19.08.2013 18:46,19.08.2013 19:55
1,1,Greylock Partners,01.01.1965,greylock.com,greylockvc,USA,307,196,0,25.05.2007 20:18,27.12.2012 00:42
2,10,Mission Ventures,01.01.1996,missionventures.com,,USA,58,33,0,05.06.2007 05:24,10.10.2013 22:06
3,100,"Kapor Enterprises, Inc.",01.01.1900,kei.com,,USA,2,1,0,12.07.2007 09:42,21.11.2008 05:41
4,1000,Speed Ventures,01.01.1900,,,,0,0,1,13.04.2008 23:52,10.12.2008 09:37


In [34]:
# получение общей информации о таблице `fund`
fund.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1411 entries, 0 to 1410
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   id                  1411 non-null   int64 
 1   name                1410 non-null   object
 2   founded_at          1407 non-null   object
 3   domain              827 non-null    object
 4   twitter_username    246 non-null    object
 5   country_code        774 non-null    object
 6   investment_rounds   1411 non-null   int64 
 7   invested_companies  1411 non-null   int64 
 8   milestones          1411 non-null   int64 
 9   created_at          1411 non-null   object
 10  updated_at          1411 non-null   object
dtypes: int64(4), object(7)
memory usage: 121.4+ KB


В таблице 11 столбцов. Типы данных в столбцах: object и int64.

Согласно документации к данным:
* первичный ключ `id` — уникальный номер венчурного фонда;
* `name` — название венчурного фонда;
* `founded_at` — дата основания фонда;
* `domain` — домен сайта фонда;
* `twitter_username` — профиль фонда в твиттере;
* `country_code` — код страны фонда;
* `investment_rounds` — число инвестиционных раундов, в которых фонд принимал участие;
* `invested_companies` — число компаний, в которые инвестировал фонд;
* `milestones` — количество важных этапов в истории фонда;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

В столбцах `founded_at`, `created_at` и `updated_at` содержатся даты, приведём их в соответствующий тип данных.

In [35]:
# переведём тип данных в столбцах с датами в `datetime64`
fund['founded_at'] = pd.to_datetime(fund['founded_at'])
fund['created_at'] = pd.to_datetime(fund['created_at'])
fund['updated_at'] = pd.to_datetime(fund['updated_at'])
fund.head(3)

Unnamed: 0,id,name,founded_at,domain,twitter_username,country_code,investment_rounds,invested_companies,milestones,created_at,updated_at
0,13131,,1900-01-01,,,,0,0,0,2013-08-19 18:46:00,2013-08-19 19:55:00
1,1,Greylock Partners,1965-01-01,greylock.com,greylockvc,USA,307,196,0,2007-05-25 20:18:00,2012-12-27 00:42:00
2,10,Mission Ventures,1996-01-01,missionventures.com,,USA,58,33,0,2007-05-06 05:24:00,2013-10-10 22:06:00


In [36]:
# проверим данные на наличие явных дубликатов
fund.duplicated().sum()

0

In [37]:
# зальём таблицу в базу данных postgresql
fund.to_sql('fund', con, index=False, if_exists='replace', method=psql_insert_copy)

In [38]:
# проверим, что таблица загрузилась, выведем первые 5 строк таблицы
sql = '''SELECT *
FROM fund
LIMIT 5'''

In [39]:
select(sql)

Unnamed: 0,id,name,founded_at,domain,twitter_username,country_code,investment_rounds,invested_companies,milestones,created_at,updated_at
0,13131,,1900-01-01,,,,0,0,0,2013-08-19 18:46:00,2013-08-19 19:55:00
1,1,Greylock Partners,1965-01-01,greylock.com,greylockvc,USA,307,196,0,2007-05-25 20:18:00,2012-12-27 00:42:00
2,10,Mission Ventures,1996-01-01,missionventures.com,,USA,58,33,0,2007-05-06 05:24:00,2013-10-10 22:06:00
3,100,"Kapor Enterprises, Inc.",1900-01-01,kei.com,,USA,2,1,0,2007-12-07 09:42:00,2008-11-21 05:41:00
4,1000,Speed Ventures,1900-01-01,,,,0,0,1,2008-04-13 23:52:00,2008-10-12 09:37:00


### funding_round

In [40]:
# чтение файла `funding_round.csv` и сохранение в переменной `funding_round`
funding_round = pd.read_csv('funding_round.csv', sep=';')

In [41]:
# просмотр первых 5 строк таблицы `funding_round`
funding_round.head()

Unnamed: 0,id,company_id,funded_at,funding_round_type,raised_amount,pre_money_valuation,participants,is_first_round,is_last_round,created_at,updated_at
0,1,4,01.12.2006,series-b,850000000,0,2,0,0,04.07.2007 04:52,27.02.2008 23:14
1,2,5,01.09.2004,angel,500000,0,2,0,1,27.05.2007 06:08,28.06.2013 20:07
2,3,5,01.05.2005,series-a,150000000,115000000,3,0,0,27.05.2007 06:09,28.06.2013 20:07
3,4,5,01.04.2006,series-b,250000000,525000000,4,0,0,27.05.2007 06:09,28.06.2013 20:07
4,5,7299,01.05.2006,series-b,150000000,0,2,0,0,29.05.2007 11:05,16.04.2008 17:09


In [42]:
# получение общей информации о таблице `funding_round`
funding_round.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1006 entries, 0 to 1005
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   id                   1006 non-null   int64 
 1   company_id           1006 non-null   int64 
 2   funded_at            1006 non-null   object
 3   funding_round_type   1006 non-null   object
 4   raised_amount        1006 non-null   int64 
 5   pre_money_valuation  1006 non-null   int64 
 6   participants         1006 non-null   int64 
 7   is_first_round       1006 non-null   int64 
 8   is_last_round        1006 non-null   int64 
 9   created_at           1006 non-null   object
 10  updated_at           1006 non-null   object
dtypes: int64(7), object(4)
memory usage: 86.6+ KB


В таблице 11 столбцов. Типы данных в столбцах: object и int64.

Согласно документации к данным:
* первичный ключ `id` — уникальный номер инвестиционного раунда;
* внешний ключ `company_id` — ссылается на таблицу `company` — уникальный номер компании, участвовавшей в инвестиционном раунде;
* `funded_at` — дата проведения раунда;
* `funding_round_type` — тип инвестиционного раунда, например:
    * `venture` — венчурный раунд;
    * `angel` — ангельский раунд;
    * `series_a` — раунд А.
* `raised_amount` — сумма инвестиций, которую привлекла компания в этом раунде в долларах;
* `pre_money_valuation` — предварительная, проведённая до инвестиций оценка стоимости компании в долларах;
* `participants` — количество участников инвестиционного раунда;
* `is_first_round` — является ли этот раунд первым для компании;
* `is_last_round` — является ли этот раунд последним для компании;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

В столбцах `founded_at`, `created_at` и `updated_at` содержатся даты, приведём их в соответствующий тип данных.

In [43]:
# переведём тип данных в столбцах с датами в `datetime64`
funding_round['funded_at'] = pd.to_datetime(funding_round['funded_at'])
funding_round['created_at'] = pd.to_datetime(funding_round['created_at'])
funding_round['updated_at'] = pd.to_datetime(funding_round['updated_at'])
funding_round.head(3)

Unnamed: 0,id,company_id,funded_at,funding_round_type,raised_amount,pre_money_valuation,participants,is_first_round,is_last_round,created_at,updated_at
0,1,4,2006-01-12,series-b,850000000,0,2,0,0,2007-04-07 04:52:00,2008-02-27 23:14:00
1,2,5,2004-01-09,angel,500000,0,2,0,1,2007-05-27 06:08:00,2013-06-28 20:07:00
2,3,5,2005-01-05,series-a,150000000,115000000,3,0,0,2007-05-27 06:09:00,2013-06-28 20:07:00


In [44]:
# проверим данные на наличие явных дубликатов
funding_round.duplicated().sum()

0

In [45]:
# зальём таблицу в базу данных postgresql
funding_round.to_sql('funding_round', con, index=False, if_exists='replace', method=psql_insert_copy)

In [46]:
# проверим, что таблица загрузилась, выведем первые 5 строк таблицы
sql = '''SELECT *
FROM funding_round
LIMIT 5'''

In [47]:
select(sql)

Unnamed: 0,id,company_id,funded_at,funding_round_type,raised_amount,pre_money_valuation,participants,is_first_round,is_last_round,created_at,updated_at
0,1,4,2006-01-12,series-b,850000000,0,2,0,0,2007-04-07 04:52:00,2008-02-27 23:14:00
1,2,5,2004-01-09,angel,500000,0,2,0,1,2007-05-27 06:08:00,2013-06-28 20:07:00
2,3,5,2005-01-05,series-a,150000000,115000000,3,0,0,2007-05-27 06:09:00,2013-06-28 20:07:00
3,4,5,2006-01-04,series-b,250000000,525000000,4,0,0,2007-05-27 06:09:00,2013-06-28 20:07:00
4,5,7299,2006-01-05,series-b,150000000,0,2,0,0,2007-05-29 11:05:00,2008-04-16 17:09:00


### investment

In [48]:
# чтение файла `investment.csv` и сохранение в переменной `investment`
investment = pd.read_csv('investment.csv', sep=';')

In [49]:
# просмотр первых 5 строк таблицы `investment`
investment.head()

Unnamed: 0,id,funding_round_id,company_id,fund_id,created_at,updated_at
0,1,1,4,1,04.07.2007 04:52,27.02.2008 23:14
1,2,1,4,2,04.07.2007 04:52,27.02.2008 23:14
2,3,3,5,4,27.05.2007 06:09,28.06.2013 20:07
3,4,4,5,1,27.05.2007 06:09,28.06.2013 20:07
4,5,4,5,5,27.05.2007 06:09,28.06.2013 20:07


In [50]:
# получение общей информации о таблице `investment`
investment.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1214 entries, 0 to 1213
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   id                1214 non-null   int64 
 1   funding_round_id  1214 non-null   int64 
 2   company_id        1214 non-null   int64 
 3   fund_id           1214 non-null   int64 
 4   created_at        1214 non-null   object
 5   updated_at        1214 non-null   object
dtypes: int64(4), object(2)
memory usage: 57.0+ KB


В таблице 6 столбцов. Типы данных в столбцах: object и int64.

Согласно документации к данным:
* первичный ключ `id` — уникальный номер инвестиции;
* внешний ключ `funding_round_id` — ссылается на таблицу `funding_round` — уникальный номер раунда инвестиции;
* внешний ключ `company_id` — ссылается на таблицу `company` — уникальный номер компании-стартапа, в которую инвестируют;
* внешний ключ `fund_id` — ссылается на таблицу `fund` — уникальный номер фонда, инвестирующего в компанию-стартап;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

В столбцах `created_at` и `updated_at` содержатся даты, приведём их в соответствующий тип данных.

In [51]:
# переведём тип данных в столбцах с датами в `datetime64`
investment['created_at'] = pd.to_datetime(investment['created_at'])
investment['updated_at'] = pd.to_datetime(investment['updated_at'])
investment.head(3)

Unnamed: 0,id,funding_round_id,company_id,fund_id,created_at,updated_at
0,1,1,4,1,2007-04-07 04:52:00,2008-02-27 23:14:00
1,2,1,4,2,2007-04-07 04:52:00,2008-02-27 23:14:00
2,3,3,5,4,2007-05-27 06:09:00,2013-06-28 20:07:00


In [52]:
# проверим данные на наличие явных дубликатов
investment.duplicated().sum()

0

In [53]:
# зальём таблицу в базу данных postgresql
investment.to_sql('investment', con, index=False, if_exists='replace', method=psql_insert_copy)

In [54]:
# проверим, что таблица загрузилась, выведем первые 5 строк таблицы
sql = '''SELECT *
FROM investment
LIMIT 5'''

In [55]:
select(sql)

Unnamed: 0,id,funding_round_id,company_id,fund_id,created_at,updated_at
0,1,1,4,1,2007-04-07 04:52:00,2008-02-27 23:14:00
1,2,1,4,2,2007-04-07 04:52:00,2008-02-27 23:14:00
2,3,3,5,4,2007-05-27 06:09:00,2013-06-28 20:07:00
3,4,4,5,1,2007-05-27 06:09:00,2013-06-28 20:07:00
4,5,4,5,5,2007-05-27 06:09:00,2013-06-28 20:07:00


### people

In [56]:
# чтение файла `people.csv` и сохранение в переменной `people`
people = pd.read_csv('people.csv', sep=';')

In [57]:
# просмотр первых 5 строк таблицы `people`
people.head()

Unnamed: 0,id,first_name,last_name,company_id,twitter_username,created_at,updated_at
0,10,Mark,Zuckerberg,5.0,,25.05.2007 21:51,28.03.2013 22:59
1,100,Peter,Lester,27.0,,09.06.2007 14:21,14.05.2008 22:17
2,1000,Dr. Steven,E. Saunders,292.0,,26.07.2007 13:31,05.02.2008 22:45
3,10000,Neil,Capel,2526.0,,01.05.2008 04:55,19.08.2013 18:26
4,100000,Sue,Pilsch,,,09.07.2011 00:52,09.07.2011 01:26


In [58]:
# получение общей информации о таблице `people`
people.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1269 entries, 0 to 1268
Data columns (total 7 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id                1269 non-null   int64  
 1   first_name        1269 non-null   object 
 2   last_name         1269 non-null   object 
 3   company_id        417 non-null    float64
 4   twitter_username  359 non-null    object 
 5   created_at        1269 non-null   object 
 6   updated_at        1269 non-null   object 
dtypes: float64(1), int64(1), object(5)
memory usage: 69.5+ KB


В таблице 7 столбцов. Типы данных в столбцах: float64, object и int64.

Согласно документации к данным:
* первичный ключ `id` — уникальный номер сотрудника;
* `first_name` — имя сотрудника;
* `last_name` — фамилия сотрудника;
* внешний ключ `company_id` — ссылается на таблицу `company` — уникальный номер компании-стартапа;
* `twitter_username` — профиль сотрудника в твиттере;
* `created_at` — дата и время создания записи в таблице;
* `updated_at` — дата и время обновления записи в таблице.

В столбцах `created_at` и `updated_at` содержатся даты, приведём их в соответствующий тип данных.

In [59]:
# переведём тип данных в столбцах с датами в `datetime64`
people['created_at'] = pd.to_datetime(people['created_at'])
people['updated_at'] = pd.to_datetime(people['updated_at'])
people.head(3)

Unnamed: 0,id,first_name,last_name,company_id,twitter_username,created_at,updated_at
0,10,Mark,Zuckerberg,5.0,,2007-05-25 21:51:00,2013-03-28 22:59:00
1,100,Peter,Lester,27.0,,2007-09-06 14:21:00,2008-05-14 22:17:00
2,1000,Dr. Steven,E. Saunders,292.0,,2007-07-26 13:31:00,2008-05-02 22:45:00


In [60]:
# проверим данные на наличие явных дубликатов
people.duplicated().sum()

1

In [61]:
# удалим дубликаты из таблицы
people.drop_duplicates(inplace=True, ignore_index=True)
people.duplicated().sum()

0

In [62]:
# зальём таблицу в базу данных postgresql
people.to_sql('people', con, index=False, if_exists='replace', method=psql_insert_copy)

In [63]:
# проверим, что таблица загрузилась, выведем первые 5 строк таблицы
sql = '''SELECT *
FROM people
LIMIT 5'''

In [64]:
select(sql)

Unnamed: 0,id,first_name,last_name,company_id,twitter_username,created_at,updated_at
0,10,Mark,Zuckerberg,5.0,,2007-05-25 21:51:00,2013-03-28 22:59:00
1,100,Peter,Lester,27.0,,2007-09-06 14:21:00,2008-05-14 22:17:00
2,1000,Dr. Steven,E. Saunders,292.0,,2007-07-26 13:31:00,2008-05-02 22:45:00
3,10000,Neil,Capel,2526.0,,2008-01-05 04:55:00,2013-08-19 18:26:00
4,100000,Sue,Pilsch,,,2011-09-07 00:52:00,2011-09-07 01:26:00


## Задача 1

Посчитайте, сколько компаний закрылось.

In [65]:
sql = '''
SELECT count(*)
FROM company t
WHERE t.status = 'closed'
'''

In [66]:
select(sql)

Unnamed: 0,count
0,360


## Задача 2

Отобразите количество привлечённых средств для новостных компаний США. Используйте данные из таблицы company. Отсортируйте таблицу по убыванию значений в поле funding_total .

In [67]:
sql = '''
SELECT t.funding_total
FROM company t
WHERE t.country_code = 'USA'
  AND t.category_code = 'news'
ORDER BY t.funding_total DESC
'''

In [68]:
select(sql)

Unnamed: 0,funding_total
0,950000000
1,850000000
2,750000000
3,750000000
4,650000000
...,...
195,0
196,0
197,0
198,0


## Задача 3

Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [69]:
sql = '''
SELECT sum(t.price_amount)
FROM acquisition t
WHERE t.term_code = 'cash'
  AND extract(YEAR
              FROM t.acquired_at::TIMESTAMP) BETWEEN 2011 AND 2013;
'''

In [70]:
select(sql)

Unnamed: 0,sum
0,11667400000.0


## Задача 4

Отобразите имя, фамилию и названия аккаунтов людей в твиттере, у которых названия аккаунтов начинаются на 'Silver'.

In [71]:
sql = '''
SELECT t.first_name,
       t.last_name,
       t.twitter_username
FROM people t
WHERE t.twitter_username like 'Silver%%';
'''

In [72]:
select(sql)

Unnamed: 0,first_name,last_name,twitter_username
0,Rebecca,Silver,SilverRebecca
1,Silver,Teede,SilverMatrixx
2,Mattias,Guilotte,Silverreven


## Задача 5

Выведите на экран всю информацию о людях, у которых названия аккаунтов в твиттере содержат подстроку 'money', а фамилия начинается на 'K'.

In [73]:
sql = '''
SELECT *
FROM people t
WHERE t.twitter_username like '%%money%%'
  AND t.last_name like 'K%%';
'''

In [74]:
select(sql)

Unnamed: 0,id,first_name,last_name,company_id,twitter_username,created_at,updated_at
0,63081,Gregory,Kim,,gmoney75,2010-07-13 03:46:00,2011-12-12 22:01:00


## Задача 6

Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Страну, в которой зарегистрирована компания, можно определить по коду страны. Отсортируйте данные по убыванию суммы.

In [75]:
sql = '''
SELECT t.country_code,
       sum(t.funding_total) AS sum_funding
FROM company t
GROUP BY t.country_code
ORDER BY sum_funding DESC;
'''

In [76]:
select(sql)

Unnamed: 0,country_code,sum_funding
0,USA,85354260000.0
1,,2357478000.0
2,GBR,1877397000.0
3,FRA,1555276000.0
4,ISR,1459930000.0
5,CHN,1100060000.0
6,CAN,858702200.0
7,DEU,835167600.0
8,NLD,802144300.0
9,CHE,700138000.0


## Задача 7

Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [77]:
sql = '''
select max(t.raised_amount)
from funding_round t
'''

In [78]:
select(sql)

Unnamed: 0,max
0,950000000


In [79]:
sql = '''
SELECT t.funded_at::date,
       min(t.raised_amount),
       max(t.raised_amount)
FROM funding_round t
GROUP BY t.funded_at::date
HAVING min(t.raised_amount) <> 0
AND min(t.raised_amount) <> max(t.raised_amount);
'''

In [80]:
select(sql)

Unnamed: 0,funded_at,min,max
0,2013-07-25,957500,850000000
1,2013-07-28,4000000,5000000
2,2009-01-12,250000,150000000
3,2011-02-25,55048,350000000
4,2006-01-05,3000000,450000000
...,...,...,...
61,2010-01-11,20000,275000
62,2010-01-10,50000,900000
63,2012-09-21,575000,150000000
64,2010-11-15,50000,150000


## Задача 8

Создайте поле с категориями:
* Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
* Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
* Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.

Отобразите все поля таблицы fund и новое поле с категориями.

In [81]:
sql = '''
SELECT *,
       CASE
           WHEN t.invested_companies < 20 THEN 'low_activity'
           WHEN t.invested_companies >= 20
                AND t.invested_companies < 100 THEN 'middle_activity'
           WHEN t.invested_companies >= 100 THEN 'high_activity'
       END AS invest_category
FROM fund t;
'''

In [82]:
select(sql)

Unnamed: 0,id,name,founded_at,domain,twitter_username,country_code,investment_rounds,invested_companies,milestones,created_at,updated_at,invest_category
0,13131,,1900-01-01,,,,0,0,0,2013-08-19 18:46:00,2013-08-19 19:55:00,low_activity
1,1,Greylock Partners,1965-01-01,greylock.com,greylockvc,USA,307,196,0,2007-05-25 20:18:00,2012-12-27 00:42:00,high_activity
2,10,Mission Ventures,1996-01-01,missionventures.com,,USA,58,33,0,2007-05-06 05:24:00,2013-10-10 22:06:00,middle_activity
3,100,"Kapor Enterprises, Inc.",1900-01-01,kei.com,,USA,2,1,0,2007-12-07 09:42:00,2008-11-21 05:41:00,low_activity
4,1000,Speed Ventures,1900-01-01,,,,0,0,1,2008-04-13 23:52:00,2008-10-12 09:37:00,low_activity
...,...,...,...,...,...,...,...,...,...,...,...,...
1406,48,Benchmark,1995-01-01,benchmark.com,benchmark,USA,306,165,3,2007-06-21 05:19:00,2013-11-22 09:50:00,high_activity
1407,5717,Greenspring Associates,2000-01-01,greenspringassociates.com,GreenspringVC,USA,15,14,0,2010-07-07 08:43:00,2013-04-19 16:26:00,low_activity
1408,61,Mayfield Fund,1969-01-01,mayfield.com,MayfieldFund,USA,200,118,3,2007-06-27 10:34:00,2013-05-17 12:50:00,high_activity
1409,7491,Mitsui Global Investment,NaT,mitsui-global.com,,USA,17,14,0,2011-02-06 03:49:00,2013-04-19 18:36:00,low_activity


## Задача 9

Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое до ближайшего целого числа среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [83]:
sql = '''
WITH invest_cat_table AS
  (SELECT *,
          CASE
              WHEN invested_companies>=100 THEN 'high_activity'
              WHEN invested_companies>=20 THEN 'middle_activity'
              ELSE 'low_activity'
          END AS activity
   FROM fund t)
SELECT t.activity,
       round(avg(t.investment_rounds)) avg_inv_rounds
FROM invest_cat_table t
GROUP BY t.activity
ORDER BY avg_inv_rounds;
'''

In [84]:
select(sql)

Unnamed: 0,activity,avg_inv_rounds
0,low_activity,2.0
1,middle_activity,50.0
2,high_activity,268.0


## Задача 10

Выгрузите таблицу с десятью самыми активными инвестирующими странами. Активность страны определите по среднему количеству компаний, в которые инвестируют фонды этой страны.

Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды, основанные с 2010 по 2012 год включительно.

Исключите из таблицы страны с фондами, у которых минимальное число компаний, получивших инвестиции, равно нулю. Отсортируйте таблицу по среднему количеству компаний от большего к меньшему.

Для фильтрации диапазона по годам используйте оператор BETWEEN.

In [85]:
sql = '''
SELECT t.country_code,
       min(t.invested_companies) AS min_nums_companies,
       max(t.invested_companies) AS max_nums_companies,
       avg(t.invested_companies) AS avg_nums_companies
FROM fund t
WHERE extract(YEAR
              FROM t.founded_at::DATE) BETWEEN 2010 AND 2012
GROUP BY t.country_code
HAVING min(t.invested_companies) <> 0
ORDER BY avg_nums_companies DESC
LIMIT 10;
'''

In [86]:
select(sql)

Unnamed: 0,country_code,min_nums_companies,max_nums_companies,avg_nums_companies
0,BGR,25,25,25.0
1,ITA,1,20,10.5
2,GBR,1,28,10.0
3,ISR,4,7,5.5
4,BEL,5,5,5.0
5,IRL,4,4,4.0
6,MUS,3,3,3.0
7,POL,3,3,3.0
8,TUR,2,2,2.0
9,JPN,2,2,2.0


## Задача 11

Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [87]:
sql = '''
SELECT p.first_name,
       p.last_name,
       e.instituition
FROM people p
LEFT JOIN education e ON p.id = e.person_id;
'''

In [88]:
select(sql)

Unnamed: 0,first_name,last_name,instituition
0,James M.,Butler,University of Maryland
1,Ryan,Waliany,"University of California, Berkeley"
2,Ryan,Waliany,"University of California, Berkeley"
3,David,Fowler,Gustavus Adolphus College
4,David,Fowler,University of Minnesota
...,...,...,...
1342,David,Paine,
1343,Eric,A. Swank,
1344,Steven,Worth,
1345,Greg,Wohler,


## Задача 12

Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [89]:
sql = '''
SELECT c.name,
       count(DISTINCT e.instituition) AS cnt_instituition
FROM company c
JOIN people p ON c.id = p.company_id
JOIN education e ON p.id = e.person_id
GROUP BY c.name
ORDER BY cnt_instituition DESC
LIMIT 5;
'''

In [90]:
select(sql)

Unnamed: 0,name,cnt_instituition
0,Facebook,32
1,iBloom Technologies,5
2,Behind the Burner,5
3,Bevvy,3
4,Codemedia,3


## Задача 13

Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [91]:
sql = '''
SELECT DISTINCT c.name
FROM company c
LEFT JOIN funding_round f ON c.id = f.company_id
WHERE c.status = 'closed'
  AND f.is_first_round = 1
  AND f.is_last_round =1;
'''

In [92]:
select(sql)

Unnamed: 0,name
0,coComment
1,Fleck
2,Hurricane Party
3,Spotplex
4,Ujogo
5,Zlio
6,Zooomr


## Задача 14

Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [93]:
sql = '''
WITH company_closed AS
  (SELECT DISTINCT c.name,
                   c.id
   FROM company c
   LEFT JOIN funding_round f ON c.id = f.company_id
   WHERE c.status = 'closed'
     AND f.is_first_round = 1
     AND f.is_last_round =1)
SELECT DISTINCT p.id
FROM company_closed cc
JOIN people p ON cc.id = p.company_id;
'''

In [94]:
select(sql)

Unnamed: 0,id
0,352
1,353
2,358
3,359
4,699
5,779
6,63531


## Задача 15

Составьте таблицу, куда войдут уникальные пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [95]:
sql = '''
WITH company_closed AS
  (SELECT DISTINCT c.name,
                   c.id
   FROM company c
   LEFT JOIN funding_round f ON c.id = f.company_id
   WHERE c.status = 'closed'
     AND f.is_first_round = 1
     AND f.is_last_round =1)

select distinct e.person_id,
e.instituition
from education e
where e.person_id in(SELECT DISTINCT p.id
FROM company_closed cc
JOIN people p ON cc.id = p.company_id);
'''

In [96]:
select(sql)

Unnamed: 0,person_id,instituition
0,699,Imperial College
1,63531,University of Texas-Austin


## Задача 16

Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания.

In [97]:
sql = '''
WITH company_closed AS
  (SELECT DISTINCT c.name,
                   c.id
   FROM company c
   LEFT JOIN funding_round f ON c.id = f.company_id
   WHERE c.status = 'closed'
     AND f.is_first_round = 1
     AND f.is_last_round =1),
     
     person AS
  (SELECT DISTINCT p.id
   FROM company_closed cc
   JOIN people p ON cc.id = p.company_id),
     
     instituitions AS
  (SELECT e.person_id,
          e.instituition
   FROM education e
   WHERE e.person_id in
       (SELECT *
        FROM person))

SELECT i.person_id,
       count(i.instituition)
FROM instituitions i
GROUP BY i.person_id;
'''

In [98]:
select(sql)

Unnamed: 0,person_id,count
0,699,1
1,63531,1


## Задача 17

Дополните предыдущий запрос и выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники разных компаний. Нужно вывести только одну запись, группировка здесь не понадобится.

In [99]:
sql = '''
WITH company_closed AS
  (SELECT DISTINCT c.name,
                   c.id
   FROM company c
   LEFT JOIN funding_round f ON c.id = f.company_id
   WHERE c.status = 'closed'
     AND f.is_first_round = 1
     AND f.is_last_round =1),
     
     person AS
  (SELECT DISTINCT p.id
   FROM company_closed cc
   JOIN people p ON cc.id = p.company_id),
     
     instituitions AS
  (SELECT e.person_id,
          e.instituition
   FROM education e
   WHERE e.person_id in
       (SELECT *
        FROM person)),

     cnt_inst AS
  (SELECT i.person_id,
          count(i.instituition)
   FROM instituitions i
   GROUP BY i.person_id)

select avg(t.count)
from cnt_inst t;
'''

In [100]:
select(sql)

Unnamed: 0,avg
0,1.0


## Задача 18

Напишите похожий запрос: выведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники Facebook.

In [101]:
sql = '''
SELECT *
FROM company
WHERE name = 'Facebook'
'''

In [102]:
select(sql)

Unnamed: 0,id,name,category_code,status,founded_at,closed_at,domain,twitter_username,country_code,investment_rounds,funding_rounds,funding_total,milestones,created_at,updated_at
0,5,Facebook,social,ipo,2004-01-02,,facebook.com,facebook,USA,3,11,2400000000,5,2007-05-25 21:22:00,2013-08-27 14:41:00


In [103]:
sql = '''
WITH cnt_inst_fb AS
  (SELECT count(e.instituition)
   FROM people p
   JOIN education e ON p.id = e.person_id
   WHERE company_id = 5
   GROUP BY p.id)
SELECT avg(t.count)
FROM cnt_inst_fb t'''

In [104]:
select(sql)

Unnamed: 0,avg
0,1.511111


## Задача 19

Составьте таблицу из полей:
* name_of_fund — название фонда;
* name_of_company — название компании;
* amount — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [105]:
sql = '''
SELECT DISTINCT f.name AS name_of_fund,
                c.name AS name_of_company,
                fr.raised_amount AS amount
FROM fund f
JOIN investment i ON f.id = i.fund_id
JOIN company c ON c.id = i.company_id
JOIN funding_round fr ON fr.id = i.funding_round_id
WHERE c.milestones > 6
  AND extract(YEAR
              FROM fr.funded_at::date) in (2012, 2013)'''

In [106]:
select(sql)

Unnamed: 0,name_of_fund,name_of_company,amount
0,Greenspring Associates,Gigya,250000000
1,Mayfield Fund,Gigya,250000000
2,Samsung Ventures,OpenX,250000000
3,SAP Ventures,OpenX,250000000
4,Mitsui Global Investment,OpenX,250000000
5,Mayfield Fund,Gigya,150000000
6,Index Ventures,OpenX,250000000
7,DAG Ventures,Gigya,250000000
8,Benchmark,Gigya,250000000
9,Benchmark,Gigya,150000000


In [107]:
sql = '''
WITH company_6 AS
  (SELECT c.id,
          c.name
   FROM company c
   WHERE c.milestones > 6),
     
     funding_round_12_13 AS
  (SELECT fr.id,
          fr.company_id,
          fr.funded_at,
          fr.raised_amount
   FROM funding_round fr
   WHERE extract(YEAR
                 FROM fr.funded_at::date) BETWEEN 2012 AND 2013)

SELECT DISTINCT f.name AS name_of_fund,
                c_6.name,
                fr23.raised_amount
FROM fund f
JOIN investment i ON f.id = i.fund_id
JOIN company_6 c_6 ON c_6.id = i.company_id
JOIN funding_round_12_13 fr23 ON fr23.id = i.funding_round_id
'''

In [108]:
select(sql)

Unnamed: 0,name_of_fund,name,raised_amount
0,SAP Ventures,OpenX,250000000
1,Mitsui Global Investment,OpenX,250000000
2,Mayfield Fund,Gigya,150000000
3,Index Ventures,OpenX,250000000
4,DAG Ventures,Gigya,250000000
5,Benchmark,Gigya,250000000
6,Greenspring Associates,Gigya,250000000
7,Mayfield Fund,Gigya,250000000
8,Benchmark,Gigya,150000000
9,Samsung Ventures,OpenX,250000000


## Задача 20

Выгрузите таблицу, в которой будут такие поля:
* название компании-покупателя;
* сумма сделки;
* название компании, которую купили;
* сумма инвестиций, вложенных в купленную компанию;
* доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.

Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в алфавитном порядке. Ограничьте таблицу первыми десятью записями.

In [109]:
sql = '''
SELECT c.name AS acquiring_name,
       a.price_amount,
       c_1.name AS acquired_name,
       c_1.funding_total,
       round(a.price_amount / c_1.funding_total) AS value
FROM acquisition AS a
LEFT JOIN company AS c ON a.acquiring_company_id = c.id
LEFT JOIN company AS c_1 ON a.acquired_company_id = c_1.id
WHERE a.price_amount <> 0
  AND c_1.funding_total <> 0
ORDER BY a.price_amount DESC,
         acquired_name
LIMIT 10'''

In [110]:
select(sql)

Unnamed: 0,acquiring_name,price_amount,acquired_name,funding_total,value
0,,390000000,Pliant Technology,550000000,0.0
1,Salesforce,290000000,Heroku,150000000,1.0
2,,190000000,Alloy,150000000,1.0


## Задача 21

Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Выведите также номер месяца, в котором проходил раунд финансирования.

Отберите компании, которые участвовали в раундах с 2010 по 2013 год включительно и привлекли любую сумму инвестиций, не равную нулю. Вам понадобятся таблицы company и funding_round.

In [111]:
sql = '''
SELECT c.name,
       extract(MONTH
               FROM fr.funded_at::date)
FROM company c
LEFT JOIN funding_round fr ON c.id = fr.company_id
WHERE c.category_code = 'social'
  AND extract(YEAR
              FROM fr.funded_at::date) BETWEEN 2010 AND 2013
  AND fr.raised_amount <> 0;
'''

In [112]:
select(sql)

Unnamed: 0,name,date_part
0,Twitter,8.0


## Задача 22

Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
* номер месяца, в котором проходили раунды;
* количество уникальных названий фондов из США, которые инвестировали в этом месяце;
* количество компаний, купленных за этот месяц;
* общая сумма сделок по покупкам в этом месяце.

Два последних поля — с количеством купленных компаний и с суммой сделок — можно получить, взяв данные из таблицы acquisition.

In [113]:
sql = '''
WITH a AS
  (SELECT extract(MONTH
                  FROM fr.funded_at::date) AS MONTH,
          count(DISTINCT f.name) AS cnt_funds
   FROM funding_round fr
   JOIN investment i ON fr.id = i.funding_round_id
   JOIN fund f ON f.id = i.fund_id
   WHERE extract(YEAR
                 FROM fr.funded_at::date) BETWEEN 2010 AND 2013
     AND f.country_code = 'USA'
   GROUP BY MONTH),
     
     b AS
  (SELECT extract(MONTH
                  FROM a.acquired_at::date) AS MONTH,
          count(a.acquired_company_id) AS cnt_acquired,
          sum(a.price_amount)
   FROM acquisition a
   WHERE extract(YEAR
                 FROM a.acquired_at::date) BETWEEN 2010 AND 2013
   GROUP BY MONTH)

SELECT a.month,
       a.cnt_funds,
       b.cnt_acquired,
       b.sum
FROM a
JOIN b ON a.month = b.month
'''

In [114]:
select(sql)

Unnamed: 0,month,cnt_funds,cnt_acquired,sum
0,1.0,4,103,6149194000.0
1,9.0,4,37,3051000000.0
2,11.0,3,76,2988101000.0


## Задача 23

Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2011 год от большего к меньшему.

Для каждой страны посчитайте среднюю сумму инвестиций в стартапы, основанные в 2011 году. Проделайте то же самое для 2012 и 2013 года. Объедините получившиеся таблицы по стране.

In [115]:
sql = '''
WITH avg_2011 AS
  (SELECT c.country_code,
          avg(c.funding_total) AS avg_2011
   FROM company c
   WHERE extract(YEAR
                 FROM c.founded_at::date) = 2011
   GROUP BY c.country_code),
     
     avg_2012 AS
  (SELECT c.country_code,
          avg(c.funding_total) AS avg_2012
   FROM company c
   WHERE extract(YEAR
                 FROM c.founded_at::date) = 2012
   GROUP BY c.country_code),
     
     avg_2013 AS
  (SELECT c.country_code,
          avg(c.funding_total) AS avg_2013
   FROM company c
   WHERE extract(YEAR
                 FROM c.founded_at::date) = 2013
   GROUP BY c.country_code)

SELECT a.country_code,
       a.avg_2011,
       b.avg_2012,
       c.avg_2013
FROM avg_2011 a
JOIN avg_2012 b ON a.country_code = b.country_code
JOIN avg_2013 c ON a.country_code = c.country_code
ORDER BY a.avg_2011 DESC'''

In [116]:
select(sql)

Unnamed: 0,country_code,avg_2011,avg_2012,avg_2013
0,GBR,50022980.0,131321.8,1250.0
1,USA,33375940.0,40328760.0,17862680.0
2,DEU,0.0,0.0,0.0
3,IND,0.0,0.0,0.0
4,IRL,0.0,0.0,15000.0
5,RUS,0.0,0.0,1000000.0
