# Работа с PostgreSQL | Database Creation & Extraction

Цели:
    
* Создать базу данным из имеющихся .csv таблиц в ElephantSQL.
* Выгрузить нужные данные в соответствии с запросами.

## Импорт библиотек

In [1]:
import os
import glob
import psycopg2
import pandas as pd

from sqlalchemy import create_engine
from sqlalchemy import inspect

%load_ext sql

# Загрузка данных в базу

Создадим соединение с существующей базой.

In [2]:
dbname='foxvqhde'
host='abul.db.elephantsql.com'
user = 'foxvqhde'
password = 'fIVoqX6THNr0zxElHEOLLDpsXIa9oqz7' # Для примера

engine = create_engine(f'postgresql://{user}:{password}@{host}:5432/{dbname}')

Произведем выгрузку.

In [3]:
# Путь к папке с файлами.
path = r'C:\Users\igor_\Downloads\csv'

for csv_file in glob.glob(os.path.join(path, '*.csv')):
    df_name = csv_file.split('\\')[-1].split('.csv')[0]

    df = pd.read_csv(csv_file, low_memory=False)
    
    # Ограничение elephantsql.com
    if df.shape[0] > 10000:
        df = df.sample(10000)
    
    df.to_sql(df_name, con=engine, if_exists='replace', index=False)

Посмотрим какие таблицы теперь есть в нашей базе.

In [4]:
inspect(engine).get_table_names()

['objects',
 'acquisitions',
 'degrees',
 'funding_rounds',
 'funds',
 'investments',
 'ipos',
 'milestones',
 'offices',
 'people',
 'relationships']

In [5]:
engine.dispose()

# Выгрузка данных

> Для всех запросов в которых в результате получатся много записей, используется ограничение limit 5.

Ещё раз подключимся к базе. Можно было воспользоваться способом ниже, но **%load_ext sql** удобнее.

    result = engine.execute('SELECT * FROM acquisitions;')
    df = pd.DataFrame(result.fetchall(), columns=result.keys())

In [6]:
%sql postgresql://foxvqhde:fIVoqX6THNr0zxElHEOLLDpsXIa9oqz7@abul.db.elephantsql.com:5432/foxvqhde

1. Посчитайте, сколько компаний закрылось.

In [7]:
%%sql
SELECT count(id)
FROM objects
WHERE status = 'closed' ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
1 rows affected.


count
2773


2. Отобразите количество привлечённых средств для новостных компаний США. Отсортируйте таблицу по убыванию значений в поле funding_total .

In [8]:
%%sql
SELECT normalized_name, funding_total_usd
FROM objects
WHERE category_code = 'news'
  AND country_code = 'USA'
ORDER BY funding_total_usd DESC
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


normalized_name,funding_total_usd
demand media,622552813.0
new york times,250000000.0
flipboard,160500000.0
broadcast facilities,128000000.0
alloy,126500000.0


3. Найдите общую сумму сделок по покупке одних компаний другими в долларах. Отберите сделки, которые осуществлялись только за наличные с 2011 по 2013 год включительно.

In [9]:
%%sql
SELECT sum(price_amount)
FROM acquisitions
WHERE acquired_at::TIMESTAMP BETWEEN '2011-01-01' AND '2013-12-31'
  AND term_code = 'cash' ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
1 rows affected.


sum
139077174636.0


4. Отобразите имя, фамилию людей, у которых affiliation_name содержит 'Blue'.

In [10]:
%%sql
SELECT first_name,
       last_name,
       affiliation_name
FROM people
WHERE affiliation_name like '%Blue%'
LIMIT 5;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


first_name,last_name,affiliation_name
Ben,Elowitz,Blue Nile
Alex,Iskold,AdaptiveBlue
Andy,Roth,AdaptiveBlue
Rion,Nakaya,AdaptiveBlue
Karen,Teng,AdaptiveBlue


5. Для каждой страны отобразите общую сумму привлечённых инвестиций, которые получили компании, зарегистрированные в этой стране. Отсортируйте данные по убыванию суммы.

In [11]:
%%sql
SELECT country_code,
       sum(funding_total_usd) total_sum
FROM objects
GROUP BY country_code
ORDER BY total_sum DESC
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


country_code,total_sum
USA,310588431344.0
GBR,17705621151.0
,10855920874.0
CHN,10689737173.0
CAN,9866361996.0


6. Составьте таблицу, в которую войдёт дата проведения раунда, а также минимальное и максимальное значения суммы инвестиций, привлечённых в эту дату.
Оставьте в итоговой таблице только те записи, в которых минимальное значение суммы инвестиций не равно нулю и не равно максимальному значению.

In [12]:
%%sql
WITH s AS
  (SELECT funded_at::date funded_date,
          min(raised_amount) min_raised_amount,
          max(raised_amount) max_raised_amount
   FROM funding_rounds
   GROUP BY funded_date)
SELECT funded_date,
       min_raised_amount,
       max_raised_amount
FROM s
WHERE min_raised_amount != 0
  AND min_raised_amount != max_raised_amount
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


funded_date,min_raised_amount,max_raised_amount
2012-08-22,40000.0,75000000.0
2010-07-25,3278247.0,9000000.0
2002-03-01,2000000.0,6300000.0
2010-10-11,28000.0,200000000.0
2007-01-18,5500000.0,23000000.0


7. Создайте поле с категориями:

* Для фондов, которые инвестируют в 100 и более компаний, назначьте категорию high_activity.
* Для фондов, которые инвестируют в 20 и более компаний до 100, назначьте категорию middle_activity.
* Если количество инвестируемых компаний фонда не достигает 20, назначьте категорию low_activity.

Отобразите все поля таблицы fund и новое поле с категориями.

In [13]:
%%sql
SELECT f.*,
       CASE
           WHEN i.cnt >= 100 THEN 'high_activity'
           WHEN i.cnt >= 20 THEN 'middle_activity'
           ELSE 'low_activity'
       END activity
FROM funds f
LEFT JOIN
  (SELECT investor_object_id,
          count(funded_object_id) cnt
   FROM investments
   GROUP BY investor_object_id) i ON i.investor_object_id=f.object_id
LIMIT 5;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


id,fund_id,object_id,name,funded_at,raised_amount,raised_currency_code,source_url,source_description,created_at,updated_at,activity
1,1,f:371,Second Fund,2008-12-16,300000000.0,USD,http://www.pehub.com/26194/dfj-dragon-raising-second-fund/,peHub,2008-12-17 03:07:16,2008-12-17 03:07:16,low_activity
4,4,f:17,Sequoia Israel Fourth Fund,2008-12-17,200750000.0,USD,http://www.pehub.com/26725/sequoia-israel-raises-fourth-fund/,Sequoia Israel Raises Fourth Fund,2008-12-18 22:04:42,2008-12-18 22:04:42,high_activity
5,5,f:951,Tenth fund,2008-08-11,650000000.0,USD,http://venturebeat.com/2008/08/11/interwest-closes-650m-fund/,Venture Beat,2008-12-31 09:47:51,2008-12-31 09:47:51,high_activity
6,6,f:192,New funds acquire,,625000000.0,USD,http://venturebeat.com/2008/07/28/us-venture-partners-raises-625m-fund-for-new-investments/,U.S. Venture Partners raises $625M fund for new investments,2009-01-01 18:13:44,2009-01-01 18:16:27,high_activity
7,7,f:519,Third fund,2008-05-20,200000000.0,USD,http://venturebeat.com/2008/05/20/disneys-steamboat-ventures-looking-to-raise-200m-fund/,Venture Beat,2009-01-03 09:51:58,2013-09-03 16:34:54,middle_activity


8. Для каждой из категорий, назначенных в предыдущем задании, посчитайте округлённое среднее количество инвестиционных раундов, в которых фонд принимал участие. Выведите на экран категории и среднее число инвестиционных раундов. Отсортируйте таблицу по возрастанию среднего.

In [14]:
%%sql
WITH t1 AS
  (SELECT investor_object_id,
          funded_object_id,
          count(funding_round_id) investment_rounds
   FROM investments
   GROUP BY investor_object_id,
            funded_object_id
   ORDER BY investor_object_id),
     t2 AS
  (SELECT investor_object_id,
          count(funded_object_id) cnt,
          SUM(investment_rounds) sum_ir_fund
   FROM t1
   GROUP BY investor_object_id)
SELECT CASE
           WHEN cnt >= 100 THEN 'high_activity'
           WHEN cnt >= 20 THEN 'middle_activity'
           ELSE 'low_activity'
       END activity,
       round(AVG(sum_ir_fund)) avg_investment_rounds
FROM t2
GROUP BY activity
ORDER BY avg_investment_rounds

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
3 rows affected.


activity,avg_investment_rounds
low_activity,3
middle_activity,50
high_activity,252


9. Выгрузите таблицу с десятью самыми активными инвестирующими странами. Активность страны определите по среднему количеству компаний, в которые инвестируют фонды этой страны.
Для каждой страны посчитайте минимальное, максимальное и среднее число компаний, в которые инвестировали фонды, основанные с 2010 по 2012 год включительно.
Отсортируйте таблицу по среднему количеству компаний от большего к меньшему. Ограничьте таблицу первыми десятью записями.

In [15]:
%%sql
SELECT country_code,
       max(invested_companies) max_companies,
       round(avg(invested_companies), 2) avg_companies
FROM objects
WHERE extract(YEAR
              FROM founded_at::date) BETWEEN 2010 AND 2012
GROUP BY country_code
HAVING max(invested_companies) > 5
ORDER BY avg_companies DESC
LIMIT 10;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
10 rows affected.


country_code,max_companies,avg_companies
BGR,35,1.76
DNK,124,1.26
LUX,11,0.63
CHL,29,0.54
UKR,10,0.36
RUS,13,0.35
SGP,18,0.3
ARG,38,0.29
AUT,14,0.19
ESP,29,0.19


10. Отобразите имя и фамилию всех сотрудников стартапов. Добавьте поле с названием учебного заведения, которое окончил сотрудник, если эта информация известна.

In [16]:
%%sql
SELECT first_name,
       last_name,
       d.institution
FROM people p
LEFT JOIN degrees d ON d.object_id=p.object_id
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


first_name,last_name,institution
Gabriel,Aldamiz-echevarria,
Kevin,Rose,Montessori
Kevin,Rose,"University of Nevada, Las Vegas"
Greg,Wimmer,University of Oregon
Peter,Pham,UC Irvine


11. Для каждой компании найдите количество учебных заведений, которые окончили её сотрудники. Выведите название компании и число уникальных названий учебных заведений. Составьте топ-5 компаний по количеству университетов.

In [17]:
%%sql
SELECT ob.name,
       COUNT(DISTINCT d.institution) cnt
FROM relationships r
FULL JOIN degrees d ON d.object_id=r.person_object_id
JOIN objects ob ON ob.id=r.relationship_object_id
GROUP BY ob.name
ORDER BY cnt DESC
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


name,cnt
Microsoft,703
IBM,630
Google,544
Hewlett-Packard,511
Oracle Corporation,508


12. Составьте список с уникальными названиями закрытых компаний, для которых первый раунд финансирования оказался последним.

In [18]:
%%sql
SELECT ob.name
FROM objects ob
JOIN funding_rounds fr ON fr.object_id=ob.id
WHERE ob.status = 'closed'
  AND fr.is_first_round=1
  AND fr.is_last_round=1
LIMIT 5;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


name
SellABand
HammerKit
"ITOG, Inc."
sarvaMAIL
My Best Interest


13. Составьте список уникальных номеров сотрудников, которые работают в компаниях, отобранных в предыдущем задании.

In [19]:
%%sql
SELECT DISTINCT person_object_id
FROM relationships
WHERE relationship_object_id in
    (SELECT ob.id
     FROM objects ob
     JOIN funding_rounds fr ON fr.object_id=ob.id
     WHERE ob.status = 'closed'
       AND fr.is_first_round=1
       AND fr.is_last_round=1)
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


person_object_id
p:10000
p:10012
p:10013
p:10014
p:10015


14. Составьте таблицу, куда войдут пары с номерами сотрудников из предыдущей задачи и учебным заведением, которое окончил сотрудник.

In [20]:
%%sql
SELECT r.person_object_id,
       d.institution
FROM relationships r
RIGHT JOIN degrees d ON d.object_id=r.person_object_id
WHERE relationship_object_id in
    (SELECT ob.id
     FROM objects ob
     JOIN funding_rounds fr ON fr.object_id=ob.id
     WHERE ob.status = 'closed'
       AND fr.is_first_round=1
       AND fr.is_last_round=1)
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


person_object_id,institution
p:1381,Georgia Institute of Technology
p:968,University of Notre Dame
p:1911,University of Missouri - Rolla
p:100628,New York University (NYU) Stern School of Business
p:100628,HEC


15. Посчитайте количество учебных заведений для каждого сотрудника из предыдущего задания.

In [21]:
%%sql
WITH t AS
  (SELECT r.person_object_id,
          d.institution
   FROM relationships r
   RIGHT JOIN degrees d ON d.object_id=r.person_object_id
   WHERE relationship_object_id in
       (SELECT ob.id
        FROM objects ob
        JOIN funding_rounds fr ON fr.object_id=ob.id
        WHERE ob.status = 'closed'
          AND fr.is_first_round=1
          AND fr.is_last_round=1) )
SELECT person_object_id,
       count(institution) cnt
FROM t
GROUP BY person_object_id
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


person_object_id,cnt
p:100163,1
p:100628,3
p:100690,1
p:100754,4
p:101610,2


16. Dвыведите среднее число учебных заведений (всех, не только уникальных), которые окончили сотрудники FB.

In [22]:
%%sql
WITH t AS
  (SELECT d.object_id,
          COUNT(d.object_id) cnt
   FROM degrees d
   JOIN relationships r ON r.person_object_id=d.object_id
   WHERE r.relationship_object_id in
       (SELECT id
        FROM objects
        WHERE normalized_name like '%facebook%' )
   GROUP BY d.object_id)
SELECT avg(cnt)
FROM t ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
1 rows affected.


avg
1.6635071090047393


17. Составьте таблицу из полей:
* name_of_fund — название фонда;
* name_of_company — название компании;
* amount — сумма инвестиций, которую привлекла компания в раунде.

В таблицу войдут данные о компаниях, в истории которых было больше шести важных этапов, а раунды финансирования проходили с 2012 по 2013 год включительно.

In [23]:
%%sql
SELECT f.name name_of_fund,
       ob.name name_of_company,
       fr.raised_amount amount
FROM investments i
LEFT JOIN funds f ON f.object_id=i.investor_object_id
LEFT JOIN objects ob ON ob.id=i.funded_object_id
LEFT JOIN funding_rounds fr ON fr.funding_round_id=i.funding_round_id
WHERE ob.milestones > 6
  AND f.name IS NOT NULL
  AND extract(YEAR
              FROM fr.funded_at::date) BETWEEN 2012 AND 2013
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


name_of_fund,name_of_company,amount
India Fund,Gigya,15300000.0
Mayfield XIII,Gigya,15300000.0
Fund XIV,Gigya,15300000.0
Benchmark Capital Partners VII LP,Gigya,15300000.0
Benchmark Capital Partners VIII LP,Gigya,15300000.0


18. Выгрузите таблицу, в которой будут такие поля:
* название компании-покупателя;
* сумма сделки;
* название компании, которую купили;
* сумма инвестиций, вложенных в купленную компанию;
* доля, которая отображает, во сколько раз сумма покупки превысила сумму вложенных в компанию инвестиций, округлённая до ближайшего целого числа.

Не учитывайте те сделки, в которых сумма покупки равна нулю. Если сумма инвестиций в компанию равна нулю, исключите такую компанию из таблицы.
Отсортируйте таблицу по сумме сделки от большей к меньшей, а затем по названию купленной компании в алфавитном порядке. Ограничьте таблицу первыми десятью записями.

In [24]:
%%sql
SELECT c_acquiring.name acquiring_company,
       a.price_amount,
       c_acquired.name acquired_company,
       c_acquired.funding_total_usd,
       round(a.price_amount / c_acquired.funding_total_usd) roi
FROM acquisitions a
JOIN objects c_acquiring ON c_acquiring.id=a.acquiring_object_id
JOIN objects c_acquired ON c_acquired.id=a.acquired_object_id
WHERE a.price_amount != 0
  AND c_acquired.funding_total_usd != 0
ORDER BY a.price_amount DESC,
         acquired_company
LIMIT 10 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
10 rows affected.


acquiring_company,price_amount,acquired_company,funding_total_usd,roi
Microsoft,8500000000.0,Skype,76805032.0,111.0
Scout Labs,4900000000.0,Varian Semiconductor Equipment Associates,4800000.0,1021.0
Broadcom,3700000000.0,Aeluros,7970000.0,464.0
Broadcom,3700000000.0,NetLogic Microsystems,188527015.0,20.0
Level 3 Communications,3000000000.0,Global Crossing,41000000.0,73.0
Yahoo!,2870000000.0,GeoCities,40000000.0,72.0
eBay,2600000000.0,Skype,76805032.0,34.0
Salesforce,2500000000.0,ExactTarget,238209999.0,10.0
International Benefits Holdings,2500000000.0,Reward Gateway,39722025.0,63.0
Johnson & Johnson,2300000000.0,Crucell,443000000.0,5.0


19. Выгрузите таблицу, в которую войдут названия компаний из категории social, получившие финансирование с 2010 по 2013 год включительно. Выведите также номер месяца, в котором проходил раунд финансирования.

In [25]:
%%sql
SELECT ob.name,
       extract(MONTH
               FROM f.funded_at::date) funded_month
FROM funding_rounds f
JOIN objects ob ON ob.id=f.object_id
WHERE ob.category_code = 'social'
  AND f.raised_amount != 0
  AND extract(YEAR
              FROM f.funded_at::date) BETWEEN 2010 AND 2013
LIMIT 5 ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


name,funded_month
WorkSimple,3.0
Klout,1.0
Twitter,1.0
HengZhi,1.0
SocialGO,1.0


20. Отберите данные по месяцам с 2010 по 2013 год, когда проходили инвестиционные раунды. Сгруппируйте данные по номеру месяца и получите таблицу, в которой будут поля:
* номер месяца, в котором проходили раунды;
* количество уникальных названий фондов из США, которые инвестировали в этом месяце;
* количество компаний, купленных за этот месяц;
* общая сумма сделок по покупкам в этом месяце.

In [26]:
%%sql
SELECT t1.months,
       t1.funds_cnt,
       t2.acquired_cnt,
       t2.total_amount
FROM
  (SELECT extract(MONTH
                  FROM fr.funded_at::date) months,
          count(DISTINCT f.name) funds_cnt
   FROM funding_rounds fr
   JOIN investments i ON i.funding_round_id=fr.funding_round_id
   JOIN funds f ON f.object_id=i.investor_object_id
   JOIN offices OF ON of.object_id=i.investor_object_id
   AND extract(YEAR
               FROM fr.funded_at::date) BETWEEN 2010 AND 2013
   AND of.country_code = 'USA'
   GROUP BY months) t1
JOIN
  (SELECT extract(MONTH
                  FROM acquired_at::date) months,
          count(acquired_object_id) acquired_cnt,
          sum(price_amount) total_amount
   FROM acquisitions
   WHERE extract(YEAR
                 FROM acquired_at::date) BETWEEN 2010 AND 2013
   GROUP BY months) t2 ON t1.months=t2.months ;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
12 rows affected.


months,funds_cnt,acquired_cnt,total_amount
1.0,478,605,27120983206.0
2.0,434,422,41529963900.0
3.0,415,467,59690512670.0
4.0,429,419,30601314111.0
5.0,438,543,86881310000.0
6.0,461,542,54469790150.0
7.0,457,497,50084584358.0
8.0,447,462,78004015001.0
9.0,463,504,70653865061.0
10.0,458,480,50246690433.0


21. Составьте сводную таблицу и выведите среднюю сумму инвестиций для стран, в которых есть стартапы, зарегистрированные в 2011, 2012 и 2013 годах. Данные за каждый год должны быть в отдельном поле. Отсортируйте таблицу по среднему значению инвестиций за 2013 год от большего к меньшему.

In [27]:
%%sql
WITH t AS
  (SELECT country_code,
          extract(YEAR
                  FROM founded_at::date) years,
          avg(funding_total_usd) avg_funding
   FROM objects
   GROUP BY country_code,
            years
   HAVING extract(YEAR
                  FROM founded_at::date) BETWEEN 2011 AND 2013)
SELECT t1.country_code,
       sum(t1.avg_funding) avg_funding_2011,
       sum(t2.avg_funding) avg_funding_2012,
       sum(t3.avg_funding) avg_funding_2013
FROM t t1
JOIN t AS t2 ON t2.country_code=t1.country_code
JOIN t AS t3 ON t3.country_code=t1.country_code
WHERE t1.years=2011
  AND t2.years=2012
  AND t3.years=2013
GROUP BY t1.country_code
ORDER BY avg_funding_2013 DESC
LIMIT 5;

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


country_code,avg_funding_2011,avg_funding_2012,avg_funding_2013
USA,2195878.16790871,1181421.148056245,1071699.9634674925
CHN,937647.0588235294,579255.2631578947,1000000.0
FRA,938759.2533333332,291227.592920354,631557.2131147541
KOR,576678.947368421,141704.54545454544,352857.14285714284
ISR,992225.9158878505,1223691.5887850467,287765.9574468085


22. Посчитайте количество IPO по месяцам начиная с 2011 года используя оконные функции.

In [28]:
%%sql
SELECT date_trunc('Month', public_at::date)::date ipo_year,
       count(object_id) OVER (PARTITION BY date_trunc('Month', public_at::date)) cnt
FROM ipos
WHERE valuation_amount > 0
  AND EXTRACT (YEAR
               FROM public_at::date) > 2011
LIMIT 5

 * postgresql://foxvqhde:***@abul.db.elephantsql.com:5432/foxvqhde
5 rows affected.


ipo_year,cnt
2012-02-01,2
2012-02-01,2
2012-03-01,4
2012-03-01,4
2012-03-01,4
