## Лабораторна робота № 4. Зчитування даних з реляційних баз даних.

Дані для цієї лабораторної роботи взяті з https://www.kaggle.com/benhamner/nips-2015-papers

Для виконання лабораторної необхідно завантажити файл бази даних SQLite за посиланням: «https://www.dropbox.com/s/pf2htfcrdoqh3ii/database.sqlite?dl=0».

В цьому файлі містяться дані по доповідям на Neural Information Processing Systems (NIPS) яка є однією з ведучих конференцій по машинному навчанню в світі. База даних складається з наступних таблиць:

#### Papers

This file contains one row for each of the 403 NIPS papers from this year's conference.
It includes the following fields

 Id - unique identifier for the paper (equivalent to the one in NIPS's system)
 
 Title - title of the paper
 
 EventType - whether it's a poster, oral, or spotlight presentation
 
 PdfName - filename for the PDF document
 
 Abstract - text for the abstract (scraped from the NIPS website)
 
 PaperText - raw text from the PDF document (created using the tool pdftotext)
 
#### Authors

This file contains id's and names for each of the authors on this year's NIPS papers.

 Id - unique identifier for the author (equivalent to the one in NIPS's system)
 
 Name - author's name
 
#### PaperAuthors

This file links papers to their corresponding authors.

 Id - unique identifier
 
 PaperId - id for the paper
 
 AuthorId - id for the author


### В результаті виконання лабораторної роботи необхідно створити фрейми даних:

1. Назва статті (Title), тип виступу (EventType). Необхідно вибрати тільки статті с типом виступу Spotlight. Сортування по назві статті.

2. Ім’я автора (Name), Назва статті (Title). Необхідно вивести всі назви статей для автора «Josh Tenenbaum». Сортування по назві статті.

3. Вибрати всі назви статей (Title), в яких є слово «statistical». Сортування по назві статті.

4. Ім’я автору (Name), кількість статей по кожному автору (NumPapers). Сортування по кількості статей від більшої кількості до меньшої.

In [1]:
import pandas as pd
import sqlite3

con = sqlite3.connect("database.sqlite") # или :memory: чтобы сохранить в RAM
cursor = con.cursor()

In [2]:
# Read sqlite query results into a pandas DataFrame

df1 = pd.read_sql_query("SELECT Name as Author FROM Authors ORDER BY Name", con)

# Verify that result of SQL query is stored in the dataframe
print(df1.head(10))



               Author
0       ABHISEK KUNDU
1      Aaditya Ramdas
2  Aaron C. Courville
3         Aaron Klein
4          Aaron Roth
5         Aarti Singh
6   Abbas Abdolmaleki
7  Abhradeep Thakurta
8          Adam Smith
9       Adarsh Prasad


### 1. Назва статті (Title), тип виступу (EventType). Необхідно вибрати тільки статті с типом виступу Spotlight. Сортування по назві статті.

In [3]:
df2 = pd.read_sql_query("SELECT Title, EventType   FROM Papers where EventType = 'Spotlight'  ORDER BY Title", con)

# Verify that result of SQL query is stored in the dataframe
print(df2.head(10))

                                               Title  EventType
0  A Tractable Approximation to Optimal Point Pro...  Spotlight
1  Accelerated Mirror Descent in Continuous and D...  Spotlight
2  Action-Conditional Video Prediction using Deep...  Spotlight
3                           Adaptive Online Learning  Spotlight
4  Asynchronous Parallel Stochastic Gradient for ...  Spotlight
5      Attention-Based Models for Speech Recognition  Spotlight
6            Automatic Variational Inference in Stan  Spotlight
7  Backpropagation for Energy-Efficient Neuromorp...  Spotlight
8  Bandit Smooth Convex Optimization: Improving t...  Spotlight
9  Biologically Inspired Dynamic Textures for Pro...  Spotlight


### 2. Ім’я автора (Name), Назва статті (Title). Необхідно вивести всі назви статей для автора «Josh Tenenbaum». Сортування по назві статті.

In [4]:
df3 = pd.read_sql_query("SELECT Authors.Name, Papers.Title FROM Authors left join PaperAuthors on  PaperAuthors.AuthorId = Authors.Id left join  Papers on Papers.ID = PaperAuthors.PaperId  ORDER BY Title", con)

# Verify that result of SQL query is stored in the dataframe
print(df3.head(10))

                   Name                                              Title
0          Sanja Fidler  3D Object Proposals for Accurate Object Class ...
1        Raquel Urtasun  3D Object Proposals for Accurate Object Class ...
2          Xiaozhi Chen  3D Object Proposals for Accurate Object Class ...
3         Kaustav Kundu  3D Object Proposals for Accurate Object Class ...
4             Yukun Zhu  3D Object Proposals for Accurate Object Class ...
5  Andrew G. Berneshawi  3D Object Proposals for Accurate Object Class ...
6             Huimin Ma  3D Object Proposals for Accurate Object Class ...
7         Rajesh P. Rao  A Bayesian Framework for Modeling Confidence i...
8       Koosha Khalvati  A Bayesian Framework for Modeling Confidence i...
9             Emily Fox     A Complete Recipe for Stochastic Gradient MCMC


### 3. Вибрати всі назви статей (Title), в яких є слово «statistical». Сортування по назві статті.

In [5]:
df4 = pd.read_sql_query("SELECT Title FROM Papers where Title LIKE '%statistical%'", con)

print(df4.head(10))

                                               Title
0  Statistical Model Criticism using Kernel Two S...
1  Fast Randomized Kernel Ridge Regression with S...
2  Regularized EM Algorithms: A Unified Framework...
3  Adaptive Primal-Dual Splitting Methods for Sta...
4  Evaluating the statistical significance of bic...
5  Statistical Topological Data Analysis - A Kern...
6  High Dimensional EM Algorithm: Statistical Opt...
7  Non-convex Statistical Optimization for Sparse...


### 4. Ім’я автору (Name), кількість статей по кожному автору (NumPapers). Сортування по кількості статей від більшої кількості до меньшої.

In [6]:
df5 = pd.read_sql_query("SELECT Authors.Name, count(Papers.Title) FROM Authors left join PaperAuthors on  PaperAuthors.AuthorId = Authors.Id left join  Papers on Papers.ID = PaperAuthors.PaperId  Group by Authors.Name ORDER BY count(Papers.Title)", con)

# Verify that result of SQL query is stored in the dataframe
print(df5.head(10))

                 Name  count(Papers.Title)
0       ABHISEK KUNDU                    1
1      Aaditya Ramdas                    1
2  Aaron C. Courville                    1
3         Aaron Klein                    1
4          Aaron Roth                    1
5         Aarti Singh                    1
6   Abbas Abdolmaleki                    1
7  Abhradeep Thakurta                    1
8          Adam Smith                    1
9       Adarsh Prasad                    1


In [7]:
con.close()