# Introduction to relational databases

## Course: Programming and Data Management (EDI 3400)

### *Vegard H. Larsen (Department of Data Science and Analytics)*

## What you will learn

- リレーショナルデータベースの基本理論と SQL を使用したデータベースの使用方法
- SELECT`、`INSERT`、`JOIN`、`DELETE` などの SQL 文を使ったクエリの実行 
- DB Browser for SQLite を使ってデータベースを操作する
- データベースから Python にデータをインポートする
- Python でデータベースに格納されたデータを分析する


# 1. Introduction to Databases

## What is a database?

- データベースとは、テーブル(リレーションとも呼ばれる)に格納されたデータの集合体である。
- 存在するデータのほとんどはデータベースに格納されている
- データベースはデータの読み取り、作成、変更、削除の機能を提供する
- リレーショナル・データベースとは、データが行と列を持つテーブルに格納されていることを意味する
- ここではリレーショナル・データベースのみに焦点を当てる 
    - 代替案 インメモリデータベース、NoSQL

## Why do we need a Database?

- 一貫性のある安全な方法でデータを保存する
- データの整理された構造を提供する
- 多くのユーザーが同時にデータを変更できる（並行性）
- 巨大なデータセットを多人数で共有できる 
- 同じデータが多くの場所に保存されるのを避けることができる（冗長性）

## Splitting the information up in informational themes

- データベースは情報をテーブル（行と列）に格納する。
- それぞれの*テーマ*は、独自のテーブルを持つ必要があります（例えば、*顧客*、*従業員*、*学生*、*売上*）。
- このようにするのは、情報がシステム内の1つの場所にのみ保存されるようにするためです。
- テーブルを後で結合することで、必要な情報やデータの組み合わせを得ることができる。

## Bad example: sales data

<table>
   <thead>
      <tr>
         <th></th>
         <th>Date</th>
         <th>Employee</th>
         <th>CustomerId</th>
         <th>Price</th>
         <th>CustomerAddress</th> 
         <th>EmployeeCommission</th>
         <th>CustomerPhone</th>
      </tr>
   </thead>
   <tbody>
      <tr>
         <td>Sale 1</td>
         <td>2022-09-10</td>
         <td>Ted</td>
         <td>2566</td>
         <td>1050</td>
         <td>2210 Tromsø</td>
         <td>0.65</td>
         <td>43251010</td>
      </tr>
      <tr>
         <td>Sale 2</td>
         <td>2022-09-10</td>
         <td>Lisa</td>
         <td>1889</td>
         <td>2000</td>
         <td>1015 Oslo</td>
         <td>0.68</td>
         <td>98589585</td>
      </tr>
      <tr>
         <td>Sale 3</td>
         <td>2022-09-11</td>
         <td>Lisa</td>
         <td>4545</td>
         <td>750</td>
         <td>1025 Oslo</td>
         <td>0.68</td>
         <td>99559955</td>
      </tr>
      <tr>
         <td>Sale 4</td>
         <td>2022-09-11</td>
         <td>Eric</td>
         <td>8321</td>
         <td>1255</td>
         <td>7420 Bergen</td>
         <td>0.5</td>
         <td>45969696</td>
      </tr>
      <tr>
         <td>Sale 5</td>
         <td>2022-09-11</td>
         <td>Ted</td>
         <td>4545</td>
         <td>525</td>
         <td>1025 Oslo</td>
         <td>0.65</td>
         <td>99559955</td>
      </tr>
   </tbody>
</table>

## A better solution for storing the same data


Sales table:

<table>
   <thead>
      <tr>
         <th>id</th> 
         <th>Date</th>
         <th>Price</th>
         <th>CustomerId</th>
         <th>EmployeeId</th>
      </tr>
   </thead>
   <tbody>
      <tr>
         <td>1</td>
         <td>2022-09-10</td>
         <td>1050</td>
         <td>2566</td>
         <td>1</td>
      </tr>
      <tr>
         <td>2</td>
         <td>2022-09-10</td>
         <td>2000</td>
         <td>1889</td>
         <td>2</td>
      </tr>
      <tr>
         <td>3</td>
         <td>2022-09-11</td>
         <td>750</td>
         <td>4545</td>
         <td>2</td>
      </tr>
      <tr>
         <td>4</td>
         <td>2022-09-11</td>
         <td>1255</td>
         <td>8321</td>
         <td>3</td>
      </tr>
      <tr>
         <td>5</td>
         <td>2022-09-11</td>
         <td>525</td>
         <td>4545</td>
         <td>1</td>
      </tr>
   </tbody>
</table>

Employees table:
    
<table>
   <thead>
      <tr>
         <th>id</th> 
         <th>FirstName</th>
         <th>Commission</th>
      </tr>
   </thead>
   <tbody>
      <tr>
         <td>1</td>
         <td>Ted</td>
         <td>0.65</td>
      </tr>
      <tr>
         <td>2</td>
         <td>Lisa</td>
         <td>0.68</td>
      </tr>
      <tr>
         <td>3</td>
         <td>Eric</td>
         <td>0.5</td>
      </tr>
   </tbody>
</table>

Customers table:
    
<table>
   <thead>
      <tr>
         <th>id</th> 
         <th>Address</th>
         <th>Phone</th>
      </tr>
   </thead>
   <tbody>
      <tr>
         <td>...</td>
         <td>...</td>
         <td>...</td>
      </tr>
      <tr>
         <td>1889</td>
         <td>1015 Oslo</td>
         <td>98589585</td>
      </tr>
        <tr>
         <td>...</td>
         <td>...</td>
         <td>...</td>
      </tr>
      <tr>
         <td>2566</td>
         <td>2210 Tromsø</td>
         <td>43251010</td>
      </tr>
        <tr>
         <td>...</td>
         <td>...</td>
         <td>...</td>
      </tr>
      <tr>
         <td>4545</td>
         <td>1025 Oslo</td>
         <td>99559955</td>
      </tr>
        <tr>
         <td>...</td>
         <td>...</td>
         <td>...</td>
      </tr>
      <tr>
        <td>8321</td>
        <td>7420 Bergen</td>
        <td>45969696</td>
      </tr>
   </tbody>
</table>

# 2. A demo of accessing a database with SQLite

# 3. Components of a Database System

## **User** $\leftarrow\rightarrow$ **Database application**  $\leftarrow\rightarrow$ DBMS $\leftarrow\rightarrow$ **Database**

## Database application

This is the software that interacts with the database. A database application is a computer program whose primary purpose is retrieving information from a computerized database. Many of the applications we use today are database applications.

Examples:
- Facebook
- Wikipedia
- eBay

We will interact with databases using 

- DB Browser for SQLite, https://sqlitebrowser.org
- Python's sqlite3 library

## DBMS - Database Management System

データベース管理システム(DBMS)は、エンドユーザー、アプリケーション、データベースそのものと相互作用し、データを取り込み、分析するソフトウェアである。DBMSソフトウェアはデータベースを管理するために使用される。

- ユーザーコントロール（誰がデータベースにアクセスできるか）
- パーミッション（誰が何にアクセスできるか、一部のユーザーは読み込みのみ可能など）
- データベースの構造に関する特定のルールを定義する

Examples of DBMS:

- MySQL
- Oracle
- Microsoft Access
- **SQLite**

## Pros and Cons for SQLite

### Pros
- Easy to use 
- No installation needed
- Lightweight and portable
- Does not requier a server
- No login required

### Cons
- It has a limited database size (limited by file system on the computer)
- Lack of multi-user capabilities
- Less support for advanced functions
- Better options for large databases

# 4. The Relational Model

## Entity

- An entity is something of importance for the user (company, organization, researcher etc.) that we want to store in a database. 

(エンティティとは、ユーザー（企業、組織、研究者など）にとって重要なもので、データベースに格納したいものである。)
- This entity should represent a theme or concept of importance 

(このエンティティは、重要なテーマやコンセプトを表す必要があります。)

Examples of entities:

- A particular sale 
- A customer 
- An employee
- A product

## Tables
- A table should represent something specific (the group that the entity belongs too)
- Two dimensional with rows and columns 行と列のある2次元のもの
- A cell in the table should hold a single value
- Try to not mix different concepts/themes in the same table
- Find good names for the tables (see Chapter 3 Viescas)

## Rows 行 (横)
- An instance of an entity is represented as a row エンティティのインスタンスは行として表現される。
- E.g., one particular customer have one and only one row in the Customers table
- No two rows can be identical
- The order of the rows is not important

## Columns 列 (縦)

- The columns contain specific data that is common for many instances of the entity　列には、エンティティの多くのインスタンスに共通する特定のデータが含まれます。
- Columns within the same table must have unique names　同じテーブル内のカラムは一意な名前でなければならない。
- E.g., all customers should have a phone number registered, the phone number is the specific data that should be an attribute of all the instances of an entity of type customer
- All the values in a specific column should be of the same type. (We will talk about valid data types later)
- The order of the columns does not matter 

## Keys

- A key is a column in a table where the values are used to identify a specific set of rows
- Two main types of keys
    1. Primary key　主キー
    2. Foreign key 外部キー
- Every table should have one primary key column. All values of this column should be unique so we can use this column to identify all the different rows in the table 
- A foreign key is usually a column that contains keys that is a primary key in an other table. They do not need to be unique. 
- A foreign key is usually a column that contains keys that is a primary key in an other table. They do not need to be unique. 
- The foreign key is used to link two tables together.

Sales table:

<table>
   <thead>
      <tr>
         <th>SalesID</th> 
         <th>Date</th>
         <th>Price</th>
         <th>CustomerId</th>
         <th>EmployeeId</th>
      </tr>
   </thead>
   <tbody>
      <tr>
         <td>1</td>
         <td>2022-09-10</td>
         <td>1050</td>
         <td>2566</td>
         <td>1</td>
      </tr>
      <tr>
         <td>2</td>
         <td>2022-09-10</td>
         <td>2000</td>
         <td>1889</td>
         <td>2</td>
      </tr>
      <tr>
         <td>3</td>
         <td>2022-09-11</td>
         <td>750</td>
         <td>4545</td>
         <td>2</td>
      </tr>
      <tr>
         <td>4</td>
         <td>2022-09-11</td>
         <td>1255</td>
         <td>8321</td>
         <td>3</td>
      </tr>
      <tr>
         <td>5</td>
         <td>2022-09-11</td>
         <td>525</td>
         <td>4545</td>
         <td>1</td>
      </tr>
   </tbody>
</table>

Employees table:
    
<table>
   <thead>
      <tr>
         <th>EmployeeID</th> 
         <th>FirstName</th>
         <th>Commission</th>
      </tr>
   </thead>
   <tbody>
      <tr>
         <td>1</td>
         <td>Ted</td>
         <td>0.65</td>
      </tr>
      <tr>
         <td>2</td>
         <td>Lisa</td>
         <td>0.68</td>
      </tr>
      <tr>
         <td>3</td>
         <td>Eric</td>
         <td>0.5</td>
      </tr>
   </tbody>
</table>

## Join-operation
- We can link data from different tables together
- A row in one table can be linked to a row in another table by identifying common keys 
- We will use SQL to perform these Join-operations later これらのJoin操作は、後でSQLを使って行う。

## Views
- ビューは、データベース内のデータのサブセットを表示するもので、1つまたは複数のテーブルで実行されるクエリに基づいています。
- ビューは、多くのテーブルの情報を1つのテーブルにまとめて表示することができる。
- ビューを使用して、先ほどの例の3つのテーブルの情報を結合し、最初の（悪い）テーブルを表示することができます。

### Terminology 用語解説 (same concept, different name)

 - **Table** - Relation - File
 - **Row** - Tuple - Record
 - **Column** - Attribute - Field
 

# 5. The Structured Query Language (SQL)

## What is SQL?
- A computer language used for interacting with data in relational databases
- SQL is an international standard language for creating and querying databases and their tables
- Most data-driven applications and websites rely on SQL to retrieve, insert, delete and modify data 

(データ駆動型のアプリケーションやウェブサイトのほとんどは、データの取得、挿入、削除、変更にSQLを使用している。)

## Data manipulation
- `SELECT` is used to retrieve certain records from one or more tables.
- `INSERT` to create a record.
- `UPDATE` to modify records.
- `DELETE` to delete records.

## Getting data out of the database

- The `SELECT` statement can be used together with other SQL commands to retreive specific combinations of the data in the database 
- `FROM` select **from** specific table
- `WHERE` select **where** a condition is met
- `JOIN` **join** tables on keys 