<img src=../../Img/sci.png>

### Финансовый университет

##  Инструментальная поддержка анализа финансово-экономических данных

## Тема 5. Работа с базами данных в Пайтон

Семинар<br>
10 апреля 2021 года<br>
Поток: ПМ18-1, ПМ18-2, ПМ18-3, ПМ18-4

Преподаватель: Смирнов Михаил Викторович, доцент Департамента анализа данных и машинного обучения Финансового университета при Правительстве Российской Федерации. mvsmirnov@fa.ru

Москва - 2021

При подготовке материалов учебных занятий использовались источники
- Essential SQLAlchemy: Mapping Python to Databases 2nd Edition. Jason Myers, Rick Copeland. O'Reilly Media, Inc. 2015.
- <a href="http://insideairbnb.com/get-the-data.html">Inside Airbnb</a>

## Проект Антверпен

<img src=./Img/Antwerp_small.png>

### Задание
Используя исходные данные системы *Airbnb* в формате *csv* об объектах размещения туристов в Антверпене, создать реляционную базу данных согласно схеме. Создать необходимые ограничения. Наполнить базу данных.

<img src=./Img/Schema.png>

## 1. Изучение источника данных

In [1]:
import pandas as pd

In [2]:
df=pd.read_csv("Data/listings_antwerp.csv")
df

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,50904,aplace/antwerp: cosy suite - fashion district,234077,Karin,,Historisch Centrum,51.21825,4.39901,Hotel room,145,1,1,2015-05-06,0.01,4,226
1,67776,Beautiful Big House Center Antwerp,334804,Ann,,Sint-Andries,51.21467,4.39225,Entire home/apt,50,7,9,2016-10-24,0.08,2,210
2,116134,Trendy Vacation Apartment Antwerp,586942,Paul,,Eilandje,51.23051,4.40593,Entire home/apt,150,2,102,2020-11-16,0.93,1,351
3,224333,Large stylish room in 1930s house + garden,1167377,Geert,,Deurne Zuid West,51.19772,4.45853,Private room,16,14,2,2020-07-04,0.02,2,310
4,224682,APARTMENT ROSCAM - OLD CENTRE ANTWERP,1263933,Kristien,,Sint-Andries,51.21722,4.39790,Entire home/apt,70,2,344,2021-01-28,3.13,1,299
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1711,48217347,Antwerp top location! Beautiful 1 BDR apartment,129071533,Funny,,Eilandje,51.22729,4.40859,Entire home/apt,80,7,0,,,1,90
1712,48224026,New LUXE DESIGN apt in centre Het zuid with HO...,389076822,Jean-Paul From BnbSupport,,Zuid,51.21135,4.39703,Entire home/apt,399,2,0,,,1,364
1713,48227279,"Recently renovated, light apartment at great spot",70627813,Enid,,Nieuw - Kwartier Oost,51.18437,4.43935,Entire home/apt,45,30,0,,,1,245
1714,48261827,Design appartement op toplocatie,266540939,Katia,,Theaterbuurt-Meir,51.21321,4.40922,Entire home/apt,145,7,0,,,1,87


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1716 entries, 0 to 1715
Data columns (total 16 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id                              1716 non-null   int64  
 1   name                            1716 non-null   object 
 2   host_id                         1716 non-null   int64  
 3   host_name                       1716 non-null   object 
 4   neighbourhood_group             0 non-null      float64
 5   neighbourhood                   1716 non-null   object 
 6   latitude                        1716 non-null   float64
 7   longitude                       1716 non-null   float64
 8   room_type                       1716 non-null   object 
 9   price                           1716 non-null   int64  
 10  minimum_nights                  1716 non-null   int64  
 11  number_of_reviews               1716 non-null   int64  
 12  last_review                     14

Удалим столбец *neighbourhood_group*, так как он не содержит данных

In [4]:
df.drop("neighbourhood_group", axis=1, inplace=True)

В поле *last_review* более 300 записей содержат пустые значения. Заменим все такие значения на дату 1 января 1990 года

In [5]:
df["last_review"].fillna("1990-01-01", inplace=True)

Также имеются пустые значения в поле *number_of_reviews*. Такие заменим на нуль.

In [6]:
df["reviews_per_month"].fillna(0, inplace=True)

In [7]:
df.loc[606]

id                                                               26317331
name                              Nice appartement with terrace and airco
host_id                                                         197906689
host_name                                                             Guy
neighbourhood                                             Wilrijk Centrum
latitude                                                          51.1719
longitude                                                         4.39071
room_type                                                 Entire home/apt
price                                                                  75
minimum_nights                                                        120
number_of_reviews                                                       1
last_review                                                    2019-01-07
reviews_per_month                                                    0.04
calculated_host_listings_count        

## 2. Создание базы данных *Antwerp.db*

In [8]:
# ! pip install sqlalchemy

In [9]:
import sqlalchemy

from sqlalchemy import (create_engine, MetaData, Table, Column,
                        Integer, Numeric, String, DateTime, Date, Boolean,
                        ForeignKey, PrimaryKeyConstraint, UniqueConstraint, 
                        CheckConstraint, ForeignKeyConstraint,
                        insert, select, func)

from datetime import date, datetime as dt
from pprint import pprint

engine = create_engine('sqlite:///Antwerp.db')
metadata = MetaData()

In [10]:
listings=Table('listings', metadata,
            Column('listing_id',Integer(),primary_key=True),
            Column('listing_name',String(100),index=True),
            Column('host_id',Integer()),
            Column('neighbourhood_id',Integer()),
            Column('latitude',Numeric(10,2)),
            Column('longitude',Numeric(10,2)),
            Column('room_type_id',Integer()),
            Column('price',Integer()),
            Column('minimum_nights',Integer()),
            Column('number_of_reviews', Integer()),
            Column('last_review', DateTime()),
            Column('reviews_per_month', Numeric(10,2)),
            Column('availability_365', Integer()),
            ForeignKeyConstraint(['host_id'], ['hosts.host_id']),
            ForeignKeyConstraint(['neighbourhood_id'], ['neighbourhoods.neigh_id']),
            ForeignKeyConstraint(['room_type_id'], ['room_types.room_type_id']),
            extend_existing=True
            )

In [11]:
users=Table('users',metadata,
            Column('user_id',Integer(),primary_key=True),
            Column('user_name',String(15),nullable=False,unique=True),
            Column('email_address',String(255),nullable=False),
            Column('phone',String(20),nullable=False),
            Column('password',String(25),nullable=False),
            Column('created_on',Date(),default=date.today()),
            Column('updated_on',Date(),default=date.today(),onupdate=date.today()),
            extend_existing=True
           )

In [12]:
orders = Table('orders', metadata,
            Column('order_id', Integer(),primary_key=True),
            Column('user_id', ForeignKey('users.user_id')),
            extend_existing=True
            )

In [13]:
line_items = Table('line_items', metadata,
                   Column('line_item_id', Integer(), primary_key=True),
                   Column('order_id', Integer()),
                   Column('listing_id', ForeignKey('listings.listing_id')),
                   Column('item_start_date', Date()),
                   Column('item_end_date', Date()),
                   Column('item_price', Integer()),
                   extend_existing=True
                  )

line_items.append_constraint(
    ForeignKeyConstraint(['order_id'], ['orders.order_id'])
)

In [14]:
neighbourhoods=Table('neighbourhoods',metadata,
                    Column('neigh_id',Integer(),primary_key=True),
                    Column('name',String(30)),
                    extend_existing=True
                   )

In [15]:
hosts=Table('hosts',metadata,
           Column('host_id',Integer(),primary_key=True),
           Column('name',String(30))
          )

In [16]:
room_types=Table('room_types',metadata,
                Column('room_type_id',Integer(),primary_key=True),
                Column('name',String(30))
               )

In [17]:
metadata.create_all(engine)

Проверим, какие таблицы созданы

In [18]:
metadata.tables.keys()

dict_keys(['listings', 'users', 'orders', 'line_items', 'neighbourhoods', 'hosts', 'room_types'])

In [19]:
pprint(metadata.tables)

{'hosts': Table('hosts', MetaData(bind=None), Column('host_id', Integer(), table=<hosts>, primary_key=True, nullable=False), Column('name', String(length=30), table=<hosts>), schema=None),
 'line_items': Table('line_items', MetaData(bind=None), Column('line_item_id', Integer(), table=<line_items>, primary_key=True, nullable=False), Column('order_id', Integer(), ForeignKey('orders.order_id'), table=<line_items>), Column('listing_id', Integer(), ForeignKey('listings.listing_id'), table=<line_items>), Column('item_start_date', Date(), table=<line_items>), Column('item_end_date', Date(), table=<line_items>), Column('item_price', Integer(), table=<line_items>), schema=None),
 'listings': Table('listings', MetaData(bind=None), Column('listing_id', Integer(), table=<listings>, primary_key=True, nullable=False), Column('listing_name', String(length=100), table=<listings>), Column('host_id', Integer(), ForeignKey('hosts.host_id'), table=<listings>), Column('neighbourhood_id', Integer(), Foreign

## 3. Наполнение справочников

Соединение

In [20]:
connection=engine.connect()

### 3.1. Справочник районов

In [21]:
df.head(1)

Unnamed: 0,id,name,host_id,host_name,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,50904,aplace/antwerp: cosy suite - fashion district,234077,Karin,Historisch Centrum,51.21825,4.39901,Hotel room,145,1,1,2015-05-06,0.01,4,226


In [22]:
neigh_names=df["neighbourhood"].unique()
neigh_list = []
for i, x in enumerate(neigh_names):
    neigh_dict = {'neigh_id':i+1, 'name':x}
    neigh_list.append(neigh_dict)
print("Всего районов:", len(neigh_list))
neigh_list[:1]

Всего районов: 53


[{'neigh_id': 1, 'name': 'Historisch Centrum'}]

In [23]:
ins=neighbourhoods.insert()
connection.execute(ins,neigh_list)

<sqlalchemy.engine.result.ResultProxy at 0x1652b75a748>

Проверка - запрос к таблице.

In [24]:
sel=select([neighbourhoods])
connection.execute(sel).fetchone()

(1, 'Historisch Centrum')

### 3.2. Справочник типов комнат

In [25]:
room_type_names=df["room_type"].unique()
rooms_list=[]
for i, name in enumerate(room_type_names):
    tmp_dict={"room_type_id":i+1, "name":name}
    rooms_list.append(tmp_dict)
print("Всего типов комнат:", len(rooms_list))
rooms_list[:1]

Всего типов комнат: 4


[{'room_type_id': 1, 'name': 'Hotel room'}]

In [26]:
ins=room_types.insert()
connection.execute(ins,rooms_list)

<sqlalchemy.engine.result.ResultProxy at 0x1652b7a0c88>

### 3.3. Справочник владельцев

In [27]:
hosts_names=df["host_name"].unique()
hosts_list=[]
for i, x in enumerate(hosts_names):
    tmp_dict={"host_id":i+1, "name":x}
    hosts_list.append(tmp_dict)
print("Всего владельцев:", len(hosts_list))
hosts_list[:1]

Всего владельцев: 707


[{'host_id': 1, 'name': 'Karin'}]

In [28]:
ins=hosts.insert()
connection.execute(ins,hosts_list)

<sqlalchemy.engine.result.ResultProxy at 0x1652b7a0a48>

## 4. Наполнение таблиц

### 4.1.  Таблица *listings*

В процессе наполнения таблицы *listings* мы будем подставлять вместо названий районов, названий типов комнат и имен владельцев их идентификаторы. Для этого создадим словари районов, типов комнат и владельцев, откуда будем подставлять в таблицу соовтетствующие значения идентификаторов. Ключами словаря будут названия и имена, а значениями идентификаторы.

In [29]:
neigh_dict = {x:i+1 for i, x in enumerate(neigh_names)}
room_type_dict = {x:i+1 for i, x in enumerate(room_type_names)}
host_dict = {x:i+1 for i, x in enumerate(hosts_names)}

In [30]:
l=df.loc[0,'latitude']
print(l, type(l), type(float(l)))

51.21825 <class 'numpy.float64'> <class 'float'>


In [31]:
lst = []
for row_id in df.index[:]:
    tmp_dict={
        'listing_id': int(df.loc[row_id, 'id']),
        'listing_name': df.loc[row_id, 'name'],
        'host_id': int(host_dict[df.loc[row_id, 'host_name']]),
        'neighbourhood_id': int(neigh_dict[df.loc[row_id, 'neighbourhood']]),
        'latitude': float(df.loc[row_id, 'latitude']),
        'longitude': float(df.loc[row_id, 'longitude']),
        'room_type_id': int(room_type_dict[df.loc[row_id, 'room_type']]),
        'price': int(df.loc[row_id, 'price']),
        'minimum_nights': int(df.loc[row_id, 'minimum_nights']),
        'number_of_reviews': int(df.loc[row_id, 'number_of_reviews']),
        'last_review': dt.strptime(df.loc[row_id, 'last_review'],'%Y-%m-%d'),
        'reviews_per_month': df.loc[row_id, 'reviews_per_month'],
        'availability_365': df.loc[row_id, 'availability_365']
    }
 
    lst.append(tmp_dict)
print("Добавлено в список элементов:", len(lst))
lst[0]

Добавлено в список элементов: 1716


{'listing_id': 50904,
 'listing_name': 'aplace/antwerp: cosy suite - fashion district',
 'host_id': 1,
 'neighbourhood_id': 1,
 'latitude': 51.21825,
 'longitude': 4.39901,
 'room_type_id': 1,
 'price': 145,
 'minimum_nights': 1,
 'number_of_reviews': 1,
 'last_review': datetime.datetime(2015, 5, 6, 0, 0),
 'reviews_per_month': 0.01,
 'availability_365': 226}

In [32]:
ins = listings.insert()

In [33]:
result=connection.execute(ins, lst)

Проверка с помощью запроса

In [35]:
sel=select([listings])
connection.execute(sel).fetchone()

(50904, 'aplace/antwerp: cosy suite - fashion district', 1, 1, Decimal('51.22'), Decimal('4.40'), 1, 145, 1, 1, datetime.datetime(2015, 5, 6, 0, 0), Decimal('0.01'), b'\xe2\x00\x00\x00\x00\x00\x00\x00')

### 4.2 Таблицы *users, orders, line_items*

In [None]:
def insert_values(table, values_list):
    for value in values_list:
        ins = insert(table).values(value)
        connection.execute(ins)

In [None]:
user_list=[(1,'Nicolas','nicolas@rambler.ru','+7-929-616-88-77','@#$%890'),
           (2,'Lida','lidaok@gmail.com','+7-929-616-88-77','yyT$%333'),
           (3,'Vera','lveramuns@gmail.com','+7-353-214-12-90','yyT$%333'),
           (4,'Ivan','ivaturgenev@yandex.ru','+7-047-121-89-95','tT6^7&#20Oy'),
           (5,'Svetlana','svetaivanova@microsoft.com','+7-812-555-48-71','SD%@OUsdc7')
          ]
insert_values(user,user_list)

In [None]:
sel=select([user])
connection.execute(sel).fetchone()

In [None]:
order_list=[(1,1,True,500),
            (2,2,True,150),
            (3,3,True,180),
            (4,1,True,200),
            (5,2,True,220)]
insert_values(order,order_list)

In [None]:
sel=select([order])
connection.execute(sel).fetchone()

In [None]:
sel=select([listings.c.price])
connection.execute(sel).fetchone()

In [None]:
sel = select([func.max(listings.c.price)])
connection.execute(sel).scalar()