# La base de données Sakila

Un exemple de bases de données issu de la base de données [Sakila](https://dev.mysql.com/doc/sakila/en/), créée à l'origine par MySQL et ouverte selon les termes de la licence BSD.

La base de données Sakila est un schéma bien normalisé modélisant un magasin de location de DVD, présentant des éléments tels que des films, des acteurs, des relations film-acteur et une table d'inventaire centrale qui relie les films, les magasins et les locations.

![Alt text](data/sakila_uml.png)


# Pratique !

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sqlite3

%matplotlib inline

## Chargement de données

In [None]:
conn = sqlite3.connect('data/sakila.db')

df = pd.read_sql('''
    SELECT
        rental.rental_id, rental.rental_date, rental.return_date,
        customer.last_name AS customer_lastname,
        store.store_id,
        city.city AS rental_store_city,
        film.title AS film_title, film.rental_duration AS film_rental_duration,
        film.rental_rate AS film_rental_rate, film.replacement_cost AS film_replacement_cost,
        film.rating AS film_rating
    FROM rental
    INNER JOIN customer ON rental.customer_id == customer.customer_id
    INNER JOIN inventory ON rental.inventory_id == inventory.inventory_id
    INNER JOIN store ON inventory.store_id == store.store_id
    INNER JOIN address ON store.address_id == address.address_id
    INNER JOIN city ON address.city_id == city.city_id
    INNER JOIN film ON inventory.film_id == film.film_id
    ;
''', conn, index_col='rental_id', parse_dates=['rental_date', 'return_date'])

## Les données en un coup d'oeil

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.describe()

## Analyse numérique et visualisation

Nous allons analyser la colonne `film_rental_rate`

In [None]:
df['film_rental_rate'].describe()

In [None]:
df['film_rental_rate'].mean()

In [None]:
df['film_rental_rate'].median()

In [None]:
df['film_rental_rate'].plot(kind='box', vert=False, figsize=(14,6))

In [None]:
df['film_rental_rate'].plot(kind='density', figsize=(14,6)) # kde

In [None]:
ax = df['film_rental_rate'].value_counts().plot(kind='bar', figsize=(14,6))
ax.set_ylabel('Number of Rentals')

## Analyse catégorique et visualisation

Nous allons analyser la colonne `Rental_store_city`

In [None]:
df['rental_store_city'].value_counts()

In [None]:
df['rental_store_city'].value_counts().plot(kind='pie', figsize=(6,6))

In [None]:
ax = df['rental_store_city'].value_counts().plot(kind='bar', figsize=(14,6))
ax.set_ylabel('Number of Rentals')

## Opérations sur de colonnes

Nous pouvons également créer de nouvelles colonnes ou modifier celles existantes.
Ajouter et calculer une nouvelle colonne `Rental_rate_return`

Nous souhaitons connaître le taux de rentabilité de la location de chaque film. Pour ce faire, nous utiliserons cette formule :

$$ rental\_gain\_return = \frac{film\_rental\_rate}{film\_replacement\_cost}*100$$

In [None]:
df['rental_gain_return'] = df['film_rental_rate'] / df['film_replacement_cost'] * 100

df['rental_gain_return'].head()

In [None]:
df['rental_gain_return'].mean().round(2)

In [None]:
df['rental_gain_return'].median().round(2)

In [None]:
ax = df['rental_gain_return'].plot(kind='density', figsize=(14,6)) # kde
ax.axvline(df['rental_gain_return'].mean(), color='red')
ax.axvline(df['rental_gain_return'].median(), color='green')

Il faut donc 7.35 locations pour récupérer le prix du marché du film (`film_replacement_cost`)

In [None]:
100 / 13.6

Alors qu'en moyenne chaque film est loué 16.74 fois.

In [None]:
df['film_title'].value_counts().mean()

# Sélection et indexation :

Obtenez les dossiers de location du client avec nom HANSEN

In [None]:
df.loc[df['customer_lastname'] == 'HANSEN']

Créez une liste de tous les films avec le coût de remplacement le plus élevé

In [None]:
df['film_replacement_cost'].max()

In [None]:
df.loc[df['film_replacement_cost'] == df['film_replacement_cost'].max(), 'film_title'].unique()

Combien de films classés PG ou PG-13 ont été loués ?

In [None]:
df.loc[(df['film_rating'] == 'PG') | (df['film_rating'] == 'PG-13')].shape[0]