# Brief Bases de données relationnelle 

1. Réaliser une veille sur les les différents SGBD. Proposer un exemple concret d’utilisation pour argumenter vos explications.

Selon leur construction et les possibilités qu'ils offrent, les SGBD peuvent être dit hiérarchiques, relationnels, orientés objet, objet-relationnels, XML/RDF ou mixtes. Ils peuvent être distribués, centralisés ou embarqués et peuvent être spatiaux. Ils se différencient également par la taille des bases de données qu'ils peuvent manipuler. En 2010, la majorité des SGBD sont de type relationnel : ils manipulent des bases de données conformément au modèle de données relationnel.

● Descriptions des SGBD relationnels classiques (forces des SGBD relationnels classiques et les propriétés ACID, faiblesses des SGBD relationnels classiques)

Selon ce modèle, les données sont placées dans des tables avec lignes et colonnes et n'importe quelle donnée contenue dans la base de données peut être retrouvée à l'aide du nom de la table, du nom de la colonne et de la clé primaire. Le modèle relationnel est destiné à assurer l'indépendance des données et à offrir les moyens de contrôler la cohérence et d'éviter la redondance. Il permet de manipuler les données comme des ensembles en effectuant des opérations de la théorie des ensembles. Les règles de cohérence qui s'appliquent aux bases de données relationnelles sont l'absence de redondance ou de nul des clés primaires, et l'intégrité référentielle.

Une opération sur les données est appelée une transaction ou transaction informatique. Par exemple, un transfert de fonds d'un compte de banque à un autre, même s'il implique plusieurs actions comme le débit d'un compte et le crédit d'un autre, est une seule transaction. les propriétés ACID (Atomicité, Cohérence, Isolation et Durabilité) sont un ensemble de propriétés qui garantissent qu'une transaction informatique est exécutée de façon fiable.

Les SGBDR sont idéales pour le traitement des transactions impliquant des données tabulaires stockées dans des colonnes et des lignes. Nous pouvons aussi analyser très efficacement ces données dans des bases de données multidimensionnelles. Les données qui se prêtent bien aux tables relationnelles sont de type atomique. Cela signifie tout simplement qu’elles peuvent être subdivisées jusqu’à arriver aux plus petits composants manipulables.

En revanche, les SGBDR sont incapables de gérer de TRES GRANDS VOLUMES de données (péta-octets) et les DEBITS EXTREMES ( > 1000 requêtes / seconde). Le modèle relationnel est aussi peu adapté au stockage de certains type de données (données hiérarchiques, faiblement structurées), ses propriétés ACID entrainent de sérieux surcoûts & ses performances sont limitées par les accès disque.

● Quelles sont les spécificités des systèmes NoSQL

Not only SQL est un écosystème très varié, les fonctionnalités recherchées sont pour les modèles de données différents, pour performances extrêmes, pour les grands volumes de données.
Les propriétés ACID & les requêtes complexes sont abandonnées, l'accent est mis sur la simplicité de l'interface, la facilité de manipulation dans un langage de programmation.

● Quelles sont les spécificités des systèmes NewSQL

Certaines applications nécessitent :
    des langages de requêtes riches
    une conformité aux propriétés ACID
    mais des performances supérieures
    
Les solutions possibles :
    se débarasser des goulots d'étranglement (verrous, journalisation, gestion des caches)
    BdD en mémoire vive avec copie sur disque asynchrone
    une gestion de concurrence sans verrou (MVCC)
    une architecture distribuée sans partage d'information (shared nothing) et avec équilibrage de charge transparent

In [1]:
import pandas as pd

# csv => data frame
df_titles = pd.read_csv('./data/Netflix_Titles.csv')
df_titles.head

<bound method NDFrame.head of        show_id     type                                        title  \
0     81145628    Movie      Norm of the North: King Sized Adventure   
1     80117401    Movie                   Jandino: Whatever it Takes   
2     70234439  TV Show                           Transformers Prime   
3     80058654  TV Show             Transformers: Robots in Disguise   
4     80125979    Movie                                 #realityhigh   
...        ...      ...                                          ...   
6229  80000063  TV Show                                 Red vs. Blue   
6230  70286564  TV Show                                        Maron   
6231  80116008    Movie       Little Baby Bum: Nursery Rhyme Friends   
6232  70281022  TV Show  A Young Doctor's Notebook and Other Stories   
6233  70153404  TV Show                                      Friends   

                      director  \
0     Richard Finn, Tim Maltby   
1                          NaN   
2  

In [2]:
df_titles.dtypes

show_id          int64
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

In [3]:
df_titles['show_id'].max()

81235729

In [4]:
df_titles['type'].max()

'TV Show'

In [5]:
df_titles['title'].max()

'최강전사 미니특공대 : 영웅의 탄생'

In [6]:
#df_titles['director'].max()
#df_titles['cast'].max()
#df_titles['country'].max()
#df_titles['date_added'].max()
df_titles['release_year'].max()

2020

In [7]:
#df_titles['rating'].max()
df_titles['duration'].max()

'99 min'

In [8]:
df_titles['listed_in'].max()

'Thrillers'

In [9]:
df_titles['description'].max()

"Zixin is about to marry Qihong, but her gallivanting ex returns to wreak havoc as mistaken identities and love triangles stir up the lovers' paradise."

In [10]:
df_titles.describe

<bound method NDFrame.describe of        show_id     type                                        title  \
0     81145628    Movie      Norm of the North: King Sized Adventure   
1     80117401    Movie                   Jandino: Whatever it Takes   
2     70234439  TV Show                           Transformers Prime   
3     80058654  TV Show             Transformers: Robots in Disguise   
4     80125979    Movie                                 #realityhigh   
...        ...      ...                                          ...   
6229  80000063  TV Show                                 Red vs. Blue   
6230  70286564  TV Show                                        Maron   
6231  80116008    Movie       Little Baby Bum: Nursery Rhyme Friends   
6232  70281022  TV Show  A Young Doctor's Notebook and Other Stories   
6233  70153404  TV Show                                      Friends   

                      director  \
0     Richard Finn, Tim Maltby   
1                          NaN   

In [11]:
df_titles.dtypes

show_id          int64
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

In [12]:
# Count of the maximum number of caracters per columns
max(df_titles.astype(str).type.apply(len))

7

In [13]:
max(df_titles.astype(str).title.apply(len))

104

In [14]:
max(df_titles.astype(str).director.apply(len))

208

In [15]:
max(df_titles.astype(str).cast.apply(len))

771

In [16]:
max(df_titles.astype(str).country.apply(len))

123

In [17]:
max(df_titles.astype(str).date_added.apply(len))

19

In [18]:
max(df_titles.astype(str).rating.apply(len))

8

In [19]:
max(df_titles.astype(str).duration.apply(len))

10

In [20]:
max(df_titles.astype(str).listed_in.apply(len))

79

In [21]:
max(df_titles.astype(str).description.apply(len))

248

In [22]:
df_shows = pd.read_csv('./data/Netflix_Shows.csv', encoding='latin-1')
df_shows.head

<bound method NDFrame.head of                        title rating  \
0               White Chicks  PG-13   
1        Lucky Number Slevin      R   
2             Grey's Anatomy  TV-14   
3               Prison Break  TV-14   
4      How I Met Your Mother  TV-PG   
..                       ...    ...   
995                  The BFG     PG   
996  The Secret Life of Pets     PG   
997         Precious Puppies   TV-G   
998              Beary Tales   TV-G   
999          Growing Up Wild      G   

                                           ratingLevel  ratingDescription  \
0    crude and sexual humor, language and some drug...                 80   
1    strong violence, sexual content and adult lang...                100   
2    Parents strongly cautioned. May be unsuitable ...                 90   
3    Parents strongly cautioned. May be unsuitable ...                 90   
4    Parental guidance suggested. May not be suitab...                 70   
..                                     

In [23]:
df_shows.dtypes

title                 object
rating                object
ratingLevel           object
ratingDescription      int64
release year           int64
user rating score    float64
user rating size       int64
dtype: object

In [24]:
max(df_shows.astype(str).title.apply(len))

63

In [25]:
max(df_shows.astype(str).rating.apply(len))

8

In [26]:
max(df_shows.astype(str).ratingLevel.apply(len))

125

MERISE

Entités

    netflix_titles
    netflix_shows

Dictionnaire des données

                 DONNEE TYPE
                show_id	int
                type	varchar(10)
                title	varchar(110)
            director	varchar(210)
                cast	varchar(780)
                country	varchar(130)
            date_added	varchar(20)
        release_year	int
                rating	varchar(10)
            duration	varchar(10)
            listed_in	varchar(80)
            description	varchar(280)
           rating_level varchar(126)
    rating_description	int
    user_rating_score	varchar(4)
    user_rating_size	int


Dépendances fonctionnelles

1 enregistrement de netflix_titles peut être lié à 1 et seulement 1 enregistrement de netflix_shows au travers du titre.

MCD = Modèle Conceptuel de Données


![MCD_Netflix-2.png](attachment:MCD_Netflix-2.png)