# SAE 1.04 Création d’une base de données



<br>

<strong>Le projet SAE</strong> est fourni avec un fichier CSV : <mark>titanic_train.csv</mark> comprenant une table de <strong>degré 12 et de cardinalité 891.</strong> 

Nous avons extrait 2 tables différentes à partir de ce fichier. 
Les tables se nomment :<mark>Passenger</mark> et <mark>Ticket</mark>. Elles comprennent un nombre d’attributs différents.

<br><br><br><br>

## <center> Connexion à la base de données PostreSQL </center>

On charge la bibliothèque <mark>ipython-sql</mark> puis on se connecte à la base de données : <mark>postgres</mark>

In [1]:
%reload_ext sql

In [2]:
%sql postgresql://samueldorismond:TheBlackLord@localhost:5433/titanic

<br><br><br><br>

## <center> Création des tables </center>

### Description des tables

La table <strong>ticket</strong> est de <strong>degré 5</strong> et ses attributs sont : <ul>
    <li><mark>PassengerId, Ticket, Fare, Cabin et Embarked</mark>.</li>
    <li>La clé primaire est PassengerId et elle comprend aucune clé étrangère.</li>
</ul>
   
Et la table <strong>passengers</strong> est de <strong>degré 8</strong> et ses attributs sont :
<ul>
    <li><mark>PassengerId, Survived, Pclass, Name, Sex, Age, SisSp et Parch.</mark></li> 
    <li>La clé primaire est Name et la clé étrangère est PassengerId.</li>
</ul>

#### Les attributs :

<ul>
    <li><mark>PassengerId, Survived, Pclass, SisSp et Parch</mark> sont des attributs de type <strong>integer</strong>. 
    <li><mark>Name et sex</mark> sont de type <strong>varchar.</strong> 
    <li>Et <mark>Age et Fare</mark> sont de type <strong>float.</strong>
</ul>

On supprime puis on crée les tables <strong>PASSENGERS</strong>
et <strong>TICKET</strong>

In [3]:
%%sql

DROP VIEW IF EXISTS REQUETE_1;
DROP VIEW IF EXISTS REQUETE_2;
DROP TABLE IF EXISTS PASSENGERS;
DROP TABLE IF EXISTS TICKET;


CREATE TABLE TICKET( 
    PassengerId integer,
    Ticket varchar(30), 
    Fare float, 
    Cabin varchar(20), 
    Embarked varchar(1),
    PRIMARY KEY(PassengerId)
);

CREATE TABLE PASSENGERS( 
    PassengerId integer, 
    Survived integer, 
    Pclass integer,
    Name varchar(100),
    Sex varchar(10), 
    Age float, 
    SisSp integer, 
    parch integer,
    PRIMARY KEY(Name),
    FOREIGN KEY(PassengerId) REFERENCES TICKET(PassengerId)
);

 * postgresql://samueldorismond:***@localhost:5433/titanic
Done.
Done.
Done.
Done.
Done.
Done.


[]

<br><br><br><br>

## <center> Alimentation des tables via la base de donnée : titanic_train.csv </center>
On copie les données de la base : <mark>titanic_train.csv</mark> sur les tables. 

In [4]:
%%sql
COPY TICKET FROM '/Users/samueldorismond/Desktop/Cours BUT1/BDD/SAE BDD Titanic/db/ticket.csv' DELIMITER ',' CSV HEADER;
COPY PASSENGERS FROM '/Users/samueldorismond/Desktop/Cours BUT1/BDD/SAE BDD Titanic/db/passagers.csv' DELIMITER ',' CSV HEADER;

 * postgresql://samueldorismond:***@localhost:5433/titanic
891 rows affected.
891 rows affected.


[]

<br><br><br><br>

## <center> Démonstration création des tables</center>
On projecte les tables pour vérifier la copie

In [5]:
passagers = %sql SELECT * FROM PASSENGERS;
ticket = %sql SELECT * FROM TICKET;

 * postgresql://samueldorismond:***@localhost:5433/titanic
891 rows affected.
 * postgresql://samueldorismond:***@localhost:5433/titanic
891 rows affected.


In [6]:
dataframe = passagers.DataFrame()
dataframe

Unnamed: 0,passengerid,survived,pclass,name,sex,age,sissp,parch
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0
...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0


In [7]:
dataframe = ticket.DataFrame()
dataframe

Unnamed: 0,passengerid,ticket,fare,cabin,embarked
0,1,A/5 21171,7.2500,,S
1,2,PC 17599,71.2833,C85,C
2,3,STON/O2. 3101282,7.9250,,S
3,4,113803,53.1000,C123,S
4,5,373450,8.0500,,S
...,...,...,...,...,...
886,887,211536,13.0000,,S
887,888,112053,30.0000,B42,S
888,889,W./C. 6607,23.4500,,S
889,890,111369,30.0000,C148,C


<br><br><br><br>

# <center>Visualisation des requêtes</center>

La <strong>partie 3 de la SAE</strong> a pour but de répondre aux questions posées sous <strong>forme de requêtes SQL</strong>.

<br><br>

#### Question 1 : Combien de classes de passagers différentes y avait-il à bord du Titanic ?

<strong>Les étapes de la réquête :</strong>

<ol>
    <li>On sélectionne les différentes classes à partir de l’attribut <mark>pclass</mark> via <mark>disctinct pclass</mark>.</li>
    <li>On compte le nombre de classe via <mark>count()</mark>.</li>
    <li>On projette le résultat de la requête.</li>
</ol>

In [8]:
%%sql 
SELECT count(distinct pclass) as nombre_de_classe_passagers FROM PASSENGERS;

 * postgresql://samueldorismond:***@localhost:5433/titanic
1 rows affected.


nombre_de_classe_passagers
3


<br><br><br><br><br><br><br>

#### Question 2 : Combien de passagers y avait-il dans chaque classe ?

<strong>Les étapes de la réquête :</strong>
<ol>
    <li>On sélectionne le nombre de passagers à partir de l'attribut <mark>passengerid</mark> de la table <mark>passengers</mark>.</li>
    <li>On regroupe les passengers par classe selon l’attribut <mark>pclass</mark> via <mark>group by</mark>.</li>
    <li>On projette le résultat de la requête en triant par ordre croissant via <mark>Order by</mark>.</li>
</ol>

In [9]:
%%sql
SELECT pclass, count(passengerid) as nombre_de_passagers FROM PASSENGERS group by pclass ORDER BY Pclass;

 * postgresql://samueldorismond:***@localhost:5433/titanic
3 rows affected.


pclass,nombre_de_passagers
1,216
2,184
3,491


<br><br><br><br><br><br><br>

#### Question 3 : Combien d'hommes et de femmes y avait-il dans chaque classe ?

<ol> <strong>Les étapes de la réquête :</strong>
    <ul> <strong>Création des vues :</strong>
        <li>On crée une vue <mark>requete_1</mark> qui selectionne les différentes classes de passagers et le nombre de passagers dont le sexe est <mark>masculin</mark>.</li>
        <li>On crée une vue <mark>requete_2</mark> qui selectionne les différentes classes de passagers et le nombre de passagers dont le sexe est <mark>feminin</mark>.</li>
        <li>On les regroupe selon leur sexe et leur classe via les attributs <mark>pclass et sex</mark>via <mark>group by</mark>.</li>
    </ul>
    <ul> <strong>Jointure de vues :</strong>
        <li>On fait une jointure entre la vue <mark>requete_1</mark> et la vue <mark>requete_2</mark> quand la classe homme et la classe femme sont égales.</li>
    </ul>
    <ul> <strong>Projection de la requête :</strong>
        <li>On projette le résultat</li>
    </ul>
</ol>

In [10]:
%%sql

DROP VIEW IF EXISTS REQUETE_1;
DROP VIEW IF EXISTS REQUETE_2;

CREATE VIEW REQUETE_1 AS SELECT pclass, count(*) as nombre FROM PASSENGERS WHERE passengers.sex='male' group by pclass;
CREATE VIEW REQUETE_2 AS SELECT pclass, count(*) as nombre FROM PASSENGERS WHERE passengers.sex='female' group by pclass;

SELECT REQUETE_2.pclass, REQUETE_2.nombre as nombre_Femme, REQUETE_1.nombre as nombre_homme FROM REQUETE_2, REQUETE_1 WHERE REQUETE_2.pclass = REQUETE_1.pclass group by REQUETE_2.pclass, REQUETE_2.nombre, REQUETE_1.nombre;

 * postgresql://samueldorismond:***@localhost:5433/titanic
Done.
Done.
Done.
Done.
3 rows affected.


pclass,nombre_femme,nombre_homme
1,94,122
2,76,108
3,144,347


<br><br><br><br>

#### Question 4 : Comptez le nombre et le pourcentage de survivants et de morts.

<strong>Les étapes de la réquête :</strong>
<ol>
    <li>On sélectionne le nombre de passagers qui <mark>ont survécue</mark> et on calcule <mark>leur pourcentage</mark>.</li>
    <li>On sélectionne le nombre de passagers qui <mark>n’ont pas survécue</mark> et on calcule <mark>leur pourcentage</mark>.</li>
    <li>On les regroupe selon leur statut de <mark>survived</mark> via <mark>group by</mark>.</li>
    <li>On effectue une <mark>union</mark> entre les deux requêtes.</li>
    <li>On projette le résultat de la requête.</li>
</ol>

In [11]:
%%sql

SELECT survived, count(*) as nombre, round(count(*)*100/(SELECT count(passengerid) FROM PASSENGERS)) as pourcentage FROM PASSENGERS where passengers.survived='1' group by survived
UNION
SELECT survived, count(*) as nombre, round(count(*)*100/(SELECT count(passengerid) FROM PASSENGERS)) as pourcentage FROM PASSENGERS where passengers.survived='0' group by survived;

 * postgresql://samueldorismond:***@localhost:5433/titanic
2 rows affected.


survived,nombre,pourcentage
0,549,61.0
1,342,38.0


<br><br><br><br>

#### Question 5 : Visualiser la répartition des passagers survivants et morts par classe.

<ol> <strong>Les étapes de la réquête :</strong>
    <ul> <strong>Création des vues :</strong>
        <li>On crée une vue <mark>requete_1</mark> qui sélectionne le nombre de passagers qui <mark>ont survécue</mark>.</li>
        <li>On crée une vue <mark>requete_2</mark> qui sélectionne le nombre de passagers qui <mark>n'ont pas survécue</mark>.</li>
        <li>On les regroupe selon leur classe via l'attribut <mark>pclass</mark> via <mark>group by</mark>.</li>
    </ul>
    <ul> <strong>Jointure de vues :</strong>
        <li>On fait une jointure entre les deux vues.</li>
    </ul>
    <ul> <strong>Projection de la requête :</strong>
        <li>On projette le résultat</li>
    </ul>
</ol>

In [12]:
%%sql

DROP VIEW IF EXISTS REQUETE_1;
DROP VIEW IF EXISTS REQUETE_2;

CREATE VIEW REQUETE_1 AS SELECT pclass, count(*) as nombre FROM PASSENGERS where passengers.survived='0' group by pclass;
CREATE VIEW REQUETE_2 AS SELECT pclass, count(*) as nombre FROM PASSENGERS where passengers.survived='1' group by pclass;

SELECT REQUETE_2.pclass, REQUETE_2.nombre as nombre_survivant, REQUETE_1.nombre as nombre_mort FROM REQUETE_2, REQUETE_1 WHERE REQUETE_2.pclass = REQUETE_1.pclass group by REQUETE_2.pclass, REQUETE_2.nombre, REQUETE_1.nombre;

 * postgresql://samueldorismond:***@localhost:5433/titanic
Done.
Done.
Done.
Done.
3 rows affected.


pclass,nombre_survivant,nombre_mort
1,136,80
2,87,97
3,119,372


<br><br><br><br>

#### Question 6 : Visualiser la répartition des passagers survivants et des passagers décédés selon le sexe.

<ol> <strong>Les étapes de la réquête :</strong>
    <ul> <strong>Création des vues :</strong>
        <li>On crée une vue <mark>requete_1</mark> qui sélectionne le nombre de passagers masculins et féminins qui n’ont pas survécu.</li>
        <li>On crée une vue <mark>requete_2</mark>  qui sélectionne le nombre de passagers masculins et féminins qui ont survécu.</li>
        <li>On les regroupe selon leur sexe via l'attribut <mark>sex</mark> via <mark>group by</mark>.</li>
    </ul>
    <ul> <strong>Jointure de vues :</strong>
        <li>On fait une jointure entre les deux vues.</li>
    </ul>
    <ul> <strong>Projection de la requête :</strong>
        <li>On projette le résultat.</li>
    </ul>
</ol>

In [13]:
%%sql

DROP VIEW IF EXISTS REQUETE_1;
DROP VIEW IF EXISTS REQUETE_2;

CREATE VIEW REQUETE_2 AS SELECT Sex, count(*) as nombre FROM PASSENGERS where passengers.survived='0' group by Sex;
CREATE VIEW REQUETE_1 AS SELECT Sex, count(*) as nombre FROM PASSENGERS where passengers.survived='1' group by Sex;

SELECT REQUETE_1.Sex, REQUETE_1.nombre as nombre_survivant, REQUETE_2.nombre as nombre_mort FROM REQUETE_1, REQUETE_2 WHERE REQUETE_1.Sex = REQUETE_2.Sex group by REQUETE_1.Sex, REQUETE_1.nombre, REQUETE_2.nombre;

 * postgresql://samueldorismond:***@localhost:5433/titanic
Done.
Done.
Done.
Done.
2 rows affected.


sex,nombre_survivant,nombre_mort
female,233,81
male,109,468
