# 1 - Analyse descriptive des données

- **Source du jeu de données :** [Portail Open Data SNCF](https://ressources.data.sncf.com/explore/dataset/tarifs-tgv-inoui-ouigo/information/)
- **Producteur du jeu de données :** SNCF Voyageurs
- **Date de l'export :** lundi 16 septembre 2024

## 0 - Import des modules et des données

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("datasets/tarifs-tgv-inoui-ouigo.csv", sep=";")

In [3]:
df.head()

Unnamed: 0,Transporteur,Gare origine,Gare origine - code UIC,Destination,Gare destination - code UIC,Classe,Profil tarifaire,Prix minimum,Prix maximum
0,OUIGO,AEROPORT CDG2 TGV ROISSY,87271494,MARSEILLE ST CHARLES,87751008,2,Tarif Normal,16.0,99.0
1,OUIGO,AEROPORT CDG2 TGV ROISSY,87271494,MONTPELLIER SUD DE FRANCE,87688887,2,Tarif Normal,16.0,99.0
2,OUIGO,AIX EN PROVENCE TGV,87319012,LYON-SAINT EXUPERY TGV,87762906,2,Tarif Normal,10.0,69.0
3,OUIGO,MARNE LA VALLEE CHESSY,87111849,AIX EN PROVENCE TGV,87319012,2,Tarif Normal,16.0,99.0
4,OUIGO,MARNE LA VALLEE CHESSY,87111849,POITIERS,87575001,2,Tarif Normal,10.0,79.0


## 1 - Composition du fichier
> Quelques informations sur le jeux de données juste en lisant la rubrique [information](https://ressources.data.sncf.com/explore/dataset/tarifs-tgv-inoui-ouigo/information/) du portail Open Data.
### Description :
Ce dataset met en valeur une fourchette de prix (prix min., prix max.) en fonction des trajets (gares de départs, gares d’arrivée) et des profils tarifaires (normal, étudiant, réglementé) et les classes tarifaires (1 ou 2). 

### Les colonnes : 
**7 variables catégoriels :**
- Transporteur : `Nominal` 
- Gare origine : `Nominal` 
- Gare origine - code UIC => Clé primaire/Étrangère lien autre table
- Destination : `Nominal` 
- Gare destination  - code UIC => Clé primaire/Étrangère lien autre table
- Classe : `ordinal` 
- Profil tarifaire : `ordinal` 

**2 données numérique :**
- Prix minimum : `Continu`
- Prix minimum : `Continu`


## 2 - Dimensionnalité du jeux de données

In [4]:
print(f"Ce jeux de données a une dimension {df.shape} ")
print("---"*3)
print(f"Lignes : {df.shape[0]}")
print(f"Colonnes : {df.shape[1]}")

Ce jeux de données a une dimension (15570, 9) 
---------
Lignes : 15570
Colonnes : 9


## 3 - Types de données 

Affiche pour chaque colonnes (features) quel est son type.

In [5]:
df.dtypes

Transporteur                    object
Gare origine                    object
Gare origine - code UIC          int64
Destination                     object
Gare destination - code UIC      int64
Classe                           int64
Profil tarifaire                object
Prix minimum                   float64
Prix maximum                   float64
dtype: object

### 3.1 - Les données catégoriels
> On exclu les données qui servent de clé étrangères (connexion avec d'autres base de données).

In [6]:
df_cat = df[["Transporteur", "Gare origine", "Destination", "Profil tarifaire", "Classe"]]

Un aperçu des catégories : 

In [7]:
print("---"*3)
for cols in df_cat:
    if cols not in ["Gare origine", "Destination"]:
        print(f"La colonne `{cols.upper()}` a {df_cat[cols].nunique()} catégories :")
        for elemn in df_cat[cols].unique():
            print(f"-> {elemn}")
        print("---"*3)
    else:
        print(f"- `{cols.upper()}` enregistre {df_cat[cols].nunique()} gare.")
        print("---"*3)

---------
La colonne `TRANSPORTEUR` a 3 catégories :
-> OUIGO
-> OUIGO TRAIN CLASSIQUE
-> TGV INOUI
---------
- `GARE ORIGINE` enregistre 229 gare.
---------
- `DESTINATION` enregistre 235 gare.
---------
La colonne `PROFIL TARIFAIRE` a 3 catégories :
-> Tarif Normal
-> Tarif Réglementé
-> Tarif Elève - Etudiant - Apprenti
---------
La colonne `CLASSE` a 2 catégories :
-> 2
-> 1
---------


### 3.2 - Les données numériques

In [8]:
df_num = df[["Prix minimum", "Prix maximum"]]

In [9]:
print("---"*3)
for cols in df_num:
    print(f"`{cols.upper()}` :")
    print(f"- Valeur minimum : {df_num[cols].min()}")
    print(f"- Valeur maximum : {df_num[cols].max()}")
    print("---"*3)

---------
`PRIX MINIMUM` :
- Valeur minimum : 0.0
- Valeur maximum : 237.0
---------
`PRIX MAXIMUM` :
- Valeur minimum : 0.0
- Valeur maximum : 249.0
---------


## 4 - Affichage des données nulls par colonnes

In [10]:
nulls = {"Nom colonne": [], "Nombre null": []}
for cols in df.columns:
    nulls["Nom colonne"].append(cols)
    nulls["Nombre null"].append(df[cols].isna().sum())
pd.DataFrame.from_dict(nulls)

Unnamed: 0,Nom colonne,Nombre null
0,Transporteur,0
1,Gare origine,0
2,Gare origine - code UIC,0
3,Destination,0
4,Gare destination - code UIC,0
5,Classe,0
6,Profil tarifaire,0
7,Prix minimum,0
8,Prix maximum,0


-- END --