# Data sprint campus 2024

Lecture du jeux de données avec `Pandas` en faisant attention au séparateur ";"

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv("Datasets/objets-trouves-restitution.csv", sep=";")

In [4]:
df.head()

Unnamed: 0,Date,Date et heure de restitution,Gare,Code UIC,Nature d'objets,Type d'objets,Type d'enregistrement
0,2019-02-11T19:02:12+01:00,,Paris Montparnasse,87391003.0,"Clés, porte-clés","Clés, porte-clés, badge magnétique",Objet trouvé
1,2019-02-11T19:16:03+01:00,2019-02-23T16:55:32+01:00,Strasbourg,87212027.0,Sac à dos,"Bagagerie: sacs, valises, cartables",Objet trouvé
2,2019-02-11T19:52:16+01:00,2019-02-22T17:05:10+01:00,Saint-Étienne Châteaucreux,87726000.0,"Porte-monnaie, portefeuille","Porte-monnaie / portefeuille, argent, titres",Objet trouvé
3,2019-02-11T20:00:28+01:00,,Paris Montparnasse,87391003.0,Chaussures (autre que chaussures de ski et pat...,"Vêtements, chaussures",Objet trouvé
4,2019-02-11T20:14:26+01:00,,Paris Montparnasse,87391003.0,Carte de crédit,"Porte-monnaie / portefeuille, argent, titres",Objet trouvé


## 1 - Composition du fichier 

Ce jeu de données représente l'intégralité des déclarations de pertes faites par les clients de la SNCF (Par date). Elle enregistre aussi la date de restitution des éléments perdus. 

**Le tableau est composée de 7 colonnes qui représentent :**
1. La date de déclaration
2. La date et l'heure de restitution
3. La Gare
4. Code IUC
5. La Nature de l'objets
6. Type d'objets
7. Type d'enregistrement

## 2 - Dimensionnalité du jeux de données

La dimension du jeux de données est comme suit :

In [5]:
print("---"*3)
print(f"Lignes : {df.shape[0]}")
print(f"Colonnes : {df.shape[1]}")

---------
Lignes : 460000
Colonnes : 7


### 3 - Type de données

#### 3.1 - Données de type date
Les colonnes : 
- Dates
- Date et heure de restitution

Sont des dates conservé dans des éléments de types object. Il nécessite une conversion pour voir l'étendu entre les dates (plus ancien et plus récent)

In [6]:
# Conversion date
df["Date"] = pd.to_datetime(df["Date"], utc=True)

In [7]:
df["Date et heure de restitution"] = pd.to_datetime(df["Date et heure de restitution"], utc=True)

In [8]:
df.dtypes

Date                            datetime64[ns, UTC]
Date et heure de restitution    datetime64[ns, UTC]
Gare                                         object
Code UIC                                    float64
Nature d'objets                              object
Type d'objets                                object
Type d'enregistrement                        object
dtype: object

**Colonne Date : Les dates courent entre 2017 et 2024** 

In [9]:
print(df.Date.min())
print(df.Date.max())

2017-12-03 05:40:30+00:00
2024-05-01 18:57:07+00:00


**Colonne Date et heure de restitution : Les dates courent entre 2017 et 2024** 

In [10]:
print(df["Date et heure de restitution"].min())
print(df["Date et heure de restitution"].max())

2017-12-03 12:38:53+00:00
2024-09-14 11:02:10+00:00


#### 3.1 - Données catégoriels
- Le Type d'enregistrement est un données catégoriel enregistré dans entant que object. elle ne contient qu'un la chaine de caractère "Objet trouvé"

In [11]:
print(df["Type d'enregistrement"].unique())
print(df["Type d'enregistrement"].nunique())

['Objet trouvé']
1


In [12]:
nb_gare_unique = df["Gare"].nunique()
gare_unique = df["Gare"].unique()
nb_Nature_objets = df["Nature d'objets"].nunique()
nature_objet_unique = df["Nature d\'objets"].unique()
nb_type_objets = df["Type d\'objets"].nunique()
type_obj_unique = df["Type d\'objets"].unique()

In [13]:
print("Voici tous les type d'objet uniques présentes dans la catégorie 'Type d'objet' du Data Frame :")
# Pour afficher et enlever la liste dans le print. Compréhension de liste.
[print(f"- {obj_unique}") for obj_unique in type_obj_unique]
print("---"*3)
print(f'Voici le nombre de gare total : {nb_type_objets}')

Voici tous les type d'objet uniques présentes dans la catégorie 'Type d'objet' du Data Frame :
- Clés, porte-clés, badge magnétique
- Bagagerie: sacs, valises, cartables
- Porte-monnaie / portefeuille, argent, titres
- Vêtements, chaussures
- Appareils électroniques, informatiques, appareils photo
- Optique
- Livres, articles de papéterie
- Divers
- Pièces d'identités et papiers personnels
- Vélos, trottinettes, accessoires 2 roues
- Bijoux, montres
- Parapluies
- Articles médicaux
- Instruments de musique
- Articles d'enfants, de puériculture
- Articles de sport, loisirs, camping
---------
Voici le nombre de gare total : 16


In [14]:
print("Voici toutes les valeurs nulles dans toutes les catégories du DataFrame :")
for col in df.columns:
    print(f'- {col} : {df[col].isna().sum()}')

Voici toutes les valeurs nulles dans toutes les catégories du DataFrame :
- Date : 0
- Date et heure de restitution : 262303
- Gare : 139
- Code UIC : 139
- Nature d'objets : 0
- Type d'objets : 0
- Type d'enregistrement : 0


#### 3.2 - Données numériques
Code UIC est les données de type float64 sa répartition est entre (87111849.0 minimum et 87784009.0 maximum)

In [24]:
df["Code UIC"].dtype

dtype('float64')

In [25]:
print(df["Code UIC"].min())
print(df["Code UIC"].max())

87111849.0
87784009.0


In [1]:
nb_gare_unique = df["Gare"].nunique()
gare_unique = df["Gare"].unique()
nb_Nature_objets = df["Nature d'objets"].nunique()
nature_objet_unique = df["Nature d\'objets"].unique()
nb_type_objets = df["Type d\'objets"].nunique()
type_obj_unique = df["Type d\'objets"].unique()

NameError: name 'df' is not defined

In [None]:
print('Voici toutes les gares présentes dans la catégorie "Gare" du Data Frame :')
# Pour afficher et enlever la liste dans le print. Compréhension de liste.
[print(f"- {gare}") for gare in gare_unique]
print("---"*3)
print(f'Voici le nombre de gare total : {nb_gare_unique}')

In [None]:
print('Voici toutes les natures des objets présentes dans la catégorie "Nature Objet" du Data Frame :')
# Pour afficher et enlever la liste dans le print. Compréhension de liste.
[print(f"- {nature_objet}") for nature_objet in nature_objet_unique]
print("---"*3)
print(f'Voici le nombre de gare total : {nb_Nature_objets}')

## 4 - Affichage des données nulls par colonnes
>Affiche le nom de colonnes et le nombres de données nulls (n'affiche que les nulls)

In [20]:
for cols in df.columns:
    if df[cols].isna().sum() > 0:
        print(f"{cols} : {df[cols].isna().sum()}")

Date et heure de restitution : 262303
Gare : 139
Code UIC : 139


Résumé : 
Les colonnes contenant des donnée nulls sont : 
- Date et heure de restitution : 262303
- Gare : 139
- Code UIC : 139

## 5 Cas d'usages

#### 5.1 - Cas d'usage fichier :
Pour commencer, il y a plusieurs possibilités à analyser notre base de données.
Nous allons pouvoir analyser quel est le type d'objet le plus perdu que ce soit de manière général mais aussi par rapport à une période donnée. 
Il serait aussi possible de savoir combien de temps les objets prennent-ils à être récupérés par les propriétaires
On pourra analyser le nombre d'objet perdu par mois/année/jour en fonction des gares
Nous pourrons savoir le nombre de d'objet qui n'a pas été récupéré et combien d'objet à été récupéré.
Dans quelle gare les individus perdent le plus leurs affaires personnels
Savoir quel est la gare où les individus récupèrent le plus affaires mais aussi quelle gare est-ce que les individus récupèrent le moins

#### 5.2 - Cas d'usage avec un autre fichier : 
Est ce que les objets déclarés trouvés sont dans les objets déclarés perdus.