# Exercises XP
Last Updated: May 26th, 2025

### 👩‍🏫 👩🏿‍🏫 What You’ll learn
Identify structured and unstructured data.
Convert unstructured data into structured formats.
Categorize and utilize different data types in a business context.
Learn how to import datasets directly from Kaggle.
Understand the process of importing and displaying data from a CSV file using Pandas.
Gain skills in fetching and reading JSON data from a URL using Pandas.


### 🛠️ What you will create
Classify various data sources.
Convert raw data into structured formats.
How to import the Titanic dataset from Kaggle and display its initial rows.
A script for importing the Iris dataset from a CSV file and displaying its first few rows.
How to import JSON data from a URL and display the initial entries.

## 🌟 Exercise 1: Identifying Data Types
Below are various data sources. Identify whether each one is an example of structured or unstructured data.

A company’s financial reports stored in an Excel file.
Photographs uploaded to a social media platform.
A collection of news articles on a website.
Inventory data in a relational database.
Recorded interviews from a market research study.

### Solution:

1. **Un fichier Excel de rapports financiers d’une entreprise** : **Données structurées**
2. **Photos sur un réseau social** : **Données non structurées**
3. **Articles de presse sur un site web** : **Données non structurées**
4. **Données d’inventaire dans une base de données relationnelle** : **Données structurées**
5. **Enregistrements d’entretiens d’une étude de marché** : **Données non structurées**


## 🌟 Exercise 2: Transformation Exercise
For each of the following unstructured data sources, propose a method to convert it into structured data. Explain your reasoning.

A series of blog posts about travel experiences.
Audio recordings of customer service calls.
Handwritten notes from a brainstorming session.
A video tutorial on cooking.

### Solution:

1. **Blogues sur des expériences de voyage**

   * **Méthode** : Utiliser un traitement automatique du langage (NLP) pour extraire des informations clés (lieux, dates, activités) et les organiser dans un tableau.
   * **Raison** : Le texte est libre, mais on peut structurer les infos récurrentes en champs (ex : destination, durée, activité).

2. **Enregistrements audio d’appels au service client**

   * **Méthode** : Transcrire l’audio en texte, puis analyser le texte pour identifier les thèmes, les motifs d’appels, les résultats, etc.
   * **Raison** : On obtient alors des catégories et des mots-clés exploitables dans une base de données.

3. **Notes manuscrites d’une séance de brainstorming**

   * **Méthode** : Scanner puis utiliser la reconnaissance optique de caractères (OCR), puis organiser les idées en catégories dans un tableau.
   * **Raison** : Cela permet de passer du papier à des listes exploitables informatiquement.

4. **Vidéo tutoriel de cuisine**

   * **Méthode** : Convertir la vidéo en texte (transcription), puis extraire les étapes, ingrédients, durées, etc., pour remplir un tableau structuré (recette, étapes, temps).
   * **Raison** : On transforme le contenu audiovisuel en données organisées, faciles à retrouver et analyser.


## 🌟 Exercise 3 : Import a file from Kaggle
Import the train dataset. Use the train.csv file.
Print the first few rows of the DataFrame.

In [2]:
import pandas as pd

# Chemin vers le fichier téléchargé depuis Kaggle
df = pd.read_csv('train.csv')

# Afficher les premières lignes du DataFrame
print(df.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


## 🌟 Exercise 4: Importing a CSV File
Use the Iris Dataset CSV.

Download the Iris dataset CSV file and place it in the same directory as your Jupyter Notebook.
Import the CSV file using Pandas.
Display the first five rows of the dataset.

In [3]:
import pandas as pd

# Importation du fichier Iris
df = pd.read_csv('iris.csv')

# Affichage des 5 premières lignes
print(df.head())


   Id  SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm      Species
0   1            5.1           3.5            1.4           0.2  Iris-setosa
1   2            4.9           3.0            1.4           0.2  Iris-setosa
2   3            4.7           3.2            1.3           0.2  Iris-setosa
3   4            4.6           3.1            1.5           0.2  Iris-setosa
4   5            5.0           3.6            1.4           0.2  Iris-setosa


## 🌟 Exercise 5 : Export a dataframe to excel format and JSON format.
Create a simple dataframe.
Export the dataframe to an excel file.
Export the dataframe to a JSON file.

In [4]:
import pandas as pd

# Création d'un DataFrame simple
data = {'Nom': ['Alice', 'Bob', 'Charlie'], 'Âge': [25, 30, 22]}
df = pd.DataFrame(data)

# Exporter en format Excel
df.to_excel('exemple.xlsx', index=False)

# Exporter en format JSON
df.to_json('exemple.json', orient='records', force_ascii=False)


## 🌟 Exercise 6: Reading JSON Data
Use a sample JSON dataset

Import the JSON data from the provided URL.
Use Pandas to read the JSON data.
Display the first five entries of the data.🌟 Exercise 6: Reading JSON Data
Use a sample JSON dataset

Import the JSON data from the provided URL.
Use Pandas to read the JSON data.
Display the first five entries of the data.

In [6]:
import pandas as pd

# Remplace l’URL ci-dessous par celle fournie dans l’exercice
url = 'https://github.com/devtlv/Datasets-DA-Bootcamp-2-/raw/refs/heads/main/Week%204%20-%20Data%20Understanding/W4D3%20-%20Importing%20Data,%20Exporting%20D/posts.zip'

# Importation des données JSON
df = pd.read_json(url)

# Affichage des 5 premières entrées
print(df.head())


   userId  id                                              title  \
0       1   1  sunt aut facere repellat provident occaecati e...   
1       1   2                                       qui est esse   
2       1   3  ea molestias quasi exercitationem repellat qui...   
3       1   4                               eum et est occaecati   
4       1   5                                 nesciunt quas odio   

                                                body  
0  quia et suscipit\nsuscipit recusandae consequu...  
1  est rerum tempore vitae\nsequi sint nihil repr...  
2  et iusto sed quo iure\nvoluptatem occaecati om...  
3  ullam et saepe reiciendis voluptatem adipisci\...  
4  repudiandae veniam quaerat sunt sed\nalias aut...  
