### Charger un fichier audio et afficher sa durée

In [1]:
import librosa
filename = './data/Anxiety-Doechii.mp3'

y, sr = librosa.load(filename)
duration = librosa.get_duration(y=y, sr=sr)
print(f"Durée: {duration:.2f} secondes")

Durée: 249.30 secondes


### Charger un fichier video et afficher ses fps avec opencv


In [2]:
import cv2 as cv

filename = './data/Anxiety-Doechii.mp4'
cap = cv.VideoCapture(filename)
fps = cap.get(cv.CAP_PROP_FPS)
print(f"FPS: {fps:.2f}")


FPS: 23.98


### Lire un fichier Parquet et afficher son contenu

In [3]:
import pandas as pd

filename = './data/gdp-countries.parquet'

df = pd.read_parquet(filename)
print(df.head())

country_name  Aruba  Africa Eastern and Southern  Afghanistan  \
1960            NaN                 2.008272e+10  537777811.1   
1961            NaN                 2.050945e+10  548888895.6   
1962            NaN                 2.235043e+10  546666677.8   
1963            NaN                 2.675866e+10  751111191.1   
1964            NaN                 2.446499e+10  800000044.4   

country_name  Africa Western and Central  Angola  Albania  Andorra  \
1960                        1.040428e+10     NaN      NaN      NaN   
1961                        1.112805e+10     NaN      NaN      NaN   
1962                        1.194335e+10     NaN      NaN      NaN   
1963                        1.267652e+10     NaN      NaN      NaN   
1964                        1.383858e+10     NaN      NaN      NaN   

country_name  Arab World  United Arab Emirates     Argentina  ...  \
1960                 NaN                   NaN           NaN  ...   
1961                 NaN                   NaN    

### Lire le fichier Avro et le convertir en DataFrame

In [4]:
import pandas as pd
import fastavro

def avro_df(filepath, encoding):
    # Open file stream
    with open(filepath, encoding) as fp:
        # Configure Avro reader
        reader = fastavro.reader(fp)
        # Load records in memory
        records = [r for r in reader]
        # Populate pandas.DataFrame with records and return it
        return pd.DataFrame.from_records(records)

filename = './data/BlueSkyProfiles.avro'
df = avro_df(filename, 'rb')

print(df.head())

                                              avatar  \
0  https://cdn.bsky.app/img/avatar/plain/did:plc:...   
1  https://cdn.bsky.app/img/avatar/plain/did:plc:...   
2  https://cdn.bsky.app/img/avatar/plain/did:plc:...   
3  https://cdn.bsky.app/img/avatar/plain/did:plc:...   
4  https://cdn.bsky.app/img/avatar/plain/did:plc:...   

                                              banner  \
0  https://cdn.bsky.app/img/banner/plain/did:plc:...   
1                                               None   
2  https://cdn.bsky.app/img/banner/plain/did:plc:...   
3  https://cdn.bsky.app/img/banner/plain/did:plc:...   
4                                               None   

                 created_at  followers_count  follows_count  posts_count  \
0  2024-10-17T05:01:17.512Z               32             54           10   
1  2024-11-15T22:00:37.924Z               21             18            0   
2  2024-11-08T13:53:43.081Z              856           1330          282   
3  2024-09-02T15:29:08

### Extraire un fichier ZIP et afficher les fichiers extraits.

In [11]:
import zipfile

with zipfile.ZipFile('./data/archive.zip', 'r') as zip_ref:
    zip_ref.extractall('./data/')
    print(zip_ref.namelist())


['country-names-and-codes.csv', 'country-names-and-codes.parquet', 'gdp-countries.csv', 'gdp-countries.parquet']


### Lire un fichier YAML et afficher ses clés principales

In [6]:
import yaml

with open('./data/countries.yml', 'r') as stream:
    data = yaml.safe_load(stream)
    print(data.keys())

dict_keys(['country'])


### Lire un fichier PDF et afficher son texte brut

In [7]:
from pypdf import PdfReader

filename='./data/crafting_interpreters_robert_nystrom.pdf'

reader = PdfReader(filename)
number_of_pages = len(reader.pages)
page = reader.pages[1]
text = page.extract_text()
print(text)

This may be the beginning of a grand adventure. Programming languages
encompass a huge space to explore and play in. Plenty of room for your own
creations to share with others or just enjoy yourself. Brilliant computer
scientists and software engineers have spent entire careers traversing this land
without ever reaching the end. If this book is your first entry into the country,
welcome.
The pages of this book give you a guided tour through some of the world of
languages. But before we strap on our hiking boots and venture out, we should
familiarize ourselves with the territory. The chapters in this part introduce you
to the basic concepts used by programming languages and how they are
organized.
We will also get acquainted with Lox, the language we’ll spend the rest of the
book implementing (twice). Let’s go!
Hand-cra!ed by Robert Nystrom — © 2015 – 2020
NEXT CHAPTER: “INTRODUCTION” →
IWELCOME


### Lire un fichier Txt et afficher son contenu

In [8]:
filename = './data/list_of_african_language.txt'

with open(filename, 'r') as file:
    print(file.read())

die
het
en
sy
nie
'n
Å‰
was
hy
te
is
ek
om
hulle
in
my
vir
toe
haar
van
dit
op
se
wat
met
by
gaan
baie
ons
jy
na
maar
hom
so
kan
aan
dat
daar
sal
jou
gesÃª
kom
een
ma
as
al
saam
uit
dag
sien
af


### Lire un fichier Markdown et afficher son contenu

In [9]:
filename = 'README.md'
with open(filename, 'r') as file:
    print(file.read())

## Exercice 01 de Data Science: Manipulation des fichiers en Python

### A- Effectuez chacune des tâches suivantes en utilisant python
1. Chargez un fichier audio et affichez sa durée avec librosa.
Chargez une vidéo et affichez ses FPS avec OpenCV.
3. Lisez un fichier Parquet avec pandas et affichez son contenu.
4. Lisez un fichier Avro et convertissez-le en DataFrame.
5. Lisez un fichier YAML et affichez ses clés principales.
6. Extrayez un fichier ZIP et affichez les fichiers extraits.
7. Lisez un fichier PDF et affichez son texte brut.
8. Lisez un fichier Markdown et affichez son contenu.
9. Lisez un fichier TXT et affichez son contenu.

### B- Pour chaque type de fichier ci-dessus, Déterminez si la conversion de chaque type de fichier en DataFrame est pertinente pour une analyse de données, en justifiant votre réponse et en proposant une alternative si nécessaire.


B- Pertinence de la conversion des types de fichiers employés ci-dessus en DataFrame.

1. **Fichier Audio**:
    - Il n'est pas vraiment pertinent de convertir un fichier audio en DataFrame. Cependant, au chargement d'un fichier audio avec `librosa`, la méthode `load` retourne entre autres un tableau numpy qui est la représentation du signal audio, qu'il est possible de convertir en DataFrame.

2. **Fichier Vidéo**:
    - Il n'est pas vraiment pertinent de convertir un fichier vidéo en DataFrame. Cependant, la lecture d'un fichier vidéo avec `OpenCV` pourrait permettre d'analyser les images du fichier vidéo et de les stocker dans un DataFrame.

3. **Fichier Parquet**:
    - Un fichier Parquet est un format de stockage de données colonnaires, format de fichier assez proche du DataFrame. Il est donc pertinent de convertir un fichier Parquet en DataFrame.

4. **Fichier Avro**:
    - Un fichier Avro est un format de sérialisation de données, il est donc pertinent de convertir un fichier Avro en DataFrame.

5. **Fichier ZIP**:
    - Les fichiers ZIP étant des fichiers compressés contenant plusieurs fichiers, il n'est pas très pertinent de les convertir en DataFrame. Alternativement, on pourrait extraire les fichiers contenus dans le fichier ZIP et les analyser individuellement.

6. **Fichier YAML**:
    - Un fichier YAML est un format de sérialisation de données, mais il est généralement utilisé pour des configurations et des données hiérarchiques, pas tabulaires. Il peut être pertinent de convertir certaines parties d'un fichier YAML en DataFrame si elles sont structurées de manière tabulaire.

7. **Fichier PDF**:
    - Il n'est pas très pertinent de convertir un fichier PDF en DataFrame, car un fichier PDF est un fichier binaire qui contient des informations de mise en page, des images, du texte, etc. Il est plus pertinent d'extraire le texte brut du fichier PDF et de le stocker dans un DataFrame lorsque cela est faisable, comme dans le cas de données tabulaires ou structurées dans le PDF.

8. **Fichier TXT**:
    - Un fichier TXT contient généralement du texte brut. Il est pertinent de convertir un fichier TXT en DataFrame si le texte brut est structuré sous forme de tableau ou de données tabulaires.

9. **Fichier Markdown**:
    - Un fichier Markdown est un fichier texte brut qui contient des balises de mise en forme. Il n'est pas très pertinent de convertir un fichier Markdown en DataFrame. Il est plus pertinent d'extraire le texte brut du fichier Markdown et de le stocker dans un DataFrame si cela est faisable, comme dans le cas de données tabulaires ou structurées dans le Markdown.
