# ✨ 🎤 Extract Audio Metadata with Pandas + Mutagen ✨

## 🎵 Did you know you can analyze audio files with Pandas?

When working on **music analysis** and **audio recognition** 🎶, we need to understand the key properties of the files we process.

## 🔧 How does it work?

We use **Mutagen** to extract essential metadata from **MP3 files** and organize them in a **Pandas DataFrame** for analysis 📊.

## 🎶 What metadata can we extract?

🎧 **Artist** → Who performs the song?
🎵 **Title** → Track name
⏱️ **Duration** → Total time in seconds
💽 **Format** → In this case, MP3
🔊 **Bitrate** → Audio quality in bits per second

## 🔎 Why is this useful?

✔️ Helps clean and structure **audio libraries** 🎶.
✔️ Enables **feature engineering** for **Machine Learning** models 🧠.
✔️ Ensures **quality and consistency** in large audio datasets.

## ✨ Real-world use case:

Imagine you work at a **music streaming company** and need to analyze the **quality of thousands of tracks**. With **Pandas + Mutagen**, you can build a pipeline to scan and analyze each file automatically. 🛁

🔗 [GitHub Link](https://github.com/jcombari/AI-For-Unstructured-Data/blob/main/Audio/20250201_Extract%20Audio%20Metadata%20with%20Pandas%20%2B%20Mutagen.ipynb)

## ⚙️ Business impact:

This technique powers **music recommendation models**, **audio classification**, and **sound quality analysis**. 🎶📊

🤔 How would you apply this in your industry? Let me know in the comments! 👇

🌍✨ #DataScience #Python #MachineLearning #ArtificialIntelligence #Pandas #AudioProcessing #BigData #AI

# ✨ 🎤 Extrae metadatos de archivos de audio con Pandas + Mutagen ✨

## 🎵 ¿Sabías que puedes analizar archivos de audio con Pandas?

Cuando trabajamos con reconocimiento de audio y análisis de música 🎶, necesitamos entender las propiedades de los archivos que procesamos.

## 🔍 ¿Cómo funciona?

Usamos **Mutagen** para extraer metadatos clave de archivos MP3 y los organizamos en un **DataFrame de Pandas** para su análisis 📊.

## 🎶 ¿Qué información podemos extraer?

🎧 **Artista** → ¿Quién interpreta la canción?
🎵 **Título** → Nombre de la pista
⏱️ **Duración** → Tiempo total en segundos
💽 **Formato** → En este caso, MP3
🔊 **Bitrate** → Calidad del audio en bits por segundo

## 🔎 ¿Por qué es útil?

✔️ Ayuda a limpiar y estructurar bibliotecas de audio 🎶.
✔️ Facilita la ingeniería de características en modelos de **Machine Learning** 🧠.
✔️ Permite identificar calidad y consistencia en grandes volúmenes de archivos.

## ✨ Caso práctico real:

Imagina que trabajas en una empresa de **streaming de música** y necesitas analizar la calidad de miles de pistas. Con **Pandas + Mutagen**, puedes construir un pipeline que revise y analice automáticamente cada archivo. 🛁

🔗 [Enlace Github](https://github.com/jcombari/AI-For-Unstructured-Data/blob/main/Audio/20250201_Extract%20Audio%20Metadata%20with%20Pandas%20%2B%20Mutagen.ipynb)

## ⚙️ Impacto en el negocio:

Esta técnica se usa en modelos de **recomendación de música**, **clasificación de audio** y **análisis de calidad de sonido**. 🎶📊

🤔 ¿Cómo podrías aplicar esto en tu industria? Cuéntamelo en los comentarios. 👇

🌍✨ #DataScience #Python #MachineLearning #ArtificialIntelligence #Pandas #AudioProcessing #BigData #AI

---



In [1]:
# Import necessary libraries
import pandas as pd  # Pandas for data manipulation
from mutagen.mp3 import MP3  # MP3 file metadata extraction
from mutagen.easyid3 import EasyID3  # To access ID3 metadata

# Generate sample audio files (simulated) - In a real case, replace with actual file paths
import tempfile
from pydub.generators import Sine
from mutagen.id3 import ID3, TIT2, TPE1

# Function to create an MP3 file with metadata
def create_sample_audio(filename, title, artist, duration=5):
    """Creates a sample MP3 file with sine wave audio and adds metadata."""
    sine_wave = Sine(440).to_audio_segment(duration=duration * 1000)
    sine_wave.export(filename, format="mp3")

    # Add metadata (Title & Artist)
    tags = ID3()
    tags.add(TIT2(encoding=3, text=title))  # Song title
    tags.add(TPE1(encoding=3, text=artist))  # Artist name
    tags.save(filename)

# Creating temporary files
file1 = tempfile.NamedTemporaryFile(suffix=".mp3", delete=False).name
file2 = tempfile.NamedTemporaryFile(suffix=".mp3", delete=False).name

# Generate sample MP3 files with metadata
create_sample_audio(file1, title="Deep Learning Beats", artist="AI Synth", duration=5)
create_sample_audio(file2, title="Python Grooves", artist="DataRock", duration=10)

# Function to extract metadata from audio files
def extract_audio_metadata(file_path):
    """Extracts metadata from an MP3 file using Mutagen."""
    try:
        audio = MP3(file_path, ID3=EasyID3)  # Load the MP3 file
        metadata = {
            "File Name": file_path.split("/")[-1],  # Extract file name
            "Title": audio.get("title", ["Unknown"])[0],  # Extract title
            "Artist": audio.get("artist", ["Unknown"])[0],  # Extract artist
            "Duration (s)": round(audio.info.length, 2),  # Get duration in seconds
            "Bitrate": audio.info.bitrate,  # Get bitrate
            "Format": "MP3",  # Since we're working with MP3 files
        }
        return metadata
    except Exception as e:
        print(f"Error processing {file_path}: {e}")
        return None

# List of audio files
audio_files = [file1, file2]

# Extract metadata for each file
metadata_list = [extract_audio_metadata(file) for file in audio_files]

# Convert to a Pandas DataFrame
df = pd.DataFrame(metadata_list)

# Display the metadata DataFrame
print(df)

# Optional: Save to CSV for further analysis
df.to_csv("audio_metadata.csv", index=False)


                                           File Name                Title  \
0  C:\Users\jenny\AppData\Local\Temp\tmpj73j0a4q.mp3  Deep Learning Beats   
1  C:\Users\jenny\AppData\Local\Temp\tmphk9nc2ky.mp3       Python Grooves   

     Artist  Duration (s)  Bitrate Format  
0  AI Synth          2.82   228216    MP3  
1  DataRock          5.62   228683    MP3  
