# 🐍 Python: Extracting Metadata from Videos 🎬

## ❓ **How can we easily manage and analyze large volumes of multimedia data?**  
👉 **We can extract video metadata using Python and Pandas** with the power of `ffmpeg`!  
This technique allows us to gather useful information like duration, frames per second (FPS), and resolution from video files stored in a DataFrame.  

## 👉 Solution  
We can use `ffmpeg` to extract metadata from videos and load it into a DataFrame using Pandas. This process will help you efficiently manage large datasets containing video files, a key skill for data scientists working with multimedia data.  

## 🔧 How does it work?  
`ffmpeg` is a powerful multimedia framework that can process video, audio, and other multimedia files. We'll extract key information, like:

💡 **Duration**: How long the video is.  
💡 **FPS**: The number of frames per second.  
💡 **Resolution**: The width and height of the video.  

These details will be automatically parsed into a DataFrame, making them easy to manipulate and analyze.

## 🔎 Why does it matter?  
In today's world, video content is growing exponentially. Managing and extracting meaningful insights from this unstructured data is essential for businesses and research. This technique is highly applicable for content analysis, video classification, and automated reporting.

💥 **Imagine having a database with thousands of video files**—automatically knowing the resolution, FPS, and duration of each video will save you tons of time!

## ✨ Real-Life Example or Case Study:  
Let’s take a look at how this works in practice with a sample DataFrame of video files!  

In real-world applications, such as video analysis platforms, streaming services, or content creation, the ability to efficiently process and extract metadata can be crucial for:

💼 Content categorization.  
💼 Video quality assurance.  
💼 Automating media management processes.  

## ⚙️ Business Impact:  
Using `ffmpeg` with Pandas for video metadata extraction boosts productivity and reduces manual data entry. It enhances workflows by automating the process of gathering important data points, giving analysts more time to focus on interpretation and strategy.

## 📊 What does the code do?  
The Python script below utilizes `ffmpeg` to extract metadata from video files, processes it, and stores the data in a Pandas DataFrame. You'll be able to analyze the video characteristics like duration, FPS, and resolution.

🔗 [Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

# 💭 Reflection:  
How do you manage and extract metadata from unstructured data in your projects? Have you considered how automating this process could help your workflow? Let’s talk about it!

🔑 #DataScience #MachineLearning #AI #Python #Pandas #FFmpeg #TechForGood #UnstructuredData #DataAnalysis #DeepLearning #CloudComputing #GenerativeAI #VideoAnalytics #YoungProfessionals

---

# 🐍 Python: Extracción de metadatos de videos 🎬

## ❓ **¿Cómo podemos gestionar y analizar fácilmente grandes volúmenes de datos multimedia?**  
👉 **Podemos extraer metadatos de videos con Python y Pandas** utilizando la herramienta `ffmpeg`!  
Este proceso nos permite obtener información útil como la duración, los FPS y la resolución de los videos almacenados en un DataFrame.  


## 👉 Solución  
Podemos usar `ffmpeg` para extraer metadatos de los videos y cargarlos en un DataFrame utilizando Pandas. Este proceso te ayudará a gestionar eficientemente grandes conjuntos de datos que contienen archivos de video, una habilidad clave para los científicos de datos que trabajan con datos multimedia.  

## 🔧 ¿Cómo funciona?  
`ffmpeg` es un poderoso marco multimedia que puede procesar archivos de video, audio y otros archivos multimedia. Extraeremos información clave, como:

💡 **Duración**: Cuánto dura el video.  
💡 **FPS**: El número de cuadros por segundo.  
💡 **Resolución**: El ancho y alto del video.  

Estos detalles se analizarán automáticamente y se cargarán en un DataFrame, lo que facilita su manipulación y análisis.

## 🔎 ¿Por qué es importante?  
Hoy en día, el contenido en video está creciendo exponencialmente. Gestionar y extraer información relevante de estos datos no estructurados es esencial para las empresas y la investigación. Esta técnica es muy útil para análisis de contenido, clasificación de videos e informes automatizados.

💥 **Imagina tener una base de datos con miles de archivos de video**—saber automáticamente la resolución, los FPS y la duración de cada video te ahorrará muchísimo tiempo.

## ✨ Ejemplo real o caso práctico:  
Veamos cómo funciona esto en la práctica con un DataFrame de ejemplo con archivos de video.  

En aplicaciones del mundo real, como plataformas de análisis de videos, servicios de streaming o creación de contenido, la capacidad de procesar y extraer metadatos de manera eficiente puede ser crucial para:

💼 La categorización de contenido.  
💼 El aseguramiento de la calidad de los videos.  
💼 La automatización de los procesos de gestión multimedia.  

## ⚙️ Impacto en el negocio:  
Usar `ffmpeg` con Pandas para extraer metadatos de videos mejora la productividad y reduce el trabajo manual. Potencia los flujos de trabajo al automatizar el proceso de recopilación de datos clave, dando a los analistas más tiempo para concentrarse en la interpretación y la estrategia.

## 📊 ¿Qué hace el código?  
El siguiente script en Python utiliza `ffmpeg` para extraer metadatos de los archivos de video, los procesa y almacena los datos en un DataFrame de Pandas. Podrás analizar las características de los videos, como la duración, los FPS y la resolución.

🔗 [Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

## 💭 Reflexión:  
¿Cómo gestionas y extraes los metadatos de los datos no estructurados en tus proyectos? ¿Has considerado cómo automatizar este proceso podría ayudar a mejorar tu flujo de trabajo? ¡Hablemos de ello!

🔑 #DataScience #MachineLearning #AI #Python #Pandas #FFmpeg #TechForGood #UnstructuredData #DataAnalysis #DeepLearning #CloudComputing #GenerativeAI #VideoAnalytics #YoungProfessionals

### Python Code Example:


In [2]:
import subprocess
import re  # Regular expressions to parse the output

# Function to extract metadata using subprocess (FFmpeg)
def extract_video_metadata(file_path):
    try:
        # Specify the full path to ffmpeg executable if necessary, or just 'ffmpeg' if it's in your PATH
        command = ['ffmpeg', '-i', file_path]
        
        # Run ffmpeg command to get video metadata
        result = subprocess.run(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True, shell=True)
        
        # Print out the stderr and stdout for debugging purposes
        print("STDOUT:", result.stdout)
        print("STDERR:", result.stderr)

        # Extract duration, fps, and resolution using regular expressions from stderr
        duration_match = re.search(r'Duration: (\d+:\d+:\d+\.\d+)', result.stderr)
        fps_match = re.search(r'(\d+\.?\d*) fps', result.stderr)
        resolution_match = re.search(r'(\d+x\d+)', result.stderr)

        # Ensure the matches were found
        if duration_match and fps_match and resolution_match:
            duration = duration_match.group(1)  # Duration in HH:MM:SS.xx format
            fps = fps_match.group(1)  # FPS
            resolution = resolution_match.group(1)  # Resolution (width x height)

            return {
                'duration': duration,
                'fps': fps,
                'resolution': resolution
            }
        else:
            print(f"No metadata found for {file_path}.")
            return None
            
    except Exception as e:
        print(f"Error processing {file_path}: {e}")
        return None

# Sample list of video file paths (make sure to update the paths to your actual files)
video_files = [
    '20250212_video1.mp4', 
    '20250212_video2.mp4', 
    '20250212_video3.mp4'
]

# Initialize an empty list to store metadata
video_metadata = []

# Loop through video files and extract metadata
for video_file in video_files:
    metadata = extract_video_metadata(video_file)
    if metadata:
        video_metadata.append(metadata)

# Save the metadata to a text file
output_file = 'video_metadata.txt'  # Specify the file name and location

# Open the file in write mode and write the metadata
with open(output_file, 'w') as f:
    for metadata in video_metadata:
        if metadata:
            f.write(f"Duration: {metadata['duration']}\n")
            f.write(f"FPS: {metadata['fps']}\n")
            f.write(f"Resolution: {metadata['resolution']}\n")
            f.write("\n")  # Add a blank line between video entries

print(f"Metadata saved to {output_file}")


STDOUT: 
STDERR: ffmpeg version 6.1 Copyright (c) 2000-2023 the FFmpeg developers
  built with clang version 17.0.4
  configuration: --prefix=/d/bld/ffmpeg_1699729642246/_h_env/Library --cc=clang.exe --cxx=clang++.exe --nm=llvm-nm --ar=llvm-ar --disable-doc --disable-openssl --enable-demuxer=dash --enable-hardcoded-tables --enable-libfreetype --enable-libfontconfig --enable-libopenh264 --enable-libdav1d --ld=lld-link --target-os=win64 --enable-cross-compile --toolchain=msvc --host-cc=clang.exe --extra-libs=ucrt.lib --extra-libs=vcruntime.lib --extra-libs=oldnames.lib --strip=llvm-strip --disable-stripping --host-extralibs= --enable-gpl --enable-libx264 --enable-libx265 --enable-libaom --enable-libsvtav1 --enable-libxml2 --enable-pic --enable-shared --disable-static --enable-version3 --enable-zlib --enable-libopus --pkg-config=/d/bld/ffmpeg_1699729642246/_build_env/Library/bin/pkg-config
  libavutil      58. 29.100 / 58. 29.100
  libavcodec     60. 31.102 / 60. 31.102
  libavformat    6