# üêç Python: Extracting Metadata from Videos üé¨

## ‚ùì **How can we easily manage and analyze large volumes of multimedia data?**  
üëâ **We can extract video metadata using Python and Pandas** with the power of `ffmpeg`!  
This technique allows us to gather useful information like duration, frames per second (FPS), and resolution from video files stored in a DataFrame.  

## üëâ Solution  
We can use `ffmpeg` to extract metadata from videos and load it into a DataFrame using Pandas. This process will help you efficiently manage large datasets containing video files, a key skill for data scientists working with multimedia data.  

## üîß How does it work?  
`ffmpeg` is a powerful multimedia framework that can process video, audio, and other multimedia files. We'll extract key information, like:

üí° **Duration**: How long the video is.  
üí° **FPS**: The number of frames per second.  
üí° **Resolution**: The width and height of the video.  

These details will be automatically parsed into a DataFrame, making them easy to manipulate and analyze.

## üîé Why does it matter?  
In today's world, video content is growing exponentially. Managing and extracting meaningful insights from this unstructured data is essential for businesses and research. This technique is highly applicable for content analysis, video classification, and automated reporting.

üí• **Imagine having a database with thousands of video files**‚Äîautomatically knowing the resolution, FPS, and duration of each video will save you tons of time!

## ‚ú® Real-Life Example or Case Study:  
Let‚Äôs take a look at how this works in practice with a sample DataFrame of video files!  

In real-world applications, such as video analysis platforms, streaming services, or content creation, the ability to efficiently process and extract metadata can be crucial for:

üíº Content categorization.  
üíº Video quality assurance.  
üíº Automating media management processes.  

## ‚öôÔ∏è Business Impact:  
Using `ffmpeg` with Pandas for video metadata extraction boosts productivity and reduces manual data entry. It enhances workflows by automating the process of gathering important data points, giving analysts more time to focus on interpretation and strategy.

## üìä What does the code do?  
The Python script below utilizes `ffmpeg` to extract metadata from video files, processes it, and stores the data in a Pandas DataFrame. You'll be able to analyze the video characteristics like duration, FPS, and resolution.

üîó [Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

# üí≠ Reflection:  
How do you manage and extract metadata from unstructured data in your projects? Have you considered how automating this process could help your workflow? Let‚Äôs talk about it!

üîë #DataScience #MachineLearning #AI #Python #Pandas #FFmpeg #TechForGood #UnstructuredData #DataAnalysis #DeepLearning #CloudComputing #GenerativeAI #VideoAnalytics #YoungProfessionals

---

# üêç Python: Extracci√≥n de metadatos de videos üé¨

## ‚ùì **¬øC√≥mo podemos gestionar y analizar f√°cilmente grandes vol√∫menes de datos multimedia?**  
üëâ **Podemos extraer metadatos de videos con Python y Pandas** utilizando la herramienta `ffmpeg`!  
Este proceso nos permite obtener informaci√≥n √∫til como la duraci√≥n, los FPS y la resoluci√≥n de los videos almacenados en un DataFrame.  


## üëâ Soluci√≥n  
Podemos usar `ffmpeg` para extraer metadatos de los videos y cargarlos en un DataFrame utilizando Pandas. Este proceso te ayudar√° a gestionar eficientemente grandes conjuntos de datos que contienen archivos de video, una habilidad clave para los cient√≠ficos de datos que trabajan con datos multimedia.  

## üîß ¬øC√≥mo funciona?  
`ffmpeg` es un poderoso marco multimedia que puede procesar archivos de video, audio y otros archivos multimedia. Extraeremos informaci√≥n clave, como:

üí° **Duraci√≥n**: Cu√°nto dura el video.  
üí° **FPS**: El n√∫mero de cuadros por segundo.  
üí° **Resoluci√≥n**: El ancho y alto del video.  

Estos detalles se analizar√°n autom√°ticamente y se cargar√°n en un DataFrame, lo que facilita su manipulaci√≥n y an√°lisis.

## üîé ¬øPor qu√© es importante?  
Hoy en d√≠a, el contenido en video est√° creciendo exponencialmente. Gestionar y extraer informaci√≥n relevante de estos datos no estructurados es esencial para las empresas y la investigaci√≥n. Esta t√©cnica es muy √∫til para an√°lisis de contenido, clasificaci√≥n de videos e informes automatizados.

üí• **Imagina tener una base de datos con miles de archivos de video**‚Äîsaber autom√°ticamente la resoluci√≥n, los FPS y la duraci√≥n de cada video te ahorrar√° much√≠simo tiempo.

## ‚ú® Ejemplo real o caso pr√°ctico:  
Veamos c√≥mo funciona esto en la pr√°ctica con un DataFrame de ejemplo con archivos de video.  

En aplicaciones del mundo real, como plataformas de an√°lisis de videos, servicios de streaming o creaci√≥n de contenido, la capacidad de procesar y extraer metadatos de manera eficiente puede ser crucial para:

üíº La categorizaci√≥n de contenido.  
üíº El aseguramiento de la calidad de los videos.  
üíº La automatizaci√≥n de los procesos de gesti√≥n multimedia.  

## ‚öôÔ∏è Impacto en el negocio:  
Usar `ffmpeg` con Pandas para extraer metadatos de videos mejora la productividad y reduce el trabajo manual. Potencia los flujos de trabajo al automatizar el proceso de recopilaci√≥n de datos clave, dando a los analistas m√°s tiempo para concentrarse en la interpretaci√≥n y la estrategia.

## üìä ¬øQu√© hace el c√≥digo?  
El siguiente script en Python utiliza `ffmpeg` para extraer metadatos de los archivos de video, los procesa y almacena los datos en un DataFrame de Pandas. Podr√°s analizar las caracter√≠sticas de los videos, como la duraci√≥n, los FPS y la resoluci√≥n.

üîó [Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

## üí≠ Reflexi√≥n:  
¬øC√≥mo gestionas y extraes los metadatos de los datos no estructurados en tus proyectos? ¬øHas considerado c√≥mo automatizar este proceso podr√≠a ayudar a mejorar tu flujo de trabajo? ¬°Hablemos de ello!

üîë #DataScience #MachineLearning #AI #Python #Pandas #FFmpeg #TechForGood #UnstructuredData #DataAnalysis #DeepLearning #CloudComputing #GenerativeAI #VideoAnalytics #YoungProfessionals

### Python Code Example:


In [2]:
import subprocess
import re  # Regular expressions to parse the output

# Function to extract metadata using subprocess (FFmpeg)
def extract_video_metadata(file_path):
    try:
        # Specify the full path to ffmpeg executable if necessary, or just 'ffmpeg' if it's in your PATH
        command = ['ffmpeg', '-i', file_path]
        
        # Run ffmpeg command to get video metadata
        result = subprocess.run(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True, shell=True)
        
        # Print out the stderr and stdout for debugging purposes
        print("STDOUT:", result.stdout)
        print("STDERR:", result.stderr)

        # Extract duration, fps, and resolution using regular expressions from stderr
        duration_match = re.search(r'Duration: (\d+:\d+:\d+\.\d+)', result.stderr)
        fps_match = re.search(r'(\d+\.?\d*) fps', result.stderr)
        resolution_match = re.search(r'(\d+x\d+)', result.stderr)

        # Ensure the matches were found
        if duration_match and fps_match and resolution_match:
            duration = duration_match.group(1)  # Duration in HH:MM:SS.xx format
            fps = fps_match.group(1)  # FPS
            resolution = resolution_match.group(1)  # Resolution (width x height)

            return {
                'duration': duration,
                'fps': fps,
                'resolution': resolution
            }
        else:
            print(f"No metadata found for {file_path}.")
            return None
            
    except Exception as e:
        print(f"Error processing {file_path}: {e}")
        return None

# Sample list of video file paths (make sure to update the paths to your actual files)
video_files = [
    '20250212_video1.mp4', 
    '20250212_video2.mp4', 
    '20250212_video3.mp4'
]

# Initialize an empty list to store metadata
video_metadata = []

# Loop through video files and extract metadata
for video_file in video_files:
    metadata = extract_video_metadata(video_file)
    if metadata:
        video_metadata.append(metadata)

# Save the metadata to a text file
output_file = 'video_metadata.txt'  # Specify the file name and location

# Open the file in write mode and write the metadata
with open(output_file, 'w') as f:
    for metadata in video_metadata:
        if metadata:
            f.write(f"Duration: {metadata['duration']}\n")
            f.write(f"FPS: {metadata['fps']}\n")
            f.write(f"Resolution: {metadata['resolution']}\n")
            f.write("\n")  # Add a blank line between video entries

print(f"Metadata saved to {output_file}")


STDOUT: 
STDERR: ffmpeg version 6.1 Copyright (c) 2000-2023 the FFmpeg developers
  built with clang version 17.0.4
  configuration: --prefix=/d/bld/ffmpeg_1699729642246/_h_env/Library --cc=clang.exe --cxx=clang++.exe --nm=llvm-nm --ar=llvm-ar --disable-doc --disable-openssl --enable-demuxer=dash --enable-hardcoded-tables --enable-libfreetype --enable-libfontconfig --enable-libopenh264 --enable-libdav1d --ld=lld-link --target-os=win64 --enable-cross-compile --toolchain=msvc --host-cc=clang.exe --extra-libs=ucrt.lib --extra-libs=vcruntime.lib --extra-libs=oldnames.lib --strip=llvm-strip --disable-stripping --host-extralibs= --enable-gpl --enable-libx264 --enable-libx265 --enable-libaom --enable-libsvtav1 --enable-libxml2 --enable-pic --enable-shared --disable-static --enable-version3 --enable-zlib --enable-libopus --pkg-config=/d/bld/ffmpeg_1699729642246/_build_env/Library/bin/pkg-config
  libavutil      58. 29.100 / 58. 29.100
  libavcodec     60. 31.102 / 60. 31.102
  libavformat    6