<a href="https://colab.research.google.com/github/missestrella2/scriptscolab/blob/main/ppt_a_doc.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Extrae texto, cuadros de texto, tablas e imagenes!!

### **Explicación de las mejoras:**
✅ **Carga un archivo PPTX desde Google Colab.**  
✅ **Crea la carpeta `ppt a doc` en Google Drive si no existe.**  
✅ **Extrae:**  
  - **Títulos, subtítulos y cuadros de texto.**  
  - **Tablas y las organiza en formato Word.**  
  - **Imágenes, las guarda en una subcarpeta `images` dentro de `ppt a doc`.**  
✅ **Guarda el archivo DOCX en `ppt a doc` en Google Drive.**  
✅ **Da la opción de descargar el archivo DOCX.**  


In [1]:
# prompt: montar drive

from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [2]:
!pip install python-pptx python-docx pillow


Collecting python-pptx
  Downloading python_pptx-1.0.2-py3-none-any.whl.metadata (2.5 kB)
Collecting python-docx
  Downloading python_docx-1.1.2-py3-none-any.whl.metadata (2.0 kB)
Collecting XlsxWriter>=0.5.7 (from python-pptx)
  Downloading XlsxWriter-3.2.2-py3-none-any.whl.metadata (2.8 kB)
Downloading python_pptx-1.0.2-py3-none-any.whl (472 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m472.8/472.8 kB[0m [31m7.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading python_docx-1.1.2-py3-none-any.whl (244 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m244.3/244.3 kB[0m [31m17.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading XlsxWriter-3.2.2-py3-none-any.whl (165 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m165.1/165.1 kB[0m [31m13.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: XlsxWriter, python-docx, python-pptx
Successfully installed XlsxWriter-3.2.2 python-docx-1.1.2 python-pptx-1.0.2


In [3]:
### **Código Mejorado:**

import os
import shutil
from pptx import Presentation
from pptx.enum.shapes import MSO_SHAPE_TYPE
from docx import Document
from docx.shared import Inches
from google.colab import files
from PIL import Image

# Definir carpeta de salida en Google Drive
output_folder = "/content/drive/MyDrive/ppt a doc"
if not os.path.exists(output_folder):
    os.makedirs(output_folder)

# Subir archivo PPTX
uploaded = files.upload()
pptx_file = list(uploaded.keys())[0]
pptx_path = os.path.join("/content", pptx_file)  # Ruta en el entorno local

# Nombre del archivo DOCX de salida
docx_file = os.path.splitext(pptx_file)[0] + ".docx"
docx_path = os.path.join(output_folder, docx_file)

# Carpeta para guardar imágenes
image_dir = os.path.join(output_folder, "images")
if not os.path.exists(image_dir):
    os.makedirs(image_dir)

def extract_pptx_to_docx(pptx_path, docx_path):
    """ Extrae texto, tablas e imágenes de un PPTX y guarda en un DOCX """
    prs = Presentation(pptx_path)
    doc = Document()

    for i, slide in enumerate(prs.slides, start=1):
        doc.add_heading(f"Slide {i}", level=1)  # Encabezado para cada diapositiva

        for shape in slide.shapes:
            if shape.has_text_frame:
                for paragraph in shape.text_frame.paragraphs:
                    text = paragraph.text.strip()
                    if text:
                        doc.add_paragraph(text, style="Normal")

            # Extraer imágenes
            if shape.shape_type == MSO_SHAPE_TYPE.PICTURE:
                image = shape.image
                image_bytes = image.blob
                image_path = os.path.join(image_dir, f"slide_{i}.png")

                with open(image_path, "wb") as f:
                    f.write(image_bytes)

                doc.add_picture(image_path, width=Inches(4))
                doc.add_paragraph(f"Imagen de la Slide {i}")

        # Extraer tablas
        for shape in slide.shapes:
            if shape.has_table:
                table = shape.table
                doc.add_paragraph("\nTabla:")

                word_table = doc.add_table(rows=len(table.rows), cols=len(table.columns))
                word_table.style = 'Table Grid'

                for row_idx, row in enumerate(table.rows):
                    for col_idx, cell in enumerate(row.cells):
                        word_table.cell(row_idx, col_idx).text = cell.text

        doc.add_paragraph("\n" + "-" * 50 + "\n")  # Separador entre diapositivas

    # Guardar el documento
    doc.save(docx_path)
    print(f"Documento guardado en: {docx_path}")

# Ejecutar conversión
extract_pptx_to_docx(pptx_path, docx_path)

# Opción para descargar el archivo
files.download(docx_path)




Saving Proyecto Integrador.pptx to Proyecto Integrador.pptx
Documento guardado en: /content/drive/MyDrive/ppt a doc/Proyecto Integrador.docx


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>