# 📘 Carga de Archivos en Python

Este cuaderno presenta cómo cargar y leer diferentes tipos de archivos (texto, audio, video, PDF, hojas de cálculo, etc.) desde Google Colab, con aplicaciones para el trabajo lingüístico.


### 📁 Paso 1: Subir archivos manualmente en Colab

In [None]:
from google.colab import files

In [None]:
uploaded = files.upload()

### 📄 Leer archivos de texto (`.txt`)

In [None]:
with open("documento.txt", "r", encoding="utf-8") as f:
    texto = f.read()

print(texto)


In [None]:
texto.split()

### 📋 Leer archivos `.csv` (por ejemplo, corpus anotados)

In [None]:
import pandas as pd

In [None]:

df = pd.read_csv("corpus.csv", encoding="utf-8")
#DATA FRAME

In [None]:
type(df)

In [None]:
df

### 📊 Leer archivos de Excel (`.xlsx`)

In [None]:
df_excel = pd.read_excel("datos.xlsx")
df_excel


### 📄 Leer archivos PDF (por ejemplo, tesis o artículos)

In [None]:
!pip install PyMuPDF

import fitz as fz

In [None]:
with fz.open("documento.pdf") as doc:
    texto_pdf = ""
    for page in doc:
        texto_pdf += page.get_text()

print(texto_pdf)


In [None]:
texto_pdf[4:50]

In [None]:
texto_pdf

### 📄 Ejemplo: Procesamiento del texto extraído del PDF

In [None]:
import re

In [None]:
# Tokenizar oraciones
oraciones = re.split(r'[.!?]\s+', texto_pdf)
print("Primera oración:", oraciones[0])

# Tokenizar palabras
palabras = re.findall(r'\b\w+\b', texto_pdf.lower())
print("Primeras 10 palabras:", palabras[:10])


In [None]:
texto_pdf

In [None]:
texto_pdf.lower().split('\n')

### ✅ Generar audio en español con gTTS en Google Colab

In [None]:
!pip install gTTS pydub

from gtts import gTTS
from pydub import AudioSegment

In [None]:
texto = "Este es un ejemplo de audio generado automáticamente para análisis."

# Crear archivo MP3
tts = gTTS(text=texto, lang='es')
tts.save("audio_espanol.mp3")


In [None]:
# Convertir a WAV (opcional)
audio = AudioSegment.from_mp3("audio_espanol.mp3")
audio.export("audio_espanol.wav", format="wav")

### ✅ Generar video con ese audio:





In [None]:
from moviepy.editor import ColorClip, AudioFileClip

In [None]:


# Crear el audio con gTTS
texto = "Este es un ejemplo de audio generado automáticamente para análisis."
tts = gTTS(text=texto, lang='es')
tts.save("audio_espanol.mp3")

# Obtener duración del audio
audio = AudioSegment.from_mp3("audio_espanol.mp3")
audio.export("audio_espanol.wav", format="wav")
duracion = audio.duration_seconds

# Crear un clip de video con fondo blanco
video_clip = ColorClip(size=(640, 480), color=(255, 255, 255), duration=duracion)

# Cargar audio y unir al clip
audio_clip = AudioFileClip("audio_espanol.wav")
video_clip = video_clip.set_audio(audio_clip)

# Exportar el video
video_clip.write_videofile("video_espanol_wav.mp4", fps = 60, codec="libx264", audio_codec="aac")


### 🔊 Cargar archivos de audio (`.wav`, `.mp3`) para análisis de habla

In [None]:
!pip install librosa

import librosa

In [None]:

audio, sr = librosa.load("audio_espanol.wav", sr=None)

print(f"Duración: {len(audio)/sr:.2f} segundos - Sample Rate: {sr}")


### 🎧 Visualizar el espectrograma

In [None]:
import librosa.display
import matplotlib.pyplot as plt

In [None]:

#CARGA DEL ARCHIVO
audio, sr = librosa.load("audio_espanol.wav", sr=None)

#CONFIGURACION DEL GRAFICO
plt.figure(figsize=(10, 4))
librosa.display.waveshow(audio, sr=sr) #MUESTRA INFO DEL ESPECTOGRAMA
plt.title("Forma de onda del audio")
plt.xlabel("Tiempo (s)")
plt.ylabel("Amplitud")
plt.tight_layout()
#DISPLAY
plt.show()


### 🎥 Cargar archivos de video (`.mp4`) y extraer audio

In [None]:
!pip install moviepy

from moviepy.editor import VideoFileClip

In [None]:


clip = VideoFileClip("video_espanol.mp4")
audio_clip = clip.audio
audio_clip.write_audiofile("extraido.wav")


### 🎥 Ejemplo: Obtener duración del video

In [None]:
video = VideoFileClip("video_espanol.mp4")
print(f"Duración del video: {video.duration} segundos")


### 🔊 Ejemplo: Extraer características acústicas (MFCC) del audio

In [None]:
mfccs = librosa.feature.mfcc(y=audio, sr=sr, n_mfcc=13)

import matplotlib.pyplot as plt
import librosa.display

plt.figure(figsize=(10, 4))
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title("MFCC del audio")
plt.tight_layout()
plt.show()


### 📦 Conectarse a Google Drive (para archivos más grandes o persistentes)

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)


In [None]:
import os
ruta = '/content/drive/MyDrive/PUCP/Lecturer/NLP_PUCP/workshops/2025-1/w01/Data/'
archivos = os.listdir(ruta)
print(archivos)

In [None]:
with fitz.open(ruta + '/Amahuaca_dictionary_Setiembre_2023.pdf') as doc:
    texto_pdf_amahuaca = ""
    for page in doc:
        texto_pdf_amahuaca += page.get_text()

In [None]:
texto_pdf_amahuaca #PROCESO ERRONEO

## Una opcion es usar OCR

In [None]:
!apt-get install tesseract-ocr -y
!apt-get install tesseract-ocr-spa -y
!pip install pytesseract Pillow

import pytesseract
from PIL import Image
import fitz  # PyMuPDF
import io

In [None]:
# Abrir el PDF y extraer imagen de la página 10
doc = fitz.open(ruta + '/Amahuaca_dictionary_Setiembre_2023.pdf')
page = doc.load_page(10)
pix = page.get_pixmap(dpi=300)
img = Image.open(io.BytesIO(pix.tobytes("png")))

In [None]:
img

In [None]:
# Realizar OCR
texto = pytesseract.image_to_string(img, lang="spa")

In [None]:
texto.split()