# 1.2 - Procesamiento de archivos

<br>
<br>

<img src="https://raw.githubusercontent.com/Hack-io-AI/ai_images/main/goole_ai.png" style="width:400px;"/>

<h1>Tabla de Contenidos<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#1---Procesar-documentos-con-Google-AI" data-toc-modified-id="1---Procesar-documentos-con-Google-AI-1">1 - Procesar documentos con Google AI</a></span></li><li><span><a href="#2---Importar-API-Key-y-librería" data-toc-modified-id="2---Importar-API-Key-y-librería-2">2 - Importar API Key y librería</a></span></li><li><span><a href="#3---Documentos-disponibles" data-toc-modified-id="3---Documentos-disponibles-3">3 - Documentos disponibles</a></span></li><li><span><a href="#4---Subida-de-archivos" data-toc-modified-id="4---Subida-de-archivos-4">4 - Subida de archivos</a></span></li><li><span><a href="#5---Uso-del-modelo-con-archivos" data-toc-modified-id="5---Uso-del-modelo-con-archivos-5">5 - Uso del modelo con archivos</a></span></li></ul></div>

## 1 - Procesar documentos con Google AI

Google ha integrado capacidades de inteligencia artificial generativa en sus herramientas de procesamiento de documentos, permitiendo a los desarrolladores automatizar y mejorar la extracción y análisis de información de diversos tipos de archivos. La API de Gemini permite procesar y realizar inferencias en documentos PDF. Al cargar un PDF, la API puede:

+ Describir o responder preguntas sobre el contenido.
+ Resumir el contenido.
+ Extrapolar información a partir del contenido.


Esta funcionalidad facilita la interacción con documentos no estructurados, proporcionando respuestas textuales basadas en el contenido del archivo.

## 2 - Importar API Key y librería

In [1]:
# importamos la API KEY 

import os                           # libreria del sistema operativo
from dotenv import load_dotenv      # carga variables de entorno 


load_dotenv()

GOOGLE_AI_API_KEY = os.getenv('GOOGLE_AI_API_KEY')

In [2]:
import google.generativeai as genai

genai.configure(api_key=GOOGLE_AI_API_KEY)

## 3 - Documentos disponibles

In [4]:
os.listdir('../../files')

['Shibuya Tokio viendo gente pasar.mp4',
 'tts_audio.wav',
 'cookbook_recipes_nlg_10k.csv',
 'sensor.xls',
 'language_models_are_unsupervised_multitask_learners.pdf',
 'transcripcion.srt',
 '.DS_Store',
 'How AI Could Empower Any Business | Andrew Ng | TED.srt',
 'salida.mp3',
 'publications.sql',
 'Matematicas_Basicas2023.pdf',
 'jazz_sample.wav',
 'asturias_viajeros_por_franja_horaria.csv',
 'Casiopea - Looking UpDr SoloBass Solo Live 1985.mp4',
 'Will AI kill everyone Heres what the godfathers of AI have to say.mp4',
 'Shibuya_contorno.avi',
 'subtitulos.srt',
 'airbnb.csv',
 'fonts',
 'shark.gif',
 'state_of_the_union.txt',
 'shakespeare.txt',
 'Es posible que una IA.m4a',
 'retail.json',
 'J.A.M_SOIL & "PIMP" SESSIONS']

## 4 - Subida de archivos

In [13]:
ruta = '../../files/language_models_are_unsupervised_multitask_learners.pdf'

In [14]:
archivo = genai.upload_file(ruta)

## 5 - Uso del modelo con archivos

In [15]:
# nombre del modelo

modelo = 'gemini-1.5-flash'

In [16]:
# inicializamos el LLM

llm = genai.GenerativeModel(modelo)

In [17]:
# pregunta del usuario

prompt = 'Give me a summary of this pdf file and 10 bullet points of the most important issues.'

In [18]:
# llamada al modelo

respuesta = llm.generate_content([prompt, archivo])

In [19]:
# respuesta

texto = respuesta.to_dict()['candidates'][0]['content']['parts'][0]['text']

print(texto)

Here's a summary of the provided PDF, "Language Models are Unsupervised Multitask Learners," along with 10 key takeaways in bullet points.

**Summary:**

The paper explores the capabilities of large language models (LLMs) trained on a massive dataset of web text (WebText) to perform various natural language processing (NLP) tasks *without* explicit supervision.  The authors demonstrate that their largest model, GPT-2 (a 1.5 billion parameter Transformer), achieves state-of-the-art results or matches the performance of supervised baselines on several benchmark datasets in a zero-shot setting (meaning the model wasn't fine-tuned on those specific tasks).  This suggests a promising approach to building more general and robust NLP systems that learn from naturally occurring demonstrations rather than relying heavily on task-specific labeled data. The paper also investigates the model's capacity, diversity of generated text, and the issue of memorization versus generalization.


**10 Key Ta