## Asistente de Proyectos de Datos con IA 

**Pre-entrega 1** – Pablo Kosicki 
Curso: IA - Generación de Prompts  
Comisión: 84185 


## 1. Presentación del problema

En la actualidad, muchas personas que trabajan con datos (ya sean analistas, testers, o roles no técnicos) enfrentan dificultades para formular preguntas útiles, transformar los datos adecuadamente y generar visualizaciones efectivas.

Esto limita la comprensión de la información disponible y afecta la toma de decisiones.

La necesidad de interpretar datos de manera eficiente, sin ser experto, es creciente. Resolver esta problemática con herramientas de IA y prompts bien diseñados puede facilitar un acceso más intuitivo al análisis de datos.


## 2. Propuesta de solución

Se propone crear un Asistente de Proyectos de Datos basado en IA, utilizando prompt engineering, que pueda:

- Sugerir preguntas analíticas a partir de una descripción de un dataset.
- Recomendar transformaciones de datos útiles.
- Proponer visualizaciones apropiadas.
- Generar imágenes explicativas mediante IA visual (DALL·E u otra).
- Escalar en etapas siguientes al uso de pandas y matplotlib para análisis automatizado.

En esta primera entrega se enfocará en la interacción texto a texto con ChatGPT.


## 3. Pruebas iniciales de prompts

A continuación, se presentan algunos ejemplos de interacción con el asistente:

### Prompt 1: Generación de preguntas analíticas

**Sistema**: Sos un experto en análisis de datos. Ayudás a usuarios no técnicos a explorar datasets.

**Usuario**: Tengo un dataset con datos de ventas: fecha, zona, producto, cantidad vendida y precio unitario. ¿Qué preguntas interesantes podría hacer?

**Respuesta esperada**:

- ¿Cuál es el producto más vendido por zona?
- ¿Cómo varía el volumen de ventas a lo largo del tiempo?
- ¿Hay una correlación entre precio y cantidad vendida?
- ¿Qué zona genera más ingresos totales?

In [50]:
# Instalar versión específica del paquete OpenAI - Cliente de la API de OpenAI
!pip install openai==0.28.0  

# Instalar o actualizar la librería de Gemini AI - Cliente para Gemini (Google)
!pip install --upgrade google-generativeai  

# Instalar versiones compatibles de pandas (Manipulación de datos en tablas) y numpy (Cálculos matemáticos y estructuras de datos eficientes)
!pip install pandas==1.5.0  
!pip install numpy==1.23.5   

# Instalar Pillow (reemplazo moderno de PIL) para manipular imágenes
!pip install Pillow




In [51]:
# importamos los modulos de OpenIA y Gemini
import google.generativeai as genai
import openai

In [52]:
#  Defino Api Key para google
genai.configure(api_key='AIzaSyDYtEXC1iqW6SSsgBaH5U_nsS2Hv1gXBGQ')

#  Defino Api Key para OpenIA

openai.api_key = "" #Example -> dw-bQyr9128F49VJRNKAnST32lbkFJ2Zv4qEhWo4R0Xh6yrh15


In [53]:

model = genai.GenerativeModel(model_name="gemini-1.5-flash")

prompt = """Tengo un dataset con columnas: fecha, zona, producto, cantidad vendida y precio unitario.
¿Qué preguntas analíticas interesantes podría hacer?"""

response = model.generate_content(prompt)
print(response.text)


Tu dataset sobre ventas te permite explorar una gran variedad de preguntas analíticas. Aquí te presento algunas, categorizadas para facilitar la comprensión:

**I. Análisis de Tendencias en el Tiempo:**

* **¿Cómo ha evolucionado la cantidad vendida de cada producto a lo largo del tiempo?**  Esto permite identificar productos con crecimiento, declive o estacionalidad.  Se puede segmentar por zona.
* **¿Hay alguna estacionalidad en las ventas?** (ej. aumento en Navidad, disminución en verano).  Se puede analizar por producto y zona.
* **¿Cuál ha sido la evolución del precio unitario de cada producto a lo largo del tiempo?**  Identifica ajustes de precios y su impacto en las ventas.
* **¿Cómo se comparan las ventas de un año a otro?**  Identifica crecimiento o decrecimiento año tras año.
* **¿Existe alguna correlación entre el precio unitario y la cantidad vendida?** ¿Subir el precio disminuye las ventas? ¿Existe un precio óptimo?

**II. Análisis por Zona:**

* **¿Cuál es la zona con may

In [54]:
import requests
from PIL import Image
from io import BytesIO

# Inicializar el modelo
model = genai.GenerativeModel("gemini-1.5-flash")

# Descargar y abrir la imagen
image_url = "https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhWpo4qD-FSP-EWV117iWvuBjhJFb0O5FP72vnRXbbJzFozoa_ijSSNUKjhwdxGfLu_DeqtDVkbpOWaybQVoo4CwbDo_9TxkJUzvDu0Oqa648Q0Z7VHfS0hkO-EC78BlA1jzObnBDZoGc4/s640/grafico+coca+cola+pepsi.jpg"
response_img = requests.get(image_url)
image = Image.open(BytesIO(response_img.content))

# Convertir imagen a bytes
buffer = BytesIO()
image.save(buffer, format="JPEG")
image_bytes = buffer.getvalue()

# Crear la parte de imagen compatible con Gemini
image_part = {
    "mime_type": "image/jpeg",
    "data": image_bytes
}

# Enviar texto + imagen al modelo
response = model.generate_content([
    {"text": "En nuestro rol de analistas de datos ¿que preguntas analiticas podemos hacer a partir de esta imagen?"},
    image_part
])

# Mostrar la respuesta
print(response.text)

Como analistas de datos, podemos formular varias preguntas analíticas a partir de la imagen proporcionada, que compara las ganancias de Coca-Cola y Pepsi:

**Preguntas sobre las tendencias a largo plazo:**

* **¿Cuál es la tasa de crecimiento anual promedio de las ganancias netas para Coca-Cola y Pepsi entre 2002 y 2011?**  Esto nos permitiría comparar el crecimiento de ambas compañías a lo largo del período.  Podríamos calcular esto usando regresión lineal o tasas de crecimiento compuestas.
* **¿Existe una correlación entre las ganancias netas anuales de Coca-Cola y Pepsi?**  Si existe una correlación, ¿es positiva o negativa, y qué tan fuerte es? Esto nos ayudaría a entender si las dos compañías se ven afectadas de manera similar por los factores del mercado.
* **¿Cómo han cambiado las ganancias netas anuales de ambas compañías en relación con el PIB o otros indicadores económicos relevantes?** Esto añadiría contexto macroeconómico al análisis.
* **¿Se puede predecir la tendencia de 