# Taller: Análisis de Instagram con Apify API + Gemini  
Autor: (Paula Infante Martin)  
Fecha de generación: 2025-05-21


**Objetivos**

1. Obtener datos públicos de Instagram usando el actor **`apify/instagram-api-scraper`**.  
2. Limpiar y pre‑procesar captions e información de posts (descriptiva de los captions).  
3. Clasificar sentimiento de captions con la API de Google Generative AI (Gemini).  
4. Extraer temas dominantes con LDA y nombrarlos con Gemini. Crear Prompt
6. Diseñar una micro‑campaña basada en los insights descubiertos.


In [3]:
!pip install -qU requests pandas google-generativeai nltk seaborn wordcloud scikit-learn -q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m89.9/89.9 kB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.1/13.1 MB[0m [31m32.7 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
google-colab 1.0.0 requires pandas==2.2.2, but you have pandas 2.2.3 which is incompatible.[0m[31m
[0m

In [1]:
import pandas as pd
import requests
import google.generativeai as palm

In [2]:
# 🔑 Introduce tu token de Apify y de Google Generative AI (Gemini)
import os
APIFY_TOKEN = "apify_api_51Ta0XJPKp0oYaJee5ypEfhdlAFQ1h3heaiR"
GEMINI_API_KEY = "AIzaSyCczOcCwNwDKHrBH8JdSbV_lsnnD0yqZ68"
if "TU_" in APIFY_TOKEN or "TU_" in GEMINI_API_KEY:
    print("👉 Actualiza APIFY_TOKEN y GEMINI_API_KEY antes de ejecutar")


In [8]:
# ✅ Versión compatible con la API
actor_input = {
    "directUrls": ["https://www.instagram.com/disneylat/"],   # o listas de hashtags, places…
    "resultsType": "posts",
    "resultsLimit": 200,            # ≤ 1000 para posts
    "addParentData": True    ,
    "resultsType": "comments",# opcional, añade metadatos de la fuente
}

RUN_URL = (
    "https://api.apify.com/v2/acts/apify~instagram-api-scraper/run-sync-get-dataset-items"
    f"?token={APIFY_TOKEN}&memory=2048&timeout=120000"
)

items = requests.post(RUN_URL, json=actor_input).json()
df = pd.json_normalize(items)


In [9]:
df.to_csv("instagram_disney.csv", index=False)

In [6]:
import json
with open('nombre_del_archivo.json', 'r', encoding='utf-8') as f:
    data = json.load(f)
    print(json.dumps(data, indent=2))

[
  {
    "inputUrl": "https://www.instagram.com/humansofny/",
    "id": "242598499",
    "username": "humansofny",
    "url": "https://www.instagram.com/humansofny",
    "fullName": "Humans of New York",
    "biography": "New York City, one story at a time. Created by Brandon Stanton. Preorder \u2018Dear New York\u2019 below:",
    "externalUrls": [
      {
        "title": "",
        "lynx_url": "https://l.instagram.com/?u=http%3A%2F%2Fbit.ly%2FDearNewYorkBook&e=AT05C_p8D22QRQAMjy7-K-7Tig14p18UF-aLuhbWkHPjs7MmH60CGt-NpYY5vH5Fm9qFKqd5_bRFB7wAhih85Athj-pT4G_rVJ6d-F1F0-a3zlRj",
        "url": "http://bit.ly/DearNewYorkBook",
        "link_type": "external"
      }
    ],
    "externalUrl": "http://bit.ly/DearNewYorkBook",
    "externalUrlShimmed": "https://l.instagram.com/?u=http%3A%2F%2Fbit.ly%2FDearNewYorkBook&e=AT2N15-nK1bGPeuqy8omwxh41KMhiuv__Mfao6qhZ0qtd5YjQ7qxI3jnPB9mzz1zKldYacqNloJTOgLJHmeMZMmkUuNZBqsNY6m7KjERGN4NaGPB",
    "followersCount": 12798772,
    "followsCount": 518,
  

In [7]:
actor_input = {
    "directUrls": ["https://www.instagram.com/disneylat/"],
    "resultsType": "posts",
    "resultsLimit": 200,
    "addParentData": True}

RUN_URL = (
    "https://api.apify.com/v2/acts/apify~instagram-api-scraper/run-sync-get-dataset-items"
    f"?token={APIFY_TOKEN}&memory=2048&timeout=120000"
)

items = requests.post(RUN_URL, json=actor_input).json()
df = pd.json_normalize(items)


### 🔍 Preguntas – Sección 1 (Exploración)
Mire las columnas de su dataset y responda
1. ¿Cuántos posts hay en total?  
2. ¿Qué tipos de contenido (imagen, vídeo, carrusel) predominan?  (mira la columna type)
3. ¿Cuál es el rango de fechas cubierto por los posts?  
4. ¿Qué post obtuvo más 'likes' y cuál crees que es la razón?


In [None]:
total_posts = len(df)
print(f"Total de posts: {total_posts}")

Total de posts: 1


In [10]:
if 'type' in df.columns:
    content_distribution = df['type'].value_counts()
if 'type' in df.columns:
    content_distribution = df['type'].value_counts()
    print("Distribución de tipos de contenido:")
    display(content_distribution)

In [11]:
print(df.columns)

Index(['error.type', 'error.message'], dtype='object')


In [13]:
df['caption'] = df['message']

KeyError: 'message'

In [15]:
if 'timestamp' in df.columns:
    df['timestamp'] = pd.to_datetime(df['timestamp'])

    min_date = df['timestamp'].min()
    max_date = df['timestamp'].max()

    print(f"Rango de fechas cubierto por los posts: desde {min_date.date()} hasta {max_date.date()}")
    print(f"Rango de fechas cubierto por los posts: desde {min_date} hasta {max_date}")

In [14]:
items = requests.post(RUN_URL, json=actor_input).json()
df = pd.json_normalize(items)


## 🧹 Sección 2 (Limpieza)

Explica por qué es importante limpiar y normalizar el texto de los captions.  
Entregue un grafico de abrras con las frecuencia en los captions

Limpiar y normalizar los captions es fundamental porque mejora la precisión del análisis al eliminar ruido y unificar el formato, reduce el tamaño del vocabulario facilitando modelos más simples, permite comparar textos de forma consistente para detectar patrones, y optimiza el rendimiento al hacer el procesamiento más rápido y eficiente.

In [16]:
import matplotlib.pyplot as plt
import seaborn as sns

if 'caption' in df.columns:
    caption_counts = df['caption'].value_counts().reset_index()
    caption_counts.columns = ['caption', 'frequency']
    frequent_captions = caption_counts[caption_counts['frequency'] > 1]
    if not frequent_captions.empty:
        plt.figure(figsize=(12, 8))
        sns.barplot(x='frequency', y='caption', data=frequent_captions, palette='viridis')
        plt.title('Frecuencia de Captions Repetidos')
        plt.xlabel('Frecuencia')
        plt.ylabel('Caption')
        plt.tight_layout()
        plt.show()


## 🗂 Sección 4 (Temas)

10. Lista los nombres de los temas generados. ¿Alguno es inesperado?  
11. Con un heatmap *tipo de contenido × tema*, indica qué tema es “propiedad” de cada formato.  
12. Para el tema dominante, proporciona dos insights accionables.


In [17]:
df.head()

Unnamed: 0,error.type,error.message
0,platform-feature-disabled,Monthly usage hard limit exceeded


In [18]:
GEMINI_API_KEY ="AIzaSyCl7FSD8BilX5k_q-qjkOddfKT3DcHfH_U"

In [19]:
import google.generativeai as genai

genai.configure(api_key=GEMINI_API_KEY)

In [20]:

model = genai.GenerativeModel("gemini-1.5-flash")

In [21]:

import time
def classify_sentiment(text, model=model):
    prompt = (f"Clasifica el sentimiento del siguiente tweet como 'positivo', "
              f"'neutral' o 'negativo'. Solo responde con una palabra.\n\nTweet:\n{text}")
    time.sleep(1)
    return model.generate_content(prompt).text.strip().lower()



In [22]:
df["sentiment"] = df["caption"].apply(classify_sentiment)

KeyError: 'caption'


## 📝 Sección 6 (Micro‑campaña)

16. Presenta tus tres captions generados.  
17. Justifica  
&nbsp;&nbsp;a) Tema elegido.  
&nbsp;&nbsp;b) Tono y horario óptimos.  
18. Define un KPI de éxito y la meta para la campaña.


In [23]:
def generar_caption(topic, tone='inspirador'):
    prompt = (f"Actúa como community manager. Crea un caption de máximo 220 caracteres "
              f"sobre el tema '{topic}'. Tono {tone}. No incluyas hashtags ni menciones.")
    return model.generate_content(prompt).text.strip()

for t in ['exploración espacial', 'innovación', 'ciudadanía global']:
    print('→', generar_caption(t))


→ El universo nos llama.  Cada estrella, un sueño.  Cada planeta, una aventura.  ¡Explorar es nuestro destino!  ¿Qué te inspira del espacio?
→ La innovación no es solo una idea, es un salto.  Un paso hacia un futuro mejor, creado con valentía y visión. ¡Anímate a innovar!  El mundo te espera.
→ Construyamos un mundo mejor, juntos.  La ciudadanía global nos une:  compasión, acción, cambio. ¡Sé parte de la solución!  Tu voz importa.


Caption 1 Tema: exploración espacial: Embárcate en un viaje cósmico. La exploración espacial nos inspira a mirar más allá y alcanzar nuevas fronteras. El universo espera ser descubierto.

Caption 2 Tema: innovación: La innovación impulsa el futuro. Atreverse a pensar diferente abre puertas a posibilidades ilimitadas y transforma el mundo que conocemos.

Caption 3 Tema: ciudadanía global: Como ciudadanos globales, compartimos un planeta. Unámonos para construir un futuro sostenible y justo para todos. Pequeñas acciones tienen un gran impacto.


Tema elegido: Se eligieron temas que resuenan con la inspiración, la innovación y la conexión, buscando un impacto positivo y motivador.")

Tono y horario óptimos: Un tono inspirador y optimista es ideal para conectar emocionalmente. El horario óptimo sería al final de la tarde o noche entre 18:00 y 21:00 cuando las personas tienen más tiempo libre para interactuar con contenido aspiracional."

KPI de éxito: Tasa de engagement suma de likes, comentarios y compartidos dividida por el número de seguidores, multiplicado por 100.

print "Meta para la campaña: Aumentar la tasa de engagement en un 15% durante el período de la campaña.