# üìä Scraping - Fusi√≥n de perfiles seguidores

Notebook estilo Colab para agregar los **16 perfiles faltantes** a `perfilesSeguidores`.

---

## En Google Colab
1. Sube la carpeta del proyecto o monta tu Drive
2. Ajusta la ruta `BASE_PATH` en la celda de configuraci√≥n
3. Ejecuta todas las celdas

## 1. Configuraci√≥n y rutas

In [None]:
# Ruta base del proyecto
# En local: usa la ruta de tu carpeta scraping
# En Colab: '/content/drive/MyDrive/scraping' o '/content/scraping' seg√∫n donde subas los archivos

import os
import json
import pandas as pd

# Para Colab con Google Drive descomenta y ejecuta:
# from google.colab import drive
# drive.mount('/content/drive')

BASE_PATH = '/Users/geotrends/Desktop/scraping'  # Cambiar en Colab
SCRAPERS_PATH = os.path.join(BASE_PATH, 'scrapers')

FALTANTES_FILE = os.path.join(BASE_PATH, '16faltantes.json')
PERFILES_JSON = os.path.join(SCRAPERS_PATH, 'perfilesSeguidores.json')
PERFILES_CSV = os.path.join(SCRAPERS_PATH, 'perfilesSeguidores.csv')

print(f'üìÅ Base path: {BASE_PATH}')
print(f'‚úÖ 16faltantes existe: {os.path.exists(FALTANTES_FILE)}')
print(f'‚úÖ perfilesSeguidores.json existe: {os.path.exists(PERFILES_JSON)}')

## 2. Cargar datos

In [None]:
# Cargar 16 faltantes
with open(FALTANTES_FILE, 'r', encoding='utf-8') as f:
    faltantes = json.load(f)

# Cargar perfiles seguidores actuales
with open(PERFILES_JSON, 'r', encoding='utf-8') as f:
    perfiles = json.load(f)

print(f'üìã Perfiles faltantes a incorporar: {len(faltantes)}')
print(f'üìã Perfiles actuales en perfilesSeguidores: {len(perfiles)}')

## 3. Estructura est√°ndar y normalizaci√≥n

Algunos perfiles en `16faltantes` pueden tener campos faltantes (ej: solo `username`). Los normalizamos para que coincidan con la estructura de `perfilesSeguidores`.

In [None]:
# Estructura esperada de cada perfil (como en perfilesSeguidores)
CAMPOS_ESPERADOS = [
    'fullName', 'profilePicUrl', 'username', 'postsCount', 'followersCount',
    'followsCount', 'private', 'verified', 'isBusinessAccount', 'biography'
]

def normalizar_perfil(p):
    """Asegura que el perfil tenga todos los campos con valores por defecto."""
    defaults = {
        'fullName': '',
        'profilePicUrl': '',
        'username': p.get('username', ''),
        'postsCount': 0,
        'followersCount': 0,
        'followsCount': 0,
        'private': False,
        'verified': False,
        'isBusinessAccount': False,
        'biography': ''
    }
    return {k: p.get(k, defaults[k]) for k in CAMPOS_ESPERADOS}

# Normalizar los 16 faltantes
faltantes_norm = [normalizar_perfil(p) for p in faltantes]
print('Perfiles normalizados. Ejemplo del primero:')
print(json.dumps(faltantes_norm[0], indent=2, ensure_ascii=False)[:500], '...')

## 4. Evitar duplicados por username

Solo agregamos perfiles cuyo `username` **no** est√© ya en `perfilesSeguidores`.

In [None]:
# Usernames ya presentes en perfilesSeguidores
usernames_existentes = {p.get('username', '').lower() for p in perfiles if p.get('username')}

# Filtrar: solo los que NO est√°n
nuevos = []
duplicados = []

for p in faltantes_norm:
    username = p.get('username', '').strip()
    if not username:
        continue
    if username.lower() in usernames_existentes:
        duplicados.append(username)
    else:
        nuevos.append(p)
        usernames_existentes.add(username.lower())

print(f'‚úÖ Perfiles nuevos a agregar: {len(nuevos)}')
print(f'‚è≠Ô∏è Ya exist√≠an (se omiten): {len(duplicados)}')
if duplicados:
    print(f'   ‚Üí {duplicados}')

## 5. Fusionar y guardar

In [None]:
# Fusionar: perfiles actuales + nuevos
perfiles_final = perfiles + nuevos

# Guardar JSON
with open(PERFILES_JSON, 'w', encoding='utf-8') as f:
    json.dump(perfiles_final, f, ensure_ascii=False, indent=2)

# Guardar CSV
df = pd.DataFrame(perfiles_final)
df.to_csv(PERFILES_CSV, index=False, encoding='utf-8')

print(f'üíæ Guardado perfilesSeguidores.json ({len(perfiles_final)} perfiles)')
print(f'üíæ Guardado perfilesSeguidores.csv ({len(perfiles_final)} filas)')
print(f'‚ûï Se agregaron {len(nuevos)} perfiles nuevos')

## 6. Verificaci√≥n

In [None]:
# Verificar que los nuevos est√©n en el archivo
with open(PERFILES_JSON, 'r', encoding='utf-8') as f:
    verif = json.load(f)

usernames_final = {p.get('username') for p in verif}
faltantes_usernames = {p.get('username') for p in faltantes_norm if p.get('username')}

todos_incorporados = faltantes_usernames.issubset(usernames_final)
print('‚úÖ Verificaci√≥n: todos los 16faltantes est√°n en perfilesSeguidores' if todos_incorporados else '‚ö†Ô∏è Algunos no se incorporaron (posiblemente duplicados)')

# Resumen final
df_verif = pd.DataFrame(verif)
print(f'\nüìä Total de perfiles: {len(verif)}')
df_verif.head(3)

## 7. (Opcional) Actualizar perfiles existentes con datos de 16faltantes

Si los 16 ya estaban en perfilesSeguidores pero quer√©s **sobrescribir** con la versi√≥n de 16faltantes (datos m√°s recientes o completos), ejecut√° esta celda.

In [None]:
# OPCIONAL: Actualizar perfiles existentes con datos de 16faltantes
# Cargar de nuevo los datos actuales (por si ya se guard√≥ antes)
with open(PERFILES_JSON, 'r', encoding='utf-8') as f:
    perfiles_act = json.load(f)

# Crear √≠ndice por username para b√∫squeda r√°pida
idx = {p.get('username','').lower(): i for i, p in enumerate(perfiles_act) if p.get('username')}

actualizados = 0
for p in faltantes_norm:
    u = p.get('username','').strip().lower()
    if u and u in idx:
        perfiles_act[idx[u]] = p
        actualizados += 1

# Guardar
with open(PERFILES_JSON, 'w', encoding='utf-8') as f:
    json.dump(perfiles_act, f, ensure_ascii=False, indent=2)
pd.DataFrame(perfiles_act).to_csv(PERFILES_CSV, index=False, encoding='utf-8')

print(f'üîÑ Actualizados {actualizados} perfiles con datos de 16faltantes')