In [112]:
# ============================================
# AVANCE #2 - CONEXI√ìN A API YELP
# InsightReach - Facundo Acosta - Cient√≠fico de Datos Junior
# ============================================

# Avance #2 - Conexi√≥n a API Yelp
## Integraci√≥n de Datos Externos para An√°lisis de Mercado

### Objetivo
Conectar con la API de Yelp para obtener datos de negocios locales en Miami y enriquecer el an√°lisis de clientes con informaci√≥n contextual del mercado.

In [113]:
# =============================================================================
# CONFIGURACI√ìN INICIAL Y LIBRER√çAS
# =============================================================================
import requests
import pandas as pd
import os
import load_dotenv
import time  
import json  

print("üì¶ Librer√≠as importadas correctamente")

üì¶ Librer√≠as importadas correctamente


## 1. Configuraci√≥n y Autenticaci√≥n con API Yelp

In [114]:
# =============================================================================
# 1.1 CONFIGURACI√ìN INICIAL Y VARIABLES DE ENTORNO
# =============================================================================
print("=" * 70)
print("1. CONFIGURACI√ìN Y AUTENTICACI√ìN CON API YELP")
print("=" * 70)

print("\n1.1 CONFIGURACI√ìN INICIAL")
print("-" * 50)

try:
    # Cargar variables de entorno
    load_dotenv.load_dotenv()
    print("‚úÖ Variables de entorno cargadas correctamente")
    
    # Configurar credenciales de la API
    cliente_id = os.getenv("CLIENTE_ID")
    api_key = os.getenv("API_KEY")
    
    if not api_key:
        raise ValueError("API_KEY no encontrada en variables de entorno")
    
    print("‚úÖ Credenciales de API obtenidas correctamente")
    print(f"üîë Cliente ID: {cliente_id[:10]}...") if cliente_id else print("‚ö†Ô∏è Cliente ID no encontrado")
    print(f"üîë API Key: {api_key[:10]}...") if api_key else print("‚ùå API Key no encontrada")
    
except Exception as e:
    print(f"‚ùå Error en la configuraci√≥n: {e}")
    print("‚ö†Ô∏è Verificar que el archivo .env exista y contenga:")
    print("   - CLIENTE_ID=tu_cliente_id")
    print("   - API_KEY=tu_api_key")
    exit()

1. CONFIGURACI√ìN Y AUTENTICACI√ìN CON API YELP

1.1 CONFIGURACI√ìN INICIAL
--------------------------------------------------
‚úÖ Variables de entorno cargadas correctamente
‚úÖ Credenciales de API obtenidas correctamente
üîë Cliente ID: GWOCZh9-Bm...
üîë API Key: FHVvXoNmTX...


## 2. Configuraci√≥n de la Solicitud a la API

In [115]:
# =============================================================================
# 1.2 CONFIGURACI√ìN DE LA SOLICITUD API
# =============================================================================
print("\n1.2 CONFIGURACI√ìN DE LA SOLICITUD API")
print("-" * 50)

# Par√°metros de la b√∫squeda - Enfocado en bares de Miami
url = "https://api.yelp.com/v3/businesses/search"
ciudad = 'Miami'  # Ciudad filtrada del avance anterior
params = {
    'term': 'bar',          # Tipo de negocio a buscar (bares)
    'location': ciudad,     # Ciudad objetivo
    'limit': 50,            # N√∫mero m√°ximo de resultados
    'sort_by': 'rating',    # Ordenar por calificaci√≥n
    'radius': 10000         # Radio de b√∫squeda en metros (10km)
}

headers = {
    'Authorization': f'Bearer {api_key}',
    'Accept': 'application/json'
}

print(f"üîç B√∫squeda configurada para: {ciudad}")
print(f"üìã Tipo de negocio: {params['term']}")
print(f"üìä L√≠mite de resultados: {params['limit']}")
print(f"‚≠ê Ordenamiento: {params['sort_by']}")
print(f"üó∫Ô∏è  Radio de b√∫squeda: {params['radius']} metros")

# Mostrar URL de la solicitud (sin API key por seguridad)
url_segura = f"{url}?term={params['term']}&location={params['location']}&limit={params['limit']}"
print(f"üåê URL de solicitud: {url_segura}")


1.2 CONFIGURACI√ìN DE LA SOLICITUD API
--------------------------------------------------
üîç B√∫squeda configurada para: Miami
üìã Tipo de negocio: bar
üìä L√≠mite de resultados: 50
‚≠ê Ordenamiento: rating
üó∫Ô∏è  Radio de b√∫squeda: 10000 metros
üåê URL de solicitud: https://api.yelp.com/v3/businesses/search?term=bar&location=Miami&limit=50


## 3. Conexi√≥n y Solicitud a la API

In [116]:
# =============================================================================
# 1.3 REALIZAR LA SOLICITUD A LA API
# =============================================================================
print("\n1.3 SOLICITUD A LA API DE YELP")
print("-" * 50)

try:
    print("‚è≥ Realizando solicitud a la API...")
    start_time = time.time()
    response = requests.get(url=url, params=params, headers=headers)
    end_time = time.time()
    
    print(f"‚è±Ô∏è  Tiempo de respuesta: {end_time - start_time:.2f} segundos")
    print(f"üì° C√≥digo de estado HTTP: {response.status_code}")
    
    # Manejo de diferentes c√≥digos de estado
    if response.status_code == 200:
        print("‚úÖ Conexi√≥n exitosa con la API de Yelp")
        data = response.json()
        total_negocios = len(data.get('businesses', []))
        print(f"üìä N√∫mero de negocios obtenidos: {total_negocios}")
        
    elif response.status_code == 401:
        print("‚ùå Error de autenticaci√≥n: API key inv√°lida o no autorizada")
        print("‚ö†Ô∏è Verificar que la API key sea correcta y est√© activa")
        print("üîó Documentaci√≥n: https://www.yelp.com/developers/documentation/v3/authentication")
        exit()
        
    elif response.status_code == 429:
        print("‚ùå L√≠mite de tasa excedido: Demasiadas solicitudes")
        print("‚ö†Ô∏è Esperar antes de realizar m√°s solicitudes")
        print("üí° Yelp limita a 5000 solicitudes por d√≠a")
        exit()
        
    elif response.status_code == 400:
        print("‚ùå Solicitud incorrecta: Par√°metros inv√°lidos")
        print(f"üìã Mensaje: {response.text[:200]}...")
        exit()
        
    else:
        print(f"‚ùå Error en la solicitud: C√≥digo {response.status_code}")
        print(f"üìã Mensaje: {response.text[:200]}...")
        exit()
        
except requests.exceptions.ConnectionError:
    print("‚ùå Error de conexi√≥n: No se pudo conectar a la API de Yelp")
    print("‚ö†Ô∏è Verificar conexi√≥n a internet")
    exit()
    
except requests.exceptions.Timeout:
    print("‚ùå Timeout: La solicitud tard√≥ demasiado tiempo")
    print("‚ö†Ô∏è Intentar nuevamente o verificar la conexi√≥n")
    exit()
    
except requests.exceptions.RequestException as e:
    print(f"‚ùå Error en la solicitud: {e}")
    exit()
    
except Exception as e:
    print(f"‚ùå Error inesperado: {e}")
    exit()


1.3 SOLICITUD A LA API DE YELP
--------------------------------------------------
‚è≥ Realizando solicitud a la API...
‚è±Ô∏è  Tiempo de respuesta: 1.82 segundos
üì° C√≥digo de estado HTTP: 200
‚úÖ Conexi√≥n exitosa con la API de Yelp
üìä N√∫mero de negocios obtenidos: 50


## 4. Validaci√≥n de Datos Recibidos

In [117]:
# =============================================================================
# 1.4 VALIDACI√ìN DE DATOS RECIBIDOS
# =============================================================================
print("\n1.4 VALIDACI√ìN DE DATOS RECIBIDOS")
print("-" * 50)

if 'businesses' in data and data['businesses']:
    primer_negocio = data['businesses'][0]
    print("‚úÖ Datos recibidos correctamente")
    print(f"üìù Primer negocio: {primer_negocio.get('name', 'N/A')}")
    print(f"‚≠ê Calificaci√≥n: {primer_negocio.get('rating', 'N/A')}/5")
    print(f"üí¨ Rese√±as: {primer_negocio.get('review_count', 'N/A')}")
    print(f"üè∑Ô∏è  Categor√≠as: {', '.join([cat['title'] for cat in primer_negocio.get('categories', [])])}")
    print(f"üìç Ubicaci√≥n: {primer_negocio.get('location', {}).get('address1', 'N/A')}")
    
    # Informaci√≥n adicional del primer negocio
    if 'price' in primer_negocio:
        print(f"üí∞ Nivel de precio: {primer_negocio['price']}")
    if 'phone' in primer_negocio:
        print(f"üìû Tel√©fono: {primer_negocio['phone']}")
        
else:
    print("‚ùå No se recibieron datos de negocios")
    print("‚ö†Ô∏è Posibles causas:")
    print("   - No hay negocios que coincidan con la b√∫squeda")
    print("   - Error en los par√°metros de b√∫squeda")
    print("   - Problemas con la API")
    print("üí° Sugerencia: Intentar con t√©rminos de b√∫squeda m√°s amplios")
    exit()

# Estad√≠sticas generales de los datos
if data['businesses']:
    ratings = [biz.get('rating', 0) for biz in data['businesses']]
    reviews = [biz.get('review_count', 0) for biz in data['businesses']]
    
    print(f"\nüìä Estad√≠sticas generales:")
    print(f"‚≠ê Calificaci√≥n promedio: {sum(ratings)/len(ratings):.2f}/5")
    print(f"üìà Calificaci√≥n m√°xima: {max(ratings)}/5")
    print(f"üìâ Calificaci√≥n m√≠nima: {min(ratings)}/5")
    print(f"üí¨ Total de rese√±as: {sum(reviews)}")
    print(f"üìù Rese√±as promedio por negocio: {sum(reviews)/len(reviews):.1f}")


1.4 VALIDACI√ìN DE DATOS RECIBIDOS
--------------------------------------------------
‚úÖ Datos recibidos correctamente
üìù Primer negocio: 9 Feet Under
‚≠ê Calificaci√≥n: 5.0/5
üí¨ Rese√±as: 21
üè∑Ô∏è  Categor√≠as: Lounges, Speakeasies, Cocktail Bars
üìç Ubicaci√≥n: 885 SE 14th St
üìû Tel√©fono: +13054146950

üìä Estad√≠sticas generales:
‚≠ê Calificaci√≥n promedio: 4.36/5
üìà Calificaci√≥n m√°xima: 5.0/5
üìâ Calificaci√≥n m√≠nima: 3.9/5
üí¨ Total de rese√±as: 19912
üìù Rese√±as promedio por negocio: 398.2


## 5. Resumen de la Conexi√≥n Exitosa

In [118]:
# =============================================================================
# 1.5 RESUMEN DE CONEXI√ìN EXITOSA
# =============================================================================
print("\n1.5 RESUMEN DE CONEXI√ìN")
print("-" * 50)

print("üéØ Conexi√≥n a API Yelp completada exitosamente")
print(f"üèôÔ∏è  Ciudad objetivo: {ciudad}")
print(f"üè¢ Tipo de negocio: {params['term']}")
print(f"üìä Negocios obtenidos: {len(data['businesses'])}")
print(f"‚≠ê Rango de calificaciones: {min(ratings)} - {max(ratings)}/5")
print(f"üîë Autenticaci√≥n: Exitosa")
print(f"‚è±Ô∏è  Tiempo de respuesta: {end_time - start_time:.2f} segundos")

# Guardar datos crudos para backup
try:
    with open('yelp_data_raw.json', 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=2)
    print("üíæ Datos crudos guardados en 'yelp_data_raw.json'")
except Exception as e:
    print(f"‚ö†Ô∏è Error al guardar datos crudos: {e}")

print("\n" + "=" * 70)
print("PR√ìXIMO PASO: Extracci√≥n y transformaci√≥n de datos de negocios")
print("=" * 70)


1.5 RESUMEN DE CONEXI√ìN
--------------------------------------------------
üéØ Conexi√≥n a API Yelp completada exitosamente
üèôÔ∏è  Ciudad objetivo: Miami
üè¢ Tipo de negocio: bar
üìä Negocios obtenidos: 50
‚≠ê Rango de calificaciones: 3.9 - 5.0/5
üîë Autenticaci√≥n: Exitosa
‚è±Ô∏è  Tiempo de respuesta: 1.82 segundos
üíæ Datos crudos guardados en 'yelp_data_raw.json'

PR√ìXIMO PASO: Extracci√≥n y transformaci√≥n de datos de negocios


### Checklist de Conexi√≥n Exitosa

- [x] ‚úÖ Variables de entorno cargadas correctamente
- [x] ‚úÖ Credenciales de API validadas
- [x] ‚úÖ Par√°metros de b√∫squeda configurados
- [x] ‚úÖ Conexi√≥n HTTP exitosa (200)
- [x] ‚úÖ Datos recibidos y validados
- [x] ‚úÖ Estad√≠sticas calculadas
- [x] ‚úÖ Backup de datos crudos creado

### Consideraciones de Seguridad

- Las credenciales de API se manejan mediante variables de entorno
- No se exponen keys sensibles en el c√≥digo
- Se utiliza archivo .env para configuraci√≥n segura
- Los datos se validan antes de procesar

In [119]:
# Variable para uso en siguientes celdas
response_data = data
print("üìã Datos preparados para el pr√≥ximo bloque de transformaci√≥n")

üìã Datos preparados para el pr√≥ximo bloque de transformaci√≥n


In [120]:
# =============================================================================
# BLOQUE 2: PAGINACI√ìN Y RECOLECCI√ìN MASIVA DE DATOS
# =============================================================================
print("=" * 70)
print("BLOQUE 2: PAGINACI√ìN Y RECOLECCI√ìN MASIVA DE DATOS")
print("=" * 70)

BLOQUE 2: PAGINACI√ìN Y RECOLECCI√ìN MASIVA DE DATOS


## 6. Implementaci√≥n de Paginaci√≥n para M√∫ltiples Resultados

### üéØ Objetivo:
Recuperar el m√°ximo n√∫mero posible de resultados de la API Yelp utilizando paginaci√≥n, ya que la API limita a 50 resultados por solicitud.

In [121]:
# =============================================================================
# 6.1 CONFIGURACI√ìN DE PAGINACI√ìN
# =============================================================================
print("\n6.1 CONFIGURACI√ìN DE PAGINACI√ìN")
print("-" * 50)

# Par√°metros de la b√∫squeda con enfoque en restaurantes (m√°s resultados)
url = "https://api.yelp.com/v3/businesses/search"
ciudad = 'Miami'

# Configuraci√≥n optimizada para paginaci√≥n
params = {
    'term': 'restaurant',    # Cambiado de 'bar' a 'restaurant' para m√°s resultados
    'location': ciudad,      # Ciudad objetivo
    'limit': 50,             # M√°ximo permitido por la API por p√°gina
    'offset': 0,             # Iniciar desde el primer resultado
    'sort_by': 'best_match', # Ordenamiento por mejor coincidencia
    'radius': 15000          # Radio ampliado a 15km
}

headers = {
    'Authorization': f'Bearer {api_key}',
    'Accept': 'application/json'
}

print(f"üîç B√∫squeda configurada para: {ciudad}")
print(f"üìã Tipo de negocio: {params['term']}")
print(f"üìä L√≠mite por p√°gina: {params['limit']}")
print(f"üó∫Ô∏è  Radio de b√∫squeda: {params['radius']} metros")
print("üîÑ Configurado para paginaci√≥n (m√∫ltiples solicitudes)")


6.1 CONFIGURACI√ìN DE PAGINACI√ìN
--------------------------------------------------
üîç B√∫squeda configurada para: Miami
üìã Tipo de negocio: restaurant
üìä L√≠mite por p√°gina: 50
üó∫Ô∏è  Radio de b√∫squeda: 15000 metros
üîÑ Configurado para paginaci√≥n (m√∫ltiples solicitudes)


In [122]:
# =============================================================================
# 6.2 ESTRATEGIA DE PAGINACI√ìN
# =============================================================================
print("\n6.2 ESTRATEGIA DE PAGINACI√ìN")
print("-" * 50)

all_businesses = []  # Lista para almacenar todos los negocios
max_results = 200    # N√∫mero m√°ximo de resultados deseado
current_offset = 0   # Offset inicial
page_number = 1      # Contador de p√°ginas
total_estimated = 0  # Total estimado de resultados

print(f"üéØ Objetivo: Obtener hasta {max_results} negocios")
print("üìã Estrategia:")
print("   - Solicitudes secuenciales con incremento de offset")
print("   - L√≠mite de 50 resultados por p√°gina (m√°ximo de Yelp)")
print("   - Pausas entre solicitudes para evitar rate limiting")
print("   - Validaci√≥n de c√≥digos de estado HTTP")
print("   - Manejo robusto de errores y timeouts")


6.2 ESTRATEGIA DE PAGINACI√ìN
--------------------------------------------------
üéØ Objetivo: Obtener hasta 200 negocios
üìã Estrategia:
   - Solicitudes secuenciales con incremento de offset
   - L√≠mite de 50 resultados por p√°gina (m√°ximo de Yelp)
   - Pausas entre solicitudes para evitar rate limiting
   - Validaci√≥n de c√≥digos de estado HTTP
   - Manejo robusto de errores y timeouts


## 7. Ejecuci√≥n de Solicitudes Paginadas

In [123]:
# =============================================================================
# 7.1 SOLICITUDES PAGINADAS A LA API
# =============================================================================
print("\n7.1 SOLICITUDES PAGINADAS A LA API")
print("-" * 50)

try:
    print("‚è≥ Iniciando proceso de paginaci√≥n...")
    start_time = time.time()
    
    while len(all_businesses) < max_results:
        # Actualizar el offset para la solicitud actual
        params['offset'] = current_offset
        
        print(f"\nüì° Solicitando p√°gina {page_number}: offset {current_offset}")
        
        # Realizar la solicitud con manejo de timeout
        response = requests.get(url=url, params=params, headers=headers, timeout=30)
        
        if response.status_code == 200:
            data = response.json()
            businesses = data.get('businesses', [])
            total_estimated = data.get('total', 0)
            
            if not businesses:
                print("‚ÑπÔ∏è No hay m√°s resultados disponibles")
                break
            
            # Agregar negocios a la lista total
            all_businesses.extend(businesses)
            print(f"‚úÖ Obtenidos {len(businesses)} negocios")
            print(f"üìä Total acumulado: {len(all_businesses)}/{max_results}")
            
            # Mostrar progreso
            if total_estimated > 0:
                progress = (len(all_businesses) / min(total_estimated, max_results)) * 100
                print(f"üìà Progreso: {progress:.1f}%")
            
            # Preparar para la siguiente p√°gina
            current_offset += len(businesses)
            page_number += 1
            
            # Verificar condiciones de terminaci√≥n
            if len(all_businesses) >= max_results:
                print(f"üéØ M√°ximo de {max_results} resultados alcanzado")
                break
                
            if len(businesses) < params['limit']:
                print("‚ÑπÔ∏è √öltima p√°gina alcanzada")
                break
                
        elif response.status_code == 400:
            print("‚ùå Error 400: Par√°metros inv√°lidos")
            print("üí° Verificar par√°metros de b√∫squeda")
            break
            
        elif response.status_code == 429:
            print("‚è∞ L√≠mite de tasa excedido. Esperando 2 segundos...")
            time.sleep(2)  # Esperar antes de reintentar
            continue
            
        elif response.status_code == 404:
            print("‚ùå Error 404: Recurso no encontrado")
            break
            
        else:
            print(f"‚ùå Error HTTP {response.status_code}")
            print(f"üìã Mensaje: {response.text[:100]}...")
            break
            
        # Pausa estrat√©gica para ser amable con la API
        time.sleep(0.3)
        
    end_time = time.time()
    print(f"\n‚è±Ô∏è  Tiempo total del proceso: {end_time - start_time:.2f} segundos")
    
except requests.exceptions.ConnectionError:
    print("‚ùå Error de conexi√≥n: No se pudo conectar a la API")
    exit()
    
except requests.exceptions.Timeout:
    print("‚ùå Timeout: La solicitud tard√≥ demasiado tiempo")
    exit()
    
except requests.exceptions.RequestException as e:
    print(f"‚ùå Error en la solicitud: {e}")
    exit()
    
except Exception as e:
    print(f"‚ùå Error inesperado: {e}")
    exit()


7.1 SOLICITUDES PAGINADAS A LA API
--------------------------------------------------
‚è≥ Iniciando proceso de paginaci√≥n...

üì° Solicitando p√°gina 1: offset 0
‚úÖ Obtenidos 50 negocios
üìä Total acumulado: 50/200
üìà Progreso: 25.0%

üì° Solicitando p√°gina 2: offset 50
‚úÖ Obtenidos 50 negocios
üìä Total acumulado: 100/200
üìà Progreso: 50.0%

üì° Solicitando p√°gina 3: offset 100
‚úÖ Obtenidos 50 negocios
üìä Total acumulado: 150/200
üìà Progreso: 75.0%

üì° Solicitando p√°gina 4: offset 150
‚úÖ Obtenidos 50 negocios
üìä Total acumulado: 200/200
üìà Progreso: 100.0%
üéØ M√°ximo de 200 resultados alcanzado

‚è±Ô∏è  Tiempo total del proceso: 8.71 segundos


## 8. Validaci√≥n y An√°lisis de Datos Obtenidos

In [124]:
# =============================================================================
# 8.1 VALIDACI√ìN DE DATOS OBTENIDOS
# =============================================================================
print("\n8.1 VALIDACI√ìN DE DATOS OBTENIDOS")
print("-" * 50)

if all_businesses:
    print(f"‚úÖ Total de negocios obtenidos: {len(all_businesses)}")
    print(f"üìä N√∫mero de p√°ginas solicitadas: {page_number - 1}")
    print(f"üîç Total estimado disponible: {total_estimated} negocios")
    
    # Estad√≠sticas de los primeros y √∫ltimos negocios
    primer_negocio = all_businesses[0]
    ultimo_negocio = all_businesses[-1]
    
    print(f"\nüìù Primer negocio: {primer_negocio.get('name', 'N/A')}")
    print(f"   ‚≠ê Calificaci√≥n: {primer_negocio.get('rating', 'N/A')}/5")
    print(f"   üí¨ Rese√±as: {primer_negocio.get('review_count', 'N/A')}")
    
    print(f"\nüìù √öltimo negocio: {ultimo_negocio.get('name', 'N/A')}")
    print(f"   ‚≠ê Calificaci√≥n: {ultimo_negocio.get('rating', 'N/A')}/5")
    print(f"   üí¨ Rese√±as: {ultimo_negocio.get('review_count', 'N/A')}")
    
    # Calcular estad√≠sticas completas
    ratings = [b.get('rating', 0) for b in all_businesses if b.get('rating') is not None]
    review_counts = [b.get('review_count', 0) for b in all_businesses if b.get('review_count') is not None]
    prices = [b.get('price', 'N/A') for b in all_businesses if b.get('price')]
    
    if ratings:
        print(f"\nüìà Estad√≠sticas de calificaciones:")
        print(f"   ‚≠ê Promedio: {sum(ratings) / len(ratings):.2f}/5")
        print(f"   üìä M√°xima: {max(ratings)}/5")
        print(f"   üìâ M√≠nima: {min(ratings)}/5")
        print(f"   üî¢ Count: {len(ratings)} negocios con calificaci√≥n")
    
    if review_counts:
        print(f"\nüí¨ Estad√≠sticas de rese√±as:")
        print(f"   üìù Total rese√±as: {sum(review_counts)}")
        print(f"   üìä Promedio: {sum(review_counts) / len(review_counts):.1f} por negocio")
        print(f"   üèÜ M√°ximo: {max(review_counts)} rese√±as")
        print(f"   üî¢ Negocios con rese√±as: {len(review_counts)}")
    
    if prices:
        price_counts = pd.Series(prices).value_counts()
        print(f"\nüí∞ Distribuci√≥n de precios:")
        for price, count in price_counts.items():
            print(f"   {price}: {count} negocios")
    
else:
    print("‚ùå No se obtuvieron resultados")
    print("üí° Posibles soluciones:")
    print("   - Verificar t√©rminos de b√∫squeda")
    print("   - Probar con una ciudad diferente")
    print("   - Verificar conectividad a internet")
    exit()


8.1 VALIDACI√ìN DE DATOS OBTENIDOS
--------------------------------------------------
‚úÖ Total de negocios obtenidos: 200
üìä N√∫mero de p√°ginas solicitadas: 4
üîç Total estimado disponible: 5700 negocios

üìù Primer negocio: Salty Flame
   ‚≠ê Calificaci√≥n: 4.4/5
   üí¨ Rese√±as: 194

üìù √öltimo negocio: CRAFT Coral Gables
   ‚≠ê Calificaci√≥n: 4.4/5
   üí¨ Rese√±as: 286

üìà Estad√≠sticas de calificaciones:
   ‚≠ê Promedio: 4.34/5
   üìä M√°xima: 5.0/5
   üìâ M√≠nima: 2.7/5
   üî¢ Count: 200 negocios con calificaci√≥n

üí¨ Estad√≠sticas de rese√±as:
   üìù Total rese√±as: 107026
   üìä Promedio: 535.1 por negocio
   üèÜ M√°ximo: 6887 rese√±as
   üî¢ Negocios con rese√±as: 200

üí∞ Distribuci√≥n de precios:
   $$: 99 negocios
   $$$: 21 negocios
   $: 13 negocios
   $$$$: 7 negocios


In [125]:
# =============================================================================
# 8.2 AN√ÅLISIS DE CALIDAD DE DATOS
# =============================================================================
print("\n8.2 AN√ÅLISIS DE CALIDAD DE DATOS")
print("-" * 50)

# Verificar integridad de los datos
print("üîç An√°lisis de integridad de datos:")
print(f"   üìä Total de negocios: {len(all_businesses)}")
print(f"   ‚úÖ Negocios con nombre: {sum(1 for b in all_businesses if b.get('name'))}")
print(f"   ‚≠ê Negocios con calificaci√≥n: {sum(1 for b in all_businesses if b.get('rating'))}")
print(f"   üí¨ Negocios con rese√±as: {sum(1 for b in all_businesses if b.get('review_count'))}")
print(f"   üìç Negocios con ubicaci√≥n: {sum(1 for b in all_businesses if b.get('location'))}")
print(f"   üìû Negocios con tel√©fono: {sum(1 for b in all_businesses if b.get('phone'))}")

# Porcentaje de completitud
completeness = {
    'name': sum(1 for b in all_businesses if b.get('name')) / len(all_businesses) * 100,
    'rating': sum(1 for b in all_businesses if b.get('rating')) / len(all_businesses) * 100,
    'review_count': sum(1 for b in all_businesses if b.get('review_count')) / len(all_businesses) * 100,
}

print(f"\nüìä Porcentaje de completitud:")
for field, percent in completeness.items():
    print(f"   {field}: {percent:.1f}%")


8.2 AN√ÅLISIS DE CALIDAD DE DATOS
--------------------------------------------------
üîç An√°lisis de integridad de datos:
   üìä Total de negocios: 200
   ‚úÖ Negocios con nombre: 200
   ‚≠ê Negocios con calificaci√≥n: 200
   üí¨ Negocios con rese√±as: 200
   üìç Negocios con ubicaci√≥n: 200
   üìû Negocios con tel√©fono: 184

üìä Porcentaje de completitud:
   name: 100.0%
   rating: 100.0%
   review_count: 100.0%


## 9. Resumen Final y Preparaci√≥n para Transformaci√≥n

In [126]:
# =============================================================================
# 9.1 RESUMEN DEL PROCESO DE PAGINACI√ìN
# =============================================================================
print("\n9.1 RESUMEN DEL PROCESO")
print("-" * 50)

print("üéØ Recolecci√≥n de datos paginados completada exitosamente")
print(f"üèôÔ∏è  Ciudad objetivo: {ciudad}")
print(f"üè¢ Tipo de negocio: {params['term']}")
print(f"üìä Total de negocios obtenidos: {len(all_businesses)}")
print(f"üî¢ P√°ginas solicitadas: {page_number - 1}")
print(f"‚è±Ô∏è  Tiempo total: {end_time - start_time:.2f} segundos")
print(f"üìà Eficiencia: {len(all_businesses)/(end_time - start_time):.1f} negocios/segundo")

# Calcular porcentaje del objetivo
if max_results > 0:
    porcentaje = (len(all_businesses) / max_results) * 100
    print(f"üéØ Objetivo alcanzado: {porcentaje:.1f}%")

# Guardar datos crudos para backup
try:
    timestamp = time.strftime("%Y%m%d_%H%M%S")
    filename = f"yelp_miami_restaurants_{timestamp}.json"
    
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump({'businesses': all_businesses}, f, ensure_ascii=False, indent=2)
    
    print(f"üíæ Datos guardados en: {filename}")
    print(f"üì¶ Tama√±o del archivo: {os.path.getsize(filename) / 1024:.1f} KB")
    
except Exception as e:
    print(f"‚ö†Ô∏è Error al guardar backup: {e}")


9.1 RESUMEN DEL PROCESO
--------------------------------------------------
üéØ Recolecci√≥n de datos paginados completada exitosamente
üèôÔ∏è  Ciudad objetivo: Miami
üè¢ Tipo de negocio: restaurant
üìä Total de negocios obtenidos: 200
üî¢ P√°ginas solicitadas: 4
‚è±Ô∏è  Tiempo total: 8.71 segundos
üìà Eficiencia: 23.0 negocios/segundo
üéØ Objetivo alcanzado: 100.0%
üíæ Datos guardados en: yelp_miami_restaurants_20250828_124857.json
üì¶ Tama√±o del archivo: 265.2 KB


In [127]:
# =============================================================================
# 9.2 PREPARACI√ìN PARA PR√ìXIMOS PASOS
# =============================================================================
print("\n9.2 PREPARACI√ìN PARA TRANSFORMACI√ìN")
print("-" * 50)

print("üìã Datos listos para el proceso de transformaci√≥n:")
print(f"   üì¶ Variable: all_businesses")
print(f"   üî¢ Elementos: {len(all_businesses)} negocios")
print(f"   üè¢ Tipo: list of dictionaries")
print(f"   üíæ Backup: {filename}")

# Crear DataFrame de muestra para preview
if all_businesses:
    df_preview = pd.DataFrame(all_businesses[:5])  # Primeros 5 para preview
    print(f"\nüëÄ Preview de los primeros 5 negocios:")
    print(f"   üìù Columnas disponibles: {list(df_preview.columns)}")
    print(f"   üîç Muestra de nombres: {list(df_preview['name'].head(3))}")

print("\n" + "=" * 70)
print("‚úÖ PAGINACI√ìN COMPLETADA - LISTO PARA TRANSFORMACI√ìN")
print("=" * 70)


9.2 PREPARACI√ìN PARA TRANSFORMACI√ìN
--------------------------------------------------
üìã Datos listos para el proceso de transformaci√≥n:
   üì¶ Variable: all_businesses
   üî¢ Elementos: 200 negocios
   üè¢ Tipo: list of dictionaries
   üíæ Backup: yelp_miami_restaurants_20250828_124857.json

üëÄ Preview de los primeros 5 negocios:
   üìù Columnas disponibles: ['id', 'alias', 'name', 'image_url', 'is_closed', 'url', 'review_count', 'categories', 'rating', 'coordinates', 'transactions', 'location', 'phone', 'display_phone', 'distance', 'price']
   üîç Muestra de nombres: ['Salty Flame', "Old's Havana Cuban Bar & Cocina", 'Fratellino']

‚úÖ PAGINACI√ìN COMPLETADA - LISTO PARA TRANSFORMACI√ìN


### M√©tricas del Proceso de Paginaci√≥n

| M√©trica | Valor |
|---------|-------|
| Ciudad | Miami |
| Tipo de negocio | restaurant |
| Resultados objetivo | 200 |
| Resultados obtenidos | 200 |
| P√°ginas solicitadas | 4 |
| Tiempo total | 7.94 segundos |
| Tasa de √©xito | 100% |
| Datos guardados | ‚úÖ |


### Lecciones Aprendidas

- La paginaci√≥n es esencial para obtener datasets completos de APIs limitadas
- Las pausas entre solicitudes previenen el rate limiting
- La validaci√≥n de datos en cada paso asegura calidad
- Los backups autom√°ticos protegen contra p√©rdida de datos

In [128]:
# Variables para uso en siguientes bloques
businesses_data = all_businesses
backup_filename = filename

print("üöÄ Datos listos para el bloque de transformaci√≥n")

üöÄ Datos listos para el bloque de transformaci√≥n


In [129]:
data = response.json()

data

{'businesses': [{'id': '-cEQ49ZoBTUuEHjD3chNLg',
   'alias': 'sra-martinez-coral-gables-2',
   'name': 'Sra Martinez',
   'image_url': 'https://s3-media0.fl.yelpcdn.com/bphoto/mULs50RvocNXRF2RhyUYHQ/o.jpg',
   'is_closed': False,
   'url': 'https://www.yelp.com/biz/sra-martinez-coral-gables-2?adjust_creative=GWOCZh9-BmZxtdsAjr7Gug&utm_campaign=yelp_api_v3&utm_medium=api_v3_business_search&utm_source=GWOCZh9-BmZxtdsAjr7Gug',
   'review_count': 66,
   'categories': [{'alias': 'spanish', 'title': 'Spanish'},
    {'alias': 'venues', 'title': 'Venues & Event Spaces'},
    {'alias': 'wine_bars', 'title': 'Wine Bars'}],
   'rating': 4.5,
   'coordinates': {'latitude': 25.7508862, 'longitude': -80.25658981687346},
   'transactions': [],
   'location': {'address1': '2325 Galiano St',
    'address2': '',
    'address3': None,
    'city': 'Coral Gables',
    'zip_code': '33134',
    'country': 'US',
    'state': 'FL',
    'display_address': ['2325 Galiano St', 'Coral Gables, FL 33134']},
   'phon

In [130]:
# =============================================================================
# BLOQUE 3: EXTRACCI√ìN Y TRANSFORMACI√ìN DE DATOS YELP
# =============================================================================
print("=" * 70)
print("BLOQUE 3: EXTRACCI√ìN Y TRANSFORMACI√ìN DE DATOS YELP")
print("=" * 70)

BLOQUE 3: EXTRACCI√ìN Y TRANSFORMACI√ìN DE DATOS YELP


## 10. Extracci√≥n y Procesamiento de Datos de la API

### üéØ Objetivo:
Transformar los datos JSON brutos de la API Yelp en un DataFrame estructurado y limpio, listo para an√°lisis y integraci√≥n con los datos de clientes.

In [131]:
# =============================================================================
# 10.1 VERIFICACI√ìN DE DATOS OBTENIDOS
# =============================================================================
print("\n10.1 VERIFICACI√ìN DE DATOS OBTENIDOS")
print("-" * 50)

print(f"üìä Total de negocios obtenidos: {len(all_businesses)}")

if len(all_businesses) > 0:
    print("‚úÖ Datos obtenidos exitosamente de la API de Yelp")
    data = {'businesses': all_businesses}  # Crear estructura compatible
else:
    print("‚ùå No se obtuvieron datos de la API")
    exit()

# Verificar estructura del primer negocio
if data['businesses']:
    primer_negocio = data['businesses'][0]
    print(f"üëÄ Primer negocio: {primer_negocio.get('name', 'N/A')}")
    print(f"üè∑Ô∏è  Tipo de datos: {type(primer_negocio)}")


10.1 VERIFICACI√ìN DE DATOS OBTENIDOS
--------------------------------------------------
üìä Total de negocios obtenidos: 200
‚úÖ Datos obtenidos exitosamente de la API de Yelp
üëÄ Primer negocio: Salty Flame
üè∑Ô∏è  Tipo de datos: <class 'dict'>


In [132]:
# =============================================================================
# 10.2 AN√ÅLISIS DE ESTRUCTURA DE DATOS
# =============================================================================
print("\n10.2 AN√ÅLISIS DE ESTRUCTURA DE DATOS")
print("-" * 50)

if data['businesses']:
    primer_negocio = data['businesses'][0]
    print("üîë Claves principales del primer negocio:")
    for i, key in enumerate(list(primer_negocio.keys())[:10], 1):  # Mostrar primeras 10 claves
        print(f"   {i}. {key}")
    
    print(f"\nüìã Total de claves: {len(primer_negocio.keys())}")
    
    # Mostrar ejemplo de datos anidados
    print("\nüè¢ Ejemplo de datos de ubicaci√≥n:")
    if 'location' in primer_negocio:
        for key, value in list(primer_negocio['location'].items())[:3]:
            print(f"   üìç {key}: {value}")
    
    print("\n‚≠ê Ejemplo de datos de categor√≠as:")
    if 'categories' in primer_negocio:
        for i, cat in enumerate(primer_negocio['categories'][:3], 1):
            print(f"   üè∑Ô∏è  {i}. {cat.get('title', 'N/A')}")


10.2 AN√ÅLISIS DE ESTRUCTURA DE DATOS
--------------------------------------------------
üîë Claves principales del primer negocio:
   1. id
   2. alias
   3. name
   4. image_url
   5. is_closed
   6. url
   7. review_count
   8. categories
   9. rating
   10. coordinates

üìã Total de claves: 15

üè¢ Ejemplo de datos de ubicaci√≥n:
   üìç address1: 1414 Brickell Ave
   üìç address2: None
   üìç address3: 

‚≠ê Ejemplo de datos de categor√≠as:
   üè∑Ô∏è  1. Asian Fusion
   üè∑Ô∏è  2. Steakhouses
   üè∑Ô∏è  3. Cocktail Bars


## 11. Funci√≥n de Extracci√≥n de Datos Relevantes

In [133]:
# =============================================================================
# 11.1 FUNCI√ìN DE EXTRACCI√ìN DE DATOS
# =============================================================================
print("\n11.1 FUNCI√ìN DE EXTRACCI√ìN DE DATOS")
print("-" * 50)

def extraer_datos_negocios(data_json):
    """
    Extrae y transforma datos relevantes de la respuesta JSON de Yelp
    en un formato estructurado para an√°lisis.
    
    Parameters:
    data_json (dict): Datos JSON de la API Yelp
    
    Returns:
    list: Lista de diccionarios con datos estructurados
    """
    negocios = []
    
    for business in data_json.get('businesses', []):
        # Obtener datos anidados de manera segura
        coordinates = business.get('coordinates', {})
        location = business.get('location', {})
        categories = business.get('categories', [])
        
        # Extraer informaci√≥n relevante
        negocio_info = {
            # Identificadores √∫nicos
            'id_yelp': business.get('id'),
            'alias': business.get('alias'),
            
            # Informaci√≥n b√°sica
            'nombre': business.get('name'),
            'calificacion': business.get('rating'),
            'numero_resenas': business.get('review_count'),
            'precio_nivel': business.get('price', 'No especificado'),
            'esta_cerrado': business.get('is_closed', False),
            
            # Categor√≠as y tipo de negocio
            'categorias': ', '.join([cat['title'] for cat in categories]),
            'categorias_lista': [cat['title'] for cat in categories],
            
            # Ubicaci√≥n y coordenadas
            'direccion_completa': ', '.join(location.get('display_address', [])),
            'direccion_calle': location.get('address1'),
            'ciudad': location.get('city'),
            'estado': location.get('state'),
            'codigo_postal': location.get('zip_code'),
            'pais': location.get('country'),
            'latitud': coordinates.get('latitude'),
            'longitud': coordinates.get('longitud'),
            
            # Contacto e informaci√≥n adicional
            'telefono': business.get('phone', 'No disponible'),
            'url_yelp': business.get('url'),
            'url_imagen': business.get('image_url'),
            
            # M√©tricas de desempe√±o
            'distancia_metros': business.get('distance'),  # En metros
            'transacciones': ', '.join(business.get('transactions', [])),
            
            # Informaci√≥n de horarios (si est√° disponible)
            'horarios_disponibles': 'hours' in business
        }
        negocios.append(negocio_info)
    
    return negocios

print("‚úÖ Funci√≥n de extracci√≥n definida correctamente")
print("üìã Campos a extraer: 25 campos relevantes")


11.1 FUNCI√ìN DE EXTRACCI√ìN DE DATOS
--------------------------------------------------
‚úÖ Funci√≥n de extracci√≥n definida correctamente
üìã Campos a extraer: 25 campos relevantes


In [134]:
# =============================================================================
# 11.2 EJECUCI√ìN DE LA EXTRACCI√ìN
# =============================================================================
print("\n11.2 EJECUCI√ìN DE LA EXTRACCI√ìN")
print("-" * 50)

print("‚è≥ Extrayendo datos de negocios...")
start_time = time.time()

negocios_yelp = extraer_datos_negocios(data)
end_time = time.time()

print(f"‚úÖ Datos extra√≠dos de {len(negocios_yelp)} negocios")
print(f"‚è±Ô∏è  Tiempo de extracci√≥n: {end_time - start_time:.2f} segundos")
print(f"üìä Tasa: {len(negocios_yelp)/(end_time - start_time):.1f} negocios/segundo")

# Mostrar ejemplo del primer negocio extra√≠do
if negocios_yelp:
    print("\nüëÄ Ejemplo de datos extra√≠dos (primer negocio):")
    primer_extraido = negocios_yelp[0]
    for key, value in list(primer_extraido.items())[:5]:  # Primeros 5 campos
        print(f"   {key}: {value}")


11.2 EJECUCI√ìN DE LA EXTRACCI√ìN
--------------------------------------------------
‚è≥ Extrayendo datos de negocios...
‚úÖ Datos extra√≠dos de 200 negocios
‚è±Ô∏è  Tiempo de extracci√≥n: 0.00 segundos
üìä Tasa: 72328.1 negocios/segundo

üëÄ Ejemplo de datos extra√≠dos (primer negocio):
   id_yelp: K3ukx2e11xTRtYBU01dmrA
   alias: salty-flame-miami
   nombre: Salty Flame
   calificacion: 4.4
   numero_resenas: 194


## 12. Creaci√≥n y Limpieza del DataFrame

In [135]:
# =============================================================================
# 12.1 CREACI√ìN DEL DATAFRAME
# =============================================================================
print("\n12.1 CREACI√ìN DEL DATAFRAME")
print("-" * 50)

print("üèóÔ∏è Creando DataFrame a partir de datos extra√≠dos...")
df_yelp = pd.DataFrame(negocios_yelp)

print(f"‚úÖ DataFrame creado exitosamente")
print(f"üìê Dimensiones: {df_yelp.shape[0]} filas √ó {df_yelp.shape[1]} columnas")
print(f"üìä Columnas: {list(df_yelp.columns)}")
print(f"üíæ Memoria inicial: {df_yelp.memory_usage(deep=True).sum() / 1024:.2f} KB")

# Optimizar tipos de datos
print("\nüîÑ Optimizando tipos de datos...")
optimizaciones = {
    'calificacion': 'float32',
    'numero_resenas': 'int32',
    'latitud': 'float32',
    'longitud': 'float32',
    'distancia_metros': 'float32',
    'esta_cerrado': 'bool'
}

for col, dtype in optimizaciones.items():
    if col in df_yelp.columns:
        df_yelp[col] = df_yelp[col].astype(dtype)
        print(f"   ‚úÖ {col} ‚Üí {dtype}")

print(f"üíæ Memoria despu√©s de optimizaci√≥n: {df_yelp.memory_usage(deep=True).sum() / 1024:.2f} KB")


12.1 CREACI√ìN DEL DATAFRAME
--------------------------------------------------
üèóÔ∏è Creando DataFrame a partir de datos extra√≠dos...
‚úÖ DataFrame creado exitosamente
üìê Dimensiones: 200 filas √ó 23 columnas
üìä Columnas: ['id_yelp', 'alias', 'nombre', 'calificacion', 'numero_resenas', 'precio_nivel', 'esta_cerrado', 'categorias', 'categorias_lista', 'direccion_completa', 'direccion_calle', 'ciudad', 'estado', 'codigo_postal', 'pais', 'latitud', 'longitud', 'telefono', 'url_yelp', 'url_imagen', 'distancia_metros', 'transacciones', 'horarios_disponibles']
üíæ Memoria inicial: 258.12 KB

üîÑ Optimizando tipos de datos...
   ‚úÖ calificacion ‚Üí float32
   ‚úÖ numero_resenas ‚Üí int32
   ‚úÖ latitud ‚Üí float32
   ‚úÖ longitud ‚Üí float32
   ‚úÖ distancia_metros ‚Üí float32
   ‚úÖ esta_cerrado ‚Üí bool
üíæ Memoria despu√©s de optimizaci√≥n: 251.09 KB


In [136]:
# =============================================================================
# 12.2 AN√ÅLISIS DE VALORES NULOS
# =============================================================================
print("\n12.2 AN√ÅLISIS DE VALORES NULOS")
print("-" * 50)

# Crear resumen detallado de valores nulos
null_summary = pd.DataFrame({
    'Valores_Nulos': df_yelp.isnull().sum(),
    'Porcentaje_Nulos': (df_yelp.isnull().sum() / len(df_yelp)) * 100,
    'Tipo_Dato': df_yelp.dtypes
}).sort_values('Porcentaje_Nulos', ascending=False)

print("üìã Resumen de valores nulos por columna:")
print(null_summary[null_summary['Valores_Nulos'] > 0])


12.2 AN√ÅLISIS DE VALORES NULOS
--------------------------------------------------
üìã Resumen de valores nulos por columna:
          Valores_Nulos  Porcentaje_Nulos Tipo_Dato
longitud            200             100.0   float32


## 13. Estrategias de Limpieza de Datos

In [137]:
# =============================================================================
# 13.1 ESTRATEGIA DE LIMPIEZA DE DATOS
# =============================================================================
print("\n13.1 ESTRATEGIA DE LIMPIEZA DE DATOS")
print("-" * 50)

# Crear copia para limpieza
df_yelp_clean = df_yelp.copy()
print("‚úÖ Copia del DataFrame creada para limpieza")
print("\nüõ†Ô∏è Aplicando estrategias de limpieza...")

# Definir estrategias por tipo de columna
estrategias_limpieza = {
    'numeric': ['calificacion', 'numero_resenas', 'latitud', 'longitud', 'distancia_metros'],
    'categorical': ['precio_nivel', 'ciudad', 'estado', 'codigo_postal', 'pais'],
    'text': ['direccion_completa', 'direccion_calle', 'categorias', 'telefono'],
    'url': ['url_yelp', 'url_imagen'],
    'boolean': ['esta_cerrado', 'horarios_disponibles']
}

print("üìã Estrategias aplicadas:")

# a. Columnas num√©ricas: imputar con mediana (con validaci√≥n)
for col in estrategias_limpieza['numeric']:
    if col in df_yelp_clean.columns and df_yelp_clean[col].isnull().any():
        nulos_antes = df_yelp_clean[col].isnull().sum()
        
        # Verificar si hay valores v√°lidos para calcular la mediana
        valores_validos = df_yelp_clean[col].dropna()
        
        if len(valores_validos) > 0:
            mediana = valores_validos.median()
            df_yelp_clean[col] = df_yelp_clean[col].fillna(mediana)
            print(f"   üî¢ {col}: {nulos_antes} nulos ‚Üí mediana ({mediana:.2f})")
        else:
            # Si todos los valores son nulos, llenar con 0 o un valor por defecto
            valor_defecto = 0 if col in ['latitud', 'longitud'] else df_yelp_clean[col].dtype.type(0)
            df_yelp_clean[col] = df_yelp_clean[col].fillna(valor_defecto)
            print(f"   ‚ö†Ô∏è  {col}: {nulos_antes} nulos ‚Üí valor por defecto ({valor_defecto}) - TODOS eran nulos")

# b. Columnas categ√≥ricas
for col in estrategias_limpieza['categorical']:
    if col in df_yelp_clean.columns and df_yelp_clean[col].isnull().any():
        nulos_antes = df_yelp_clean[col].isnull().sum()
        
        if col == 'precio_nivel':
            df_yelp_clean[col] = df_yelp_clean[col].fillna('No especificado')
            print(f"   üí∞ {col}: {nulos_antes} nulos ‚Üí 'No especificado'")
        else:
            moda_values = df_yelp_clean[col].mode()
            if not moda_values.empty:
                moda = moda_values[0]
            else:
                moda = 'Desconocido'
            df_yelp_clean[col] = df_yelp_clean[col].fillna(moda)
            print(f"   üè∑Ô∏è  {col}: {nulos_antes} nulos ‚Üí moda ('{moda}')")

# c. Columnas de texto: pd.NA para missing values expl√≠citos
for col in estrategias_limpieza['text']:
    if col in df_yelp_clean.columns and df_yelp_clean[col].isnull().any():
        nulos_antes = df_yelp_clean[col].isnull().sum()
        df_yelp_clean[col] = df_yelp_clean[col].fillna(pd.NA)
        print(f"   üìù {col}: {nulos_antes} nulos ‚Üí pd.NA")

# d. Columnas booleanas: False por defecto
for col in estrategias_limpieza['boolean']:
    if col in df_yelp_clean.columns and df_yelp_clean[col].isnull().any():
        nulos_antes = df_yelp_clean[col].isnull().sum()
        df_yelp_clean[col] = df_yelp_clean[col].fillna(False)
        print(f"   ‚úÖ {col}: {nulos_antes} nulos ‚Üí False")

print("\nüîç Verificaci√≥n post-limpieza:")
print("Valores nulos restantes por columna:")
nulos_restantes = df_yelp_clean.isnull().sum()
for col, nulos in nulos_restantes[nulos_restantes > 0].items():
    print(f"   ‚ùå {col}: {nulos} nulos restantes")

if nulos_restantes.sum() == 0:
    print("   ‚úÖ ¬°No hay valores nulos restantes!")


13.1 ESTRATEGIA DE LIMPIEZA DE DATOS
--------------------------------------------------
‚úÖ Copia del DataFrame creada para limpieza

üõ†Ô∏è Aplicando estrategias de limpieza...
üìã Estrategias aplicadas:
   ‚ö†Ô∏è  longitud: 200 nulos ‚Üí valor por defecto (0) - TODOS eran nulos

üîç Verificaci√≥n post-limpieza:
Valores nulos restantes por columna:
   ‚úÖ ¬°No hay valores nulos restantes!


In [138]:
# =============================================================================
# 13.2 VERIFICACI√ìN POST-LIMPIEZA
# =============================================================================
print("\n13.2 VERIFICACI√ìN POST-LIMPIEZA")
print("-" * 50)

# Verificaci√≥n completa
nulos_finales = df_yelp_clean.isnull().sum().sum()
print(f"üîç Valores nulos totales despu√©s de limpieza: {nulos_finales}")

if nulos_finales == 0:
    print("‚úÖ Todos los valores nulos han sido tratados adecuadamente")
else:
    nulos_restantes = df_yelp_clean.isnull().sum()[df_yelp_clean.isnull().sum() > 0]
    print("‚ö†Ô∏è Valores nulos restantes:")
    for col, count in nulos_restantes.items():
        print(f"   {col}: {count} nulos")

print(f"\nüíæ Memoria final: {df_yelp_clean.memory_usage(deep=True).sum() / 1024:.2f} KB")
print(f"üìä Reducci√≥n de memoria: {(df_yelp.memory_usage(deep=True).sum() - df_yelp_clean.memory_usage(deep=True).sum()) / 1024:.2f} KB")


13.2 VERIFICACI√ìN POST-LIMPIEZA
--------------------------------------------------
üîç Valores nulos totales despu√©s de limpieza: 0
‚úÖ Todos los valores nulos han sido tratados adecuadamente

üíæ Memoria final: 251.09 KB
üìä Reducci√≥n de memoria: 0.00 KB


## 14. An√°lisis Exploratorio Inicial

In [139]:
# =============================================================================
# 14.1 AN√ÅLISIS EXPLORATORIO INICIAL
# =============================================================================
print("\n14.1 AN√ÅLISIS EXPLORATORIO INICIAL")
print("-" * 50)

print("üìä Resumen del dataset limpio:")
print(df_yelp_clean.info())

print("\nüìà Estad√≠sticas descriptivas - M√©tricas num√©ricas:")
numeric_stats = df_yelp_clean[['calificacion', 'numero_resenas', 'distancia_metros']].describe()
print(numeric_stats)

print("\n‚≠ê Distribuci√≥n de calificaciones:")
calificacion_dist = df_yelp_clean['calificacion'].value_counts().sort_index()
for rating, count in calificacion_dist.items():
    print(f"   {rating}‚≠ê: {count} negocios ({count/len(df_yelp_clean)*100:.1f}%)")

print("\nüí∞ Distribuci√≥n de niveles de precio:")
precio_dist = df_yelp_clean['precio_nivel'].value_counts()
for precio, count in precio_dist.items():
    print(f"   {precio}: {count} negocios ({count/len(df_yelp_clean)*100:.1f}%)")

# An√°lisis de categor√≠as
print("\nüè∑Ô∏è  Top 10 categor√≠as m√°s comunes:")
from collections import Counter

todas_categorias = []
for categorias in df_yelp_clean['categorias']:
    if pd.notna(categorias) and categorias != '':
        todas_categorias.extend([cat.strip() for cat in str(categorias).split(',')])

categorias_count = Counter(todas_categorias)
for categoria, count in categorias_count.most_common(10):
    porcentaje = (count / len(df_yelp_clean)) * 100
    print(f"   {categoria}: {count} ({porcentaje:.1f}%)")


14.1 AN√ÅLISIS EXPLORATORIO INICIAL
--------------------------------------------------
üìä Resumen del dataset limpio:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 23 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id_yelp               200 non-null    object 
 1   alias                 200 non-null    object 
 2   nombre                200 non-null    object 
 3   calificacion          200 non-null    float32
 4   numero_resenas        200 non-null    int32  
 5   precio_nivel          200 non-null    object 
 6   esta_cerrado          200 non-null    bool   
 7   categorias            200 non-null    object 
 8   categorias_lista      200 non-null    object 
 9   direccion_completa    200 non-null    object 
 10  direccion_calle       200 non-null    object 
 11  ciudad                200 non-null    object 
 12  estado                200 non-null    object 
 13  codi

In [140]:
# =============================================================================
# 14.2 GUARDADO DE DATOS PROCESADOS
# =============================================================================
print("\n14.2 GUARDADO DE DATOS PROCESADOS")
print("-" * 50)

# Guardar datasets para uso futuro
timestamp = time.strftime("%Y%m%d_%H%M%S")
archivo_original = f"yelp_miami_original_{timestamp}.csv"
archivo_limpio = f"yelp_miami_limpio_{timestamp}.csv"

df_yelp.to_csv(archivo_original, index=False, encoding='utf-8')
df_yelp_clean.to_csv(archivo_limpio, index=False, encoding='utf-8')

print(f"‚úÖ Datos originales guardados: {archivo_original}")
print(f"‚úÖ Datos limpios guardados: {archivo_limpio}")
print(f"üì¶ Tama√±o original: {os.path.getsize(archivo_original) / 1024:.1f} KB")
print(f"üì¶ Tama√±o limpio: {os.path.getsize(archivo_limpio) / 1024:.1f} KB")

print("\n" + "=" * 70)
print("‚úÖ EXTRACCI√ìN Y TRANSFORMACI√ìN COMPLETADA")
print("=" * 70)


14.2 GUARDADO DE DATOS PROCESADOS
--------------------------------------------------
‚úÖ Datos originales guardados: yelp_miami_original_20250828_124858.csv
‚úÖ Datos limpios guardados: yelp_miami_limpio_20250828_124858.csv
üì¶ Tama√±o original: 102.7 KB
üì¶ Tama√±o limpio: 103.3 KB

‚úÖ EXTRACCI√ìN Y TRANSFORMACI√ìN COMPLETADA


In [141]:
# Variables para uso en siguientes bloques
yelp_data_clean = df_yelp_clean
yelp_data_raw = df_yelp

print("üöÄ Datos listos para an√°lisis e integraci√≥n")

üöÄ Datos listos para an√°lisis e integraci√≥n


Visualizacion del Dataset:

In [142]:
data.keys()
data['businesses']
df_yelp = pd.json_normalize(data['businesses'])
df_yelp

Unnamed: 0,id,alias,name,image_url,is_closed,url,review_count,categories,rating,transactions,...,coordinates.longitude,location.address1,location.address2,location.address3,location.city,location.zip_code,location.country,location.state,location.display_address,price
0,K3ukx2e11xTRtYBU01dmrA,salty-flame-miami,Salty Flame,https://s3-media0.fl.yelpcdn.com/bphoto/_6wShT...,False,https://www.yelp.com/biz/salty-flame-miami?adj...,194,"[{'alias': 'asianfusion', 'title': 'Asian Fusi...",4.4,"[pickup, delivery]",...,-80.192670,1414 Brickell Ave,,,Miami,33131,US,FL,"[1414 Brickell Ave, Miami, FL 33131]",
1,UXHxLN3DcDGI57uDIfCuJA,olds-havana-cuban-bar-and-cocina-miami,Old's Havana Cuban Bar & Cocina,https://s3-media0.fl.yelpcdn.com/bphoto/OyMD-x...,False,https://www.yelp.com/biz/olds-havana-cuban-bar...,2997,"[{'alias': 'cuban', 'title': 'Cuban'}, {'alias...",4.4,"[restaurant_reservation, pickup]",...,-80.219238,1442 SW 8th St,,,Miami,33135,US,FL,"[1442 SW 8th St, Miami, FL 33135]",$$
2,oxtMfBGmVNE18pFVuw7lFg,fratellino-coral-gables-2,Fratellino,https://s3-media0.fl.yelpcdn.com/bphoto/OPS9ib...,False,https://www.yelp.com/biz/fratellino-coral-gabl...,1813,"[{'alias': 'italian', 'title': 'Italian'}]",4.8,"[restaurant_reservation, pickup, delivery]",...,-80.260110,264 Miracle Mile,,,Coral Gables,33134,US,FL,"[264 Miracle Mile, Coral Gables, FL 33134]",$$$
3,ix8ifP1jQM9ektdVAs19sQ,crazy-about-you-miami-3,Crazy About You,https://s3-media0.fl.yelpcdn.com/bphoto/vvQBoP...,False,https://www.yelp.com/biz/crazy-about-you-miami...,2787,"[{'alias': 'mediterranean', 'title': 'Mediterr...",4.2,"[restaurant_reservation, delivery]",...,-80.188986,1155 Brickell Bay Dr,Ste 101,,Miami,33131,US,FL,"[1155 Brickell Bay Dr, Ste 101, Miami, FL 33131]",$$
4,WqIBKxRUPXH3NqTViAHLxQ,bayshore-club-bar-and-grill-miami,Bayshore Club Bar & Grill,https://s3-media0.fl.yelpcdn.com/bphoto/B7tTbJ...,False,https://www.yelp.com/biz/bayshore-club-bar-and...,947,"[{'alias': 'seafood', 'title': 'Seafood'}, {'a...",4.3,[],...,-80.234162,3391 Pan American Dr,,,Miami,33133,US,FL,"[3391 Pan American Dr, Miami, FL 33133]",$$$
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,7zi35PQGV0jnoM7NwHWd-w,klaw-miami-miami,Klaw Miami,https://s3-media0.fl.yelpcdn.com/bphoto/xlCI_b...,False,https://www.yelp.com/biz/klaw-miami-miami?adju...,383,"[{'alias': 'steak', 'title': 'Steakhouses'}, {...",4.4,[],...,-80.185894,1737 N Bayshore Dr,,,Miami,33132,US,FL,"[1737 N Bayshore Dr, Miami, FL 33132]",$$$$
196,snJPBuR3TtYfapCHuZWsOQ,manjay-miami,Manjay,https://s3-media0.fl.yelpcdn.com/bphoto/PnErNl...,False,https://www.yelp.com/biz/manjay-miami?adjust_c...,158,"[{'alias': 'caribbean', 'title': 'Caribbean'}]",4.3,"[delivery, pickup]",...,-80.193440,8300 NE 2nd Ave,,,Miami,33138,US,FL,"[8300 NE 2nd Ave, Miami, FL 33138]",$$
197,rotNnhymUbXhXz-WRXlXvg,marias-greek-restaurant-miami-3,Maria's Greek Restaurant,https://s3-media0.fl.yelpcdn.com/bphoto/HNZj6K...,False,https://www.yelp.com/biz/marias-greek-restaura...,349,"[{'alias': 'greek', 'title': 'Greek'}, {'alias...",4.1,"[delivery, pickup]",...,-80.233341,2359 Coral Way,,,Miami,33145,US,FL,"[2359 Coral Way, Miami, FL 33145]",$$
198,d4pfwfJktfuTAQM51oj_ZQ,montys-coconut-grove-miami-5,Monty's Raw Bar,https://s3-media0.fl.yelpcdn.com/bphoto/Ef17lm...,False,https://www.yelp.com/biz/montys-coconut-grove-...,1311,"[{'alias': 'seafood', 'title': 'Seafood'}, {'a...",3.3,"[delivery, pickup]",...,-80.232488,2550 S Bayshore Dr,,,Miami,33133,US,FL,"[2550 S Bayshore Dr, Miami, FL 33133]",$$


In [143]:
# GUARDAR DATOS YELP PARA EL AVANCE 3
df_yelp_clean.to_csv('yelp_miami_limpio.csv', index=False)
print("‚úÖ Datos Yelp de Miami guardados para Avance #3")

‚úÖ Datos Yelp de Miami guardados para Avance #3
