# Laboratorio: El ADN de un Negocio Exitoso con Datos de Yelp üöÄ

¬°Muy buenos d√≠as, futuros consultores y estrategas de negocio!

Hoy nos quitamos el sombrero de estudiantes y nos ponemos el de **consultores de datos**. Nuestro nuevo cliente, un emprendedor entusiasta, quiere abrir un restaurante en una ciudad muy competitiva y nos ha contratado para que le demos una ventaja. Nuestra misi√≥n: **usar el poder de los datos de Yelp para descubrir la f√≥rmula secreta del √©xito.**

No vamos a programar desde cero. Vamos a usar el c√≥digo como si fuera un potente esc√°ner: lo ejecutaremos para analizar la evidencia y nuestra verdadera habilidad ser√° interpretar los resultados y dar recomendaciones estrat√©gicas. ¬°Empecemos!

In [None]:
# Este bloque instala librer√≠as y descarga el set de datos de Yelp.
# El archivo es grande, as√≠ que este paso puede tardar entre 2 y 5 minutos. ¬°Paciencia!

print("‚öôÔ∏è Instalando librer√≠as necesarias...")
!pip install wordcloud -q

print("üì• Descargando el set de datos de Yelp (esto puede tardar)...")
# Usaremos una versi√≥n alojada en Kaggle para facilitar la descarga
!wget -q --show-progress https://storage.googleapis.com/big-data-course-assets/yelp_dataset.tar

print("\nüì¶ Descomprimiendo archivos...")
!tar -xf yelp_dataset.tar

print("\n‚úÖ ¬°Entorno listo! Ya tenemos los datos para empezar nuestra investigaci√≥n.")

In [None]:
# Vamos a cargar los datos de los negocios y las rese√±as.
# Pandas es nuestra herramienta para manejar estas tablas de datos.

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import json

# --- Carga de Datos ---
# Los archivos son 'JSON por l√≠nea', por eso usamos lines=True.
print("Cargando datos de negocios...")
df_business = pd.read_json('yelp_academic_dataset_business.json', lines=True)

print("Cargando datos de rese√±as (esto puede tomar un momento)...")
# Para que el notebook sea √°gil, solo cargaremos las primeras 2 millones de rese√±as.
df_review = pd.read_json('yelp_academic_dataset_review.json', lines=True, chunksize=2000000).get_chunk()


# --- Primera Mirada ---
print("\n--- Vista Previa de los Datos de Negocios ---")
print(f"Tenemos datos de {df_business.shape[0]} negocios.")
display(df_business.head())

print("\n--- Vista Previa de los Datos de Rese√±as ---")
print(f"Tenemos {df_review.shape[0]:,} rese√±as para analizar.")
display(df_review.head())

## PARTE 1: El Panorama General (An√°lisis de Datos Estructurados) üèôÔ∏è

Todo buen consultor empieza con una vista panor√°mica. Antes de analizar un negocio, debemos entender el mercado. Usaremos la ciudad de **Las Vegas** como nuestro caso de estudio. La informaci√≥n en `df_business` (estrellas, cantidad de rese√±as, ciudad) es **dato estructurado**: ordenado en filas y columnas, f√°cil de contar y agregar.

In [None]:
# Filtramos la tabla para quedarnos solo con los negocios en Las Vegas.
df_vegas = df_business[df_business['city'] == 'Las Vegas'].copy()

print(f"An√°lisis de mercado: Hay {df_vegas.shape[0]} negocios registrados en Las Vegas en nuestro dataset.")

# Graficamos la distribuci√≥n de las calificaciones (estrellas)
plt.figure(figsize=(10, 6))
sns.countplot(x='stars', data=df_vegas, palette='viridis', order=df_vegas['stars'].value_counts().index)
plt.title('Distribuci√≥n de Calificaciones (Estrellas) en Las Vegas', fontsize=16)
plt.xlabel('Calificaci√≥n (Estrellas)', fontsize=12)
plt.ylabel('Cantidad de Negocios', fontsize=12)
plt.show()

### üïµÔ∏è Mini Reto #1: ¬øD√≥nde est√° la competencia?

Nuestro cliente quiere abrir un restaurante. ¬øCu√°les son las categor√≠as de negocio m√°s comunes en Las Vegas? ¬øY las m√°s saturadas?

**Su Tarea:** Ejecute el siguiente c√≥digo e interprete el gr√°fico para responder:
1.  ¬øCu√°l es la categor√≠a de negocio m√°s com√∫n en Las Vegas?
2.  Si quisiera abrir un negocio con menos competencia directa, ¬øqu√© tipo de negocio evitar√≠a seg√∫n este gr√°fico?

In [None]:
# Este c√≥digo procesa la columna 'categories', que es un texto, para contar cada categor√≠a individual.
df_vegas.dropna(subset=['categories'], inplace=True)
categories_exploded = df_vegas['categories'].str.split(', ').explode()

plt.figure(figsize=(12, 8))
categories_exploded.value_counts().nlargest(15).sort_values().plot(kind='barh')
plt.title('Top 15 Categor√≠as de Negocio M√°s Comunes en Las Vegas', fontsize=16)
plt.xlabel('Cantidad de Negocios', fontsize=12)
plt.show()

## PARTE 2: Los Detalles que Importan (An√°lisis de Datos Semi-Estructurados) üìã

Ahora, profundicemos. ¬øQu√© hace que un negocio tenga √©xito m√°s all√° de su categor√≠a? La columna `attributes` contiene informaci√≥n valios√≠sima (si aceptan tarjeta, si tienen terraza, etc.), pero no est√° en una columna ordenada. Es un **dato semi-estructurado** (un objeto JSON anidado). Nuestra tarea es "desempacarlo" para analizarlo.

### ü§î Mini Reto #2: ¬øPagar por el ambiente vale la pena?

El cliente se pregunta si debe invertir en una terraza (`OutdoorSeating`). ¬øAcaso los restaurantes con terraza tienen, en promedio, una mejor calificaci√≥n que los que no la tienen?

**Su Tarea:** Ejecute el c√≥digo de abajo, que extrae el atributo `OutdoorSeating` y calcula la calificaci√≥n promedio para ambos grupos. Responda:
1.  ¬øCu√°l es la calificaci√≥n promedio de los restaurantes con y sin terraza?
2.  Basado **√∫nicamente** en estos datos, ¬øle recomendar√≠a al cliente invertir en una terraza? ¬øPor qu√©?

In [None]:
# 1. Filtramos para quedarnos solo con restaurantes
df_restaurants = df_vegas[df_vegas['categories'].str.contains('Restaurants', na=False)].copy()

# 2. Extraemos el atributo 'OutdoorSeating' del JSON
# No se preocupe por el c√≥digo, enf√≥quese en el resultado
attributes_dict = df_restaurants['attributes'].dropna().apply(json.loads)
df_attributes = pd.json_normalize(attributes_dict)
df_restaurants_merged = df_restaurants.join(df_attributes)

# 3. Calculamos y mostramos la calificaci√≥n promedio
# Convertimos el valor a booleano (True/False) para el an√°lisis
df_restaurants_merged['OutdoorSeating'] = df_restaurants_merged['OutdoorSeating'].apply(lambda x: x == 'True' if isinstance(x, str) else None)
avg_stars_seating = df_restaurants_merged.groupby('OutdoorSeating')['stars'].mean().round(2)

print("--- Calificaci√≥n Promedio seg√∫n si tienen Terraza ---")
print(avg_stars_seating)

## PARTE 3: La Voz del Cliente (An√°lisis de Datos No Estructurados - Texto) üí¨

Los n√∫meros y atributos nos dicen 'qu√©' pasa, pero no 'por qu√©'. Para eso, necesitamos analizar el **dato no estructurado** m√°s valioso que tenemos: las rese√±as de los clientes. Vamos a comparar las palabras m√°s usadas en las rese√±as de 1 estrella contra las de 5 estrellas para encontrar los secretos del √©xito y las causas del fracaso.

### üó£Ô∏è Mini Reto #3: La anatom√≠a del √©xito y el fracaso

**Su Tarea:** Ejecute los dos bloques de c√≥digo siguientes para generar las "nubes de palabras" de las rese√±as. Una para las peores experiencias (1 estrella) y otra para las mejores (5 estrellas). Luego, compare las dos im√°genes y responda:

1.  ¬øCu√°les son las 3 palabras m√°s destacadas en las rese√±as de 5 estrellas? ¬øQu√© nos dice esto sobre lo que m√°s valoran los clientes satisfechos?
2.  ¬øCu√°les son las 3 palabras m√°s destacadas en las rese√±as de 1 estrella? ¬øQu√© nos dice esto sobre los errores m√°s comunes que cometen los negocios?
3.  ¬øQu√© recomendaci√≥n clave sobre el **servicio al cliente** le dar√≠a al emprendedor bas√°ndose en esta comparaci√≥n?

In [None]:
from wordcloud import WordCloud

# Unimos los dataframes para tener las rese√±as con la info del negocio
df_vegas_reviews = pd.merge(df_vegas, df_review, on='business_id', how='inner')

# Creamos un gran texto con todas las rese√±as de 5 estrellas
text_5_star = " ".join(review for review in df_vegas_reviews[df_vegas_reviews['stars_y'] == 5]['text'])

# Generamos la nube de palabras
wordcloud_5_star = WordCloud(background_color="white", max_words=50, colormap='viridis').generate(text_5_star)

plt.figure(figsize=(12, 8))
plt.imshow(wordcloud_5_star, interpolation='bilinear')
plt.axis("off")
plt.title("Palabras M√°s Comunes en Rese√±as de 5 Estrellas", fontsize=20)
plt.show()

In [None]:
# Creamos un gran texto con todas las rese√±as de 1 estrella
text_1_star = " ".join(review for review in df_vegas_reviews[df_vegas_reviews['stars_y'] == 1]['text'])

# Generamos la nube de palabras
wordcloud_1_star = WordCloud(background_color="black", max_words=50, colormap='Reds').generate(text_1_star)

plt.figure(figsize=(12, 8))
plt.imshow(wordcloud_1_star, interpolation='bilinear')
plt.axis("off")
plt.title("Palabras M√°s Comunes en Rese√±as de 1 Estrella", fontsize=20)
plt.show()

## üèÜ El Reto Final: Su Recomendaci√≥n Estrat√©gica

Ha analizado el mercado, los atributos del negocio y la voz del cliente. Ahora es el momento de actuar como un verdadero consultor.

Nuestro cliente quiere abrir un restaurante de **Comida Peruana** en Las Vegas. Bas√°ndose en todo el an√°lisis que ha ejecutado en este notebook:

**Su Tarea Final:** Elabore una recomendaci√≥n de 3 puntos clave para el cliente. Sea breve y directo.

1.  **La Oportunidad de Mercado:** ¬øRecomendar√≠a abrir un restaurante peruano? ¬øPor qu√©? (Puede volver a ejecutar el c√≥digo del Reto #1 filtrando por "Peruvian" o "Restaurants" para justificar su respuesta).
2.  **La Clave del Servicio (Basado en el Reto #3):** ¬øCu√°l es el factor #1 relacionado con el servicio o la experiencia que debe obsesionar al cliente para conseguir rese√±as de 5 estrellas?
3.  **Una Inversi√≥n Inteligente (Basado en el Reto #2):** Mencione un atributo o caracter√≠stica del local (como la terraza u otro que pueda explorar) que los datos sugieren que tiene un impacto positivo en la calificaci√≥n.

Prepare sus respuestas. En nuestra pr√≥xima sesi√≥n, las discutiremos en grupo. ¬°Excelente trabajo, consultores!