In [None]:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
import os

# EDA "business.snappy.parquet"

In [None]:
#Obtener la ruta del archivo
file_path = '../data/Yelp/business.snappy.parquet'


In [None]:
# Lee el archivo Parquet en un DataFrame
df = pd.read_parquet(file_path, engine='pyarrow')
df.head(5)

In [None]:

# Importa las bibliotecas necesarias
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# #10 usuarios con más reseñas
# Calcula la cantidad de reseñas por usuario y obtén los 10 usuarios con más reseñas
name_counts = df['name'].value_counts()
top_users = name_counts.head(10)

# Muestra los 10 usuarios con más reseñas
print("Top 10 Usuarios que Más se Repiten:")
print(top_users)

# Crea un gráfico de barras para visualizar los 10 usuarios con más reseñas
plt.figure(figsize=(10, 6))
top_users.plot(kind='bar', color='green')
plt.xlabel('Usuario')
plt.ylabel('Frecuencia')
plt.title('Top 10 Usuarios con Mas Reseñas')
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

In [None]:
#Contar la cantidad de bancos por ciudad
city_counts = df['city'].value_counts()

# Selecciona las 10 ciudades principales
top_cities = city_counts.head(10)

# Define una paleta de colores verde utilizando Seaborn
green_palette = sns.color_palette("viridis", len(top_cities))

# Crea el gráfico de barras utilizando la paleta de colores verde
plt.figure(figsize=(10, 6))
top_cities.plot(kind='bar', color=green_palette)
plt.xlabel('Ciudades')
plt.ylabel('Cantidad Bancos')
plt.show()

# EDA "tip.snappy.parquet"


In [None]:
#Obtener la ruta del archivo
file_path = '../data/Yelp/tip.snappy.parquet'

# Lee el archivo Parquet en un DataFrame
df_tips = pd.read_parquet(file_path, engine='pyarrow')
df_tips.head(3)

In [None]:
#Rango temporal de los datos
min_date = df_tips['date'].min()
max_date = df_tips['date'].max()

print("Fecha mínima:", min_date)
print("Fecha máxima:", max_date)

In [None]:

# Importa las bibliotecas necesarias
from wordcloud import WordCloud

# Concatena todos los textos de la columna 'text' en una sola cadena
all_text = ' '.join(df_tips['text'])

# Crea un objeto WordCloud con las configuraciones deseadas
wordcloud = WordCloud(width=800, height=400, background_color='white', max_words=100).generate(all_text)

# Configura la figura para mostrar la nube de palabras
plt.figure(figsize=(10, 6))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Nube de Palabras de la Columna "text"')
plt.show()

# EDA "user.snappy.parquet"

In [None]:
#Obtener la ruta del archivo
file_path = '../data/Yelp/user.snappy.parquet'

# Lee el archivo Parquet en un DataFrame
df_user = pd.read_parquet(file_path, engine='pyarrow')
df_user.head(3)

## Exploración de la Distribución de Review Count y Average Stars:

Visualiza la distribución de review_count y average_stars para entender la cantidad de reseñas y la calificación promedio de los usuarios.

In [None]:
# Exploración de la Distribución de Review Count y Average Stars
plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
sns.histplot(df_user['review_count'], bins=30, kde=True, color='blue')
plt.title('Distribución de Review Count')

plt.subplot(1, 2, 2)
sns.histplot(df_user['average_stars'], bins=30, kde=True, color='green')
plt.title('Distribución de Average Stars')

plt.tight_layout()
plt.show()

## Análisis Temporal:

Analiza la distribución temporal de la variable yelping_since. Agrupar por año cómo ha evolucionado la incorporación de nuevos usuarios a lo largo del tiempo.

In [None]:
# Análisis Temporal
df_user['yelping_since'] = pd.to_datetime(df_user['yelping_since'])
df_user['yelping_year'] = df_user['yelping_since'].dt.year

plt.figure(figsize=(10, 6))
sns.countplot(x='yelping_year', data=df_user, palette='viridis')
plt.title('Distribución de Usuarios Yelping por Año')
plt.xlabel('Año de Yelping')
plt.ylabel('Número de Usuarios')
plt.show()

## Análisis de Relaciones Sociales:

Investiga las relaciones sociales de los usuarios utilizando la información en la columna friends. Analizar la cantidad de amigos y cómo se distribuyen.

In [None]:
#Análisis de Relaciones Sociales
df_user['friends_count'] = df_user['friends'].apply(lambda x: len(x.split(',')))

plt.figure(figsize=(12, 6))
sns.histplot(df_user['friends_count'], bins=30, kde=True, color='orange')
plt.title('Distribución de la Cantidad de Amigos')
plt.xlabel('Cantidad de Amigos')
plt.ylabel('Número de Usuarios')
plt.show()
