## 🛠️ **ETL (Extract, Transform, Load)**



#### **📂 Procesamiento del 1er archivo: `Yelp/business.pkl`**

####  **Importamos las librerías que vamos a usar**


In [1]:
import pandas as pd
import data_utils   
from data_utils import data_type_check, data_type_check_pkl

import warnings
warnings.filterwarnings('ignore')
import seaborn as sns
import matplotlib.pyplot as plt


#### 📦 **Extraccion** de los datos y primera exploración 


Mostrar info como en datatypecheck
#data_type_check_pkl('../0_Dataset/Yelp/business.pkl')

**PENDIENTE**
% de nulos, .shape, .columns


___

In [2]:
business = pd.read_pickle('../0_Dataset/Yelp/business.pkl')
business.info()
business.sample(2)

<class 'pandas.core.frame.DataFrame'>
Index: 150346 entries, 0 to 150345
Data columns (total 28 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   business_id   150346 non-null  object
 1   name          150346 non-null  object
 2   address       150346 non-null  object
 3   city          150346 non-null  object
 4   state         150343 non-null  object
 5   postal_code   150346 non-null  object
 6   latitude      150346 non-null  object
 7   longitude     150346 non-null  object
 8   stars         150346 non-null  object
 9   review_count  150346 non-null  object
 10  is_open       150346 non-null  object
 11  attributes    136602 non-null  object
 12  categories    150243 non-null  object
 13  hours         127123 non-null  object
 14  business_id   5 non-null       object
 15  name          5 non-null       object
 16  address       5 non-null       object
 17  city          5 non-null       object
 18  state         5 non-null     

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,...,state.1,postal_code.1,latitude.1,longitude.1,stars.1,review_count.1,is_open,attributes,categories,hours
122629,cCbAiX9ucA2awIijfSN3cQ,Agave Inn,3222 State St,Santa Barbara,AB,93105,34.440737,-119.733324,4.0,184,...,,,,,,,,,,
115197,Dy_fP3cm42iXovWsyTmiPw,Goffredo Vincent Plmbr,806 S 47th St,Philadelphia,FL,19143,39.948376,-75.21712,4.5,12,...,,,,,,,,,,


Tenemos columnas duplicadas, procedemos a quitarlas.


In [3]:
business = business.loc[:, ~business.columns.duplicated()]
business.info()

<class 'pandas.core.frame.DataFrame'>
Index: 150346 entries, 0 to 150345
Data columns (total 14 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   business_id   150346 non-null  object
 1   name          150346 non-null  object
 2   address       150346 non-null  object
 3   city          150346 non-null  object
 4   state         150343 non-null  object
 5   postal_code   150346 non-null  object
 6   latitude      150346 non-null  object
 7   longitude     150346 non-null  object
 8   stars         150346 non-null  object
 9   review_count  150346 non-null  object
 10  is_open       150346 non-null  object
 11  attributes    136602 non-null  object
 12  categories    150243 non-null  object
 13  hours         127123 non-null  object
dtypes: object(14)
memory usage: 17.2+ MB


#### 🔁 **TRANSFORM**

Nos interesa observar las categorías por lo que primero vamos a corroborar que no tenga duplicados

In [4]:
business.categories.value_counts()

categories
Beauty & Spas, Nail Salons                                                                                       1012
Restaurants, Pizza                                                                                                935
Nail Salons, Beauty & Spas                                                                                        934
Pizza, Restaurants                                                                                                823
Restaurants, Mexican                                                                                              728
                                                                                                                 ... 
Dermatologists, Health & Medical, Cosmetic Surgeons, Doctors, Acne Treatment, Skin Care, Beauty & Spas              1
Home Services, Home & Garden, Nurseries & Gardening, Hardware Stores, Shopping, Building Supplies, Appliances       1
Food Trucks, Smokehouse, Restaurants, Food, B

Verificamos los nulos y duplicados de categories

In [5]:
# Cuenta los duplicados y nulos en la columna 'categories' antes de cualquier eliminación
duplicados_inicial = business['categories'].duplicated().sum()
nulos_inicial = business['categories'].isna().sum()

print("Antes: Cantidad de duplicados en 'categories':", duplicados_inicial)
print("Antes: Cantidad de NaNs en 'categories':", nulos_inicial)

# Elimina las filas con valores NaN en la columna 'categories'
business = business.dropna(subset=['categories'])

# Cuenta los duplicados y nulos en la columna 'categories' después de eliminar NaNs
duplicados_despues_nulos = business['categories'].duplicated().sum()
nulos_despues_nulos = business['categories'].isna().sum()

print("Después: Cantidad de NaNs en 'categories' ", nulos_despues_nulos)


'''
________________________________________________________________
FUTURO: Descomentar o borrar
Elimina las filas duplicadas basadas en la columna 'categories'
business = business.drop_duplicates(subset=['categories'])  
_________________________________________________________________  
'''

# Cuenta los duplicados en la columna 'categories' después de eliminar duplicados
duplicados_final = business['categories'].duplicated().sum()

print("Después: Cantidad de duplicados en 'categories'", duplicados_final)


Antes: Cantidad de duplicados en 'categories': 67185
Antes: Cantidad de NaNs en 'categories': 103
Después: Cantidad de NaNs en 'categories'  0
Después: Cantidad de duplicados en 'categories' 67083


Dado que diferentes negocios pueden compartir las mismas 'categories', no borramos los  67083 duplicados 


### Filtramos por estado Florida


Vamos a filtrar por estado. Para eso primero observamos todos los estados y luego elejimos el que vamos a usar

In [6]:
business['state'].value_counts()

state
PA     34013
FL     26311
TN     12045
IN     11238
MO     10909
LA      9917
AZ      9907
NJ      8529
NV      7712
AB      5571
CA      5201
ID      4463
DE      2261
IL      2142
TX         4
CO         3
WA         2
HI         2
MA         2
NC         1
UT         1
MT         1
MI         1
SD         1
XMS        1
VI         1
VT         1
Name: count, dtype: int64

### Filtramos las categorías más frecuentes en general en Estados Unidos


In [15]:
# Obtener el conteo de cada categoría en el DataFrame completo
conteo_categorias_totales = business['categories'].value_counts()

# Obtener las categorías únicas y ordenarlas alfabéticamente
categorias_unicas_totales = sorted(business['categories'].unique())

# Calcular el top 10 de categorías más frecuentes en general
top_10_categorias_totales = conteo_categorias_totales.head(10)

# Imprimir el top 10 de categorías más frecuentes en general
print("Top 10 Categorías Más Frecuentes en General:")
for i, (categoria, conteo) in enumerate(top_10_categorias_totales.items(), 1):
    print(f"{i}. {categoria}: {conteo} veces")

# Si hay más categorías, mostrar un mensaje de resumen
if len(conteo_categorias_totales) > 10:
    print(f"\nY {len(conteo_categorias_totales) - 10} categorías más...")

print("\n")

Top 10 Categorías Más Frecuentes en General:
1. Beauty & Spas, Nail Salons: 1012 veces
2. Restaurants, Pizza: 935 veces
3. Nail Salons, Beauty & Spas: 934 veces
4. Pizza, Restaurants: 823 veces
5. Restaurants, Mexican: 728 veces
6. Restaurants, Chinese: 708 veces
7. Mexican, Restaurants: 672 veces
8. Chinese, Restaurants: 651 veces
9. Food, Coffee & Tea: 508 veces
10. Beauty & Spas, Hair Salons: 493 veces

Y 83150 categorías más...




In [None]:
'''
Unir categorias?
'''

### Vamos a observar las categorías relacionadas con restaurantes en Florida


In [16]:
# Filtrar el DataFrame original para obtener solo las categorías relacionadas con restaurantes en Florida
df_estado_FL = business[business['categories'].str.lower().str.contains('restaurant', na=False) & (business['state'] == 'FL')].reset_index(drop=True)

# Obtener el conteo de cada categoría específicamente en Florida
conteo_categorias_FL = df_estado_FL['categories'].value_counts()

# Calcular el top 10 de categorías más frecuentes en Florida
top_10_categorias_FL = conteo_categorias_FL.head(10)

# Imprimir el top 10 de categorías más frecuentes en Florida
print("Top 10 Categorías Más Frecuentes en Florida:")
for i, (categoria, conteo) in enumerate(top_10_categorias_FL.items(), 1):
    print(f"{i}. {categoria}: {conteo} veces")

# Si hay más categorías, mostrar un mensaje de resumen
if len(conteo_categorias_FL) > 10:
    print(f"\nY {len(conteo_categorias_FL) - 10} categorías más...")

Top 10 Categorías Más Frecuentes en Florida:
1. Restaurants, Pizza: 163 veces
2. Pizza, Restaurants: 142 veces
3. Mexican, Restaurants: 122 veces
4. Restaurants, Chinese: 121 veces
5. Restaurants, Mexican: 118 veces
6. Chinese, Restaurants: 108 veces
7. Restaurants, Italian: 61 veces
8. Italian, Restaurants: 54 veces
9. American (New), Restaurants: 42 veces
10. Restaurants, American (New): 40 veces

Y 6468 categorías más...


In [None]:
data_type_check(df_estado_FL)
df_estado_FL.sample(2)

Aca podemos filtrar el interes que tenemos


#### **📤 LOAD**

In [15]:
#guardar en parquet