![Banner ETL](../5_Sources/Images/banner_etl.gif)

# <h1 align=center> **ETL - DATASET BUSINESS** </h1>
<h1 align=center> (Extract, Transform, Load) </h1>

Para el desarrollo de la primera fase de este proyecto, realizaré la aplicación del proceso ETL, el cuál básicamente consiste en `“Extraer”` los datos crudos desde su origen (Source), `“Transformarlos”` según nuestras necesidades de analítica o la estructura que deseamos y `“Cargarlos”` a una base de datos orientada a procesos analíticos (Target).

<p align=center><img src=https://www.informatica.com/content/dam/informatica-com/en/images/misc/etl-process-explained-diagram.png height=300><p>

Como fase previa a la aplicación del ETL, se realizará la importación de librerías que serán de utilidad en el desarrollo del proceso, las cuales son:

In [1]:
import pandas as pd
import json
import numpy as np
import pickle

# <h1 align=left>**`Extract`**</h1>

En este punto se extraen datasets extructurados en archivos .pkl y se almacenan en `DataFrames` de la librería de `Pandas`.

In [2]:
with open('F:/Henry/02. Course/3. Final Proyect/Data/Yelp/business.pkl', 'rb') as f:
    data = pickle.load(f)

# <h1 align=left>**`Transform`**</h1>

En este punto aplicaremos las reglas que el proyecto demanda para realizar un buen proceso de _`Exploratory Data Analysis-EDA`_ y un _`Sistema de recomendación`_, estas reglas pueden incluir procesos como:

+ Extraer datos.
+ Eliminar columnas duplicadas.
+ Transformar datos.
+ Desanidar datos de columnas que contienen un diccionario o una lista como valores en cada fila.

**1.** Se consulta los datos que contiene el Dataset, para identificar su estructura y la información que contiene:

In [3]:
data

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,...,state.1,postal_code.1,latitude.1,longitude.1,stars.1,review_count.1,is_open,attributes,categories,hours
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ","1616 Chapala St, Ste 2",Santa Barbara,,93101,34.426679,-119.711197,5.0,7,...,,,,,,,,,,
1,mpf3x-BjTdTEA3yCZrAYPw,The UPS Store,87 Grasso Plaza Shopping Center,Affton,,63123,38.551126,-90.335695,3.0,15,...,,,,,,,,,,
2,tUFrWirKiKi_TAnsVWINQQ,Target,5255 E Broadway Blvd,Tucson,,85711,32.223236,-110.880452,3.5,22,...,,,,,,,,,,
3,MTSW4McQd7CbVtyjqoe9mw,St Honore Pastries,935 Race St,Philadelphia,CA,19107,39.955505,-75.155564,4.0,80,...,,,,,,,,,,
4,mWMc6_wTdE0EUBKIGXDVfA,Perkiomen Valley Brewery,101 Walnut St,Green Lane,MO,18054,40.338183,-75.471659,4.5,13,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
150341,IUQopTMmYQG-qRtBk-8QnA,Binh's Nails,3388 Gateway Blvd,Edmonton,IN,T6J 5H2,53.468419,-113.492054,3.0,13,...,,,,,,,,,,
150342,c8GjPIOTGVmIemT7j5_SyQ,Wild Birds Unlimited,2813 Bransford Ave,Nashville,DE,37204,36.115118,-86.766925,4.0,5,...,,,,,,,,,,
150343,_QAMST-NrQobXduilWEqSw,Claire's Boutique,"6020 E 82nd St, Ste 46",Indianapolis,AB,46250,39.908707,-86.065088,3.5,8,...,,,,,,,,,,
150344,mtGm22y5c2UHNXDFAjaPNw,Cyclery & Fitness Center,2472 Troy Rd,Edwardsville,AB,62025,38.782351,-89.950558,4.0,24,...,,,,,,,,,,


**2.** Se convierte el Dataset a un DataFrame para ser trabajado con la librería de _`Pandas`_.

In [4]:
df_data1 = pd.DataFrame(data)

**3.** Se consulta los datos que contiene el DataFrame, para identificar su estructura y la información definitiva que contiene:

In [5]:
df_data1.head()

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,...,state.1,postal_code.1,latitude.1,longitude.1,stars.1,review_count.1,is_open,attributes,categories,hours
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ","1616 Chapala St, Ste 2",Santa Barbara,,93101,34.426679,-119.711197,5.0,7,...,,,,,,,,,,
1,mpf3x-BjTdTEA3yCZrAYPw,The UPS Store,87 Grasso Plaza Shopping Center,Affton,,63123,38.551126,-90.335695,3.0,15,...,,,,,,,,,,
2,tUFrWirKiKi_TAnsVWINQQ,Target,5255 E Broadway Blvd,Tucson,,85711,32.223236,-110.880452,3.5,22,...,,,,,,,,,,
3,MTSW4McQd7CbVtyjqoe9mw,St Honore Pastries,935 Race St,Philadelphia,CA,19107,39.955505,-75.155564,4.0,80,...,,,,,,,,,,
4,mWMc6_wTdE0EUBKIGXDVfA,Perkiomen Valley Brewery,101 Walnut St,Green Lane,MO,18054,40.338183,-75.471659,4.5,13,...,,,,,,,,,,


**4.** Se Consultan los nombres de las columnas con las que cuenta el `DataFrame`. Esta información es relevante para tener a la mano los nombres completos de todas las columna y poder utilizarlos en los siguientes códigos exploratorios.

In [6]:
columnas= df_data1.columns.tolist()
columnas

['business_id',
 'name',
 'address',
 'city',
 'state',
 'postal_code',
 'latitude',
 'longitude',
 'stars',
 'review_count',
 'is_open',
 'attributes',
 'categories',
 'hours',
 'business_id',
 'name',
 'address',
 'city',
 'state',
 'postal_code',
 'latitude',
 'longitude',
 'stars',
 'review_count',
 'is_open',
 'attributes',
 'categories',
 'hours']

>##### Se observa que en el _DataFrame_ existen 14 columnas con nombres repetidos, pero que no continen información alguna. 📊

**5.** Se procede con la eliminación de las columnas con nombres repetidos y que no contienen información, es de aclarar que se pudo identificar que estas columnas duplicadas correspondieron a las últimas cuatro columnas, por esta razón el código de eliminación que se presenta a continuación es sencillo y de una sola línea.

In [7]:
df_business = df_data1.iloc[:, :-14]

**6.** Se consulta los datos que contiene el `DataFrame` una vez eliminadas las columnas duplicadas, esto para identificar que los cambios se hayan aplicado correctamente.

In [8]:
df_business.head()

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ","1616 Chapala St, Ste 2",Santa Barbara,,93101,34.426679,-119.711197,5.0,7,0,{'ByAppointmentOnly': 'True'},"Doctors, Traditional Chinese Medicine, Naturop...",
1,mpf3x-BjTdTEA3yCZrAYPw,The UPS Store,87 Grasso Plaza Shopping Center,Affton,,63123,38.551126,-90.335695,3.0,15,1,{'BusinessAcceptsCreditCards': 'True'},"Shipping Centers, Local Services, Notaries, Ma...","{'Monday': '0:0-0:0', 'Tuesday': '8:0-18:30', ..."
2,tUFrWirKiKi_TAnsVWINQQ,Target,5255 E Broadway Blvd,Tucson,,85711,32.223236,-110.880452,3.5,22,0,"{'BikeParking': 'True', 'BusinessAcceptsCredit...","Department Stores, Shopping, Fashion, Home & G...","{'Monday': '8:0-22:0', 'Tuesday': '8:0-22:0', ..."
3,MTSW4McQd7CbVtyjqoe9mw,St Honore Pastries,935 Race St,Philadelphia,CA,19107,39.955505,-75.155564,4.0,80,1,"{'RestaurantsDelivery': 'False', 'OutdoorSeati...","Restaurants, Food, Bubble Tea, Coffee & Tea, B...","{'Monday': '7:0-20:0', 'Tuesday': '7:0-20:0', ..."
4,mWMc6_wTdE0EUBKIGXDVfA,Perkiomen Valley Brewery,101 Walnut St,Green Lane,MO,18054,40.338183,-75.471659,4.5,13,1,"{'BusinessAcceptsCreditCards': 'True', 'Wheelc...","Brewpubs, Breweries, Food","{'Wednesday': '14:0-22:0', 'Thursday': '16:0-2..."


**7.** Se Consultan nuevamente los nombres de las columnas con las que cuenta el `DataFrame`, esto con el fin de corroborar la información contenida en el punto anterior.

In [9]:
columnas2= df_business.columns.tolist()
columnas2

['business_id',
 'name',
 'address',
 'city',
 'state',
 'postal_code',
 'latitude',
 'longitude',
 'stars',
 'review_count',
 'is_open',
 'attributes',
 'categories',
 'hours']

**8.** **Lidiar con los Valores NaN o Nulos:** Antes de aplicar la función str.contains(), se da manejo a los valores NaN o nulos en la columna 'categories' utilizando el método .fillna() para reemplazar los valores NaN con una cadena vacía o algún otro valor apropiado.

In [10]:
df_business['categories'] = df_business['categories'].fillna('')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_business['categories'] = df_business['categories'].fillna('')


**9.** Se realiza filtro por el concepto _`'Hotel'`_ en la columna _`categories`_, para crear un nuevo **DataFrame** solo con la información que se requiere para el desarrollo del proyecto.

In [11]:
df_filtrado = df_business[df_business['categories'].str.contains('Hotel')]
df_filtrado.head()

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
18,8wGISYjYkE2tSqn3cDMu8A,Nifty Car Rental,1241 Airline Dr,Kenner,PA,70062,29.981183,-90.254012,3.5,14,1,,"Automotive, Car Rental, Hotels & Travel, Truck...","{'Monday': '8:0-17:0', 'Tuesday': '8:0-17:0', ..."
34,w_AMNoI1iG9eay7ncmc67w,River 127,100 Iberville St,New Orleans,PA,70130,29.951359,-90.064672,3.0,12,1,"{'BusinessAcceptsCreditCards': 'True', 'WiFi':...","Event Planning & Services, Hotels, Hotels & Tr...",
55,xM6LoUcnpDpMBzXs_7dXAg,Fairfield Inn & Suites,719 E Baltimore Pike,Kennett Square,AB,19348,39.856248,-75.69461,3.0,37,1,"{'BusinessAcceptsCreditCards': 'True', 'WiFi':...","Hotels, Hotels & Travel, Event Planning & Serv...",
65,uczmbBk5O3tYhGue13dCDg,New Orleans Spirit Tours,723 St Peter St,New Orleans,IN,70130,29.958431,-90.065173,4.0,38,1,{'WiFi': 'u'no''},"Hotels & Travel, Tours, Local Flavor","{'Monday': '0:0-0:0', 'Tuesday': '10:0-20:0', ..."
67,eYxGFkxo6m3SYGVTh5m2nQ,Big Boyz Toyz Motorcycle Rentals,4158 E Grant Rd,Tucson,PA,85712,32.250324,-110.903655,4.5,8,1,,"Towing, Hotels & Travel, Automotive, Motorcycl...","{'Monday': '8:30-18:0', 'Tuesday': '8:30-18:0'..."


In [22]:
df_filtrado2 = df_business[df_business['categories']=='Hotels']
df_filtrado2

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours


In [21]:
df_filtrado2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10 entries, 26208 to 144093
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   business_id   10 non-null     object
 1   name          10 non-null     object
 2   address       10 non-null     object
 3   city          10 non-null     object
 4   state         10 non-null     object
 5   postal_code   10 non-null     object
 6   latitude      10 non-null     object
 7   longitude     10 non-null     object
 8   stars         10 non-null     object
 9   review_count  10 non-null     object
 10  is_open       10 non-null     object
 11  attributes    2 non-null      object
 12  categories    10 non-null     object
 13  hours         2 non-null      object
dtypes: object(14)
memory usage: 1.2+ KB


**10.** Se consulta la información contenida en el nuevo DataFrame; se observa una reducción en la información, de manera considerable, pasando de 150.345 a 5.858 registros, lo que equivale a un 3,9% de la información original.

In [34]:
df_filtrado.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5858 entries, 18 to 150331
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   business_id   5858 non-null   object
 1   name          5858 non-null   object
 2   address       5858 non-null   object
 3   city          5858 non-null   object
 4   state         5858 non-null   object
 5   postal_code   5858 non-null   object
 6   latitude      5858 non-null   object
 7   longitude     5858 non-null   object
 8   stars         5858 non-null   object
 9   review_count  5858 non-null   object
 10  is_open       5858 non-null   object
 11  attributes    4291 non-null   object
 12  categories    5858 non-null   object
 13  hours         4592 non-null   object
dtypes: object(14)
memory usage: 686.5+ KB


In [35]:
df_filtrado.shape

(5858, 14)

# <h1 align=left>**`Load:`**</h1>

**11.** Teniendo lista la información con los datos deseados se procede con la creación del nuevo Dataset.

In [54]:
df_filtrado.to_csv('../2. Datasets/business.csv')