# Notebook Filtros por estados.

Tal como especificamos en nuestro [Objetivo del proyecto y alcance de este](https://www.notion.so/YELP-GOOGLE-MAPS-REVIEWS-AND-RECOMMENDATIONS-d50cea8dc8a348fca0256a58cae2569b), el enfoque que manejaremos será en los estados que tengan la mayor diversidad cultural, dicho esto, en [esta pagina web](https://es.digitaltrends.com/tendencias/los-10-estados-mayor-diversidad-racial-eeuu/) podemos encontrar dicha información en la siguiente tabla:<br><br>
![Tabla](../../Assets/table_diversity.png)<br><br>
Al haber más diversidad en estos estados, decidimos escoger 3 de ellos para nuestro objetivo, en este caso, dichos estados serán Florida, California y Nevada. Esto por el motivo de que se encuentran en el top de la tabla mostrada y también porque como veremos más adelante en el punto 1.3 del Notebook, tienen una buena cantidad de datos en Yelp.

Dicho todo esto, el objetivo principal de este Notebook es filtrar los datasets de Yelp, los cuales no vienen filtrados por estado tal y como sí lo hacen los de Google Maps, para así obtener únicamente los registros que nos interesan y trabajar con ellos, y no realizar antes cualquier tarea que pueda simplemente abarcar más cargar computacional que no era necesaria, al ser aplicada a estados que no usaremos, por ese motivo, empezaremos filtrando los estados que elegimos con el criterio mencionado previamente. Para más información consulta el Objetivo del proyecto citado previamente.

# Importamos las librerías necesarias

In [1]:
import pandas as pd # Trabajaremos los datos con pandas.

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd # Trabajaremos los datos con pandas.


# 1. Identificamos los establecimientos que se ubican en nuestros estados objetivo

Al identificar primero los establecimientos que se ubican en los estados que queremos, podemos usar la información y los id de estos establecimientos, para luego saber las reseñas o demás datos que nos interese ver, sabiendo que dichos datos apuntan a el ID de el establecimiento que filtramos previamente, realizando así el filtro de todo finalmente.

---

## 1.1 Cargamos los datos de establecimientos

In [2]:
df_bus = pd.read_pickle('../../Data/Yelp/business.pkl')

## 1.2 Previsualizamos los datos

In [4]:
df_bus.info()

<class 'pandas.core.frame.DataFrame'>
Index: 150346 entries, 0 to 150345
Data columns (total 28 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   business_id   150346 non-null  object
 1   name          150346 non-null  object
 2   address       150346 non-null  object
 3   city          150346 non-null  object
 4   state         150343 non-null  object
 5   postal_code   150346 non-null  object
 6   latitude      150346 non-null  object
 7   longitude     150346 non-null  object
 8   stars         150346 non-null  object
 9   review_count  150346 non-null  object
 10  is_open       150346 non-null  object
 11  attributes    136602 non-null  object
 12  categories    150243 non-null  object
 13  hours         127123 non-null  object
 14  business_id   5 non-null       object
 15  name          5 non-null       object
 16  address       5 non-null       object
 17  city          5 non-null       object
 18  state         5 non-null     

Contamos con 150,346 establecimientos en total, con 28 columnas.

Podemos ver que las últimas columnas poseen solo 5 datos que no son nulos, y también, son columnas repetidas, por lo que eliminaremos estas últimas ya que no serán necesarias, aunque esto sea una limpieza y el objetivo de este notebook es filtrar, eliminar estas columnas desde ahora nos permite realizar el filtro de una manera más cómoda y no exportar datos filtrados de una mala calidad, como en este caso, estaríamos exportando y trabajando con el doble de columnas, y la mitad de ellas son datos nulos únicamente, por lo que realizaremos esta eliminación desde ahora.

In [5]:
df_bus = df_bus.iloc[:, :14] # Sabemos que desde la columna hours con el índice 13 es donde empiezan las repeticiones, así que filtramos el df únicamente con los valores antes de eso.

Visualizamos el resultado.

In [6]:
df_bus.info()

<class 'pandas.core.frame.DataFrame'>
Index: 150346 entries, 0 to 150345
Data columns (total 14 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   business_id   150346 non-null  object
 1   name          150346 non-null  object
 2   address       150346 non-null  object
 3   city          150346 non-null  object
 4   state         150343 non-null  object
 5   postal_code   150346 non-null  object
 6   latitude      150346 non-null  object
 7   longitude     150346 non-null  object
 8   stars         150346 non-null  object
 9   review_count  150346 non-null  object
 10  is_open       150346 non-null  object
 11  attributes    136602 non-null  object
 12  categories    150243 non-null  object
 13  hours         127123 non-null  object
dtypes: object(14)
memory usage: 17.2+ MB


In [7]:
df_bus.head(3)

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours
0,Pns2l4eNsfO8kk83dixA6A,"Abby Rappoport, LAC, CMQ","1616 Chapala St, Ste 2",Santa Barbara,,93101,34.426679,-119.711197,5.0,7,0,{'ByAppointmentOnly': 'True'},"Doctors, Traditional Chinese Medicine, Naturop...",
1,mpf3x-BjTdTEA3yCZrAYPw,The UPS Store,87 Grasso Plaza Shopping Center,Affton,,63123,38.551126,-90.335695,3.0,15,1,{'BusinessAcceptsCreditCards': 'True'},"Shipping Centers, Local Services, Notaries, Ma...","{'Monday': '0:0-0:0', 'Tuesday': '8:0-18:30', ..."
2,tUFrWirKiKi_TAnsVWINQQ,Target,5255 E Broadway Blvd,Tucson,,85711,32.223236,-110.880452,3.5,22,0,"{'BikeParking': 'True', 'BusinessAcceptsCredit...","Department Stores, Shopping, Fashion, Home & G...","{'Monday': '8:0-22:0', 'Tuesday': '8:0-22:0', ..."


Sin estas columnas, continuamos con nuestro objetivo, el cual es identificar los distintos establecimientos que se encuentran en nuestras regiones objetivo, por lo que filtramos los establecimientos para estas.

## 1.3 Identificamos los estados con buenas cantidades de datos que puedan ser candidatos

Visualizamos la cantidad de estados que tenemos en nuestro DataFrame.

In [8]:
df_bus.state.value_counts()

state
PA     34039
FL     26329
TN     12056
IN     11246
MO     10913
LA      9924
AZ      9912
NJ      8536
NV      7715
AB      5573
CA      5203
ID      4467
DE      2265
IL      2144
TX         4
CO         3
WA         2
HI         2
MA         2
NC         1
UT         1
MT         1
MI         1
SD         1
XMS        1
VI         1
VT         1
Name: count, dtype: int64

Dada la cantidad de datos de los estados: 
- **Florida(FL)**: 26,329
- **California(CA)**: 5,203
- **Nevada(NV)**: 7,715

Y dado que aparecen como estados de alta diversidad en la investigación que realizamos (Consulta la descripción al comienzo del Notebook para más información). Estos serán nuestros estados objetivo.

## 1.4 Filtramos los estados

Identificamos los establecimientos con cualquiera de los estados que seleccionamos previamente.

In [9]:
df_bus = df_bus[(df_bus['state'] == 'FL') | (df_bus['state'] == 'CA') | (df_bus['state'] == 'NV')]

Verificamos.

In [10]:
df_bus.state.unique()

array(['CA', 'FL', 'NV'], dtype=object)

Ya que usaremos el set de datos de establecimientos para filtrar los demás set de datos que apunten a cierto ID de un establecimiento, y así obtener los datos de los estados que nos interesan, necesitamos que cada establecimiento sea único, así que eliminaremos los ID duplicados para usarlos en los demás filtros.

In [11]:
df_bus[df_bus.duplicated(subset=['business_id'], keep=False)]

Unnamed: 0,business_id,name,address,city,state,postal_code,latitude,longitude,stars,review_count,is_open,attributes,categories,hours


Al no haber duplicados, ya los datos de los establecimientos ya están filtrados, y podemos extraer los distintos establecimientos que se usarán para filtrar los demás.

In [12]:
business = df_bus['business_id'] # Almacenamos los distintos establecimientos que se ubican en los estados ya filtrados.

## 1.5 Exportamos los datos filtrados

In [13]:
df_bus.to_csv('../../Data/Yelp/business_filtered_by_state.csv', index=False) # Exportamos el DataFrame para su uso.

In [14]:
del df_bus # borramos el df para ahorrar recursos en la memoria.

# 2. Filtramos las reseñas que apunten a establecimientos válidos

## 2.1 Cargamos los datos de reseñas

In [15]:
df = pd.read_json('../../Data/Yelp/review.json', lines=True)

## 2.2 Previsualizamos los datos

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6990280 entries, 0 to 6990279
Data columns (total 9 columns):
 #   Column       Dtype         
---  ------       -----         
 0   review_id    object        
 1   user_id      object        
 2   business_id  object        
 3   stars        int64         
 4   useful       int64         
 5   funny        int64         
 6   cool         int64         
 7   text         object        
 8   date         datetime64[ns]
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 533.3+ MB


Hay casi 7 millones de reseñas, con 9 características.

Podemos filtrar el DataFrame tal como está.

## 2.3 Filtramos las reseñas que apunten unicamente a nuestros negocios identificados previamente

In [18]:
df = df[df['business_id'].isin(business)] # Conservamos únicamente las reseñas que apunten a negocios ubicados en nuestros estados seleccionados.

In [19]:
df.shape

(1820145, 9)

Ahora poseemos casi 2 millones de reseñas.

## 2.4 Exportamos los datos para su uso

In [20]:
df.to_csv('../../Data/Yelp/reviews_filtered_by_state.csv', index=False)

In [21]:
del df

# 3. Filtramos los consejos

## 3.1 Cargamos los datos

In [22]:
df = pd.read_json('../../Data/Yelp/tip.json', lines=True)

## 3.2 Previsualizamos los datos

In [24]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 908915 entries, 0 to 908914
Data columns (total 5 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   user_id           908915 non-null  object        
 1   business_id       908915 non-null  object        
 2   text              908915 non-null  object        
 3   date              908915 non-null  datetime64[ns]
 4   compliment_count  908915 non-null  int64         
dtypes: datetime64[ns](1), int64(1), object(3)
memory usage: 41.6+ MB


Podemos filtrar los datos tal como están.

## 3.3 Filtramos los consejos que apunten a los establecimientos correctos

In [25]:
df = df[df['business_id'].isin(business)]

In [26]:
df.shape

(238212, 5)

## 3.4 Exportamos los datos para su uso

In [27]:
df.to_csv('../../Data/Yelp/tips_filtered_by_state.csv', index=False)

In [28]:
del df

# 4. Filtramos los check-ins

## 4.1 Cargamos los datos

In [29]:
df = pd.read_json('../../Data/Yelp/checkin.json', lines=True)

## 4.2 Previsualizamos los datos

In [30]:
df.shape

(131930, 2)

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 131930 entries, 0 to 131929
Data columns (total 2 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   business_id  131930 non-null  object
 1   date         131930 non-null  object
dtypes: object(2)
memory usage: 3.0+ MB


Podemos filtrar los datos tal como están.

## 4.3 Filtramos los datos

In [32]:
df = df[df['business_id'].isin(business)]

In [33]:
df.shape

(34432, 2)

## 4.4 Exportamos los datos

In [34]:
df.to_csv('../../Data/Yelp/checkins_filtered_by_state.csv', index=False)

In [35]:
del df