# **Análisis Exploratorio de Datos (EDA) para el Proyecto Yelp**

El Análisis Exploratorio de Datos (EDA) es el proceso de explorar y comprender los datos antes de realizar análisis más avanzados. En este Jupyter notebook, realizaremos un EDA para los conjuntos de datos relacionados con Yelp, con el objetivo de identificar problemas potenciales y comprender mejor la estructura de los datos. A continuación se describen los pasos que seguiremos:

---

### **1. Exploración Inicial**
- **1.1. Carga del Archivo**: Cargaremos cada archivo en un DataFrame de pandas.
- **1.2. Dimensiones del DataFrame**: Determinaremos cuántas filas y columnas tiene cada DataFrame.
- **1.3. Tipos de Datos**: Revisaremos los tipos de datos para cada columna.
- **1.4. Muestra Rápida**: Observaremos las primeras y últimas filas para tener una idea general del contenido del DataFrame.



### **2. Análisis de Datos Cualitativos**
- **2.1. Valores Nulos**: Identificaremos columnas con valores faltantes y cuántos valores nulos hay.
- **2.2. Estadísticas Básicas**: Utilizaremos `describe()` para obtener estadísticas como media, mediana, desviación estándar, etc.
- **2.3. Valores Únicos**: Contaremos cuántos valores únicos hay en cada columna para entender su diversidad.



### **3. Análisis de Datos Cuantitativos**
- **3.1. Distribuciones**: Crearemos histogramas para visualizar la distribución de las columnas numéricas.
- **3.2. Correlaciones**: Analizaremos las correlaciones entre columnas numéricas para encontrar relaciones significativas.
- **3.3. Detección de Outliers**: Usaremos gráficos como boxplots para detectar valores atípicos.



### **4. Análisis de Datos Categóricos**
- **4.1. Distribución de Categorías**: Verificaremos la frecuencia de las categorías para entender su diversidad.
- **4.2. Relaciones entre Categorías**: Usaremos gráficos de barras para ver cómo se relacionan las categorías con otras variables.



### **5. Preguntas Clave**
- **5.1. Columnas Importantes**: Identificaremos las columnas más relevantes para el análisis futuro.
- **5.2. Patrones y Tendencias**: Buscaremos patrones o tendencias útiles para el análisis posterior.
- **5.3. Correlaciones**: Exploraremos correlaciones entre columnas para identificar relaciones significativas.

---

Al final de este EDA, esperamos tener una comprensión clara de nuestros datos, permitiéndonos planificar y ejecutar análisis más avanzados. Este proceso establecerá una base sólida para el resto del proyecto y asegurará que estamos trabajando con datos limpios y consistentes.

---

**IMPORTAMOS LIBRERÍAS**

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pyarrow
import fastparquet

### **1. Exploración Inicial**

Como los archivos de estados son muchos, voy a dividir los estados en tres secciones con 4 estados de muestra cada uno 

In [3]:
#Lista de rutas:
Rutas_Oeste = ['Estados_Concatenados/Alaska.parquet','Estados_Concatenados/Oregon.parquet','Estados_Concatenados/Washington.parquet','Estados_Concatenados/California.parquet']

# Carga de los archivos:
dataframes = [pd.read_parquet(ruta, engine='pyarrow') for ruta in Rutas_Oeste]
Oeste = pd.concat(dataframes,ignore_index=True) # tiempo aproximado de carga 10s          | 452.5+ MB
Oeste.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7413535 entries, 0 to 7413534
Data columns (total 8 columns):
 #   Column   Dtype 
---  ------   ----- 
 0   user_id  object
 1   name     object
 2   time     int64 
 3   rating   int64 
 4   text     object
 5   pics     object
 6   resp     object
 7   gmap_id  object
dtypes: int64(2), object(6)
memory usage: 452.5+ MB


In [4]:
#Lista de rutas:
Rutas_Este = ['Estados_Concatenados/Florida.parquet','Estados_Concatenados/Virginia.parquet','Estados_Concatenados/New_York.parquet','Estados_Concatenados/Connecticut.parquet']

#Carga de los archivos:
dataframes = [pd.read_parquet(ruta,engine='pyarrow')for ruta in Rutas_Este]
Este = pd.concat(dataframes,ignore_index=True) # tiempo aproximado de carga 20s          | 603.8+MB
Este.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9892166 entries, 0 to 9892165
Data columns (total 8 columns):
 #   Column   Dtype 
---  ------   ----- 
 0   user_id  object
 1   name     object
 2   time     int64 
 3   rating   int64 
 4   text     object
 5   pics     object
 6   resp     object
 7   gmap_id  object
dtypes: int64(2), object(6)
memory usage: 603.8+ MB


In [5]:
#Lista de rutas: 
Rutas_Centro = ['Estados_Concatenados/Texas.parquet','Estados_Concatenados/Oklahoma.parquet','Estados_Concatenados/Kansas.parquet','Estados_Concatenados/Nebraska.parquet']
#Carga de datos: 
dataframes = [pd.read_parquet(ruta,engine='pyarrow')for ruta in Rutas_Centro]
Centro = pd.concat(dataframes,ignore_index=True)
Centro.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7714690 entries, 0 to 7714689
Data columns (total 8 columns):
 #   Column   Dtype 
---  ------   ----- 
 0   user_id  object
 1   name     object
 2   time     int64 
 3   rating   int64 
 4   text     object
 5   pics     object
 6   resp     object
 7   gmap_id  object
dtypes: int64(2), object(6)
memory usage: 470.9+ MB


Tomamos una muestra de los datos para optimizar los tiempos de procesamiento

In [6]:
# Tomar una muestra aleatoria de los dataframe
Oeste_Muestra = Oeste.sample(frac=0.1,random_state=42)
Centro_Muestra = Centro.sample(frac=0.1,random_state=42)
Este_Muestra = Este.sample(frac=0.1,random_state=42)

# Dimensiones de la muestra:
print("Dimensiones Oeste Muestra: ",Oeste_Muestra.shape)
print("Dimensiones Centro Muestra: ", Centro_Muestra.shape)
print("Dimensiones Este Muestra: ", Este_Muestra.shape)

Dimensiones Oeste Muestra:  (741354, 8)
Dimensiones Centro Muestra:  (771469, 8)
Dimensiones Este Muestra:  (989217, 8)


In [7]:
# Tipos de datos
print("Tipos de datos Oeste: ", Oeste_Muestra.dtypes)
print("Tipos de datos Centro: ", Centro_Muestra.dtypes)
print("Tipos de datos Este: ", Este_Muestra.dtypes)


Tipos de datos Oeste:  user_id    object
name       object
time        int64
rating      int64
text       object
pics       object
resp       object
gmap_id    object
dtype: object
Tipos de datos Centro:  user_id    object
name       object
time        int64
rating      int64
text       object
pics       object
resp       object
gmap_id    object
dtype: object
Tipos de datos Este:  user_id    object
name       object
time        int64
rating      int64
text       object
pics       object
resp       object
gmap_id    object
dtype: object


In [9]:
Oeste_Muestra['time'] = Oeste_Muestra['time'].astype('datetime64[us]')
Oeste_Muestra.head(3)

Unnamed: 0,user_id,name,time,rating,text,pics,resp,gmap_id
3102115,112424785181120971072,Eva Baraz,1970-01-18 20:32:11.055081,5,,,"{'text': 'Thank you, Eva. You and your pups a...",0x54906c554dd7d071:0xa53e3072f9eaf56e
921866,113139136418368602824,Alex Holley,1970-01-19 06:34:40.625767,3,,,{'text': 'Thanks for leaving a review! If you'...,0x54cf7c6f9b79dbb5:0x2f44ee8c182f0671
7040662,101221356706332897323,Mattias Welch,1970-01-18 11:14:15.862402,4,,,,0x80dbf9577d7c3407:0x303f56a693674be0


In [14]:
Oeste_Muestra.sort_values(by='time',ascending=False)

Unnamed: 0,user_id,name,time,rating,text,pics,resp,gmap_id
2774910,101794348782317177434,albert yaunkunks,1970-01-19 21:06:17.670011,5,Loved it.\nAl,,,0x548fde3d51aedf1d:0xcfbb2a64ea94d593
250,103655755742322578001,John Deal,1970-01-19 21:05:31.711388,3,It's a market,,,0x56c8992b5dee7225:0x9f7f4bf151868cf7
4719234,110552176677867781913,Ellen J,1970-01-19 21:05:19.122681,3,Good experience for me & my husband. We enjoye...,[{'url': ['https://lh5.googleusercontent.com/p...,,0x809adb448f2c73a7:0x5289a6e6cba08aca
4733177,110552176677867781913,Ellen J,1970-01-19 21:05:19.122681,3,Good experience for me & my husband. We enjoye...,[{'url': ['https://lh5.googleusercontent.com/p...,,0x809adb448f2c73a7:0x5289a6e6cba08aca
4727559,108991065180163263658,imuserable,1970-01-19 21:04:38.251652,1,My first and last massage at this place period...,,,0x809adee9ac6f1bd7:0xe2e56d16919b9b8d
...,...,...,...,...,...,...,...,...
7279492,107323546678721398910,Jonathan Alder,1970-01-13 18:48:57.600000,2,,,,0x80c2bf23d56cd159:0x12656fdd42ebefe6
6950187,115473518452659214349,richard meister,1970-01-13 12:27:21.600000,4,always great,,,0x80c29947e0829181:0x980ae8b881206630
4834916,110556455092787559160,helene landau,1970-01-13 12:21:36.000000,3,,,,0x80c2c7b49b13da53:0x4711c6fcf8cd32e2
6130922,116797006494179488573,Mary Alice King,1970-01-13 11:58:33.600000,4,the russian pastrami sandwich is out of this w...,,,0x80c2c79f65c05a3f:0x36ae812febfdc501


In [19]:
Centro_Muestra['time'] = Centro_Muestra['time'].astype('datetime64[us]')
Centro_Muestra.head(3)

Unnamed: 0,user_id,name,time,rating,text,pics,resp,gmap_id
5732205,116852290224981088288,John Fiebich,1970-01-19 02:12:14.142915,5,Delicious cookies. Beautiful place to stroll,,,0x87bb1b1047db7bcd:0xa3fb40794c912b38
2631848,111703188442332450080,Cynthia Wells,1970-01-19 15:53:23.068734,5,,,,0x87b68d21739267eb:0x6fc3103ce8cbc964
502855,100407099118701210615,Chris Hartt,1970-01-18 12:48:28.146622,4,,,,0x8640db46fc6ce02b:0x7b7a0aa48bb83bcf


In [34]:
Este_Muestra['time'] = pd.to_datetime(Este_Muestra['time'],unit='ms')
Este_Muestra.head(3)


Unnamed: 0,user_id,name,time,rating,text,pics,resp,gmap_id
1807676,117587962947559264599,Gary Couillard,1970-01-18 11:05:15.385853,5,The high end pawn shop.great inventory,,"{'text': 'Hello Gary, We do have quite an inv...",0x88e6da2632308759:0x6aa0f7be80d68028
2619079,114866851807691724575,Eugene Quindlen,1970-01-17 20:27:57.794008,5,Always a good spot for breakfast.,,,0x88dae19b550d85bb:0xcedf13fa3e6f40f6
3642439,101202408656177136263,dark saint,1970-01-19 04:04:39.273379,4,Good gym but not the best price,,,0x884deee2c0d78c9d:0x1c0ce7dfb8101e83


### **2. Análisis de Datos Cualitativos**

In [35]:
# Conteo de valores nulos
print('Oeste: ',Oeste_Muestra.isnull().sum())
print('Centro: ',Centro_Muestra.isnull().sum())
print('Este: ',Este_Muestra.isnull().sum())

Oeste:  user_id         0
name            0
time            0
rating          0
text       309039
pics       714252
resp       662796
gmap_id         0
dtype: int64
Centro:  user_id         0
name            0
time            0
rating          0
text       340142
pics       753764
resp       668073
gmap_id         0
dtype: int64
Este:  user_id         0
name            0
time            0
rating          0
text       422141
pics       956819
resp       869030
gmap_id         0
dtype: int64


In [1]:
# Estadísticas Básicas
Oeste_Muestra.describe()

NameError: name 'Oeste_Muestra' is not defined

In [None]:
Centro_Muestra.describe()

In [36]:
Este_Muestra.describe()