# Análisis Preliminar Exploratorio de Datos (Pre-EDA)

En el próximo **Análisis Preliminar Exploratorio de Datos (Pre-EDA)**, realizaremos una revisión inicial del conjunto de datos disponible.

Durante este **Pre-EDA**, nos centraremos en evaluar la calidad de los datos proporcionados por el cliente, con el fin de determinar el enfoque más adecuado para su tratamiento a lo largo del desarrollo del proyecto.


In [20]:
import importlib
import os
import utils as ut
importlib.reload(ut)
import pandas as pd

## 1. Calidad de datos
Para revisar la calidad de los datos y determinar cómo podemos abordar nuestro trabajo, realizamos una inspección de cada archivo, revisando los datos contenidos en cada columna de las tablas a estudiar.

In [6]:
folder_path = '../data'

# Apply the apply_data_summ_to_parquet_folder function to get the summaries
summaries = ut.data_summ_on_parquet(folder_path)

business Summary

Total rows:  150346

Total full null rows:  0
      Column                             Data_type                                                No_miss_Qty                                                   %Missing                                                Missing_Qty
 business_id [<class 'pandas.core.series.Series'>]   business_id    150346
business_id         5
dtype: int64   business_id      0.0
business_id    100.0
dtype: float64   business_id         0
business_id    150341
dtype: int64
        name [<class 'pandas.core.series.Series'>]                 name    150346
name         5
dtype: int64                 name      0.0
name    100.0
dtype: float64                 name         0
name    150341
dtype: int64
     address [<class 'pandas.core.series.Series'>]           address    150346
address         5
dtype: int64           address      0.0
address    100.0
dtype: float64           address         0
address    150341
dtype: int64
        city [<class 'pa

## 2. Uso de memmoria
Nuestro principal objetivo es hacer una comparación entre la cantidad de GB utilizados en el archivo original y la nueva cantidad de esos archivos en formato .parquet.  

Esto nos mostrará qué tan eficiente puede ser nuestra base de datos al reducir su tamaño.

In [23]:
yelp_size = round(ut.calculate_original_memory_usage('../data'), 2)

print(f'Total size of original data: \n Yelp: {yelp_size} Mb\n ')

parquet_size = ut.calculate_parquet_memory_usage('../data')
print(f'Total size of compressed data: {round(parquet_size,2)} Mb\n')

diff_size = yelp_size - parquet_size
print(f'Savings in resource and size usage: {round(diff_size,2)} Mb\n')

size_perc = (diff_size/yelp_size)*100
print(f'Percentage savings in resources: {round(size_perc,2)}%\n')


Total size of original data: 
 Yelp: 5925834614 Mb
 
Total size of compressed data: 3201757428 Mb

Savings in resource and size usage: 2724077186 Mb

Percentage savings in resources: 45.97%

