## Quien es quien es los precios.

1. Procesamiento de los datos

* ¿Cuántos registros hay?

* ¿Cuántas categorías? 40

* ¿Cuantás cadenas comerciales están siendo monitoreadas?

* ¿Cómo podrías determinar la calidad de los datos? ¿Detectaste algún tipo de inconsistencia o error en la fuente?

* ¿Cuáles son los productos más monitoreados en cada entidad?

* ¿Cuál es la cadena comercial con mayor variedad de productos monitoreados?

2. Análisis exploratorio

* Genera una canasta de productos básicos que te permite comparar los precios geográfica y temporalmente. Justifica tu elección y procedimiento.

* ¿Cuál es la ciudad más cara del país? ¿Cuál es la más barata?

* ¿Hay algún patrón estacinal entre años?

* ¿Cuál es el estado más cara y en qué mes?

* ¿Cuáles son los principales riesgos de hacer análisis de series de tiempo con estos datos?

3. Visualización

Genera un mapa que nos perimta identificar la oferta de las categorías en la zona metropolitana de León Guanajuato y el nivel de precios en cada una de ellas.

## Data preprocessing

### Import packages

In [24]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as f

### Create a `SparkContext` instance or reuse an existing one, and start the `SparkSession`

In [2]:
sc = SparkContext.getOrCreate()
spark = SparkSession.builder.getOrCreate()

### Adjust Spark Settings to Show DataFrames more like Pandas DataFrames, load the data and check out the data frame

In [None]:
spark.conf.set("spark.sql.repl.eagerEval.enabled", True)

In [16]:
# Read de csv file and print the Schema of the variables
data = spark.read.option('header',True).csv('./all_data.csv')
data.describe()

In [None]:
n = data.count()

### Data

The data consists on an historical daily register of more than 2,000 products, from 2015, in from Mexico stores.
It contains 62,530,715 records and 15 columns which describe the product and the store where it belongs.

#### Columns

* producto
* presentación
* marca 
* categoría
* precio
* fecha de registro
* cadena comercial
* giro
* nombre comercial
* dirección
* estado
* municipio
* latitud 
* longitud


### Get ride of the columns we don't need.

For purpuse of this project we are going to drop the next columns.

In [26]:
drop_list = ['presentacion','marca','nombreComercial','direccion']
df = data.select([col for col in data.columns if col not in drop_list])
df.columns

### Missing values

In [51]:
# Nan values
#df.select([f.count(f.when(f.isnan(col),col)).alias(col) for col in df.columns])

producto,marca,categoria,catalogo,precio,fechaRegistro,cadenaComercial,giro,estado,municipio,latitud,longitud
0,0,0,0,0,0,0,0,0,0,0,0


In [73]:
# Null values
df.select([f.count(f.when(f.col(c).isNull(), c)).alias(c) for c in df.columns])

producto,marca,categoria,catalogo,precio,fechaRegistro,cadenaComercial,giro,estado,municipio,latitud,longitud
0,0,887338,228,20,0,1184,287,15054,15054,36814,36814


In [77]:
df_clean = df.na.drop()
df_clean.count() # Less than 2% of the data (62530715-61593556 = 937159)

61593556

### Duplicated values.

We count the distinct values on the df and got that around 5% ( 3162361 rows) are duplicated.

In [30]:
df.distinct().count()

59368354

In [60]:
dist_cat = df.groupBy('categoria').count() # 42 
dist_cad = df.groupBy('cadenaComercial').count()
dist_est = df.groupBy('estado').count()

In [61]:
n_est = dist_est.count()
dist_est.show(n_est)

+--------------------+--------+
|              estado|   count|
+--------------------+--------+
|        QUINTANA ROO| 2076525|
|          NUEVO LEÓN| 3171091|
|             SINALOA| 1720736|
|             TABASCO| 1842633|
|     BAJA CALIFORNIA| 1200999|
|            TLAXCALA| 2081024|
|COAHUILA DE ZARAGOZA| 1498109|
|                null|   15054|
|       ESQ. SUR 125"|     132|
|             CHIAPAS|  527160|
| COL. EDUARDO GUERRA|   14364|
|VERACRUZ DE IGNAC...|  690420|
|              SONORA| 1698620|
|             YUCATÁN| 2300994|
| MICHOACÁN DE OCAMPO| 2093037|
|             DURANGO|  563269|
|            GUERRERO|  485470|
|             NAYARIT|  419547|
|           CHIHUAHUA|  919673|
|    DISTRITO FEDERAL|11283970|
|              estado|      20|
|             HIDALGO| 1017667|
|           ZACATECAS| 1383201|
|          GUANAJUATO| 2638456|
|     SAN LUIS POTOSÍ|  532919|
|          TAMAULIPAS| 1170493|
|             MORELOS|  353225|
|      AGUASCALIENTES|  628576|
|       

### References.

https://www.ateam-oracle.com/comparison-of-data-prep-and-cleansing-for-nlp-with-pandas-dask-and-spark

https://github.com/allisonhonold/spark-data-prep-blog/blob/master/data_prep_pyspark_blog.ipynb


https://towardsdatascience.com/pyspark-and-sparksql-basics-6cb4bf967e53


https://hackingandslacking.com/cleaning-pyspark-dataframes-1a3f5fdcedd1