# Sección 2. Quién es quién

Descarga la Base de datos histórica de Quién es Quién en los Precios de Profeco y resuelve los
siguientes incisos. Para el procesamiento de los datos y el análisis exploratorio debes debes
usar Spark SQL, preferentemente, con Python.

1. Procesamiento de los datos

    a. ¿Cuántos registros hay?
    b. ¿Cuántas categorías?
    c. ¿Cuántas cadenas comerciales están siendo monitoreadas?
    d. ¿Cómo podrías determinar la calidad de los datos? ¿Detectaste algún tipo de
    inconsistencia o error en la fuente?
    e. ¿Cuáles son los productos más monitoreados en cada entidad?
    f. ¿Cuál es la cadena comercial con mayor variedad de productos monitoreados?
    
2. Análisis exploratorio
    a. Genera una canasta de productos básicos que te permita comparar los precios
    geográfica y temporalmente. Justifica tu elección y procedimiento
    b. ¿Cuál es la ciudad más cara del país?¿Cuál es la más barata?
    c. ¿Hay algún patrón estacional entre años?
    d. ¿Cuál es el estado más caro y en qué mes?
    e. ¿Cuáles son los principales riesgos de hacer análisis de series de tiempo con
    estos datos?
    
3. Visualización
    a. Genera un mapa que nos permita identificar la oferta de categorías en la zona
    metropolitana de León Guanajuato y el nivel de precios en cada una de ellas. Se
    darán puntos extra si el mapa es interactivo

# Librerías, sesión y datos

In [1]:
from pyspark.sql import SparkSession

In [4]:
spark = SparkSession.builder.appName('opi').master("local[*]").getOrCreate()

In [5]:
spark.version

'3.1.2'

In [6]:
path_profeco = 'data/profeco/all_data.csv'

In [7]:
profeco = spark.read.csv(path_profeco,sep=',',header=True)

In [9]:
profeco.printSchema()

root
 |-- producto: string (nullable = true)
 |-- presentacion: string (nullable = true)
 |-- marca: string (nullable = true)
 |-- categoria: string (nullable = true)
 |-- catalogo: string (nullable = true)
 |-- precio: string (nullable = true)
 |-- fechaRegistro: string (nullable = true)
 |-- cadenaComercial: string (nullable = true)
 |-- giro: string (nullable = true)
 |-- nombreComercial: string (nullable = true)
 |-- direccion: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- municipio: string (nullable = true)
 |-- latitud: string (nullable = true)
 |-- longitud: string (nullable = true)



# Cuestionario

## Procesamiento de los datos

### a. ¿Cuántos registros hay?

In [10]:
profeco.count()

35559916

### b. ¿Cuántas categorías?

In [13]:
profeco.cache()

DataFrame[producto: string, presentacion: string, marca: string, categoria: string, catalogo: string, precio: string, fechaRegistro: string, cadenaComercial: string, giro: string, nombreComercial: string, direccion: string, estado: string, municipio: string, latitud: string, longitud: string]

In [20]:
profeco.select('categoria').distinct().count()

41

### c. ¿Cuántas cadenas comerciales están siendo monitoreadas?

In [21]:
profeco.select('cadenaComercial').distinct().count()

607

### d. ¿Cómo podrías determinar la calidad de los datos? ¿Detectaste algún tipo de inconsistencia o error en la fuente?

In [22]:
profeco.printSchema()

root
 |-- producto: string (nullable = true)
 |-- presentacion: string (nullable = true)
 |-- marca: string (nullable = true)
 |-- categoria: string (nullable = true)
 |-- catalogo: string (nullable = true)
 |-- precio: string (nullable = true)
 |-- fechaRegistro: string (nullable = true)
 |-- cadenaComercial: string (nullable = true)
 |-- giro: string (nullable = true)
 |-- nombreComercial: string (nullable = true)
 |-- direccion: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- municipio: string (nullable = true)
 |-- latitud: string (nullable = true)
 |-- longitud: string (nullable = true)



1. Identificador llave única
2. Tipos de datos acorde al negocio
3. Variables categóricas sigan un estándar, de preferencia que exista un diccionario de datos para confirmar el cumplimiento
4. Fechas registo a partir de 2015
5. Precio con el mismo tipo de cambio
6. Detección de outliers para precio acorde al precios históricos por producto
7. Latitud y longitud entre -90,90 y -180,180 respectivamente.
8. Ubicar las columnas que no hagan sentido que tengan missing values (ejemplo, precios, nombre de producto, fecha de registro, etc)

In [None]:
profeco.describe()

### e. ¿Cuáles son los productos más monitoreados en cada entidad?

In [None]:
profeco.groupBy(['producto','estado']).count()

In [None]:
a. Genera una canasta de productos básicos que te permita comparar los precios 
geográfica y temporalmente. Justifica tu elección y procedimiento