## Proyecto en Equipo: Producto de Datos sobre la bd Chicago Food Inspections.
### Maestría en Ciencia de Datos, ITAM
**Data Product Architecture (aka Métodos de Gran Escala)**  
**Prof. M. Sc. Liliana Millán Núñez**
_______
> **Equipo: Luigi007. Github:**

| Github User  | Alumno			   |
|:------------:|:-----------------:|
| @Carlosrlpzi | LS, CARLOS ROMAN  |
| @urieluard   | RD, URIEL ABRAHAM |
| @            | EMPTY             |
| @ZarCorvus   | ZC, JOSE LUIS R.  |

_______

#### Base de datos
[Chicago Food Inspections](https://data.cityofchicago.org/Health-Human-Services/Food-Inspections/4ijn-s7e5)  
Pregunta analítica: **¿El establecimiento pasará o no la inspección?**

_______
**Checkpoint 1: Starting point**
#### EDA, Data Profiling

* 4 visualizaciones de los datos
* 1 mapa indicando las inspecciones que pasaron y las que no (histórico)
_______

#### Conocimiento a priori de la información:
* **_Title:_** Food Inspections

* **_Descripción:_**  
  * La información se obtiene de las inspecciones de restaurants y otros establecimientos de comida en Chicago desde 01/01/2010 hasta la actualidad.
  * Las inspecciones se realizan por personal del Chicago Department of Public Health’s Food Protection Program siguiendo un procedimiento estandarizado.
  * Se debe precisar que en **01/07/2018 se realizaron modificaciones** a los procedimientos de inspección que afectan a los datos. Estructuralmente el dataset no será afectado. No obstante, la columna **"Violations"**, si bien aún contiene el número de violación, descripción y comentarios delimitando violaciones independientes con el "pipe character", las violaciones actuales se modificaron substancialmente. Debemos ser cuidadosos al analizar los datos en los posibles cambios de tendencia en el largo plazo. [FOOD INSPECTION VIOLATIONS CHANGES](http://bit.ly/2yWd2JB).
  * En adición, encontramos la modificación a los siguientes términos (**validar en la información**) [2019 Chicago Food Code Major Changes ](https://www.cityofchicago.org/city/en/depts/cdph/provdrs/healthy_restaurants/svcs/food-protection-services.html.):
     * Potentially Hazardous Foods (PHF)" has been changed to “Time/Temperature Control for Safety Foods (TCS Foods)"
     * "Critical Violation" has been changed to “Priority (P) Violation"
     * "Serious Violation" has been changed to "Priority Foundation (PF)Violation"
     * "Minor Violation" has been changed to "Core (C) Violation"
     * "Corrected During Inspection (CDI)" has been changed to "Corrected on Site (COS)"
     
* **_Metadatos, qué sabemos de las variables y posible tratamiento:_**  
Se realizará limpieza sobre los nombres de columnas del dataset: lowercase, underscore para espacios y sustitución de símbolos. En particular, observaremos lo siguiente en cada variable:

  **POSIBLES VARIABLES EXPLICATIVAS.**  
  
  Categóricas.
  * **DBA Name:** Nombre legal del establecimiento. Analizar si es una variable funcional comparando con "AKA Name"
  * **AKA Name:** Nombre público como se conoce al establecimiento. Facilita diferenciar cadenas comerciales de negocios locales. Revisar vs DBA para determinar cual varible se debe conservar. 
  * **License #:** Número **único** asignado al establecimiento con fines de licenciamiento. Analizar si es Categ. relevante.
  * **Facility Type:** debe estar fuertemente correlacionada con que un negocio pase o no la inspección.  
    bakery, banquet hall, candy store, caterer, coffee shop, day care center (for ages less than 2), day care center (for ages 2 – 6), day care center (combo, for ages less than 2 and 2 – 6 combined), gas station, Golden Diner, grocery store, hospital, long term care center(nursing home), liquor store, mobile food dispenser, restaurant, paleteria, school,shelter, tavern, social club, wholesaler, or Wrigley Field Rooftop.  
  * **Risk:** Categórica ordinaria, debe estar fuertemente correlacionada con "Facility Type", revisar. Cada establecimiento se categoriza de acuerdo al riesgo de afectar la salud pública. 1 el más alto riesgo y 3 el menor. **La frecuencia de las inspecciones está ligada a su nivel de riesgo.**  
  * **Address, City, State, Zip:** 4 variables que componen la dirección completa donde se localizan las instalaciones. Es altamente probable que para nuestro análisis únicamente la variable ZIP sea relevante.  
  * **Inspection Type:**  
      canvass, the most common type of inspection performed at a frequency relative to the risk of the establishment;  
      consultation, when the inspection is done at the request of the owner prior to the opening of the establishment;  
      complaint, when the inspection is done in response to a complaint against the establishment;  
      license, when the inspection is done as a requirement for the establishment to receive its license to operate;  
      suspect food poisoning, when the inspection is done in response to one or more persons claiming to have gotten ill as a result of eating at the establishment;  
      task-force inspection, when an inspection of a bar or tavern is done.  
      **_Re-inspections can occur for most types of these inspections and are indicated as such._**
  * **Violations:** Variable relevante para nuestro análisis. Un establecimiento puede recibir más de una de las 45 distintas violaciones (código de violación 1 al 44 y 70). Pensar en como analizar esta variable.

  Fecha.
  * **Inspection Date:** Fecha de inspección. Es probable que un establecimiento específico tenga múltiples inspecciones, las cuales serán diferenciadas por la fecha. Variable muy importante para el análisis temporal.

  Coordenadas Geoespaciales.
  * **Latitude, Longitude, Location:** N/I. Variables sumamente importantes para construir mapas. Se considera que "Location" es una variable redundante; no obstante, previo a depurarla, se debe analizar que la composición de "Latitude" y "Longitude" sea congruente con "Location" y, en caso necesario y factible, completar info faltante.

  **VARIABLE OBJETIVO. Categórica Nominal.**
  * **Results:**. Pass, pass with conditions, fail, out of business or not located; 'pass' implica que no se tienen violaciones críticas o severas (códigos de violación 1-14 y 15-29 respectivamente). 'pass with conditions', se encontraton violaciones críticas o severas, pero fueron corregidas durante la inspección. 'fail' implica que se tienen violaciones críticas o severas y que no se corrigieron durante la inspección. 

  **VARIABLES POSIBLEMENTE NO EXPLICATIVAS.**
  Numéricas.
  * **Inspection ID**: N/I. Analizar si este ID nos resulta funcional, posible variable a eliminar 


* **_Disclaimer:_**  
El dataset puede contener reportes **duplicados** por lo que deben considerarse las precauciones adecuadas al visualizar y analizar esta información. Los resultdos de la inspección (pass, pass with conditions or fail) así como las violaciones ("violations") se basan en los hallazgos reportados por los inspectores al momento de la inspección y podrían no reflejar los hallazgos en otros momentos. 

* **_Frecuencia:_** Esta base de datos se actualiza con información de nuevas inspecciones cada viernes.

In [12]:
# loading libraries required

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib


In [13]:
# load database

fi_data = pd.read_csv('Food_Inspections.csv')


In [14]:
fi_data.dtypes

Inspection ID        int64
DBA Name            object
AKA Name            object
License #          float64
Facility Type       object
Risk                object
Address             object
City                object
State               object
Zip                float64
Inspection Date     object
Inspection Type     object
Results             object
Violations          object
Latitude           float64
Longitude          float64
Location            object
dtype: object

In [30]:
# Cleaning Column Names    

fi_data.columns = fi_data.columns.str.lower()
fi_data.columns = fi_data.columns.str.replace("/| ", "_")
fi_data.columns = fi_data.columns.str.replace("-", "_")
fi_data.columns = fi_data.columns.str.replace("#", "num")

print(fi_data.columns)

Index(['inspection_id', 'dba_name', 'aka_name', 'license_num', 'facility_type',
       'risk', 'address', 'city', 'state', 'zip', 'inspection_date',
       'inspection_type', 'results', 'violations', 'latitude', 'longitude',
       'location'],
      dtype='object')


In [32]:
# Cardinality

print("El dataset original está formado por ", len(fi_data.columns), "variables y contiene ", len(fi_data), "registros.")

El dataset original está formado por  17 variables y contiene  215067 registros.


In [35]:
# Casting Variables

fi_data["facility_type"] = fi_data["facility_type"].astype("category")
fi_data["risk"] = fi_data["risk"].astype("category")
fi_data["inspection_type"] = fi_data["inspection_type"].astype("category")
fi_data["inspection_date"] = fi_data["inspection_date"].astype("datetime64")
fi_data["results"] = fi_data["results"].astype("category")
fi_data["violations"] = fi_data["violations"].astype("category")


In [36]:
fi_data.dtypes

inspection_id               int64
dba_name                   object
aka_name                   object
license_num               float64
facility_type            category
risk                     category
address                    object
city                       object
state                      object
zip                       float64
inspection_date    datetime64[ns]
inspection_type          category
results                  category
violations               category
latitude                  float64
longitude                 float64
location                   object
dtype: object

In [37]:
fi_data

Unnamed: 0,inspection_id,dba_name,aka_name,license_num,facility_type,risk,address,city,state,zip,inspection_date,inspection_type,results,violations,latitude,longitude,location
0,2453552,CLAMP DOWN BURGERS,,2749943.0,,Risk 2 (Medium),1742 W DIVISION ST,CHICAGO,IL,60622.0,2020-10-20,License,No Entry,,41.903387,-87.671740,"(-87.67174026586648, 41.903386755553484)"
1,2386633,JIN JU,JIN JU,27137.0,Restaurant,Risk 1 (High),5203 N CLARK ST,CHICAGO,IL,60640.0,2020-08-28,Canvass,No Entry,,41.976301,-87.668276,"(-87.66827593789948, 41.97630115368914)"
2,2386595,LA BIZNAGA #2,LA BIZNAGA #2,2708992.0,,Risk 1 (High),2949 W BELMONT AVE,CHICAGO,IL,60618.0,2020-08-27,Complaint,No Entry,,41.939256,-87.702270,"(-87.70226967930802, 41.939255926667535)"
3,2386464,Uni Sushi Bristo,Uni Sushi Bistro,2262637.0,Restaurant,Risk 1 (High),1752 W NORTH AVE,CHICAGO,IL,60622.0,2020-08-25,Complaint,No Entry,,41.910676,-87.672205,"(-87.67220465807979, 41.91067561170382)"
4,2386398,KIKI'S BISTRO,KIKI'S BISTRO,22899.0,Restaurant,Risk 1 (High),900 N FRANKLIN ST,CHICAGO,IL,60610.0,2020-08-24,Canvass,No Entry,,41.898998,-87.635921,"(-87.63592067312285, 41.89899799424835)"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
215062,229233,"ZULLO'S MARKETS, LLC",ZULLO'S MARKET,2016915.0,Restaurant,Risk 2 (Medium),131 N Clinton ST,CHICAGO,IL,60661.0,2010-02-18,License,Fail,,41.884188,-87.641120,"(-87.64111966683218, 41.884187507127805)"
215063,68205,LA FONDA CHIQUITA TLC,LA FONDA CHIQUITA,2017215.0,Restaurant,Risk 1 (High),5940 W DIVERSEY AVE,CHICAGO,IL,60639.0,2010-02-09,License,Fail,12. HAND WASHING FACILITIES: WITH SOAP AND SAN...,41.931260,-87.775203,"(-87.77520287598688, 41.93125971874477)"
215064,88234,KABAB CUISINE 2,KABAB CUISINE 2,2014076.0,Restaurant,Risk 1 (High),6320 N LINCOLN AVE,CHICAGO,IL,60659.0,2010-02-01,License Re-Inspection,Pass,,41.996139,-87.716968,"(-87.71696834498202, 41.996139331170895)"
215065,74311,MARGARITA DISTRIBUTORS,,2017298.0,Wholesale,Risk 3 (Low),2332 S BLUE ISLAND AVE BLDG,CHICAGO,IL,60608.0,2010-02-19,License Re-Inspection,Pass,,41.849940,-87.672421,"(-87.67242100722251, 41.84994008002549)"
