In [1]:
import requests
import pandas as pd
import unidecode
import json

# Exploring the data

In [2]:
inegi = pd.read_csv('./conjunto_de_datos/denue_inegi_72_2.csv', encoding='ISO-8859-1')
inegi.shape

  interactivity=interactivity, compiler=compiler, result=result)


(177812, 41)

In [3]:
inegi.columns

Index(['id', 'nom_estab', 'raz_social', 'codigo_act', 'nombre_act', 'per_ocu',
       'tipo_vial', 'nom_vial', 'tipo_v_e_1', 'nom_v_e_1', 'tipo_v_e_2',
       'nom_v_e_2', 'tipo_v_e_3', 'nom_v_e_3', 'numero_ext', 'letra_ext',
       'edificio', 'edificio_e', 'numero_int', 'letra_int', 'tipo_asent',
       'nomb_asent', 'tipoCenCom', 'nom_CenCom', 'num_local', 'cod_postal',
       'cve_ent', 'entidad', 'cve_mun', 'municipio', 'cve_loc', 'localidad',
       'ageb', 'manzana', 'telefono', 'correoelec', 'www', 'tipoUniEco',
       'latitud', 'longitud', 'fecha_alta'],
      dtype='object')

In [4]:
inegi['entidad'].value_counts()

VERACRUZ DE IGNACIO DE LA LLAVE             48459
YUCATÁN                                     17180
SAN LUIS POTOSÍ                             15655
TAMAULIPAS                                  15576
SINALOA                                     15321
SONORA                                      13198
QUERÉTARO                                   12448
TABASCO                                     11959
QUINTANA ROO                                11275
ZACATECAS                                    8474
TLAXCALA                                     8267
Name: entidad, dtype: int64

## Basic cleaning, columns selection and data type setup

### Filtering duplicates

In [5]:
inegi.drop_duplicates(inplace=True)
inegi.shape

(177812, 41)

### Filtering unnecessary columns

In [6]:
columns = ['id', 'raz_social', 'codigo_act', 'nom_vial', 'tipo_v_e_1', 'nom_v_e_1', 'tipo_v_e_2',
       'nom_v_e_2', 'tipo_v_e_3', 'nom_v_e_3', 'numero_ext', 'letra_ext', 'nomb_asent',
       'edificio', 'edificio_e', 'numero_int', 'letra_int', 'cod_postal', 'num_local',
       'cve_ent', 'cve_mun', 'cve_loc', 'ageb', 'manzana', 'telefono', 'correoelec',
          'tipo_vial', 'tipo_asent', 'tipoCenCom', 'nom_CenCom']
inegi.drop(columns=columns, inplace=True)

inegi.head()

Unnamed: 0,nom_estab,nombre_act,per_ocu,entidad,municipio,localidad,www,tipoUniEco,latitud,longitud,fecha_alta
0,ANTOJITOS VICKY,Restaurantes con servicio de preparación de an...,0 a 5 personas,QUERÉTARO,San Juan del Río,San Juan del Río,,Fijo,20.375935,-99.960659,2019-11
1,ANTOJITOS VICKY,Restaurantes con servicio de preparación de an...,0 a 5 personas,QUERÉTARO,Querétaro,Santiago de Querétaro,,Fijo,20.604599,-100.407414,2014-12
2,ANTOJITOS VIKI,Restaurantes con servicio de preparación de ta...,11 a 30 personas,QUERÉTARO,Huimilpan,El Vegil,,Fijo,20.430326,-100.349455,2014-12
3,ANTOJITOS VIKY,Restaurantes con servicio de preparación de an...,0 a 5 personas,QUERÉTARO,Tequisquiapan,Tequisquiapan,,Fijo,20.525991,-99.902751,2010-07
4,ANTOJITOS VUELVE A LA VIDA,Restaurantes con servicio de preparación de an...,0 a 5 personas,QUERÉTARO,Querétaro,Santiago de Querétaro,,Fijo,20.634093,-100.459866,2019-11


In [7]:
inegi.dtypes

nom_estab      object
nombre_act     object
per_ocu        object
entidad        object
municipio      object
localidad      object
www            object
tipoUniEco     object
latitud       float64
longitud      float64
fecha_alta     object
dtype: object

In [8]:
inegi.fecha_alta = pd.to_datetime(inegi.fecha_alta)
inegi.fecha_alta.head()

0   2019-11-01
1   2014-12-01
2   2014-12-01
3   2010-07-01
4   2019-11-01
Name: fecha_alta, dtype: datetime64[ns]

In [9]:
inegi.nombre_act.value_counts().index

Index(['Restaurantes con servicio de preparación de antojitos',
       'Restaurantes con servicio de preparación de tacos y tortas',
       'Cafeterías, fuentes de sodas, neverías, refresquerías y similares',
       'Restaurantes con servicio de preparación de pizzas, hamburguesas, hot dogs y pollos rostizados para llevar',
       'Restaurantes con servicio de preparación de alimentos a la carta o de comida corrida',
       'Servicios de preparación de otros alimentos para consumo inmediato',
       'Restaurantes que preparan otro tipo de alimentos para llevar',
       'Bares, cantinas y similares',
       'Restaurantes con servicio de preparación de pescados y mariscos',
       'Restaurantes de autoservicio',
       'Hoteles sin otros servicios integrados',
       'Hoteles con otros servicios integrados', 'Moteles',
       'Pensiones y casas de huéspedes',
       'Servicios de preparación de alimentos en unidades móviles',
       'Servicios de preparación de alimentos para ocasiones e

### Filtering non-food stands

### Setting data types

In [10]:
inegi.dtypes

nom_estab             object
nombre_act            object
per_ocu               object
entidad               object
municipio             object
localidad             object
www                   object
tipoUniEco            object
latitud              float64
longitud             float64
fecha_alta    datetime64[ns]
dtype: object

In [11]:
inegi.per_ocu = inegi.per_ocu.astype('category')
inegi.tipoUniEco = inegi.tipoUniEco.astype('category')
inegi.nombre_act = inegi.nombre_act.astype('category')
inegi.dtypes

nom_estab             object
nombre_act          category
per_ocu             category
entidad               object
municipio             object
localidad             object
www                   object
tipoUniEco          category
latitud              float64
longitud             float64
fecha_alta    datetime64[ns]
dtype: object

### Filtering non-describing business names

In [12]:
inegi.nom_estab.value_counts()

VENTA DE ANTOJITOS SIN NOMBRE    2370
ANTOJITOS SIN NOMBRE             2094
CLUB DE NUTRICIÓN HERBALIFE      1435
VENTA DE ANTOJITOS               1116
COCINA ECONÓMICA SIN NOMBRE      1081
                                 ... 
SALON DE FIESTAS ISABEL             1
TORTERIA EL CHE                     1
HOTEL ZAMUDIO                       1
RESTAURANT ESTRELA DO BRASIL        1
PIZZAS HOMEROS                      1
Name: nom_estab, Length: 113602, dtype: int64

In [13]:
inegi.drop(inegi[inegi['nom_estab'].isnull()].index, inplace=True)

In [14]:
inegi.shape

(177812, 11)

In [34]:
inegi.to_csv('inegi.csv', index=False)