In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import time

In [17]:
# creamos my_stata_reader, un objeto que nos permite leer por chunks (trozos)
# encoding utf-8
my_stata_reader = pd.read_stata('data/BID2.EMPRESAS.dta', chunksize=10)
my_stata_reader._encoding = 'utf-8'

In [18]:
my_stata_reader.variable_labels()

{'id': 'ID',
 'id_empresa': 'ID_EMPRESA',
 'tipo_persona': 'TIPO_PERSONA',
 'tipo_sociedad': 'TIPO_SOCIEDAD',
 'descripcion_empresa': 'DESCRIPCION_EMPRESA',
 'actividad': 'ACTIVIDAD',
 'tipo_empleador': 'TIPO_EMPLEADOR',
 'como_se_entero_del_sne': 'COMO_SE_ENTERO_DEL_SNE',
 'entidadfed_sne': 'ENTIDADFED_SNE',
 'municipio': 'MUNICIPIO',
 'localidad': 'LOCALIDAD',
 'codigo_postal': 'CODIGO_POSTAL',
 'fuente': 'FUENTE'}

In [19]:
a = my_stata_reader.get_chunk()
a.head(3)

Unnamed: 0,id,id_empresa,tipo_persona,tipo_sociedad,descripcion_empresa,actividad,tipo_empleador,como_se_entero_del_sne,entidadfed_sne,municipio,localidad,codigo_postal,fuente
0,123996,301.0,FISICA,FISICA,SERVICIOS DE CONTABILIDAD,"Servicios de contabilidad, auditoría y servici...",PRIVADA,Internet,DURANGO,GÓMEZ PALACIO,GÓMEZ PALACIO,35000,SISPAEW
1,242786,1201.0,FISICA,FISICA,ENVASADO Y COMERCIALIZACION DE DETERGENTES Y M...,Servicios de administración de negocios,PRIVADA,Internet,SAN LUIS POTOSÍ,SOLEDAD DE GRACIANO SÁNCHEZ,SOLEDAD DE GRACIANO SÁNCHEZ,78433,SISPAEW
2,43691,1301.0,FISICA,FISICA,CENTRO DE IMPRESION DIGITAL,Servicios de publicidad y actividades relacion...,PRIVADA,Internet,SAN LUIS POTOSÍ,SOLEDAD DE GRACIANO SÁNCHEZ,SOLEDAD DE GRACIANO SÁNCHEZ,78438,SISPAEW


In [34]:
# define which columns will be written
my_stata_reader = pd.read_stata('data/BID2.EMPRESAS.dta', chunksize=10000, 
                               columns=['id_empresa', 'tipo_persona', 'tipo_sociedad', 'descripcion_empresa',
                               'actividad', 'tipo_empleador'])
# encoding
my_stata_reader._encoding = 'utf-8'

# get columns names and write them in CSV file
my_string = ",".join(my_stata_reader.variable_labels() )    

# ‘r’ read. ‘w’ write. ‘a’ append. ‘r+’ read and write mode, which is used to handle both actions.
with open('empresas.csv','w') as file:
    file.write(my_string)   
    file.write('\n')    

In [35]:
# start y end medirán el tiempo
start = time.time()
first = True
# para cada chunk, hará lo siguiente:
for chunk in my_stata_reader:
    if first:
        chunk.to_csv('empresas.csv', mode='w', index=False, header=True)   #‘w’ write a new file
        first = False
    else: 
        chunk.to_csv('empresas.csv', mode='a', index=False, header=False)   #‘a’ append.
    # imprimir un punto cada que anexa un chunk
    print('.', end = '')
end = time.time()
print (('Total time: ') + str(end - start))

....................Total time: 2.842252492904663


In [36]:
# Verifiquemos el tamanio del CSV
filesize= os.stat('empresas.csv').st_size
print(filesize)

26333161


In [40]:
empresas = pd.read_csv('empresas.csv')
empresas.head()

Unnamed: 0,id_empresa,tipo_persona,tipo_sociedad,descripcion_empresa,actividad,tipo_empleador
0,301.0,FISICA,FISICA,SERVICIOS DE CONTABILIDAD,"Servicios de contabilidad, auditoría y servici...",PRIVADA
1,1201.0,FISICA,FISICA,ENVASADO Y COMERCIALIZACION DE DETERGENTES Y M...,Servicios de administración de negocios,PRIVADA
2,1301.0,FISICA,FISICA,CENTRO DE IMPRESION DIGITAL,Servicios de publicidad y actividades relacion...,PRIVADA
3,1701.0,FISICA,FISICA,ABOGADOS Y ATENCION A CLIENTES,Servicios legales,PRIVADA
4,1801.0,FISICA,FISICA,TAXIS,Otros servicios relacionados con el transporte,PRIVADA


## Exploring the table

In [41]:
empresas.shape

(193551, 6)

In [46]:
empresas.nunique()

id_empresa             193551
tipo_persona                2
tipo_sociedad              10
descripcion_empresa    125198
actividad                 600
tipo_empleador              3
dtype: int64

In [44]:
empresas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193551 entries, 0 to 193550
Data columns (total 6 columns):
id_empresa             193551 non-null float64
tipo_persona           193551 non-null object
tipo_sociedad          193551 non-null object
descripcion_empresa    192942 non-null object
actividad              193551 non-null object
tipo_empleador         193551 non-null object
dtypes: float64(1), object(5)
memory usage: 8.9+ MB


In [47]:
empresas['tipo_persona'].unique()

array(['FISICA', 'MORAL'], dtype=object)

In [48]:
empresas['tipo_sociedad'].unique()

array(['FISICA', 'S.A. DE C.V.', 'S.C.', 'A.C.', 'S. de R.L. de C.V.',
       'S.A.', 'S. de R.L.', 'S. de R.L. de I.P.', 'S.A. P.I. de C.V.',
       'S.A. de C.V. de M.I.'], dtype=object)

In [53]:
empresas['actividad'].nunique()

600

In [52]:
empresas['actividad'].unique()

array(['Servicios de contabilidad, auditoría y servicios relacionados',
       'Servicios de administración de negocios',
       'Servicios de publicidad y actividades relacionadas',
       'Servicios legales',
       'Otros servicios relacionados con el transporte',
       'Industria del sonido', 'Guarderías',
       'Comercio al por mayor de abarrotes y alimentos',
       'Comercio al por menor en tiendas de autoservicio',
       'Agencias de viajes y servicios de reservaciones',
       'Escuelas de educación básica, media y para necesidades especiales',
       'Servicios de almacenamiento', 'Curtido y acabado de cuero y piel',
       'Comercio al por menor de abarrotes y alimentos',
       'Salones y clínicas de belleza, baños públicos y bolerías',
       'FABRICACION DE PRENDAS DE VESTIR DE PUNTO',
       'OTROS SERVICIOS DE APOYO A LOS NEGOCIOS',
       'SERVICIOS DE INVESTIGACION CIENTIFICA Y DESARROLLO',
       'Confección de prendas de vestir', 'CONSULTORIOS MEDICOS',
       'O

In [54]:
empresas['tipo_empleador'].unique()

array(['PRIVADA', 'PÚBLICA', 'SOCIAL'], dtype=object)

In [68]:
empresas_clean = empresas.copy()

## Assesment and cleaning

In [69]:
empresas_clean['id_empresa'] =  empresas_clean['id_empresa'].astype(int)

In [70]:
# Verify new datatype
empresas_clean.id_empresa.dtype

dtype('int64')

In [73]:
empresas_clean.actividad = empresas.actividad.str.title()

In [74]:
empresas_clean.actividad.nunique()

507

In [75]:
empresas_clean.actividad.unique()

array(['Servicios De Contabilidad, Auditoría Y Servicios Relacionados',
       'Servicios De Administración De Negocios',
       'Servicios De Publicidad Y Actividades Relacionadas',
       'Servicios Legales',
       'Otros Servicios Relacionados Con El Transporte',
       'Industria Del Sonido', 'Guarderías',
       'Comercio Al Por Mayor De Abarrotes Y Alimentos',
       'Comercio Al Por Menor En Tiendas De Autoservicio',
       'Agencias De Viajes Y Servicios De Reservaciones',
       'Escuelas De Educación Básica, Media Y Para Necesidades Especiales',
       'Servicios De Almacenamiento', 'Curtido Y Acabado De Cuero Y Piel',
       'Comercio Al Por Menor De Abarrotes Y Alimentos',
       'Salones Y Clínicas De Belleza, Baños Públicos Y Bolerías',
       'Fabricacion De Prendas De Vestir De Punto',
       'Otros Servicios De Apoyo A Los Negocios',
       'Servicios De Investigacion Cientifica Y Desarrollo',
       'Confección De Prendas De Vestir', 'Consultorios Medicos',
       'O

## Storing data

In [76]:
empresas_clean.to_csv('empresas_clean.csv', index=False, encoding='utf-8')

## Analysis and visualization

In [None]:
empresas_clean['como_se_entero_del_sne'].value_counts().plot(kind = 'pie', startangle=90, autopct='%1.1f%%')
plt.axis('square')
plt.title('¿Cómo se enteró del SNE?')
plt.ylabel('');

In [None]:
empresas_clean.head()

In [None]:
descripcion_empresas_count = empresas_clean['descripcion_empresa'].value_counts()
top_10_empresas = descripcion_empresas_count.nlargest(10)

In [None]:
top_10_empresas

In [None]:
top_10_empresas.plot(kind = 'barh', figsize=(10,5))
plt.title('¿Cuál es la actividad de la empresa?')
plt.xlabel('Número de empresas')
xticklocs = np.arange(100, 101, 1000) #(start of interval, end of interval, spacing between values)
xticknames = [1,2,3,4,5]
plt.xticks(xticklocs, xticknames);

In [None]:
empresas['tipo_persona'].unique()

In [None]:
empresas_clean['tipo_persona'].value_counts().plot(kind = 'pie', startangle=90, autopct='%1.1f%%')
plt.axis('square')
plt.title('Razón social del empleador')
plt.ylabel('');

In [None]:
empresas['tipo_sociedad'].unique()

In [None]:
tipo_sociedad_count = empresas_clean['tipo_sociedad'].value_counts()
top_10_tipo_sociedad = tipo_sociedad_count.nlargest(10)

In [None]:
top_10_tipo_sociedad.plot(kind = 'barh', figsize=(10,5))
plt.title('Tipo de sociedad de la empresa')
plt.xlabel('Número de empresas')
xticklocs = np.arange(100, 101, 1000) #(start of interval, end of interval, spacing between values)
xticknames = [1,2,3,4,5]
plt.xticks(xticklocs, xticknames);

In [None]:
empresas['descripcion_empresa'].unique()

In [None]:
descripcion_empresa_count = empresas_clean['descripcion_empresa'].value_counts()
top_10_descripcion_empresa = descripcion_empresa_count.nlargest(10)

In [None]:
top_10_descripcion_empresa.plot(kind = 'barh', figsize=(10,5))
plt.title('Descripcion del giro de la empresa')
plt.xlabel('Número de empresas')
xticklocs = np.arange(100, 101, 1000) #(start of interval, end of interval, spacing between values)
xticknames = [1,2,3,4,5]
plt.xticks(xticklocs, xticknames);

In [None]:
empresas['tipo_empleador'].unique()

In [None]:
empresas_clean['tipo_empleador'].value_counts().plot(kind = 'pie', startangle=90, autopct='%1.1f%%')
plt.axis('square')
plt.title('Tipo de sector de la empresa')
plt.ylabel('');

In [None]:
empresas['entidadfed_sne'].unique()

In [None]:
entidadfed_sne_count = empresas_clean['entidadfed_sne'].value_counts()

In [None]:
entidadfed_sne_count.plot(kind = 'barh', figsize=(10,5))
plt.title('Entidad federativa donde se registró la empresa')
plt.xlabel('Número de empresas')
xticklocs = np.arange(100, 101, 1000) #(start of interval, end of interval, spacing between values)
xticknames = [1,2,3,4,5]
plt.xticks(xticklocs, xticknames);

In [None]:
empresas['como_se_entero_del_sne'].unique()

In [None]:
como_se_entero_del_sne_count = empresas_clean['como_se_entero_del_sne'].value_counts()

In [None]:
como_se_entero_del_sne_count .plot(kind = 'barh', figsize=(10,5))
plt.title('Entidad federativa donde se registró la vacante')
plt.xlabel('Número de empresas')
xticklocs = np.arange(100, 101, 1000) #(start of interval, end of interval, spacing between values)
xticknames = [1,2,3,4,5]
plt.xticks(xticklocs, xticknames);