## Reading stata files

The `read_stata()` function is used to load data from stata files into a Pandas dataframe. We just need to import the`pandas` library and specify the filepath of our data.

In [1]:
import pandas as pd

In [54]:
empresas = pd.read_stata('BID2.EMPRESAS.dta', chunksize=100)

In [55]:
empresas._encoding = 'utf-8'
a = next(empresas)
a.head()

Unnamed: 0,id,id_empresa,tipo_persona,tipo_sociedad,descripcion_empresa,actividad,tipo_empleador,como_se_entero_del_sne,entidadfed_sne,municipio,localidad,codigo_postal,fuente
0,123996,301.0,FISICA,FISICA,SERVICIOS DE CONTABILIDAD,"Servicios de contabilidad, auditoría y servici...",PRIVADA,Internet,DURANGO,GÓMEZ PALACIO,GÓMEZ PALACIO,35000,SISPAEW
1,242786,1201.0,FISICA,FISICA,ENVASADO Y COMERCIALIZACION DE DETERGENTES Y M...,Servicios de administración de negocios,PRIVADA,Internet,SAN LUIS POTOSÍ,SOLEDAD DE GRACIANO SÁNCHEZ,SOLEDAD DE GRACIANO SÁNCHEZ,78433,SISPAEW
2,43691,1301.0,FISICA,FISICA,CENTRO DE IMPRESION DIGITAL,Servicios de publicidad y actividades relacion...,PRIVADA,Internet,SAN LUIS POTOSÍ,SOLEDAD DE GRACIANO SÁNCHEZ,SOLEDAD DE GRACIANO SÁNCHEZ,78438,SISPAEW
3,101740,1701.0,FISICA,FISICA,ABOGADOS Y ATENCION A CLIENTES,Servicios legales,PRIVADA,Internet,SAN LUIS POTOSÍ,SAN LUIS POTOSÍ,SAN LUIS POTOSÍ,78000,SISPAEW
4,224565,1801.0,FISICA,FISICA,TAXIS,Otros servicios relacionados con el transporte,PRIVADA,Internet,SAN LUIS POTOSÍ,SAN LUIS POTOSÍ,SAN LUIS POTOSÍ,78000,SISPAEW


In [37]:
empresas.loc[0,'municipio'] = empresas['municipio'][0].encode('latin-1').decode('utf-8')

## Exploring the dataframe
`.head()` is used to explore the first entries. If `()` is left in blank, it returns the first 5 entries.

`.tail()` is used to explore the last entries. `.tail(3)` will show the last 3 entries.


In [38]:
empresas.head()

Unnamed: 0,id,id_empresa,tipo_persona,tipo_sociedad,descripcion_empresa,actividad,tipo_empleador,como_se_entero_del_sne,entidadfed_sne,municipio,localidad,codigo_postal,fuente
0,123996,301.0,FISICA,FISICA,SERVICIOS DE CONTABILIDAD,"Servicios de contabilidad, auditoría y servici...",PRIVADA,Internet,DURANGO,GÓMEZ PALACIO,GÃMEZ PALACIO,35000,SISPAEW
1,242786,1201.0,FISICA,FISICA,ENVASADO Y COMERCIALIZACION DE DETERGENTES Y M...,Servicios de administración de negocios,PRIVADA,Internet,SAN LUIS POTOSÍ,SOLEDAD DE GRACIANO SÁNCHEZ,SOLEDAD DE GRACIANO SÃNCHEZ,78433,SISPAEW
2,43691,1301.0,FISICA,FISICA,CENTRO DE IMPRESION DIGITAL,Servicios de publicidad y actividades relacion...,PRIVADA,Internet,SAN LUIS POTOSÃ,SOLEDAD DE GRACIANO SÃNCHEZ,SOLEDAD DE GRACIANO SÃNCHEZ,78438,SISPAEW
3,101740,1701.0,FISICA,FISICA,ABOGADOS Y ATENCION A CLIENTES,Servicios legales,PRIVADA,Internet,SAN LUIS POTOSÃ,SAN LUIS POTOSÃ,SAN LUIS POTOSÃ,78000,SISPAEW
4,224565,1801.0,FISICA,FISICA,TAXIS,Otros servicios relacionados con el transporte,PRIVADA,Internet,SAN LUIS POTOSÃ,SAN LUIS POTOSÃ,SAN LUIS POTOSÃ,78000,SISPAEW


`.info()` details numbers of entries, columns, and data types

In [24]:
empresas.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 193551 entries, 0 to 193550
Data columns (total 13 columns):
id                        193551 non-null int32
id_empresa                193551 non-null float64
tipo_persona              193551 non-null object
tipo_sociedad             193551 non-null object
descripcion_empresa       193551 non-null object
actividad                 193551 non-null object
tipo_empleador            193551 non-null object
como_se_entero_del_sne    193551 non-null object
entidadfed_sne            193551 non-null object
municipio                 193551 non-null object
localidad                 193551 non-null object
codigo_postal             193551 non-null object
fuente                    193551 non-null object
dtypes: float64(1), int32(1), object(11)
memory usage: 19.9+ MB


`.describe()` generates descriptive statistics that summarize the central tendency, dispersion and shape of a dataset’s distribution, excluding NaN values.

In [None]:
empresas.describe()

`.nunique()` Counts distinct observations over requested axis.

`.unique()` Uniques are returned in order of appearance.

In [None]:
empresas.nunique()

In [8]:
empresas['tipo_empleador'].unique()

array(['PRIVADA', 'PÃ\x9aBLICA', 'SOCIAL'], dtype=object)

## Writing CSV Files

In [None]:
empresas.to_csv('empresas.csv')

Let's see if that worked the way we wanted.

In [None]:
df = pd.read_csv('empresas.csv')
df.head()

What's this `Unnamed:0`? `to_csv()` will store our index unless we tell it not to. To make it ignore the index, we have to provide the parameter `index=False`

In [None]:
empresas.to_csv('empresas.csv',index=False)

In [None]:
df = pd.read_csv('empresas.csv')
df.head()