# Librerías

Las que se van a usar para este proyecto son:
- Pandas
- Matplotlib
- Numpy

In [30]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Lectura del DataFrame
Debido a que se en utf-8 no se lee el archivo, el `encoding='latin-1'` permite que se pueda leer el archivo. Es un archivo que está dividido por comas, entonces se debe inicializar a `delimiter=','`. Por sugerencia del motor el último parámetro es inicializado como `low_memory=False`

In [31]:
df = pd.read_csv('Base_2021.csv', delimiter=',', encoding='latin-1', low_memory=False)
df.columns

Index(['Id_Encuesta', 'Id_Encuestado', 'COD_CIIU', 'SECTOR', 'TAMANO', 'F1',
       'F2', 'F3', 'P1', 'P2',
       ...
       'P57A', 'P57B', 'P57C', 'P57D', 'P57E', 'P57F', 'P57G', 'P57H', 'P58',
       'P59'],
      dtype='object', length=309)

# Matrices con los delitos 
A continuación se presentan las matrices que serán útiles para sacar los vectores, cada matriz contendrá en cada fila las empresas que sufrieron de algún tipo de delito y en las columnas van a ser los delitos; sí (1), no (2). Las columnas que presentan van a estar en el siguiente orden:

1. Hurto
2. Delitos Informáticos.
3. Fraude.
4. Extorsión.
5. Estafa.
6. Hurto de automóviles o maquinaria.
7. Ataque a la infraestructura.
8. Vandalismo. 

In [32]:
dictDelitoEmpresa = {
                'microDelito': df[(df['P56'] == 1) & (df['TAMANO'] == 1)][['P57A', 'P57B', 'P57C', 'P57D',
                                                                           'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                'pequeDelito': df[(df['P56'] == 1) & (df['TAMANO'] == 2)][['P57A', 'P57B', 'P57C', 'P57D',
                                                                           'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                'mediDelito': df[(df['P56'] == 1) & (df['TAMANO'] == 3)][['P57A', 'P57B', 'P57C', 'P57D',
                                                                           'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                'grandDelito': df[(df['P56'] == 1) & (df['TAMANO'] == 4)][['P57A', 'P57B', 'P57C', 'P57D',
                                                                           'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
}

## Empresas que han sufrido delitos agrupadas por tamaño, archivo .csv  

In [36]:
np.savetxt('MicroEmpresas2021.csv', dictDelitoEmpresa['microDelito'], delimiter=',', fmt='%s', header='')
np.savetxt('PequeñasEmpresas2021.csv', dictDelitoEmpresa['pequeDelito'], delimiter=',', fmt='%s', header='')
np.savetxt('MedianasEmpresas2021.csv', dictDelitoEmpresa['mediDelito'], delimiter=',', fmt='%s', header='')
np.savetxt('GrandesEmpresas2021.csv', dictDelitoEmpresa['grandDelito'], delimiter=',', fmt='%s', header='')

In [29]:
dictDelitoSector = {
                    'microComercio':df[(df['P56'] == 1) & (df['TAMANO'] == 1) & (df['SECTOR'] == 3 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                        'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'microConstruccion': df[(df['P56'] == 1) & (df['TAMANO'] == 1) & (df['SECTOR'] == 1 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                            'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'microIndustrias':df[(df['P56'] == 1) & (df['TAMANO'] == 1) & (df['SECTOR'] == 2 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                         'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'microServicios':df[(df['P56'] == 1) & (df['TAMANO'] == 1) & (df['SECTOR'] == 4 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                    'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'pequeComercio':df[(df['P56'] == 1) & (df['TAMANO'] == 2) & (df['SECTOR'] == 3 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                    'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'pequeConstruccion':df[(df['P56'] == 1) & (df['TAMANO'] == 2) & (df['SECTOR'] == 1 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                            'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'pequeIndustrias':df[(df['P56'] == 1) & (df['TAMANO'] == 2) & (df['SECTOR'] == 2 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                            'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'pequeServicios':df[(df['P56'] == 1) & (df['TAMANO'] == 2) & (df['SECTOR'] == 4 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                            'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'mediComercio':df[(df['P56'] == 1) & (df['TAMANO'] == 3) & (df['SECTOR'] == 3 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                        'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'mediConstruccion': df[(df['P56'] == 1) & (df['TAMANO'] == 3) & (df['SECTOR'] == 1 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                            'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'mediIndustrias':df[(df['P56'] == 1) & (df['TAMANO'] == 3) & (df['SECTOR'] == 2 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                         'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'mediServicios':df[(df['P56'] == 1) & (df['TAMANO'] == 3) & (df['SECTOR'] == 4 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                    'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'grandComercio':df[(df['P56'] == 1) & (df['TAMANO'] == 4) & (df['SECTOR'] == 3 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                    'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'grandConstruccion':df[(df['P56'] == 1) & (df['TAMANO'] == 4) & (df['SECTOR'] == 1 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                            'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'grandIndustrias':df[(df['P56'] == 1) & (df['TAMANO'] == 4) & (df['SECTOR'] == 2 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                            'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    'grandServicios':df[(df['P56'] == 1) & (df['TAMANO'] == 4) & (df['SECTOR'] == 4 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                            'P57E', 'P57F', 'P57G', 'P57H']].to_numpy(),
                    }


In [38]:
np.savetxt('CSV/MICROEMPRESAS/MicroEmpresasComercio2021.csv', dictDelitoSector['microComercio'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MICROEMPRESAS/MicroEmpresasConstruccion2021.csv', dictDelitoSector['microConstruccion'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MICROEMPRESAS/MicroEmpresasIndustrias2021.csv', dictDelitoSector['microIndustrias'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MICROEMPRESAS/MicroEmpresasServicios2021.csv', dictDelitoSector['microServicios'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/PEQUEÑAS/PequeñasEmpresasComercio2021.csv', dictDelitoSector['pequeComercio'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/PEQUEÑAS/PequeñasEmpresasConstruccion2021.csv', dictDelitoSector['pequeConstruccion'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/PEQUEÑAS/PequeñasEmpresasIndustrias2021.csv', dictDelitoSector['pequeIndustrias'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/PEQUEÑAS/PequeñasEmpresasServicios2021.csv', dictDelitoSector['pequeServicios'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MEDIANAS/MediEmpresasComercio2021.csv', dictDelitoSector['mediComercio'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MEDIANAS/MediEmpresasConstruccion2021.csv', dictDelitoSector['mediConstruccion'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MEDIANAS/MediEmpresasIndustrias2021.csv', dictDelitoSector['mediIndustrias'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MEDIANAS/MediEmpresasServicios2021.csv', dictDelitoSector['mediServicios'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/GRANDES/GrandesEmpresasComercio2021.csv', dictDelitoSector['grandComercio'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/GRANDES/GrandesEmpresasConstruccion2021.csv', dictDelitoSector['grandConstruccion'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/GRANDES/GrandesEmpresasIndustrias2021.csv', dictDelitoSector['grandIndustrias'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/GRANDES/GrandesEmpresasServicios2021.csv', dictDelitoSector['grandServicios'], delimiter=',', fmt='%s', header='')

In [44]:
df[(df['P56'] == 1) & (df['TAMANO'] == 4) & (df['SECTOR'] == 2 )][['P57A', 'P57B', 'P57C', 'P57D',
                                                                                                            'P57E', 'P57F', 'P57G', 'P57H']]

df[(df['TAMANO'] == 4) & (df['P56'] == 1)]

Unnamed: 0,Id_Encuesta,Id_Encuestado,COD_CIIU,SECTOR,TAMANO,F1,F2,F3,P1,P2,...,P57A,P57B,P57C,P57D,P57E,P57F,P57G,P57H,P58,P59
322,001GDC_Clima_de_los_Negocios,323.0,9494.0,1.0,4.0,1.0,4.0,2.0,3.0,5.0,...,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,
326,001GDC_Clima_de_los_Negocios,327.0,4723.0,3.0,4.0,1.0,5.0,2.0,2.0,6.0,...,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,
400,001GDC_Clima_de_los_Negocios,401.0,4719.0,3.0,4.0,1.0,1.0,2.0,1.0,4.0,...,1.0,2.0,2.0,2.0,1.0,2.0,2.0,2.0,1.0,3.0
409,001GDC_Clima_de_los_Negocios,410.0,6810.0,1.0,4.0,1.0,2.0,1.0,2.0,6.0,...,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,3.0
452,001GDC_Clima_de_los_Negocios,453.0,6612.0,1.0,4.0,1.0,4.0,2.0,2.0,7.0,...,2.0,2.0,2.0,2.0,2.0,1.0,2.0,2.0,1.0,3.0
455,001GDC_Clima_de_los_Negocios,456.0,5075.0,4.0,4.0,1.0,6.0,2.0,3.0,7.0,...,2.0,1.0,2.0,2.0,2.0,2.0,1.0,2.0,1.0,5.0
547,001GDC_Clima_de_los_Negocios,548.0,6810.0,3.0,4.0,1.0,6.0,2.0,4.0,7.0,...,1.0,1.0,2.0,2.0,2.0,2.0,1.0,1.0,2.0,
857,001GDC_Clima_de_los_Negocios,858.0,4290.0,3.0,4.0,1.0,6.0,1.0,3.0,4.0,...,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,3.0
1166,001GDC_Clima_de_los_Negocios,1167.0,4741.0,4.0,4.0,1.0,4.0,1.0,4.0,5.0,...,1.0,1.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0,4.0
1912,001GDC_Clima_de_los_Negocios,1913.0,5224.0,3.0,4.0,1.0,1.0,2.0,3.0,7.0,...,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,


# Comandos útiles
1. Tabular una variable cualitativa `X:df['X'].value_counts(normalize=False)`
2. Seleccionar solo las variables `X, Y: df[['X', 'Y']]`
3. Filtrar cuando la variable `X` es `x: df[df['X']=='x']`
4. Filtrar cuando la variable `X=x & Y=y: df[(df['X']=='x') & (df['Y']=='y')]`
5. Filtrar por texto de variable: `df[df['X'].str.contains('xxxxx')]`
6. Ordenar por la variable `X: df.sort_values(by=['X'], ascending=True)`
7. Bloquear por una o más condiciones: `df.loc[(df['X']=='x') & (df['Y']=='y')]`
8. Redondear decimales: `round(X, 1)`
9. Reemplazar un símbolo para corregir typos `df['X']=df['X'].str.replace('我', 'Yo')`
10. Recodificar valores de variables `df['X'] = df['X'].replace({'a':'A', 'b':'B'})`
11. Agrupar por `df.groupby(['X', 'Y'])['Z'].aggregate(['count', 'mean', 'std'])`
12. Tabulación cruzada `pd.ccrosstab(df['X'], df['Y'], normalize=False)`
13. Crear una tabla dinámica `df.pivot_table(index='X', columns='Y', values='Z', aggfunc='mean')`