# Librerías

Las que se van a usar para este proyecto son:
- Pandas
- Matplotlib
- Numpy

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Lectura del DataFrame
Debido a que se en utf-8 no se lee el archivo, el `encoding='latin-1'` permite que se pueda leer el archivo. Es un archivo que está dividido por comas, entonces se debe inicializar a `delimiter=','`. Por sugerencia del motor el último parámetro es inicializado como `low_memory=False`

In [3]:
df = pd.read_csv('Base_2022.csv', delimiter=',', encoding='latin-1', low_memory=False)
df.columns

Index(['Id_encuesta', 'Id_encuestado', 'F1', 'F1.1', 'F2', 'F3', 'F4', 'P1',
       'P2', 'P3',
       ...
       'P59.4', 'P59.5', 'P59.6', 'P59.7', 'P59.8', 'P59.9', 'P60', 'P61',
       'P63', 'F.EXPANSIÓN'],
      dtype='object', length=320)

# Matrices con los delitos 
A continuación se presentan las matrices que serán útiles para sacar los vectores, cada matriz contendrá en cada fila las empresas que sufrieron de algún tipo de delito y en las columnas van a ser los delitos; sí (1), no (2). Las columnas que presentan van a estar en el siguiente orden:

1. Hurto
2. Delitos Informáticos.
3. Fraude.
4. Extorsión.
5. Estafa.
6. Hurto de automóviles o maquinaria.
7. Ataque a la infraestructura.
8. Vandalismo. 

In [5]:
dictDelitoEmpresa = {
                'microDelito': df[(df['P58'] == 1) & (df['F4'] == 1)][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                        'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                'pequeDelito': df[(df['P58'] == 1) & (df['F4'] == 2)][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                        'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                'mediDelito': df[(df['P58'] == 1) & (df['F4'] == 3)][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                        'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                'grandDelito': df[(df['P58'] == 1) & (df['F4'] == 4)][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                        'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy()
}

## Empresas que han sufrido delitos agrupadas por tamaño, archivo .csv  

In [7]:
np.savetxt('CSV/MICROEMPRESAS/MicroEmpresas2022.csv', dictDelitoEmpresa['microDelito'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/PEQUEÑAS/PequeñasEmpresas2022.csv', dictDelitoEmpresa['pequeDelito'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MEDIANAS/MedianasEmpresas2022.csv', dictDelitoEmpresa['mediDelito'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/GRANDES/GrandesEmpresas2022.csv', dictDelitoEmpresa['grandDelito'], delimiter=',', fmt='%s', header='')

In [8]:
dictDelitoSector = {
                    'microComercio':df[(df['P58'] == 1) & (df['F4'] == 1) & (df['F3'] == 2 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'microIndustrias':df[(df['P58'] == 1) & (df['F4'] == 1) & (df['F3'] == 1 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'microServicios':df[(df['P58'] == 1) & (df['F4'] == 1) & (df['F3'] == 3 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'pequeComercio':df[(df['P58'] == 1) & (df['F4'] == 2) & (df['F3'] == 2 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'pequeIndustrias':df[(df['P58'] == 1) & (df['F4'] == 2) & (df['F3'] == 1 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'pequeServicios':df[(df['P58'] == 1) & (df['F4'] == 2) & (df['F3'] == 3 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'mediComercio':df[(df['P58'] == 1) & (df['F4'] == 3) & (df['F3'] == 2 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'mediIndustrias':df[(df['P58'] == 1) & (df['F4'] == 3) & (df['F3'] == 1 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'mediServicios':df[(df['P58'] == 1) & (df['F4'] == 3) & (df['F3'] == 3 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'grandComercio':df[(df['P58'] == 1) & (df['F4'] == 4) & (df['F3'] == 2 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'grandIndustrias':df[(df['P58'] == 1) & (df['F4'] == 4) & (df['F3'] == 1 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy(),
                    'grandServicios':df[(df['P58'] == 1) & (df['F4'] == 4) & (df['F3'] == 3 )][['P59.1', 'P59.2', 'P59.3', 'P59.4', 'P59.5',
                                                                                                'P59.6', 'P59.7', 'P59.8', 'P59.9']].to_numpy()
                    }


In [9]:
np.savetxt('CSV/MICROEMPRESAS/MicroEmpresasComercio2022.csv', dictDelitoSector['microComercio'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MICROEMPRESAS/MicroEmpresasIndustrias2022.csv', dictDelitoSector['microIndustrias'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MICROEMPRESAS/MicroEmpresasServicios2022.csv', dictDelitoSector['microServicios'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/PEQUEÑAS/PequeñasEmpresasComercio2022.csv', dictDelitoSector['pequeComercio'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/PEQUEÑAS/PequeñasEmpresasIndustrias2022.csv', dictDelitoSector['pequeIndustrias'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/PEQUEÑAS/PequeñasEmpresasServicios2022.csv', dictDelitoSector['pequeServicios'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MEDIANAS/MediEmpresasComercio2022.csv', dictDelitoSector['mediComercio'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MEDIANAS/MediEmpresasIndustrias2022.csv', dictDelitoSector['mediIndustrias'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/MEDIANAS/MediEmpresasServicios2022.csv', dictDelitoSector['mediServicios'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/GRANDES/GrandesEmpresasComercio2022.csv', dictDelitoSector['grandComercio'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/GRANDES/GrandesEmpresasIndustrias2022.csv', dictDelitoSector['grandIndustrias'], delimiter=',', fmt='%s', header='')
np.savetxt('CSV/GRANDES/GrandesEmpresasServicios2022.csv', dictDelitoSector['grandServicios'], delimiter=',', fmt='%s', header='')

# Comandos útiles
1. Tabular una variable cualitativa `X:df['X'].value_counts(normalize=False)`
2. Seleccionar solo las variables `X, Y: df[['X', 'Y']]`
3. Filtrar cuando la variable `X` es `x: df[df['X']=='x']`
4. Filtrar cuando la variable `X=x & Y=y: df[(df['X']=='x') & (df['Y']=='y')]`
5. Filtrar por texto de variable: `df[df['X'].str.contains('xxxxx')]`
6. Ordenar por la variable `X: df.sort_values(by=['X'], ascending=True)`
7. Bloquear por una o más condiciones: `df.loc[(df['X']=='x') & (df['Y']=='y')]`
8. Redondear decimales: `round(X, 1)`
9. Reemplazar un símbolo para corregir typos `df['X']=df['X'].str.replace('我', 'Yo')`
10. Recodificar valores de variables `df['X'] = df['X'].replace({'a':'A', 'b':'B'})`
11. Agrupar por `df.groupby(['X', 'Y'])['Z'].aggregate(['count', 'mean', 'std'])`
12. Tabulación cruzada `pd.ccrosstab(df['X'], df['Y'], normalize=False)`
13. Crear una tabla dinámica `df.pivot_table(index='X', columns='Y', values='Z', aggfunc='mean')`