# 1. Importación de librerías

In [1]:
# Importa librería numpy como np
import numpy as np

# Importa librería pandas como pd
import pandas as pd

# Importa función personalizada para calcular dígito verificador
from lib.rut import get_verifier

# 2. Creación dataset

In [None]:
# Define variable con la cantidad de registros aleatorios para el dataser
size = 5721

# Fija la semilla aleatoria para poder reproducir el experimento
rng = np.random.RandomState(seed=42)

# Crea dataframe con correlativo de RUT y valor de ingresos aleatoria
# como distribución uniforme
df = pd.DataFrame(
    {
        'Rut': rng.randint(low=50_000_000, high=75_000_000, size=size),
        'Ingresos': rng.randint(low=900_000, high=3_000_000, size=size)
    }
)

# Inserta campo con el dígito verificador calculado de acuerdo con el
# algoritmo usado en Chile (Módulo 11)
df.insert(
    loc=df.columns.get_loc('Rut') + 1,
    column='Dv', value=df.Rut.apply(get_verifier)
)

# 3. Información y estadística básica del dataset

In [None]:
# Muestra información básica de recuento de registros y tipos de dato
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5721 entries, 0 to 5720
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   Rut       5721 non-null   int64 
 1   Dv        5721 non-null   object
 2   Ingresos  5721 non-null   int64 
dtypes: int64(2), object(1)
memory usage: 134.2+ KB


In [None]:
# Muestra estadísticas del dataset para cada campo, menos el de dígito verificador
df.describe().style.format(
    thousands='.', decimal=',',
    formatter={'Rut': '{:,.0f}', 'Ingresos': '{:,.0f}'}
)

Unnamed: 0,Rut,Ingresos
count,5.721,5.721
mean,62.619.963,1.953.266
std,7.211.052,605.918
min,50.000.917,900.037
25%,56.319.707,1.434.820
50%,62.722.094,1.949.520
75%,68.895.649,2.487.361
max,74.999.678,2.999.678


In [None]:
# Muestra la suma total de ingresos del dataset
f'${df.Ingresos.sum():,.0f}'.replace(',', '.')

'$11.174.633.002'

# 4. Exportación de resultados

In [None]:
# Exporta el dataset creado a un libro de Excel
df.to_excel('data/Dataset_Ejemplo.xlsx', index=False, sheet_name='Data')