## Dummy Data for POC Sefaz RJ
- Developers: Lucas Moutinho, Victor Ciurlini
- Code developed by team Ninjas Vert: Soluções em TIC

<br>
<img src="image/sefaz.jpg" width="400" height="200">

### Auxiliary functions

In [2]:
import pandas as pd
import random
import string
import datetime
import matplotlib.pyplot as plt

In [17]:
# Returns a list of randomized varchars with the specified data_lenth. 
# If column_length is 0 or negative a random size list is returned, with
# a max length determined with the variable max_random_length
def generate_varchar_column(data_length, column_length = 0, max_random_length = 10):
    varchar_list = []
    if column_length > 0: # fixed size
        for _ in range(data_length):
            varchar_list.append(''.join(random.choices(string.ascii_uppercase + string.digits, k = column_length)))
    else: # random size
        for _ in range(data_length):
            varchar_list.append(''.join(random.choices(string.ascii_uppercase + string.digits, k = random.randint(1,max_random_length))))
    return varchar_list

# Returns a list of randomized INTEGER numbers with the specified data_lenth.
# If column_length is 0 or negative a random size list is returned, with
# a max length determined with the variable max_random_length
def generate_number_column(data_length, column_length = 0, max_random_length = 10):
    number_list = []
    if column_length > 0: # fixed size
        for _ in range(data_length):
            number_list.append(int(''.join(random.choices(string.digits, k = column_length))))
    else: # random size
        for _ in range(data_length):
            number_list.append(int(''.join(random.choices(string.digits, k = random.randint(1,max_random_length)))))
    return number_list

# Returns a list of randomized FLOAT numbers with the specified data_lenth.
# The column length and the precision must be specified
def generate_float_number_column(data_length, column_length, precision):
    float_number_list = []
    for _ in range(data_length):
        number = ''.join(random.choices(string.digits, k = column_length - precision)) + '.' + ''.join(random.choices(string.digits, k = precision))
        float_number_list.append(float(number))
    return float_number_list

# Returns a list of single randomized numbers within a certain range with the specified data_lenth.
# The min value of the range is passed in min_range and the max at max_range
def generate_number_in_range_column(data_length, min_range = 1, max_range = 9):
    number_in_range_list = []
    for _ in range(data_length):
        number_in_range_list.append(random.randint(min_range,max_range))
    return number_in_range_list

# Returns a list of randomized dates within a certain year range with the specified data_lenth.
# The min value of the year range is passed in min_range and the max at max_range
def generate_date_column(data_length, min_range = 1990, max_range = 2020):
    date_list = []
    for _ in range(data_length):
        date = datetime.datetime.strptime('{} {}'.format(random.randint(1, 366), random.randint(min_range,max_range)), '%j %Y')
        date_list.append(date)
    return date_list

# Create a code key using a unique number sequence id plus a random string sequence.
# If the column_length is equal to the digit length of data_length, then only a sequence of numbers is returned
def generate_key(data_length, column_length):
    key_list = []
    for x in range(data_length):
        number_sequence = ''
        for _ in range(len(str(data_length)) - len(str(x))): # length of integer in data_length (used for max size in number sequence)
            number_sequence = number_sequence + '0'
        number_sequence = number_sequence + str(x)
        code_sequence = ''.join(random.choices(string.ascii_uppercase + string.digits, k = (column_length - len(str(data_length)))))
        key_list.append(number_sequence + code_sequence)
    return key_list

# Return the length of the table specified
def get_data_length(table_name):
    if table_name == "DATA_NOTA_FISCAL":
        data_length = 300
    elif table_name == "DATA_PRODUTO_SERVICO":
        data_length = 300
    elif table_name == "DATA_SITUACAO_NF":
        data_length = 300
    elif table_name == "DATA_PRODUTO":
        data_length = 300
    elif table_name == "DATA_IS_VW_ESTAB_EMPRESA":
        data_length = 300
    elif table_name == "DATA_IS_VW_ESTAB_ATV_ECO":
        data_length = 300
    else:
        data_length = 0
    return data_length

### Create tables

In [18]:
data_tables = ["NOTA_FISCAL", "PRODUTO_SERVICO", "SITUACAO_NF", "PRODUTO", "IS_VW_ESTAB_EMPRESA", "IS_VW_ESTAB_ATV_ECO"]
df = {}
for x in data_tables:
    table_name = "DATA_{0}".format(x)
    data_length = get_data_length(table_name)
    data = {"id": [x for x in range(data_length)]}
    df[table_name] = pd.DataFrame(data)
print(df)

{'DATA_NOTA_FISCAL':       id
0      0
1      1
2      2
3      3
4      4
..   ...
295  295
296  296
297  297
298  298
299  299

[300 rows x 1 columns], 'DATA_PRODUTO_SERVICO':       id
0      0
1      1
2      2
3      3
4      4
..   ...
295  295
296  296
297  297
298  298
299  299

[300 rows x 1 columns], 'DATA_SITUACAO_NF':       id
0      0
1      1
2      2
3      3
4      4
..   ...
295  295
296  296
297  297
298  298
299  299

[300 rows x 1 columns], 'DATA_PRODUTO':       id
0      0
1      1
2      2
3      3
4      4
..   ...
295  295
296  296
297  297
298  298
299  299

[300 rows x 1 columns], 'DATA_IS_VW_ESTAB_EMPRESA':       id
0      0
1      1
2      2
3      3
4      4
..   ...
295  295
296  296
297  297
298  298
299  299

[300 rows x 1 columns], 'DATA_IS_VW_ESTAB_ATV_ECO':       id
0      0
1      1
2      2
3      3
4      4
..   ...
295  295
296  296
297  297
298  298
299  299

[300 rows x 1 columns]}


### Dummy data for SITUACAO_NF

In [19]:
data_length = get_data_length("DATA_SITUACAO_NF")

df["DATA_SITUACAO_NF"]["CO_CHAVE_ACESSO"] = generate_key(data_length, 61) # primary key
df["DATA_SITUACAO_NF"]["DT_STATUS"] = generate_date_column(data_length)
df["DATA_SITUACAO_NF"]["SITUACAO_NF_CO_SITUACAO"] = generate_varchar_column(data_length)
df["DATA_SITUACAO_NF"]["TP_ORIGEM_ATUALIZACAO"] = generate_number_in_range_column(data_length,max_range=3)
df["DATA_SITUACAO_NF"]["CO_CHAVE_ACESSO_CANCELAMENTO"] = generate_varchar_column(data_length,61)
print(df["DATA_SITUACAO_NF"])

      id                                    CO_CHAVE_ACESSO  DT_STATUS  \
0      0  000UWP09M90YPIPZIHJ6DC86CQT0BVM5S7587RQ6743PY3... 1999-09-19   
1      1  001BVM107WVYOW5IB2QWDZA7RR469UHN45HT5GAZ0YZVBW... 2014-12-27   
2      2  002XMSNBD3WAYAH7I2KZ9YC6CPDVN7MBWPZJXLMZ69L26A... 2013-07-07   
3      3  003L5B1HX4R7WCB2AAFVWSN0MVW6QZYAOB1E5477TNLTR5... 2003-12-25   
4      4  004UKTTMP88YHV5I1D3FDU1UT5GV7QFWM4BI1GDH0CLTDM... 2000-06-06   
..   ...                                                ...        ...   
295  295  29598IZ53Q8O4FZIOAND296T9T5MHQON6QMCTE9GRRERJQ... 2004-07-06   
296  296  29620Z2GKAEJ8ZGMU86IX3HZDN42HRYW9Q9I5WEBS8XO1Y... 2019-08-12   
297  297  297JL511NA2QLUZVCXX6PBTIDIRHSVG4R7ALKSU6RC0N4P... 2003-09-15   
298  298  298NRHH8EEYDOT37FKSO0L0P0XFHK3ZQ9GXS5P3I2LNJ4B... 2018-02-20   
299  299  2999F9CALTEP30ZST1ZEQVXBM1YTVRFTWT6MP4AY7W2LOL... 2004-07-16   

    SITUACAO_NF_CO_SITUACAO  TP_ORIGEM_ATUALIZACAO  \
0                     TMCK5                      3   
1  

### Dummy data for NOTA_FISCAL

In [21]:
data_length = get_data_length("DATA_NOTA_FISCAL")

# GENERATE PRIMARY KEY
df["DATA_NOTA_FISCAL"]["SQ_NF"] = df["DATA_NOTA_FISCAL"]["id"]

# GENERATE FOREIGN KEY
df["DATA_NOTA_FISCAL"]["CO_CHAVE_ACESSO"] = generate_key(data_length, 61)

# GENERATE RANDOM NUMBER VARIABLE TO DATA_NOTA_FISCAL
df["DATA_NOTA_FISCAL"]["CDV"] = generate_number_column(data_length)
df["DATA_NOTA_FISCAL"]["CEP_EMITENTE"] = generate_number_column(data_length, 8)
df["DATA_NOTA_FISCAL"]["CEP_DEST"] = generate_number_column(data_length, 8)
df["DATA_NOTA_FISCAL"]["CMUN_EMITENTE"] = generate_number_column(data_length, 7)
df["DATA_NOTA_FISCAL"]["CMUN_DEST"] = generate_number_column(data_length, 7)
df["DATA_NOTA_FISCAL"]["CMUNFG"] = generate_number_column(data_length, 7)
df["DATA_NOTA_FISCAL"]["CNAE_EMITENTE"] = generate_number_column(data_length, 7)
df["DATA_NOTA_FISCAL"]["CNF"] = generate_number_column(data_length, 9)
df["DATA_NOTA_FISCAL"]["CNPJ_EMITENTE"] = generate_number_column(data_length, 14)
df["DATA_NOTA_FISCAL"]["CNPJ_DEST"] = generate_number_column(data_length, 14)
df["DATA_NOTA_FISCAL"]["CNPJ_ORGAO_EMITENTE"] = generate_number_column(data_length, 14)
df["DATA_NOTA_FISCAL"]["CPAIS_EMITENTE"] = generate_number_column(data_length, 4)
df["DATA_NOTA_FISCAL"]["CPAIS_DEST"] = generate_number_column(data_length, 4)
df["DATA_NOTA_FISCAL"]["CPF_EMITENTE"] = generate_number_column(data_length, 11)
df["DATA_NOTA_FISCAL"]["CPF_DEST"] = generate_number_column(data_length, 11)
df["DATA_NOTA_FISCAL"]["CRT_EMITENTE"] = generate_number_column(data_length)
df["DATA_NOTA_FISCAL"]["CUF"] = generate_number_column(data_length, 8)
df["DATA_NOTA_FISCAL"]["FINNFE"] = generate_number_column(data_length)
df["DATA_NOTA_FISCAL"]["FONE_EMITENTE"] = generate_number_column(data_length, 14)
df["DATA_NOTA_FISCAL"]["FONE_DEST"] = generate_number_column(data_length, 14)
df["DATA_NOTA_FISCAL"]["FONE_AGENTE"] = generate_number_column(data_length, 14)
df["DATA_NOTA_FISCAL"]["IDDEST"] = generate_number_column(data_length)
df["DATA_NOTA_FISCAL"]["INDFINAL"] = generate_number_column(data_length)
df["DATA_NOTA_FISCAL"]["INDPAG"] = generate_number_column(data_length, 8)
df["DATA_NOTA_FISCAL"]["INDPRES"] = generate_number_in_range_column(data_length, max_range=9)
df["DATA_NOTA_FISCAL"]["NNF"] = generate_number_column(data_length, 9)
df["DATA_NOTA_FISCAL"]["PROCEMI"] = generate_number_column(data_length)
df["DATA_NOTA_FISCAL"]["SERIE"] = generate_number_column(data_length, 3)
df["DATA_NOTA_FISCAL"]["SQ_TP_DFE"] = generate_number_column(data_length, 8)
df["DATA_NOTA_FISCAL"]["TPAMB"] = generate_number_column(data_length)
df["DATA_NOTA_FISCAL"]["TPIMP"] = generate_number_column(data_length)
df["DATA_NOTA_FISCAL"]["TPNF"] = generate_number_column(data_length)

# GENERATE RANDOM DATE VARIABLE TO DATA_NOTA_FISCAL

df["DATA_NOTA_FISCAL"]["DH_GRAVACAO"] = generate_date_column(data_length)
df["DATA_NOTA_FISCAL"]["DHCONT"] = generate_date_column(data_length)
df["DATA_NOTA_FISCAL"]["DHEMI"] = generate_date_column(data_length)
df["DATA_NOTA_FISCAL"]["DHSAIENT"] = generate_date_column(data_length)
df["DATA_NOTA_FISCAL"]["DEMI_DOC_ARR"] = generate_date_column(data_length)
df["DATA_NOTA_FISCAL"]["DHRECBTO"] = generate_date_column(data_length)
df["DATA_NOTA_FISCAL"]["DPAG"] = generate_date_column(data_length)

# GENERATE RANDOM CHAR VARIABLE TO DATA_NOTA_FISCAL

df["DATA_NOTA_FISCAL"]["TPEMIS"] = generate_varchar_column(data_length, 1)

# GENERATE RANDOM VARCHAR2 VARIABLE TO DATA_NOTA_FISCAL

df["DATA_NOTA_FISCAL"]["IE_EMITENTE"] = generate_varchar_column(data_length, 18)
df["DATA_NOTA_FISCAL"]["IEST_EMITENTE"] = generate_varchar_column(data_length, 18)
df["DATA_NOTA_FISCAL"]["IM_EMITENTE"] = generate_varchar_column(data_length, 19)
df["DATA_NOTA_FISCAL"]["IM_DEST"] = generate_varchar_column(data_length, 19)
df["DATA_NOTA_FISCAL"]["MOD"] = generate_varchar_column(data_length, 2)
df["DATA_NOTA_FISCAL"]["NATOP"] = generate_varchar_column(data_length, 84)
df["DATA_NOTA_FISCAL"]["NRO_EMITENTE"] = generate_varchar_column(data_length, 78)
df["DATA_NOTA_FISCAL"]["NRO_DEST"] = generate_varchar_column(data_length, 78)
df["DATA_NOTA_FISCAL"]["NU_VERSAO"] = generate_varchar_column(data_length, 5)
df["DATA_NOTA_FISCAL"]["UF_EMITENTE"] = generate_varchar_column(data_length, 2)
df["DATA_NOTA_FISCAL"]["VERPROC"] = generate_varchar_column(data_length, 26)
df["DATA_NOTA_FISCAL"]["XBAIRRO_EMITENTE"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["XCPL_EMITENTE"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["XCPL_DEST"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["NRO_DEST"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["XFANT_EMITENTE"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["XJUST"] = generate_varchar_column(data_length, 390)
df["DATA_NOTA_FISCAL"]["XLGR_EMITENTE"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["XMUN_EMITENTE"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["XMUN_DEST"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["XNOME_EMITENTE"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["XNOME_DEST"] = generate_varchar_column(data_length, 104)
df["DATA_NOTA_FISCAL"]["XORGAO_EMITENTE"] = generate_varchar_column(data_length, 78)
df["DATA_NOTA_FISCAL"]["XPAIS_EMITENTE"] = generate_varchar_column(data_length, 78)
df["DATA_NOTA_FISCAL"]["XPAIS_DEST"] = generate_varchar_column(data_length, 78)
df["DATA_NOTA_FISCAL"]["UF_AGENTE"] = generate_varchar_column(data_length, 2)
df["DATA_NOTA_FISCAL"]["UF_DEST"] = generate_varchar_column(data_length, 2)

# PRINT DATA_NOTA_FISCAL

print(df["DATA_NOTA_FISCAL"])

      id  SQ_NF                                    CO_CHAVE_ACESSO  \
0      0      0  000VKEQ1ITE58NA1E8YIA6YOD5BX8CLOOUZJ31F8NJL0GO...   
1      1      1  001Q6YGL85QWUES6E8F44J8TXDE0UCEW80BP6QFPEU0M3M...   
2      2      2  002PRRD34GOKP830ETZDWTBNFYJ6XC9TB3YEJ385X8KE0K...   
3      3      3  003E9QAPA31BJ46J3IE3WBUW5G5ZHZ7H0VBZC16KN8WXQ0...   
4      4      4  0042ZJVMQDOQII5IWCVL94RGGVV1CN6ALTPZ2WQ7PHJNDQ...   
..   ...    ...                                                ...   
295  295    295  295GEVOTJ8U1OIND2M0SAVUNI1PI1TYG1VD50FXNRU8RMG...   
296  296    296  296K1NOSG8XMIK8KXZFOJUTQBDOMF85KW5AQF30DYANXRB...   
297  297    297  297GZB5F2UJ7E0XDCGLQXKBFRSR4JNYWBKXU1QXL38XBFS...   
298  298    298  2984WLG6UZC4WZZQX1DD7IYUGBZH5BXGZRDM5A5WYHPO3F...   
299  299    299  299YB55X7KC1PGVKL9K09THF7Y0Q74XVFWTEMOLVUG1N5V...   

            CDV  CEP_EMITENTE  CEP_DEST  CMUN_EMITENTE  CMUN_DEST   CMUNFG  \
0    3543404273      66162155  48909130        6434072     290269  6296127   
1  

### Dummy data for IS_VW_ESTAB_EMPRESA

In [22]:
data_length = get_data_length("DATA_IS_VW_ESTAB_EMPRESA")

# GENERATE RANDOM NUMBER VARIABLE TO IS_VW_ESTAB_EMPRESA

df["DATA_IS_VW_ESTAB_EMPRESA"]["IN_EXIGE_NIRE"] = generate_number_column(data_length)
df["DATA_IS_VW_ESTAB_EMPRESA"]["VL_CAPITAL_SOCIAL"] = generate_float_number_column(data_length, 15, 2)
df["DATA_IS_VW_ESTAB_EMPRESA"]["CO_APLICACAO_REGIME_APURACAO"] = generate_number_column(data_length, 2)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_PORTE_EMPRESA"] = generate_number_column(data_length, 2)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_TIPO_ORGAO_REGISTRO"] = generate_number_column(data_length, 2)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_REGISTRO"] = generate_number_column(data_length, 20)
df["DATA_IS_VW_ESTAB_EMPRESA"]["CO_REGIME_APURACAO"] = generate_number_column(data_length, 3)
df["DATA_IS_VW_ESTAB_EMPRESA"]["CO_TIPO_UNID_ESTABELECIMENTO"] = generate_number_column(data_length, 3)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_REGIME_APURACAO"] = generate_number_column(data_length, 3)
df["DATA_IS_VW_ESTAB_EMPRESA"]["CO_NATUREZA_JURIDICA"] = generate_number_column(data_length, 4)
df["DATA_IS_VW_ESTAB_EMPRESA"]["CO_PORTE_EMPRESA"] = generate_number_column(data_length, 4)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_NATUREZA_JURIDICA"] = generate_number_column(data_length, 4)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_TIPO_INSTRUMENTO_LEGAL"] = generate_number_column(data_length, 4)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_TIPO_UNID_ESTABELECIMENTO"] = generate_number_column(data_length, 4)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_INSTRUMENTO_LEGAL"] = generate_number_column(data_length, 5)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_INSCRICAO_ESTADUAL"] = generate_number_column(data_length, 8)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_CONDICAO_INSCRICAO_ESTADUAL"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_ESTABELECIMENTO"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_INSCRICAO_ESTABELECIMENTO"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_ORGAO_REGISTRO"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_SITUACAO_CADASTRAL"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SQ_UNIDADE_EMPRESARIAL"] = generate_number_column(data_length, 9)


# GENERATE RANDOM DATE VARIABLE TO IS_VW_ESTAB_EMPRESA
df["DATA_IS_VW_ESTAB_EMPRESA"]["DT_CONCESSAO_INSCRICAO"] = generate_date_column(data_length)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DT_EXTINCAO"] = generate_date_column(data_length)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DT_INICIO_CONDICAO_INSCRICAO"] = generate_date_column(data_length)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DT_INICIO_NATUREZA_JURIDICA"] = generate_date_column(data_length)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DT_INICIO_REGIME_APURACAO"] = generate_date_column(data_length)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DT_ORGAO_REGISTRO"] = generate_date_column(data_length)


# GENERATE RANDOM VARCHAR VARIABLE TO IS_VW_ESTAB_EMPRESA
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_CNPJ_ORGAO_REGISTRO"] = generate_varchar_column(data_length,14)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DS_CONDICAO_INSCRICAO_ESTADUAL"] = generate_varchar_column(data_length, 100)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DS_SITUACAO_CADASTRAL"] = generate_varchar_column(data_length, 100)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NO_REGIME_APURACAO"] = generate_varchar_column(data_length, 100)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_CPF"] = generate_varchar_column(data_length, 11)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_CNPJ"] = generate_varchar_column(data_length, 14)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_CNPJ_MATRIZ"] = generate_varchar_column(data_length, 14)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_CNPJ_ORGAO_REGISTRO_MATRIZ"] = generate_varchar_column(data_length, 14)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SG_UF_MATRIZ"] = generate_varchar_column(data_length, 2)
df["DATA_IS_VW_ESTAB_EMPRESA"]["TP_PESSOA"] = generate_varchar_column(data_length, 2)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DS_NATUREZA_JURIDICA"] = generate_varchar_column(data_length, 200)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DS_TITULO_ESTABELECIMENTO"] = generate_varchar_column(data_length, 200)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NO_ORGAO_REGISTRO"] = generate_varchar_column(data_length, 200)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NO_UNIDADE_EMPRESARIAL"] = generate_varchar_column(data_length, 200)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_MATRICULA_LEILOEIRO"] = generate_varchar_column(data_length, 30)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_REGISTRO_MATRIZ"] = generate_varchar_column(data_length, 30)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_ANO_INSTRUMENTO_LEGAL"] = generate_varchar_column(data_length, 4)
df["DATA_IS_VW_ESTAB_EMPRESA"]["SG_CONDICAO_INSCRICAO_ESTADUAL"] = generate_varchar_column(data_length, 4)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DS_OBSERVACAO"] = generate_varchar_column(data_length, 500)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DS_TIPO_UNID_ESTABELECIMENTO"] = generate_varchar_column(data_length, 500)
df["DATA_IS_VW_ESTAB_EMPRESA"]["NU_RAIZ_CNPJ"] = generate_varchar_column(data_length, 8)
df["DATA_IS_VW_ESTAB_EMPRESA"]["DS_PORTE_EMPRESA"] = generate_varchar_column(data_length, 80)



#PRINT DATA_IS_VW_ESTAB_EMPRESA

print(df["DATA_IS_VW_ESTAB_EMPRESA"])

      id  IN_EXIGE_NIRE  VL_CAPITAL_SOCIAL  CO_APLICACAO_REGIME_APURACAO  \
0      0          80894       2.494715e+12                            17   
1      1           3059       8.566747e+12                            16   
2      2        7361981       6.444811e+12                            36   
3      3      495097318       8.647772e+12                            99   
4      4           1414       7.690941e+12                            24   
..   ...            ...                ...                           ...   
295  295             27       7.657875e+12                            87   
296  296           1517       5.872518e+12                            21   
297  297            614       1.520186e+12                            93   
298  298       40950113       4.288388e+12                            19   
299  299        2763551       6.808811e+12                            51   

     SQ_PORTE_EMPRESA  SQ_TIPO_ORGAO_REGISTRO           NU_REGISTRO  \
0               

### Dummy data for PRODUTO

In [23]:
data_length = get_data_length("DATA_PRODUTO")

df["DATA_PRODUTO"]["SQ_PRODUTO"] = generate_number_column(data_length)
df["DATA_PRODUTO"]["NSUCCG"] = generate_number_column(data_length, 15)
df["DATA_PRODUTO"]["GTIN"] = generate_number_column(data_length, 14)
df["DATA_PRODUTO"]["TPGTIN"] = generate_number_column(data_length, 2)
df["DATA_PRODUTO"]["MARCA"] = generate_varchar_column(data_length, 2) # Validar
df["DATA_PRODUTO"]["XPROD"] = generate_varchar_column(data_length, 500)
df["DATA_PRODUTO"]["TPPROD"] = generate_varchar_column(data_length, 15)
df["DATA_PRODUTO"]["PREFIXGS1"] = generate_number_column(data_length, 3)
df["DATA_PRODUTO"]["PREFIXEMP"] = generate_number_column(data_length, 11)
df["DATA_PRODUTO"]["PREFIXEMP"] = generate_number_column(data_length, 11)
df["DATA_PRODUTO"]["CNPJ"] = generate_varchar_column(data_length, 14) # Validar
df["DATA_PRODUTO"]["CPF"] = generate_varchar_column(data_length, 11) # Validar
df["DATA_PRODUTO"]["IMGURL"] = generate_varchar_column(data_length, 300)
df["DATA_PRODUTO"]["XORIGEM"] = generate_varchar_column(data_length, 2) # Validar
df["DATA_PRODUTO"]["XDESTINO"] = generate_varchar_column(data_length, 2) # Validar
df["DATA_PRODUTO"]["NCM"] = generate_number_column(data_length, 8) # Validar
df["DATA_PRODUTO"]["SITGTIN"] = generate_number_column(data_length, 1) # Validar
df["DATA_PRODUTO"]["DSIT"] = generate_date_column(data_length)
df["DATA_PRODUTO"]["CSEG"] = generate_number_column(data_length, 8) # Validar
df["DATA_PRODUTO"]["CFAM"] = generate_number_column(data_length, 8) # Validar
df["DATA_PRODUTO"]["CCLAS"] = generate_number_column(data_length, 8) # Validar
df["DATA_PRODUTO"]["CBRICK"] = generate_number_column(data_length, 8) # Validar
df["DATA_PRODUTO"]["SUBGTIN"] = generate_number_column(data_length, 14) # Validar
df["DATA_PRODUTO"]["TPSUBGTIN"] = generate_number_column(data_length, 2) # Validar
df["DATA_PRODUTO"]["QITENSSUBGTIN"] = generate_number_column(data_length, 8)
df["DATA_PRODUTO"]["PESOB"] = generate_float_number_column(data_length, 8, 3) # Validar
df["DATA_PRODUTO"]["UNIDPESOB"] = generate_varchar_column(data_length, 20) # Validar
df["DATA_PRODUTO"]["PESOL"] = generate_float_number_column(data_length, 8, 3) # Validar
df["DATA_PRODUTO"]["UNIDPESOL"] = generate_varchar_column(data_length, 20) # Validar
df["DATA_PRODUTO"]["DT_FIM"] = generate_date_column(data_length)
print(df["DATA_PRODUTO"])

      id  SQ_PRODUTO           NSUCCG            GTIN  TPGTIN MARCA  \
0      0  5573059176  465477450909466  18529208737942      27    V6   
1      1     9104534   46145069776096  62876072205201       0    7A   
2      2       29289  317541694730816  47708226590571      29    S1   
3      3  8063622335  405251101231278  56183876275807       3    3Q   
4      4  2198326458  564230431304409  86327665742690      11    5T   
..   ...         ...              ...             ...     ...   ...   
295  295          86  988254629944925  91689555116705      50    87   
296  296           1  523166804737413  29398786421831      80    WM   
297  297   307618182  169796041299337  18401540991372      32    O0   
298  298    72110956  142806866840118  59086472652813       2    VV   
299  299   680650952  408470735475457  64294584289333      34    T7   

                                                 XPROD           TPPROD  \
0    9QO3ZOPNS1AE87AJT84JF5PIFZLOM81CNLFPY4PIOUS58A...  YZA1XPM3RDFMV07 

### Dummy data for PRODUTO_SERVICO

In [24]:
data_length = get_data_length("DATA_PRODUTO_SERVICO")

df["DATA_PRODUTO_SERVICO"]["SQ_PROD_SERV"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["SQ_NF"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["NITEM"] = generate_number_column(data_length, 3)
df["DATA_PRODUTO_SERVICO"]["CPROD"] = generate_varchar_column(data_length, 1300)
df["DATA_PRODUTO_SERVICO"]["XPROD"] = generate_varchar_column(data_length, 195)
df["DATA_PRODUTO_SERVICO"]["NCM"] = generate_number_column(data_length, 8) # Validar
df["DATA_PRODUTO_SERVICO"]["EXTIPI"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["CFOP"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["UCOM"] = generate_varchar_column(data_length, 7)
df["DATA_PRODUTO_SERVICO"]["QCOM"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["VUNCOM"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["VPROD"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["UTRIB"] = generate_varchar_column(data_length, 7)
df["DATA_PRODUTO_SERVICO"]["QTRIB"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["VUNTRIB"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["VFRETE"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["VSEG"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["VDESC"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["VOUTRO"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["INDTOT"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["XPED"] = generate_varchar_column(data_length, 19)
df["DATA_PRODUTO_SERVICO"]["NITEMPED"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["NFCI"] = generate_varchar_column(data_length, 46)
df["DATA_PRODUTO_SERVICO"]["INFADPROD"] = generate_varchar_column(data_length, 650)
df["DATA_PRODUTO_SERVICO"]["NRECOPI"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["CEST"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["INDESCALA"] = generate_varchar_column(data_length, 1)
df["DATA_PRODUTO_SERVICO"]["CNPJFAB"] = generate_varchar_column(data_length, 18) # Validar
df["DATA_PRODUTO_SERVICO"]["CBENEF"] = generate_varchar_column(data_length, 13)
df["DATA_PRODUTO_SERVICO"]["CEAN"] = generate_number_column(data_length)
df["DATA_PRODUTO_SERVICO"]["CEANTRIB"] = generate_number_column(data_length)
print(df["DATA_PRODUTO_SERVICO"])

      id  SQ_PROD_SERV       SQ_NF  NITEM  \
0      0           857   582476859    908   
1      1             0    21132906    122   
2      2       9562893  9301209076    709   
3      3     635082115        6542    965   
4      4     455283747         316    635   
..   ...           ...         ...    ...   
295  295        853532         824     40   
296  296         40908     1364646     57   
297  297      39228953       67206    878   
298  298     838745360        9078    924   
299  299           285  4528406679    351   

                                                 CPROD  \
0    4GPJIZ6A0B510RME8SFC8WZPD9LCID9ZOBGKAE5ORZL9K0...   
1    XDCYEPOMGT7XKMUM8NZXIKP0ATXM7HIFVZGBVYGKGHL177...   
2    HLP39USCPS6JPRIVH1HDY47DUZGB91VJLJ2WUH4WCXF4Q5...   
3    AAOJHM15DOJU7JBHISCDUU6M5D78AMCI4RTNJVC3JC3HVN...   
4    NEJ74EN1I5A5MESQPG7YWL767LK3ZEV28M8CLQEGXUF5ZM...   
..                                                 ...   
295  PK41TLROY92EK5VFBK97DV9W42S69MV0H2ONH5OESSX6K9..

### Dummy Data for IS_VW_ESTAB_ATV_ECO

In [25]:
data_length = get_data_length("DATA_IS_VW_ESTAB_ATV_ECO")

# GENERATE RANDOM DATE VARIABLE TO DATA_IS_VW_ESTAB_ATV_ECO

df["DATA_IS_VW_ESTAB_ATV_ECO"]["DT_CONCESSAO_INSCRICAO"] = generate_date_column(data_length)
df["DATA_IS_VW_ESTAB_ATV_ECO"]["DT_INICIO_EXERCICIO"] = generate_date_column(data_length)

# GENERATE RANDOM NUMBER VARIABLE TO DATA_IS_VW_ESTAB_ATV_ECO

df["DATA_IS_VW_ESTAB_ATV_ECO"]["SQ_ESTABELECIMENTO"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_ATV_ECO"]["SQ_INSCRICAO_ESTABELECIMENTO"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_ATV_ECO"]["NU_INSCRICAO_ESTADUAL"] = generate_number_column(data_length, 8)
df["DATA_IS_VW_ESTAB_ATV_ECO"]["SQ_ATIVIDADE_ECONOMICA"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_ATV_ECO"]["SQ_VERSAO_TABELA_ATIVIDADES"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_ATV_ECO"]["SQ_NIVEL_ATIVIDADE_ECONOMICA"] = generate_number_column(data_length, 9)
df["DATA_IS_VW_ESTAB_ATV_ECO"]["IN_PRINCIPAL"] = generate_number_column(data_length, 1)
df["DATA_IS_VW_ESTAB_ATV_ECO"]["NU_ORDEM"] = generate_number_in_range_column(data_length, max_range=9)

# GENERATE RANDOM VARCHAR VARIABLE TO DATA_IS_VW_ESTAB_ATV_ECO

df["DATA_IS_VW_ESTAB_ATV_ECO"]["CO_ATIVIDADE_ECONOMICA"] = generate_varchar_column(data_length, 7)
df["DATA_IS_VW_ESTAB_ATV_ECO"]["NO_ATIVIDADE_ECONOMICA"] = generate_varchar_column(data_length, 200)

# PRINT DATA_IS_VW_ESTAB_ATV_ECO

print(df["DATA_IS_VW_ESTAB_ATV_ECO"])

      id DT_CONCESSAO_INSCRICAO DT_INICIO_EXERCICIO  SQ_ESTABELECIMENTO  \
0      0             2004-11-18          2017-03-31           832600135   
1      1             2006-03-27          1997-06-05           610486782   
2      2             1992-06-14          2010-02-12           369739199   
3      3             2004-07-20          1997-07-30           580277417   
4      4             2000-06-04          2014-06-03           377119681   
..   ...                    ...                 ...                 ...   
295  295             2000-12-17          2003-09-14           926226362   
296  296             1992-09-10          2018-02-01           292386578   
297  297             2006-04-09          1990-12-10           356325653   
298  298             2009-12-18          1999-06-23           247182458   
299  299             2009-04-20          2017-01-26            10474544   

     SQ_INSCRICAO_ESTABELECIMENTO  NU_INSCRICAO_ESTADUAL  \
0                        25070103      

### Export as CSV

In [13]:
for x in data_tables:
    df["DATA_{0}".format(x)].to_csv ("Tabelas/DATA_{0}".format(x) + ".csv", index = None, header=True)