In [1]:
import csv
import heapq
import sqlparse
from typing import List
from datetime import datetime

with open('consulta_cand_2018/consulta_cand_2018_BR.csv', encoding="latin-1") as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    csv_info = [row[0].replace('"', '').split(';') for row in csv_reader]
    csv_fields = csv_info.pop(0)

# Heap file

Essentially a list, but calling heapify() to keep it in order.

```

File structure: Hash
Creation: 2018-10-12 19:28:25
Last modification: 2018-10-12 19:28:25
Schema: DT_GERACAO:{}({});HH_GERACAO:{}({});ANO_ELEICAO:{}({});CD_TIPO_ELEICAO:{}({});NM_TIPO_ELEICAO:{}({});NR_TURNO:{}({});CD_ELEICAO:{}({});DS_ELEICAO:{}({});DT_ELEICAO:{}({});TP_ABRANGENCIA:{}({});SG_UF:{}({});SG_UE:{}({});NM_UE:{}({});CD_CARGO:{}({});DS_CARGO:{}({});SQ_CANDIDATO:{}({});NR_CANDIDATO:{}({});NM_CANDIDATO:{}({});NM_URNA_CANDIDATO:{}({});NM_SOCIAL_CANDIDATO:{}({});NR_CPF_CANDIDATO:{}({});NM_EMAIL:{}({});CD_SITUACAO_CANDIDATURA:{}({});DS_SITUACAO_CANDIDATURA:{}({});CD_DETALHE_SITUACAO_CAND:{}({});DS_DETALHE_SITUACAO_CAND:{}({});TP_AGREMIACAO:{}({});NR_PARTIDO:{}({});SG_PARTIDO:{}({});NM_PARTIDO:{}({});SQ_COLIGACAO:{}({});NM_COLIGACAO:{}({});DS_COMPOSICAO_COLIGACAO:{}({});CD_NACIONALIDADE:{}({});DS_NACIONALIDADE:{}({});SG_UF_NASCIMENTO:{}({});CD_MUNICIPIO_NASCIMENTO:{}({});NM_MUNICIPIO_NASCIMENTO:{}({});DT_NASCIMENTO:{}({});NR_IDADE_DATA_POSSE:{}({});NR_TITULO_ELEITORAL_CANDIDATO:{}({});CD_GENERO:{}({});DS_GENERO:{}({});CD_GRAU_INSTRUCAO:{}({});DS_GRAU_INSTRUCAO:{}({});CD_ESTADO_CIVIL:{}({});DS_ESTADO_CIVIL:{}({});CD_COR_RACA:{}({});DS_COR_RACA:{}({});CD_OCUPACAO:{}({});DS_OCUPACAO:{}({});NR_DESPESA_MAX_CAMPANHA:{}({});CD_SIT_TOT_TURNO:{}({});DS_SIT_TOT_TURNO:{}({});ST_REELEICAO:{}({});ST_DECLARAR_BENS:{}({});NR_PROTOCOLO_CANDIDATURA:{}({});NR_PROCESSO:{}({});

```

In [202]:
class HeapRecord(list):
    sort_parameters = []

    def __init__(self, list_of_objs: list, parameters: List[int] = [0]):
        self.sort_parameters = parameters
        super().__init__(list_of_objs)

    def __lt__(self, value):
        for field in self.sort_parameters:
            if self[field] < value[field]:
                return True
            elif self[field] > value[field]:
                return False
        else:
            return False

    def __gt__(self, value):
        for field in self.sort_parameters:
            if self[field] < value[field]:
                return False
            elif self[field] > value[field]:
                return True
        else:
            return False


class HeapTable(list):
    sort_parameters = []

    def __init__(self, list_of_objs: list, parameters: List[int] = [0]):
        list_of_objs = [HeapRecord(x, parameters) for x in list_of_objs]
        super().__init__(list_of_objs)

In [203]:
class DBFile(object):
    data = None
    header = None
    struct = ""
    schema = ""

    def __init__(self, schema_file: str):
        schema_str = ""
        now = datetime.now().strftime("%Y%m%d%H%M%S")
        try:
            f = open(file=schema_file, mode="r", encoding="latin-1")
            file_content = f.readlines()
            if not file_content:
                raise OSError(schema_file + " was empty.")

            schema_str += "".join(
                file_content[:2]
                + ["Modification date: {}".format(now) + "\n"]
                + [file_content[-1]])
            f.close()
        except OSError:
            schema_str = "File structure: {}\n" \
            "Creation date: {}\n" \
            "Modification date: {}\n" \
            "Schema: {}".format(self.struct, now, now, self.schema)
        finally:
            f = open(file=schema_file, mode="w", encoding="latin-1")
            f.write(schema_str)
            f.close()

    def select(self, statement):
        raise NotImplementedError
    
    def insert(self, statement):
        raise NotImplementedError
    
    def delete(self, statement):
        raise NotImplementedError
    
    def parse(self, statement):
        raise NotImplementedError

    def get_column(self, fieldname: str) -> List[str]:
        index = self.header.index(fieldname)
        column = [x[index] for x in self.data]
        return column

In [204]:
class HeapDBFile(DBFile):
    struct = "Heap"

    def __init__(self, filename: str, schema_file: str,
                 parameters: List[int] = [15]):
        with open(filename, mode="r", encoding="latin-1") as csv_file:
            csv_reader = csv.reader(csv_file, delimiter=',')
            self.data = HeapTable([HeapRecord([row[0].replace('"', '').split(';')
                                   for row in csv_reader])], parameters)[0]
            self.header = self.data.pop(0)
            self.schema = ":{}({});".join(self.header)

            super().__init__(schema_file)

    def parse(self, statement):
        ops = sqlparse.parse(statement)[0].tokens
        if str(ops[0]).lower() == "select":
            return self.select(ops[1:])
        if str(ops[0]).lower() == "insert":
            return self.insert(ops[1:])
        if str(ops[0]).lower() == "delete":
            return self.delete(ops[1:])
        
        return False

    def select(self, statement):
        columns = statement[0].split(",")
        tables = statement[2]
        where = statement[3].split(" and ")

        return [self.get_column(x) for x in self.header]



new_heap = HeapDBFile("consulta_cand_2018/consulta_cand_2018_BR.csv", "test.txt")

In [205]:
print("\n".join(new_heap.parse("dfsdfsdf")))

TypeError: can only join an iterable

In [125]:
for field in fields:
    print(field + ':' + '{}({})', end=';')

DT_GERACAO:{}({});HH_GERACAO:{}({});ANO_ELEICAO:{}({});CD_TIPO_ELEICAO:{}({});NM_TIPO_ELEICAO:{}({});NR_TURNO:{}({});CD_ELEICAO:{}({});DS_ELEICAO:{}({});DT_ELEICAO:{}({});TP_ABRANGENCIA:{}({});SG_UF:{}({});SG_UE:{}({});NM_UE:{}({});CD_CARGO:{}({});DS_CARGO:{}({});SQ_CANDIDATO:{}({});NR_CANDIDATO:{}({});NM_CANDIDATO:{}({});NM_URNA_CANDIDATO:{}({});NM_SOCIAL_CANDIDATO:{}({});NR_CPF_CANDIDATO:{}({});NM_EMAIL:{}({});CD_SITUACAO_CANDIDATURA:{}({});DS_SITUACAO_CANDIDATURA:{}({});CD_DETALHE_SITUACAO_CAND:{}({});DS_DETALHE_SITUACAO_CAND:{}({});TP_AGREMIACAO:{}({});NR_PARTIDO:{}({});SG_PARTIDO:{}({});NM_PARTIDO:{}({});SQ_COLIGACAO:{}({});NM_COLIGACAO:{}({});DS_COMPOSICAO_COLIGACAO:{}({});CD_NACIONALIDADE:{}({});DS_NACIONALIDADE:{}({});SG_UF_NASCIMENTO:{}({});CD_MUNICIPIO_NASCIMENTO:{}({});NM_MUNICIPIO_NASCIMENTO:{}({});DT_NASCIMENTO:{}({});NR_IDADE_DATA_POSSE:{}({});NR_TITULO_ELEITORAL_CANDIDATO:{}({});CD_GENERO:{}({});DS_GENERO:{}({});CD_GRAU_INSTRUCAO:{}({});DS_GRAU_INSTRUCAO:{}({});CD_ESTADO

In [136]:
from datetime import datetime

datetime.now().strftime("%Y%m%d%H%M%S")

'20181209213958'

In [172]:
heaprec = HeapRecord(heap)
heaprec.sort_parameters.append([15])
heapq.heapify(heaprec)
heaprec

[['27/10/2018',
  '18:06:43',
  '2018',
  '2',
  'ELEIÇÃO ORDINÁRIA',
  '1',
  '295',
  'Eleição Geral Federal 2018',
  '07/10/2018',
  'FEDERAL',
  'BR',
  'BR',
  'BRASIL',
  '1',
  'PRESIDENTE',
  '280000601016',
  '50',
  'GUILHERME CASTRO BOULOS',
  'GUILHERME BOULOS',
  '#NULO#',
  '22732996807',
  'CAMPANHA@VAMOSCOMBOULOSESONIA.COM.BR',
  '12',
  'APTO',
  '2',
  'DEFERIDO',
  'COLIGAÇÃO',
  '50',
  'PSOL',
  'PARTIDO SOCIALISMO E LIBERDADE',
  '280000050035',
  'VAMOS SEM MEDO DE MUDAR O BRASIL',
  'PSOL / PCB',
  '1',
  'BRASILEIRA NATA',
  'SP',
  '-3',
  'SÃO ´PAULO',
  '19/06/1982',
  '36',
  '195710880167',
  '2',
  'MASCULINO',
  '8',
  'SUPERIOR COMPLETO',
  '1',
  'SOLTEIRO(A)',
  '01',
  'BRANCA',
  '200',
  'HISTORIADOR',
  '0',
  '4',
  'NÃO ELEITO',
  'N',
  'S',
  '-1',
  '06008082020186000000'],
 ['27/10/2018',
  '18:06:43',
  '2018',
  '2',
  'ELEIÇÃO ORDINÁRIA',
  '1',
  '295',
  'Eleição Geral Federal 2018',
  '07/10/2018',
  'FEDERAL',
  'BR',
  'BR',
  'BRASI

In [174]:
hrecs = [HeapRecord(x) for x in heap]
hrecs

[['27/10/2018',
  '18:06:43',
  '2018',
  '2',
  'ELEIÇÃO ORDINÁRIA',
  '1',
  '295',
  'Eleição Geral Federal 2018',
  '07/10/2018',
  'FEDERAL',
  'BR',
  'BR',
  'BRASIL',
  '1',
  'PRESIDENTE',
  '280000601173',
  '16',
  'VERA LUCIA PEREIRA DA SILVA SALGADO',
  'VERA',
  '#NULO#',
  '33619352534',
  'DIREITODECLASSE.ELEITORAL@GMAIL.COM',
  '12',
  'APTO',
  '2',
  'DEFERIDO',
  'PARTIDO ISOLADO',
  '16',
  'PSTU',
  'PARTIDO SOCIALISTA DOS TRABALHADORES UNIFICADO',
  '280000050040',
  'PARTIDO ISOLADO',
  'PSTU',
  '1',
  'BRASILEIRA NATA',
  'PE',
  '-3',
  'INAJA',
  '12/09/1967',
  '51',
  '005848412151',
  '4',
  'FEMININO',
  '8',
  'SUPERIOR COMPLETO',
  '3',
  'CASADO(A)',
  '02',
  'PRETA',
  '999',
  'OUTROS',
  '0',
  '4',
  'NÃO ELEITO',
  'N',
  'S',
  '-1',
  '06008169420186000000'],
 ['27/10/2018',
  '18:06:43',
  '2018',
  '2',
  'ELEIÇÃO ORDINÁRIA',
  '1',
  '295',
  'Eleição Geral Federal 2018',
  '07/10/2018',
  'FEDERAL',
  'BR',
  'BR',
  'BRASIL',
  '2',
  'VI

In [175]:
sorted(hrecs)

RecursionError: maximum recursion depth exceeded while calling a Python object

In [177]:
numbers = ([1, 1], [2, 2], [3, 3], [4, 4])
result = map(lambda x: x.pop(0), numbers)
print(result)

# converting map object to set
numbersSquare = set(result)
print(numbersSquare)

<map object at 0x7fd4a9298ef0>
{1, 2, 3, 4}


In [183]:
#%%
import csv
import heapq
from typing import List
from datetime import datetime


with open('consulta_cand_2018/consulta_cand_2018_BR.csv', encoding="latin-1") as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    csv_info = [row[0].replace('"', '').split(';') for row in csv_reader]
    csv_fields = csv_info.pop(0)



#%%
def get_column(fieldname: str, header: List[str], table: List[list]) -> List[str]:
    index = header.index(fieldname)
    column = [x[index] for x in table]
    return column


#%%
lista = []

class HeapRecord(list):
    sort_parameters = []

    def __init__(self, list_of_objs: list, parameters: List[int] = [0]):
        self.sort_parameters = parameters
        super().__init__(list_of_objs)

    def __lt__(self, value):
        for field in self.sort_parameters:
            if self[field] < value[field]:
                return True
            elif self[field] > value[field]:
                return False
        else:
            return False

    def __gt__(self, value):
        for field in self.sort_parameters:
            if self[field] < value[field]:
                return False
            elif self[field] > value[field]:
                return True
        else:
            return False


class HeapTable(list):
    sort_parameters = []

    def __init__(self, list_of_objs: list, parameters: List[int] = [0]):
        list_of_objs = [HeapRecord(x, parameters) for x in list_of_objs]
        super().__init__(list_of_objs)



#%%
class DBFile(object):
    struct = ""
    schema = ""

    def __init__(self, schema_file: str):
        schema_str = ""
        now = datetime.now().strftime("%Y%m%d%H%M%S")
        try:
            f = open(file=schema_file, mode="r", encoding="latin-1")
            file_content = f.readlines()
            if not file_content:
                raise OSError(schema_file + " was empty.")

            schema_str += "".join(
                file_content[:2]
                + ["Modification date: {}".format(now) + "\n"]
                + [file_content[-1]])
            f.close()
        except OSError:
            schema_str = "File structure: {}\n" \
            "Creation date: {}\n" \
            "Modification date: {}\n" \
            "Schema: {}".format(self.struct, now, now, self.schema)
        finally:
            f = open(file=schema_file, mode="w", encoding="latin-1")
            f.write(schema_str)
            f.close()

    def select(self, statement):
        raise NotImplementedError
    
    def insert(self, statement):
        raise NotImplementedError
    
    def delete(self, statement):
        raise NotImplementedError
    
    def parse(self, statement):
        raise NotImplementedError
    

class HeapDBFile(DBFile):
    data = None
    struct = "Heap"

    def __init__(self, filename: str, schema_file: str,
                 parameters: List[int] = [15]):
        with open(filename, mode="r", encoding="latin-1") as csv_file:
            csv_reader = csv.reader(csv_file, delimiter=',')
            self.data = HeapTable([HeapRecord([row[0].replace('"', '').split(';')
                                   for row in csv_reader])], parameters)[0]
            csv_fields = self.data.pop(0)

            self.schema = ":{}({});".join(csv_fields)

            super().__init__(schema_file)


new_heap = HeapDBFile("consulta_cand_2018/consulta_cand_2018_BR.csv", "test.txt")




In [185]:
new_heap.data

[['27/10/2018',
  '18:06:43',
  '2018',
  '2',
  'ELEIÇÃO ORDINÁRIA',
  '1',
  '295',
  'Eleição Geral Federal 2018',
  '07/10/2018',
  'FEDERAL',
  'BR',
  'BR',
  'BRASIL',
  '1',
  'PRESIDENTE',
  '280000601173',
  '16',
  'VERA LUCIA PEREIRA DA SILVA SALGADO',
  'VERA',
  '#NULO#',
  '33619352534',
  'DIREITODECLASSE.ELEITORAL@GMAIL.COM',
  '12',
  'APTO',
  '2',
  'DEFERIDO',
  'PARTIDO ISOLADO',
  '16',
  'PSTU',
  'PARTIDO SOCIALISTA DOS TRABALHADORES UNIFICADO',
  '280000050040',
  'PARTIDO ISOLADO',
  'PSTU',
  '1',
  'BRASILEIRA NATA',
  'PE',
  '-3',
  'INAJA',
  '12/09/1967',
  '51',
  '005848412151',
  '4',
  'FEMININO',
  '8',
  'SUPERIOR COMPLETO',
  '3',
  'CASADO(A)',
  '02',
  'PRETA',
  '999',
  'OUTROS',
  '0',
  '4',
  'NÃO ELEITO',
  'N',
  'S',
  '-1',
  '06008169420186000000'],
 ['27/10/2018',
  '18:06:43',
  '2018',
  '2',
  'ELEIÇÃO ORDINÁRIA',
  '1',
  '295',
  'Eleição Geral Federal 2018',
  '07/10/2018',
  'FEDERAL',
  'BR',
  'BR',
  'BRASIL',
  '2',
  'VI

In [12]:
import sqlparse

sql = 'select field1, field2 from "someschema"."mytable" where id = 1 and index in (2,3,4) and value between 10 and 20'
sql = 'INSERT INTO table_name (column1, column2, column3, ...) VALUES (value1, value2, value3, ...);'
sql = "DELETE FROM Customers WHERE CustomerName='Alfreds Futterkiste';"
parsed = sqlparse.parse(sql)
stmt = parsed[0]
for i in stmt.tokens:
    print(i)

DELETE
 
FROM
 
Customers
 
WHERE CustomerName='Alfreds Futterkiste';


In [13]:
s = "Schema: DT_GERACAO:VARCHAR(10);HH_GERACAO:VARCHAR(8);ANO_ELEICAO:INTEGER(4);CD_TIPO_ELEICAO:INTEGER(1);NM_TIPO_ELEICAO:VARCHAR(23);NR_TURNO:INTEGER(1);CD_ELEICAO:INTEGER(3);DS_ELEICAO:VARCHAR(34);DT_ELEICAO:VARCHAR(10);TP_ABRANGENCIA:VARCHAR(8);SG_UF:VARCHAR(2);SG_UE:VARCHAR(2);NM_UE:STR(19);CD_CARGO:INTEGER(1);DS_CARGO:VARCHAR(17);SQ_CANDIDATO:INTEGER(12);NR_CANDIDATO:INTEGER(5);NM_CANDIDATO:VARCHAR(50);NM_URNA_CANDIDATO:VARCHAR(30);NM_SOCIAL_CANDIDATO:VARCHAR(50);NR_CPF_CANDIDATO:INTEGER(11);NM_EMAIL:VARCHAR(30);CD_SITUACAO_CANDIDATURA:INTEGER(1);DS_SITUACAO_CANDIDATURA:VARCHAR(6);CD_DETALHE_SITUACAO_CAND:INTEGER(1);DS_DETALHE_SITUACAO_CAND:VARCHAR(10);TP_AGREMIACAO:VARCHAR(15);NR_PARTIDO:INTEGER(2);SG_PARTIDO:VARCHAR(13);NM_PARTIDO:VARCHAR(13);SQ_COLIGACAO:INTEGER(12);NM_COLIGACAO:VARCHAR(40);DS_COMPOSICAO_COLIGACAO:VARCHAR(35);CD_NACIONALIDADE:INTEGER(1);DS_NACIONALIDADE:VARCHAR(15);SG_UF_NASCIMENTO:VARCHAR(2);CD_MUNICIPIO_NASCIMENTO:VARCHAR(2);NM_MUNICIPIO_NASCIMENTO:VARCHAR(30);DT_NASCIMENTO:VARCHAR(10);NR_IDADE_DATA_POSSE:INTEGER(2);NR_TITULO_ELEITORAL_CANDIDATO:INTEGER(12);CD_GENERO:INTEGER(1);DS_GENERO:VARCHAR(9);CD_GRAU_INSTRUCAO:INTEGER(1);DS_GRAU_INSTRUCAO:VARCHAR(20);CD_ESTADO_CIVIL:INTEGER(1);DS_ESTADO_CIVIL:VARCHAR(15);CD_COR_RACA:INTEGER(1);DS_COR_RACA:VARCHAR(10);CD_OCUPACAO:INTEGER(3);DS_OCUPACAO:VARCHAR(50);NR_DESPESA_MAX_CAMPANHA:VARCHAR(2);CD_SIT_TOT_TURNO:INTEGER(1);DS_SIT_TOT_TURNO:VARCHAR(12);ST_REELEICAO:VARCHAR(1);ST_DECLARAR_BENS:VARCHAR(1);NR_PROTOCOLO_CANDIDATURA:VARCHAR(2);NR_PROCESSO:INTEGER(20);"

In [25]:
t = [{y[0]: [y[1].replace(")", "").split("(")]} for x in s.replace("Schema: ", "").split(";") for y in x.split(":")]
t

IndexError: string index out of range

In [40]:
z = {}
for x in s.replace("Schema: ", "").replace(")", "").split(";"):
    if x:
        z[x.split(":")[0]] = int(x.split(":")[1].split("(")[1])
z

{'DT_GERACAO': 10,
 'HH_GERACAO': 8,
 'ANO_ELEICAO': 4,
 'CD_TIPO_ELEICAO': 1,
 'NM_TIPO_ELEICAO': 23,
 'NR_TURNO': 1,
 'CD_ELEICAO': 3,
 'DS_ELEICAO': 34,
 'DT_ELEICAO': 10,
 'TP_ABRANGENCIA': 8,
 'SG_UF': 2,
 'SG_UE': 2,
 'NM_UE': 19,
 'CD_CARGO': 1,
 'DS_CARGO': 17,
 'SQ_CANDIDATO': 12,
 'NR_CANDIDATO': 5,
 'NM_CANDIDATO': 50,
 'NM_URNA_CANDIDATO': 30,
 'NM_SOCIAL_CANDIDATO': 50,
 'NR_CPF_CANDIDATO': 11,
 'NM_EMAIL': 30,
 'CD_SITUACAO_CANDIDATURA': 1,
 'DS_SITUACAO_CANDIDATURA': 6,
 'CD_DETALHE_SITUACAO_CAND': 1,
 'DS_DETALHE_SITUACAO_CAND': 10,
 'TP_AGREMIACAO': 15,
 'NR_PARTIDO': 2,
 'SG_PARTIDO': 13,
 'NM_PARTIDO': 13,
 'SQ_COLIGACAO': 12,
 'NM_COLIGACAO': 40,
 'DS_COMPOSICAO_COLIGACAO': 35,
 'CD_NACIONALIDADE': 1,
 'DS_NACIONALIDADE': 15,
 'SG_UF_NASCIMENTO': 2,
 'CD_MUNICIPIO_NASCIMENTO': 2,
 'NM_MUNICIPIO_NASCIMENTO': 30,
 'DT_NASCIMENTO': 10,
 'NR_IDADE_DATA_POSSE': 2,
 'NR_TITULO_ELEITORAL_CANDIDATO': 12,
 'CD_GENERO': 1,
 'DS_GENERO': 9,
 'CD_GRAU_INSTRUCAO': 1,
 'DS_GRAU_I

In [41]:
sum(z.values())

703