<a href="https://colab.research.google.com/github/osmarbraz/exemplos_python/blob/master/ExemplosPythonPandasIndexado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplos de consulta de dados com Pandas DataFrame em Python no Google Colaboratory usando índeces.

-----------------------------------------
**Guia Colab Iniciante:**

https://medium.com/machina-sapiens/google-colab-guia-do-iniciante-334d70aad531

**Documentação oficial:**

https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.01-Help-And-Documentation.ipynb

**Características :**

https://colab.research.google.com/notebooks/basic_features_overview.ipynb

# Criando arquivo de pesquisa

In [1]:
QTDE_REGISTROS = 100000
NOME_ARQUIVO = "dados.csv"

## Cria a lista

In [2]:
# Import de biblioteca
import random

lista = []
for x in range(QTDE_REGISTROS):

  # Um número inteiro aleatório de 0 a 50 para a idade
  idade = random.randint(0, 50)

  if x % 2 == 0:
    	estado = "SC"
  else:
      estado = "RS"

  lista.append([x, "nome_" + str(x), idade, estado])

## Criando o dataframe

In [3]:
# Import de biblioteca
import pandas as pd

df = pd.DataFrame(lista, columns = ["id","nome","idade","uf"])

df.sample(5)

Unnamed: 0,id,nome,idade,uf
93850,93850,nome_93850,42,SC
16677,16677,nome_16677,0,RS
61595,61595,nome_61595,43,RS
36571,36571,nome_36571,41,RS
80013,80013,nome_80013,40,RS


## Salva os dados do dataframe em arquivo

In [4]:
# Biblioteca de processamento de dados
import pandas as pd

# Salva o dataframe
df.to_csv(NOME_ARQUIVO,  sep=";", index=False)

## Carrega os dados do arquivo

In [5]:
# Biblioteca de processamento de dados
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df1 = pd.read_csv(NOME_ARQUIVO, sep=";")

In [6]:
df1.sample(5)

Unnamed: 0,id,nome,idade,uf
51352,51352,nome_51352,25,SC
87430,87430,nome_87430,31,SC
15821,15821,nome_15821,13,RS
93813,93813,nome_93813,38,RS
68336,68336,nome_68336,29,SC


# Pesquisando

### Gerando os dados aleatóriros da pesquisa

In [7]:
# Import de biblioteca
import random

# Pesquisa da metade até o final do dataframe
fim = int(QTDE_REGISTROS/2)

pesquisa = []
for x in range(fim):

  # Um número inteiro aleatório de 0 a fim
  pesquisa.append(random.randint(0, fim))

### Consultando dados não indexados com loc em um dataframe

In [8]:
# Biblioteca de processamento de dados
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df = pd.read_csv(NOME_ARQUIVO, sep=";")

# Mostra os dados do DataFrame
df.sample(5)

Unnamed: 0,id,nome,idade,uf
89854,89854,nome_89854,6,SC
82955,82955,nome_82955,20,RS
82443,82443,nome_82443,20,RS
32952,32952,nome_32952,49,SC
42866,42866,nome_42866,48,SC


Pesquisa e calcula o tempo gasto

In [9]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicio_processamento1 = time.time()

# Realiza a pesquisa
for chave in pesquisa:

  # Procurando dados
  registro = df.loc[df["id"]==chave] 
  #print(registro)

# Pega o final de processamento
final_processamento1 = time.time()
tempo_total_processamento1 = final_processamento1 - inicio_processamento1
print("\nTempo processamento:  {:} (h:mm:ss)".format(str(datetime.timedelta(seconds=int(round((tempo_total_processamento1)))))))


Tempo processamento:  0:00:27 (h:mm:ss)


### Consultando dados indexados com loc em um dataframe

In [10]:
# Biblioteca de processamento de dados
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df1 = pd.read_csv(NOME_ARQUIVO, sep=";")

# Mostra os dados do DataFrame
df1.sample(5)

Unnamed: 0,id,nome,idade,uf
51340,51340,nome_51340,7,SC
31608,31608,nome_31608,6,SC
51855,51855,nome_51855,47,RS
27474,27474,nome_27474,19,SC
14309,14309,nome_14309,21,RS


Indexando os dados

In [11]:
# Expecifica o(s) campo(s) indexado(s) e faz uma cópia da lista indexada
df_indexado = df1.set_index(["id"])
df_indexado.head()

Unnamed: 0_level_0,nome,idade,uf
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,nome_0,47,SC
1,nome_1,29,RS
2,nome_2,38,SC
3,nome_3,35,RS
4,nome_4,13,SC


Pesquisa e calcula o tempo gasto

In [12]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicio_processamento2 = time.time()

# Realiza a pesquisa
for chave in pesquisa:

  # Procurando dados
  registro = df_indexado.loc[chave] 
  #print(registro)

# Pega o final de processamento
final_processamento2 = time.time()
tempo_total_processamento2 = final_processamento2 - inicio_processamento2
print("\nTempo processamento:  {:} (h:mm:ss)".format(str(datetime.timedelta(seconds=int(round((tempo_total_processamento2)))))))


Tempo processamento:  0:00:05 (h:mm:ss)


Diferenca em percentuais

In [13]:
# Diferenca entre os métodos
diferenca = (tempo_total_processamento1 - tempo_total_processamento2)/tempo_total_processamento2

print ("A pesquisa indexada é {:.2%} mais rápida que a pesquisa não indexada.".format(diferenca))

A pesquisa indexada é 443.55% mais rápida que a pesquisa não indexada.
