<a href="https://colab.research.google.com/github/osmarbraz/exemplos_python/blob/master/ExemplosPythonPandasIndexado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplos de consulta de dados com Pandas DataFrame em Python no Google Colaboratory usando índeces.

-----------------------------------------
**Guia Colab Iniciante:**

https://medium.com/machina-sapiens/google-colab-guia-do-iniciante-334d70aad531

**Documentação oficial:**

https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.01-Help-And-Documentation.ipynb

**Características :**

https://colab.research.google.com/notebooks/basic_features_overview.ipynb

# Criando arquivo de pesquisa

In [1]:
QTDE_REGISTROS = 100000
NOME_ARQUIVO = "dados.csv"

## Cria a lista

In [2]:
# Import de biblioteca
import random

lista = []
for x in range(QTDE_REGISTROS):

  # Um número inteiro aleatório de 0 a 50 para a idade
  idade = random.randint(0, 50)

  if x % 2 == 0:
    	estado = "SC"
  else:
      estado = "RS"

  lista.append([x, "nome_" + str(x), idade, estado])

## Criando o dataframe

In [3]:
# Import de biblioteca
import pandas as pd

df = pd.DataFrame(lista, columns = ["id","nome","idade","uf"])

df.sample(5)

Unnamed: 0,id,nome,idade,uf
5590,5590,nome_5590,47,SC
54586,54586,nome_54586,23,SC
45636,45636,nome_45636,5,SC
26028,26028,nome_26028,30,SC
45719,45719,nome_45719,14,RS


## Salva os dados do dataframe em arquivo

In [4]:
# Biblioteca de processamento de dados
import pandas as pd

# Salva o dataframe
df.to_csv(NOME_ARQUIVO,  sep=";", index=False)

## Carrega os dados do arquivo

In [5]:
# Biblioteca de processamento de dados
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df1 = pd.read_csv(NOME_ARQUIVO, sep=";")

In [6]:
df1.sample(5)

Unnamed: 0,id,nome,idade,uf
26630,26630,nome_26630,32,SC
13359,13359,nome_13359,29,RS
62496,62496,nome_62496,31,SC
48788,48788,nome_48788,46,SC
33867,33867,nome_33867,8,RS


# Pesquisando

### Gerando os dados aleatóriros da pesquisa

In [7]:
# Import de biblioteca
import random

# Pesquisa da metade até o final do dataframe
fim = int(QTDE_REGISTROS/2)

pesquisa = []
for x in range(fim):

  # Um número inteiro aleatório de 0 a fim
  pesquisa.append(random.randint(0, fim))

### Consultando dados não indexados com loc em um dataframe

In [8]:
# Biblioteca de processamento de dados
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df = pd.read_csv(NOME_ARQUIVO, sep=";")

# Mostra os dados do DataFrame
df.sample(5)

Unnamed: 0,id,nome,idade,uf
29222,29222,nome_29222,19,SC
30283,30283,nome_30283,8,RS
80535,80535,nome_80535,12,RS
63686,63686,nome_63686,5,SC
97935,97935,nome_97935,1,RS


Pesquisa e calcula o tempo gasto

In [9]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicio_processamento1 = time.time()

# Realiza a pesquisa
for chave in pesquisa:

  # Procurando dados
  registro = df.loc[df["id"]==chave] 
  #print(registro)

# Pega o final de processamento
final_processamento1 = time.time()
tempo_total_processamento1 = final_processamento1 - inicio_processamento1
print("\nTempo processamento:  {:} (h:mm:ss)".format(str(datetime.timedelta(seconds=int(round((tempo_total_processamento1)))))))


Tempo processamento:  0:00:29 (h:mm:ss)


### Consultando dados indexados com loc em um dataframe

In [10]:
# Biblioteca de processamento de dados
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df1 = pd.read_csv(NOME_ARQUIVO, sep=";")

# Mostra os dados do DataFrame
df1.sample(5)

Unnamed: 0,id,nome,idade,uf
46635,46635,nome_46635,3,RS
13418,13418,nome_13418,18,SC
74391,74391,nome_74391,17,RS
4471,4471,nome_4471,12,RS
84379,84379,nome_84379,28,RS


Indexando os dados

In [11]:
# Expecifica o(s) campo(s) indexado(s) e faz uma cópia da lista indexada
df_indexado = df1.set_index(["id"])
df_indexado.head()

Unnamed: 0_level_0,nome,idade,uf
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,nome_0,9,SC
1,nome_1,35,RS
2,nome_2,25,SC
3,nome_3,48,RS
4,nome_4,17,SC


Pesquisa e calcula o tempo gasto

In [12]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicio_processamento2 = time.time()

# Realiza a pesquisa
for chave in pesquisa:

  # Procurando dados
  registro = df_indexado.loc[chave] 
  #print(registro)

# Pega o final de processamento
final_processamento2 = time.time()
tempo_total_processamento2 = final_processamento2 - inicio_processamento2
print("\nTempo processamento:  {:} (h:mm:ss)".format(str(datetime.timedelta(seconds=int(round((tempo_total_processamento2)))))))


Tempo processamento:  0:00:06 (h:mm:ss)


Diferenca em percentuais

In [13]:
# Diferenca entre os métodos
diferenca = tempo_total_processamento2*100/tempo_total_processamento1

print ("A pesquisa indexada é {:.2%} mais rápida que a pesquisa não indexada.".format(diferenca))

A pesquisa indexada é 1987.32% mais rápida que a pesquisa não indexada.
