<a href="https://colab.research.google.com/github/osmarbraz/exemplos_python/blob/master/ExemplosPythonPandasIndexado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exemplos de consulta de dados com Pandas DataFrame em Python no Google Colaboratory usando índeces.

-----------------------------------------
**Guia Colab Iniciante:**

https://medium.com/machina-sapiens/google-colab-guia-do-iniciante-334d70aad531

**Documentação oficial:**

https://colab.research.google.com/github/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/01.01-Help-And-Documentation.ipynb

**Características :**

https://colab.research.google.com/notebooks/basic_features_overview.ipynb

# Criando arquivo de pesquisa

In [1]:
QTDE_REGISTROS = 100000
NOME_ARQUIVO = "dados.csv"

## Cria a lista

In [2]:
# Import de biblioteca
import random

lista = []
for x in range(QTDE_REGISTROS):

  # Um número inteiro aleatório de 0 a 50 para a idade
  idade = random.randint(0, 50)

  if x % 2 == 0:
    	estado = "SC"
  else:
      estado = "RS"

  lista.append([x, "nome_" + str(x), idade, estado])

## Criando o dataframe

In [3]:
# Import de biblioteca
import pandas as pd

df = pd.DataFrame(lista, columns = ["id","nome","idade","uf"])

df.sample(5)

Unnamed: 0,id,nome,idade,uf
86276,86276,nome_86276,25,SC
83928,83928,nome_83928,35,SC
52291,52291,nome_52291,0,RS
78417,78417,nome_78417,2,RS
48787,48787,nome_48787,42,RS


## Salva os dados do dataframe em arquivo

In [4]:
# Biblioteca de processamento de dados
import pandas as pd

# Salva o dataframe
df.to_csv(NOME_ARQUIVO,  sep=";", index=False)

## Carrega os dados do arquivo

In [5]:
# Biblioteca de processamento de dados
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df1 = pd.read_csv(NOME_ARQUIVO, sep=";")

In [6]:
df1.sample(5)

Unnamed: 0,id,nome,idade,uf
44827,44827,nome_44827,16,RS
2610,2610,nome_2610,21,SC
55019,55019,nome_55019,24,RS
35641,35641,nome_35641,15,RS
47773,47773,nome_47773,8,RS


# Pesquisando

### Consultando dados não indexados com loc em um dataframe

In [7]:
# Biblioteca de processamento de dados
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df = pd.read_csv(NOME_ARQUIVO, sep=";")

# Mostra os dados do DataFrame
df.sample(5)

Unnamed: 0,id,nome,idade,uf
3831,3831,nome_3831,27,RS
83288,83288,nome_83288,20,SC
94472,94472,nome_94472,28,SC
5224,5224,nome_5224,11,SC
48521,48521,nome_48521,26,RS


Pesquisa e calcula o tempo gasto

In [8]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicio_processamento1 = time.time()

# Pesquisa da metada até o final do dataframe
inicio1 = int(QTDE_REGISTROS/2)

fim1 = int(QTDE_REGISTROS)

for i in range(inicio1,fim1):

  # Procurando dados
  registro = df.loc[df["id"]==i] 
  #print(registro)

# Pega o final de processamento
final_processamento1 = time.time()
tempo_total_processamento1 = final_processamento1 - inicio_processamento1
print("\nTempo processamento:  {:} (h:mm:ss)".format(str(datetime.timedelta(seconds=int(round((tempo_total_processamento1)))))))


Tempo processamento:  0:00:33 (h:mm:ss)


### Consultando dados indexados com loc em um dataframe

In [9]:
# Biblioteca de processamento de dados
import pandas as pd

# Abre o arquivo e retorna o DataFrame
df1 = pd.read_csv(NOME_ARQUIVO, sep=";")

# Mostra os dados do DataFrame
df1.sample(5)

Unnamed: 0,id,nome,idade,uf
69333,69333,nome_69333,5,RS
38569,38569,nome_38569,21,RS
63689,63689,nome_63689,23,RS
41698,41698,nome_41698,28,SC
65613,65613,nome_65613,5,RS


Indexando os dados

In [10]:
# Expecifica o(s) campo(s) indexado(s)
df_indexado = df1.set_index(["id"])
df_indexado.head()

Unnamed: 0_level_0,nome,idade,uf
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,nome_0,41,SC
1,nome_1,49,RS
2,nome_2,41,SC
3,nome_3,41,RS
4,nome_4,21,SC


Pesquisa e calcula o tempo gasto

In [11]:
# Import das bibliotecas.
import time
import datetime

# Marca o tempo de início do processamento
inicio_processamento2 = time.time()

# Pesquisa da metada até o final do dataframe
inicio2 = int(QTDE_REGISTROS/2)

fim2 = int(QTDE_REGISTROS)

for i in range(inicio2,fim2):

  # Procurando dados
  registro = df_indexado.loc[i] 
  #print(registro)

# Pega o final de processamento
final_processamento2 = time.time()
tempo_total_processamento2 = final_processamento2 - inicio_processamento2
print("\nTempo processamento:  {:} (h:mm:ss)".format(str(datetime.timedelta(seconds=int(round((tempo_total_processamento2)))))))


Tempo processamento:  0:00:06 (h:mm:ss)


Diferenca em percentuais

In [12]:
# Diferenca entre os métodos
diferenca = tempo_total_processamento2*100/tempo_total_processamento1

print ("A pesquisa indexado é {:.2%} mais rápida que a pesquina não indexada.".format(diferenca))

A pesquisa indexado é 1777.61% mais rápida que a pesquina não indexada.
