# Exemplos de Iteração (repetição) - Comparação

Este notebook apresenta exemplos de consultas diretas (query e similares) comparada a consultas que "iteram" sobre (percorrem) a tabela linha a linha.

O primeiro bloco de exemplos utiliza o arquivo `funciona.csv`.

In [None]:
import pandas as pd 
codigo = "1id-MxIdlA5pG0iJROsmxLzsBahvtNExc"
arquivo = "https://drive.google.com/u/3/uc?id=" + codigo + "&export=download"
# Base de Dados de Funcionarios
# Note a especificação de SEPARADOR (ponto e vírgula)
funciona = pd.read_csv(arquivo, sep = ";")
funciona.head()

Unnamed: 0,Codigo,Escolaridade,Genero,Idade_Anos,Tempo_Meses,Salario
0,2,1o Grau,M,20,8,19910
1,3,2o Grau,M,31,78,11180
2,4,Superior,M,54,89,8260
3,5,2o Grau,M,17,3,16350
4,6,1o Grau,F,24,88,16670


In [None]:
# Informações sobre os dados da tabela
funciona.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Codigo        20 non-null     int64 
 1   Escolaridade  20 non-null     object
 2   Genero        20 non-null     object
 3   Idade_Anos    20 non-null     int64 
 4   Tempo_Meses   20 non-null     int64 
 5   Salario       20 non-null     int64 
dtypes: int64(4), object(2)
memory usage: 1.1+ KB


## 1) Quantas pessoas do sexo masculino e quantas pessoas do sexo feminino

###1a) Usando agrupamento

In [2]:
import pandas as pd 
codigo = "1id-MxIdlA5pG0iJROsmxLzsBahvtNExc"
arquivo = "https://drive.google.com/u/3/uc?id=" + codigo + "&export=download"
# Base de Dados de Funcionarios
# Note a especificação de SEPARADOR (ponto e vírgula)
funciona = pd.read_csv(arquivo, sep = ";")
funciona.groupby("Genero")["Genero"].count()

Genero
F     7
M    12
O     1
Name: Genero, dtype: int64

### 1b) Usando count

In [3]:
cont1 = funciona["Genero"][funciona["Genero"]=="M"].count()
cont2 = funciona["Genero"][funciona["Genero"]=="F"].count()
cont3 = funciona["Genero"][funciona["Genero"]=="O"].count()
print("Masculino :", cont1, "Feminino:", cont2, "Outros:", cont3)

Masculino : 12 Feminino: 7 Outros: 1


### 1c) Usando iteração

In [4]:
cont1=0
cont2=0
cont3=0
for ind, func in funciona.iterrows():
  if func.Genero == "M":
    cont1=cont1+1
  elif func.Genero =="F":
    cont2 = cont2+1
  else:
    cont3 = cont3 + 1
print("Masculino :", cont1, "Feminino:", cont2, "Outros:", cont3)

Masculino : 12 Feminino: 7 Outros: 1


## 2) Tempo de Processamento

A função time() da biblioteca time permite obter a hora do relógio do computador. Assim, é possível tentar estimar quando tempo o computador levou para processar as instruções ("fim" menos "início"). 

No entanto, é preciso considerar que no "Colab" estamos usando recursos da nuvem, ou seja, concorrendo com outos usuário (memória e disco). Assim, não é correto considerar esse tempo (duração) como definitivo. Este tempo seria mais "preciso" se o processamento fosse "local" (no seu computador). Isso permitiria uma melhor comparação entra as 3 soluções.

Vejamos a seguir as estimativas de tempo nos três tipos de solução.

### 2a) Tempo usando agrupamento

Note que nesta solução há uma etapa de "agrupamento" (groupby) e contagem.

In [8]:
import time

inicio = time.time()
#---
funciona.groupby("Genero")["Genero"].count()
#---
fim = time.time()
print("Duração: ", fim - inicio)

Duração:  0.0059468746185302734


### 2b) Tempo usando contagens independentes

Note que nesta solução não há agrupamento, mas há 3 contagens, ou seja, a tabela é percorrida 3 vezes. 

In [10]:
inicio = time.time()
#---
cont1 = funciona["Genero"][funciona["Genero"]=="M"].count()
cont2 = funciona["Genero"][funciona["Genero"]=="F"].count()
cont3 = funciona["Genero"][funciona["Genero"]=="O"].count()
print("Masculino :", cont1, "Feminino:", cont2, "Outros:", cont3)
#---
fim = time.time()
print("Duração: ", fim - inicio)

Masculino : 12 Feminino: 7 Outros: 1
Duração:  0.003587961196899414


### 2c) Tempo usando iteração

Note que nesta solução a tabela é percorrida 1 vez. A cada linha é realizada a comparação para contar ou não. 

In [11]:
inicio = time.time()
#----
cont1=0
cont2=0
cont3=0
for ind, func in funciona.iterrows():
  if func.Genero == "M":
    cont1=cont1+1
  elif func.Genero =="F":
    cont2 = cont2+1
  else:
    cont3 = cont3 + 1
print("Masculino :", cont1, "Feminino:", cont2, "Outros:", cont3)
#----
fim = time.time()
print("Duração: ", fim - inicio)

Masculino : 12 Feminino: 7 Outros: 1
Duração:  0.00913691520690918


## 3) Dois processamentos na mesma consulta

Este problema requer "dois" processamentos: 1 para exibir a quantidade por gênero e outro para exibir a média das idades por gênero.

### 3a) Usando Agrupamento

In [12]:
inicio = time.time()
#---
print(funciona.groupby("Genero")["Genero"].count())
print(funciona.groupby("Genero")["Idade_Anos"].mean())
#---
fim = time.time()
print("Duração: ", fim - inicio)

Genero
F     7
M    12
O     1
Name: Genero, dtype: int64
Genero
F    51.285714
M    41.833333
O    33.000000
Name: Idade_Anos, dtype: float64
Duração:  0.012562274932861328


### 3b) Usando count e mean

In [None]:
inicio = time.time()
#---
cont1 = funciona["Genero"][funciona["Genero"]=="M"].count()
cont2 = funciona["Genero"][funciona["Genero"]=="F"].count()
cont3 = funciona["Genero"][funciona["Genero"]=="O"].count()
#............
med1 = funciona["Idade_Anos"][funciona["Genero"]=="M"].mean()
med2 = funciona["Idade_Anos"][funciona["Genero"]=="F"].mean()
med3 = funciona["Idade_Anos"][funciona["Genero"]=="O"].mean()
#...........
print("Masculino :", cont1, "Feminino:", cont2, "Outros:", cont3)
print("Id.Media Masculino:", med1)
print("Id.Media Feminino:", med2)
print("Id.Media Outros:", med3)
#---
fim = time.time()
print("Duração: ", fim - inicio)

Masculino : 12 Feminino: 7 Outros: 1
Id.Media Masculino: 41.833333333333336
Id.Media Feminino: 51.285714285714285
Id.Media Outros: 33.0
Duração:  0.0032968521118164062


### 3c) Usando iteração

In [None]:
inicio = time.time()
#----
cont1=0
cont2=0
cont3=0
sid1=0
sid2=0
sid3=0
for ind, func in funciona.iterrows():
  if func.Genero == "M":
    cont1=cont1+1
    sid1=sid1+func.Idade_Anos
  elif func.Genero =="F":
    cont2 = cont2+1
    sid2=sid2+func.Idade_Anos
  else:
    cont3 = cont3 + 1
    sid3=sid3+func.Idade_Anos
print("Masculino :", cont1, "Feminino:", cont2, "Outros:", cont3)
if (cont1>0):
  print("Id.Media Masculino:", sid1/cont1)
if (cont2>0):
  print("Id.Media Feminino:", sid2/cont2)
if (cont3>0):
  print("Id.Media Outros:", sid3/cont3)
#----
fim = time.time()
print("Duração: ", fim - inicio)

Masculino : 12 Feminino: 7 Outros: 1
Id.Media Masculino: 41.833333333333336
Id.Media Feminino: 51.285714285714285
Id.Media Outros: 33.0
Duração:  0.0032439231872558594


## 4) Tabela maior (Restaurante)

In [13]:
import pandas as pd 
#https://drive.google.com/file/d/1o8hOIzSbFeBMue5iM_x8dl26mLfrkHbh/view?usp=sharing
codigo = "1o8hOIzSbFeBMue5iM_x8dl26mLfrkHbh"
file = "https://drive.google.com/u/3/uc?id=" + codigo + "&export=download"
restau = pd.read_csv(file, sep = ";")
print(restau)

     TotalConta  Gorjeta       Sexo Fumante   DiaSem Horario  Tamanho
0         16.99     1.01   Feminino     Não  Domingo  Jantar        2
1         10.34     1.66  Masculino     Não  Domingo  Jantar        3
2         21.01     3.50  Masculino     Não  Domingo  Jantar        3
3         23.68     3.31  Masculino     Não  Domingo  Jantar        2
4         24.59     3.61   Feminino     Não  Domingo  Jantar        4
..          ...      ...        ...     ...      ...     ...      ...
239       29.03     5.92  Masculino     Não   Sábado  Jantar        3
240       27.18     2.00   Feminino     Sim   Sábado  Jantar        2
241       22.67     2.00  Masculino     Sim   Sábado  Jantar        2
242       17.82     1.75  Masculino     Não   Sábado  Jantar        2
243       18.78     3.00   Feminino     Não   Quinta  Jantar        2

[244 rows x 7 columns]


### 4a) Usando Agrupamento

In [None]:
inicio = time.time()
#---
print(restau.groupby("Sexo")["Sexo"].count())
print(restau.groupby("Sexo")["TotalConta"].mean())
#---
fim = time.time()
print("Duração: ", fim - inicio)

Sexo
Feminino      87
Masculino    157
Name: Sexo, dtype: int64
Sexo
Feminino     18.056897
Masculino    20.744076
Name: TotalConta, dtype: float64
Duração:  0.0038640499114990234


### 4b) Usando count e mean

In [None]:
inicio = time.time()
#---
cont1 = restau["Sexo"][restau["Sexo"]=="Masculino"].count()
cont2 = restau["Sexo"][restau["Sexo"]=="Feminino"].count()
#............
med1 = restau["TotalConta"][restau["Sexo"]=="Masculino"].mean()
med2 = restau["TotalConta"][restau["Sexo"]=="Feminino"].mean()
#...........
print("Masculino :", cont1, "Feminino:", cont2)
print("Conta Media Masculino:", med1)
print("Conta Media Feminino:", med2)
#---
fim = time.time()
print("Duração: ", fim - inicio)

Masculino : 157 Feminino: 87
Conta Media Masculino: 20.744076433121034
Conta Media Feminino: 18.056896551724137
Duração:  0.002736806869506836


### 4c) Usando iteração

In [None]:
inicio = time.time()
#----
cont1=0
cont2=0
sid1=0
sid2=0

for ind, cli in restau.iterrows():
  if cli.Sexo == "Masculino":
    cont1=cont1+1
    sid1=sid1+cli.TotalConta
  else:
    cont2 = cont2+1
    sid2=sid2+cli.TotalConta
print("Masculino :", cont1, "Feminino:", cont2)
if (cont1>0):
  print("Conta Media Masculino:", sid1/cont1)
if (cont2>0):
  print("Conta Media Feminino:", sid2/cont2)
#----
fim = time.time()
print("Duração: ", fim - inicio)

Masculino : 157 Feminino: 87
Conta Media Masculino: 20.744076433121034
Conta Media Feminino: 18.056896551724137
Duração:  0.027404308319091797


## 5) Tabela maior (Netflix)


In [None]:
import time
import pandas as pd 
#https://drive.google.com/file/d/1WDuF8ZLcTKwipDzrMgNvFuzsUaBqV2Zk/view?usp=sharing
codigo = "1WDuF8ZLcTKwipDzrMgNvFuzsUaBqV2Zk"
file = "https://drive.google.com/u/3/uc?id=" + codigo + "&export=download"
net = pd.read_csv(file, sep = ";")
net.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6234 entries, 0 to 6233
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       6234 non-null   int64 
 1   type          6234 non-null   object
 2   title         6234 non-null   object
 3   director      4265 non-null   object
 4   cast          5664 non-null   object
 5   country       5758 non-null   object
 6   date_added    6223 non-null   object
 7   release_year  6234 non-null   int64 
 8   rating        6224 non-null   object
 9   duration      6234 non-null   object
 10  listed_in     6234 non-null   object
 11  description   6234 non-null   object
dtypes: int64(2), object(10)
memory usage: 584.6+ KB


### 5a) Usando agrupamento

In [None]:
inicio = time.time()
#---
print(net.groupby("type")["type"].count())
#---
fim = time.time()
print("Duração: ", fim - inicio)


type
Movie      4265
TV Show    1969
Name: type, dtype: int64
Duração:  0.0030431747436523438


### 5b) Count

In [None]:
inicio = time.time()
#---
cont1 = net["type"][net["type"]=="Movie"].count()
cont2 = net["type"][net["type"]=="TV Show"].count()
#...........
print("Movie :", cont1, "TV Show:", cont2)
#---
fim = time.time()
print("Duração: ", fim - inicio)

Movie : 4265 TV Show: 1969
Duração:  0.0032036304473876953


### 5c) Usando Iteracao

In [None]:
inicio = time.time()
#----
cont1=0
cont2=0
for ind, filme in net.iterrows():
  if filme.type == "Movie":
    cont1=cont1+1
  else:
    cont2 = cont2 + 1
#...........
print("Movie :", cont1, "TV Show:", cont2)
#----
fim = time.time()
print("Duração: ", fim - inicio)

Movie : 4265 TV Show: 1969
Duração:  0.5487890243530273


## Extra (index)

Outra forma de "iterar" sobre a tabela com o "`for in`" é o usar o atributo "`index`". Vide abaixo.

In [None]:
cont1=0
cont2=0
for ind in net.index:  ## index contém o número da linha
  filme = net.loc[ind]  # -- usa o loc para obter os dados da linha ind
  if filme.type == "Movie":
    cont1=cont1+1
  else:
    cont2 = cont2 + 1
#...........
print("Movie :", cont1, "TV Show:", cont2)
#----
fim = time.time()
print("Duração: ", fim - inicio)

Movie : 4265 TV Show: 1969
Duração:  173.77997827529907


### comparação `index` versus `iterrows`

**A solução com index**

for ind in `net.index`:  
  > filme = net.loc[ind]
  
  > if filme.type == "Movie":

**A solução com iterrows**

for ind, filme in `net.iterrows()`:
  > if filme.type == "Movie":