Created by **Sebastião Ferreira de Paula Neto**
--

References by [DataCamp](https://learn.datacamp.com/courses/writing-efficient-python-code) e [Pandas](https://pandas.pydata.org/docs/index.html)
--

Neste notebook vamos abordar todo caminho que deve ser percorrido por um cientista de dados quando buscamos otimizar nosso codigo em python.
--

Dessa forma vamos abordar os seguites **tópicos:**

> - Fundamentos de eficiência em pyhton 
> - Tempo e memória de execução
> - Aprefundamento em cases de eficiência
> - Otimização e junção destes conceitos ao `pandas`

---
# TOPIC 1: Fundamentos de eficiência em pyhton 

Para definirmos eficiência levamos em consideração dosi topicos em especial:
> Rápida execução e pequena quantidade de memória.

Para isso foi criada uma seria de ações chamada **"The Zen of Python by Tim Peters"** cujo os principios são:

> - Bonito é melhor do que feio.
> - Explicito é melhor do que implícito.
> - Simples é melhor do que complexo.
> - Complexo é melhor do que complicado.
> - Liso é melhor do que aninhado.
> - O esparso é melhor que o denso.
> - A legibilidade conta.
> - Os casos especiais não são suficientemente especiais para quebrar as regras.
> - Embora a praticabilidade seja melhor que a pureza.
> - Os erros nunca devem passar silenciosamente.
> - A menos que sejam explicitamente silenciados.
> - Perante a ambiguidade, recusar a tentação de adivinhar.

Como exemplo incial, vamos ver 3 situações:
--

In [11]:
# Print the list created using the Non-Pythonic approach
i = 0
names = ['Jerry', 'Kramer', 'Elaine', 'George', 'Newman']
new_list= []
while i < len(names):
    if len(names[i]) >= 6:
        new_list.append(names[i])
    i += 1
print(new_list)

# Print the list created by looping over the contents of names
better_list = []
for name in names:
    if len(name) >= 6:
        better_list.append(name)
print(better_list)

# Print the list created by using list comprehension
best_list = [name for name in names if len(name) >= 6]
print(best_list)

['Kramer', 'Elaine', 'George', 'Newman']
['Kramer', 'Elaine', 'George', 'Newman']
['Kramer', 'Elaine', 'George', 'Newman']


Neste caso, as três formas tiveram as mesmas saidas, mas o que isso pode implicar se pesarmos em um caso macro?
--

Isto que desejamos demostrar neste documento, quando escalonamos nosso código para muitos dados ou muitas ações é desejado que otimizemos isso ao máximo.

> Afinal, "Tempo é dinheiro"

Brincadeiras a parte, iremos mostrar como avaliar a execução do seu codigo e forma de otimiza-lo.  Voltando ao exemplo acima podemos verificar o mesmo codigo de 3 formas diferentes e **por que não otimizado?**

Se olharmos para outras linguagens isso poderia realmente ser um tipo de otimização, mas no `python` essa otimização possui ainda mais ferramentas para garantir a maxima otimização. Para isso contamos com 3 funções nativas do python que nos ajuda a ser as **"The Zen of Python by Tim Peters"** e garantir uma melhor eficiência:

> - `range()`:  a função range cria uma sequência de números.
> - `enumerate()`: Como o própio nome diz, enumera um conjunto de dados, ou seja indexa.
> - `map()`: Aplica uma função a um conjunto de dados.

Vamos a alguns exemplos:
--

In [26]:
# Create a range object that goes from 0 to 5
nums = range(6)
print(type(nums),"\n")

# Convert nums to a list
nums_list = list(nums)
print(nums_list,'\n')

# Create a new list of odd numbers from 1 to 11 by unpacking a range object
nums_list2 = [*range(1,12,2)]
print(nums_list2)

<class 'range'> 

[0, 1, 2, 3, 4, 5] 

[1, 3, 5, 7, 9, 11]


In [12]:
# Rewrite the for loop to use enumerate
indexed_names = []
for i,name in enumerate(names):
    index_name = (i,name)
    indexed_names.append(index_name) 
print(indexed_names)

# Rewrite the above for loop using list comprehension
indexed_names_comp = [(i,name) for i,name in enumerate(names)]
print(indexed_names_comp)

# Unpack an enumerate object with a starting index of one
indexed_names_unpack = [*enumerate(names, 1)]
print(indexed_names_unpack)

[(0, 'Jerry'), (1, 'Kramer'), (2, 'Elaine'), (3, 'George'), (4, 'Newman')]
[(0, 'Jerry'), (1, 'Kramer'), (2, 'Elaine'), (3, 'George'), (4, 'Newman')]
[(1, 'Jerry'), (2, 'Kramer'), (3, 'Elaine'), (4, 'George'), (5, 'Newman')]


In [13]:
# Use map to apply str.upper to each element in names
names_map  = map(str.upper, names)

# Print the type of the names_map
print(type(names_map),'\n')

# Unpack names_map into a list
names_uppercase = [*names_map]

# Print the list created above
print(names_uppercase)

<class 'map'>
['JERRY', 'KRAMER', 'ELAINE', 'GEORGE', 'NEWMAN']


In [25]:
import numpy as np
nums = np.array([[ 1,  2,  4,  4,  5],
                 [ 6,  7,  8,  9, 10]])

# Print second row of nums
print(nums[1,:], "\n")

# Print all elements of nums that are greater than six
print(nums[nums > 6],"\n")

# Double every element of nums
nums_dbl = nums * 2
print(nums_dbl,"\n")

# Replace the third column of nums
nums[:,2] = nums[:,2] + 1
print(nums,"\n")

[ 6  7  8  9 10] 

[ 7  8  9 10] 

[[ 2  4  8  8 10]
 [12 14 16 18 20]] 

[[ 1  2  5  4  5]
 [ 6  7  9  9 10]] 



---
# TÓPICO 2: Tempo e memória de execução

Neste tópico vamos demonstrar formas de examinar o seu código e para isso vamos divir esse tópico em três sessões:
> - Tempo de execução
> - Proffiling codes
> - Proffiling codes para uso de mémoria

Runing time
--

Nesta sessão vamos utilizar funções nativas do python de verificação tempo de execução, em algumas IDE's ja vem de forma visual, mas em consoles é ncessários força-las para verificação.

Para conhecer mais sobre estas funções sugiro buscar mais fundo na documentação, acessando ao [link](https://ipython.readthedocs.io/en/stable/interactive/magics.html).

Vamos à alguns exemplos:
--


In [5]:
# Create a list of integers (0-50) using list comprehension
%timeit nums_list_comp = [num for num in range(51)]

# Create a list of integers (0-50) by unpacking range
%timeit nums_unpack = [*range(51)]

1.86 µs ± 13.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
657 ns ± 44.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [1]:
# formal name  <>  literal syntax
%timeit -r5 -n25 formal=list()

%timeit -r5 -n25 literal=[]

114 ns ± 25.9 ns per loop (mean ± std. dev. of 5 runs, 25 loops each)
150 ns ± 245 ns per loop (mean ± std. dev. of 5 runs, 25 loops each)


Proffiling code
--

Nesta etapa relizamos algumas analises pontuais e ela tem carecter de macro para micro, ou sejas:

> - Análises linha a linha
> - Estatísticas detalhadas sobre a frequência e duração das chamadas de funções 
> - Pack utilizado: line_profiler

Para isso precissamos baixar o pack, para isso execute no seu console a seguinte rotina:

`pip install line_profiler`
--

Para executar o `line_profiler`executamos:

In [27]:
%load_ext line_profiler

The line_profiler extension is already loaded. To reload it, use:
  %reload_ext line_profiler


In [35]:
heroes = ['Batman','Superman','Wonder Woman']
hts = np.array([188.0, 191.0, 183.0])
wts = np.array([ 95.0, 101.0, 74.0])

In [36]:
def convert_units(heroes, heights, weights):

    new_hts = [ht * 0.39370  for ht in heights]
    new_wts = [wt * 2.20462  for wt in weights]

    hero_data = {}

    for i,hero in enumerate(heroes):
        hero_data[hero] = (new_hts[i], new_wts[i])

    return hero_data

%lprun -f convert_units convert_units(heroes, hts, wts)

Timer unit: 1e-07 s

Total time: 2.99e-05 s
File: <ipython-input-36-5e554e3ac995>
Function: convert_units at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
     1                                           def convert_units(heroes, heights, weights):
     2                                           
     3         1        149.0    149.0     49.8      new_hts = [ht * 0.39370  for ht in heights]
     4         1         51.0     51.0     17.1      new_wts = [wt * 2.20462  for wt in weights]
     5                                           
     6         1         10.0     10.0      3.3      hero_data = {}
     7                                           
     8         4         48.0     12.0     16.1      for i,hero in enumerate(heroes):
     9         3         33.0     11.0     11.0          hero_data[hero] = (new_hts[i], new_wts[i])
    10                                           
    11         1          8.0      8.0      2.7      return hero_data

Realizando alguma das otimizações mostradas podemos verificar novamente a redução do tempo de execução, com abaixo:
--

In [30]:
def convert_units_broadcast(heroes, heights, weights):

    # Array broadcasting instead of list comprehension
    new_hts = heights * 0.39370
    new_wts = weights * 2.20462

    hero_data = {}

    for i,hero in enumerate(heroes):
        hero_data[hero] = (new_hts[i], new_wts[i])

    return hero_data

%lprun -f convert_units convert_units(heroes, hts, wts)

Timer unit: 1e-07 s

Total time: 2.48e-05 s
File: <ipython-input-29-5e554e3ac995>
Function: convert_units at line 1

Line #      Hits         Time  Per Hit   % Time  Line Contents
     1                                           def convert_units(heroes, heights, weights):
     2                                           
     3         1        127.0    127.0     51.2      new_hts = [ht * 0.39370  for ht in heights]
     4         1         40.0     40.0     16.1      new_wts = [wt * 2.20462  for wt in weights]
     5                                           
     6         1          8.0      8.0      3.2      hero_data = {}
     7                                           
     8         4         38.0      9.5     15.3      for i,hero in enumerate(heroes):
     9         3         29.0      9.7     11.7          hero_data[hero] = (new_hts[i], new_wts[i])
    10                                           
    11         1          6.0      6.0      2.4      return hero_data

Proffiling codes para uso de memoria
--


A verificação do uso de memória referece diretamente com a otimização, pois se está gastando menos memória teremos uma melhor execução e uma maior velocidade. Será verdade esta afirmação?

Podemos fazer a verificação de uso de memória por duas maneiras, ou pontualmente ou com `memory_profiler`. Dessa maneira vamos verificar a forma pontual.

`pip instal memory_profiler`
--

Pontual
--

In [31]:
import sys

In [32]:
# Primeira forma
nums_list = [*range(1000)]
print(sys.getsizeof(nums_list),"\n")

# Segunda Forma
nums_np = np.array(range(1000))
print(sys.getsizeof(nums_np))

9112 

4096


memory_profiler
--

vai detalhar pontamente seu codigo com uso de memoria, ou seja:

> - Estatísticas detalhadas sobre o consumo de memória
> - Análises linha a linha

In [33]:
# carregando o memory profiler
%load_ext memory_profiler

In [37]:
# executando com uma função ja inicializado no console
%mprun -f convert_units convert_units(heroes, hts, wts)

ERROR: Could not find file <ipython-input-36-5e554e3ac995>
NOTE: %mprun can only be used on functions defined in physical files, and not in the IPython environment.





---
# TOPIC 3: Efficiente combinação, contagem e iteração

Existem muitas formas de realizar essas otimizações e as bibliotecas e ate metodos primitivos do python nos ajudam a atingir essas espectativas para isso temos: 
 - Tipos de dados especializados de contentores
 > - Alternativas a ditar de propósito geral, listar, definir, e tuple
 - Notável:
> - `namedtuple` : subclasses tuple com campos de nomes
> - `deque` : contendor tipo lista com rápidos `append`s e `pop`s
> - `counter` : ditado para a contagem de objectos hashable
> - `OrderedDict` : dict que mantém a ordem das entradas
> - `defaultdict` : dict que chama uma factory function para fornecer valores em falta


Primeiramente vamos falar sobre as otimizações referentes a contagem.
--


Neste etapa podemos ter como ferramentas para criar e usar iteração e elas são divididas em 3 topicos :
> - **inifinte itarators:** `count`, `cycle`, `repeat`
> - **finite itarators:** `accumulate`, `chain`, `zip_longest`, entre outros
> - **combinations generators:** `product`, `permuttations`, `combinations`

Agregando e combinando
--

In [45]:
names = ['Abomasnow', 'Abra', 'Absol', 'Accelgor', 'Aerodactyl']
primary_types = ['Grass', 'Psychic', 'Dark', 'Bug', 'Rock']
secondary_types = ['Ice', np.nan, np.nan, np.nan, 'Flying']

In [42]:
# Combine names and primary_types
names_type1 = [*zip(names,primary_types)]

print(*names_type1[:5], sep='\n')

('Abomasnow', 'Grass')
('Abra', 'Psychic')
('Absol', 'Dark')
('Accelgor', 'Bug')
('Aerodactyl', 'Rock')


In [43]:
# Combine all three lists together
names_types = [*zip(names, primary_types, secondary_types)]

print(*names_types[:5], sep='\n')

('Abomasnow', 'Grass', 'Ice')
('Abra', 'Psychic', nan)
('Absol', 'Dark', nan)
('Accelgor', 'Bug', nan)
('Aerodactyl', 'Rock', 'Flying')


In [44]:
# Combine five items from names and three items from primary_types
differing_lengths = [*zip(names[:4],primary_types[:3])]

print(*differing_lengths, sep='\n')

('Abomasnow', 'Grass')
('Abra', 'Psychic')
('Absol', 'Dark')


Combinations
--

In [47]:
# Import combinations from itertools
from itertools import combinations

# Create a combination object with pairs of Pokémon
combos_obj = combinations(names, 2)
print(type(combos_obj), '\n')

# Convert combos_obj to a list by unpacking
combos_2 = [*combos_obj]
print(combos_2, '\n')

# Collect all possible combinations of 4 Pokémon directly into a list
combos_4 = [*combinations(names, 4)]
print(combos_4)

<class 'itertools.combinations'> 

[('Abomasnow', 'Abra'), ('Abomasnow', 'Absol'), ('Abomasnow', 'Accelgor'), ('Abomasnow', 'Aerodactyl'), ('Abra', 'Absol'), ('Abra', 'Accelgor'), ('Abra', 'Aerodactyl'), ('Absol', 'Accelgor'), ('Absol', 'Aerodactyl'), ('Accelgor', 'Aerodactyl')] 

[('Abomasnow', 'Abra', 'Absol', 'Accelgor'), ('Abomasnow', 'Abra', 'Absol', 'Aerodactyl'), ('Abomasnow', 'Abra', 'Accelgor', 'Aerodactyl'), ('Abomasnow', 'Absol', 'Accelgor', 'Aerodactyl'), ('Abra', 'Absol', 'Accelgor', 'Aerodactyl')]


Counter
--

In [40]:
# Import metod
from collections import Counter

# Collect the count of primary types
type_count = Counter(primary_types)
print(type_count, '\n')

# Use list comprehension to get each Pokémon's starting letter
starting_letters = [name[0] for name in names]

# Collect the count of Pokémon for each starting_letter
starting_letters_count = Counter(starting_letters)
print(starting_letters_count)

Counter({'Grass': 1, 'Psychic': 1, 'Dark': 1, 'Bug': 1, 'Rock': 1}) 

Counter({'A': 5})


`set` e suas possibilidades
--
Quando pensamos em Set muitas vezes esbarramos na teoria de conjuntos, podemos dizer ate mesmo da linguagem SQL. Python tem incorporado nativamente como:

> - `intersection()` : todos os elementos que estão em ambos os conjuntos
> - `difference()` : todos os elementos de um conjunto mas não do outro simétrico
> - `symmetrics_difference()` : todos os elementos num só conjunto
> - `union()` : todos os elementos que estão em qualquer um dos conjuntos

Testes rápidos de adesão, para isso utilizamos o operador `in` e `not in`.
--

Logo vamos à alguns testes, assim iniciando os dados para testes.

In [60]:
ash_pokedex = ['Pikachu', 'Bulbasaur', 'Koffing', 'Spearow', 'Vulpix', 'Wigglytuff', 'Zubat', 'Rattata', 'Psyduck', 'Squirtle'] 

misty_pokedex =  ['Krabby', 'Horsea', 'Slowbro', 'Tentacool', 'Vaporeon', 'Magikarp', 'Poliwag', 'Starmie', 'Psyduck', 'Squirtle']
    
brock_pokedex = ['Tauros', 'Omastar', 'Geodude', 'Vulpix', 'Kabutops', 'Dugtrio', 'Golem', 'Zubat', 'Onix', 'Machop']

names = ['Milotic', 'Buizel', 'Frogadier', 'Ledyba', 'Articuno', 'Onix', 'Haxorus',
         'Minccino', 'Sceptile', 'MeowsticMale', 'Grovyle', 'Spritzee', 
         'Goodra', 'Hippopotas', 'Salamence', 'Vespiquen', 'Ho-oh', 'WormadamTrash Cloak',
         'Electrike', 'Minun', 'Ivysaur', 'Wingull']

generations = [2, 4, 4, 4, 3, 5, 4, 1, 5, 3, 3, 5, 4, 1, 6, 3, 5, 3, 4, 2, 3, 1, 3, 6, 3, 5, 5, 1, 3, 1, 6, 1, 1, 3, 
               5, 3, 5, 2, 3, 3, 1, 6, 1, 5, 6, 4, 6, 5, 3, 4, 1, 3, 6, 6, 5, 3, 3]

In [50]:
# Convert both lists to sets
ash_set = set(ash_pokedex)
misty_set = set(misty_pokedex)

# Find the Pokémon that exist in both sets
both = ash_set.intersection(misty_set)
print(both,'\n')

# Find the Pokémon that Ash has and Misty does not have
ash_only = ash_set.difference(misty_set)
print(ash_only,'\n')

# Find the Pokémon that are in only one set (not both)
unique_to_set = ash_set.symmetric_difference(misty_set)
print(unique_to_set,'\n')

{'Squirtle', 'Psyduck'} 

{'Wigglytuff', 'Pikachu', 'Spearow', 'Koffing', 'Zubat', 'Bulbasaur', 'Rattata', 'Vulpix'} 

{'Wigglytuff', 'Pikachu', 'Horsea', 'Starmie', 'Spearow', 'Poliwag', 'Koffing', 'Magikarp', 'Vaporeon', 'Zubat', 'Tentacool', 'Bulbasaur', 'Krabby', 'Rattata', 'Slowbro', 'Vulpix'} 



In [51]:
# Convert Brock's Pokédex to a set
brock_pokedex_set = set(brock_pokedex)
print(brock_pokedex_set,'\n')

# Check if Psyduck is in Ash's list and Brock's set
print('Psyduck' in ash_pokedex,'\n')
print('Psyduck' in brock_pokedex_set,'\n')

# Check if Machop is in Ash's list and Brock's set
print('Machop' in ash_pokedex,'\n')
print('Machop' in brock_pokedex_set,'\n')

{'Geodude', 'Golem', 'Tauros', 'Omastar', 'Machop', 'Onix', 'Zubat', 'Kabutops', 'Dugtrio', 'Vulpix'} 

True 

False 

False 

True 



In [56]:
# def
def find_unique_items(data):
    uniques = []

    for item in data:
        if item not in uniques:
            uniques.append(item)

    return uniques

# Use find_unique_items() to collect unique Pokémon names
uniq_names_func = find_unique_items(names)
print(len(uniq_names_func))

# Convert the names list to a set to collect unique Pokémon names
uniq_names_set = set(names)
print(len(uniq_names_set))

# Check that both unique collections are equivalent
print(sorted(uniq_names_func) == sorted(uniq_names_set))

# Use the best approach to collect unique primary types and generations
uniq_types = set(primary_types) 
uniq_gens = set(generations)
print(uniq_types, uniq_gens, sep='\n') 

22
22
True
{'Psychic', 'Rock', 'Bug', 'Grass', 'Dark'}
{1, 2, 3, 4, 5, 6}


CUIDADO com os Loops
--

Os loop são os ladrões de eficiência do seu código, embora ele seja inevitáveis em muitas etapas também é possivel reduzir a carga de memória solicitada por eles. Um dos exemplos é retirar calculos simples de dentro do loop.



In [3]:
poke_names = ['Abomasnow', 'Abra', 'Absol', 'Accelgor', 'Aerodactyl', 'Aggron', 'Aipom', 'Alakazam', 'Alomomola', 'Altaria', 'Amaura', 'Ambipom', 'Amoonguss', 'Ampharos', 'Anorith', 'Arbok', 'Arcanine', 'Arceus', 'Archen', 'Archeops', 'Ariados', 'Armaldo', 'Aromatisse', 'Aron', 'Articuno', 'Audino', 'Aurorus', 'Avalugg', 'Axew', 'Azelf', 'Azumarill', 'Azurill', 'Bagon', 'Baltoy', 'Banette', 'Barbaracle', 'Barboach', 'Basculin', 'Bastiodon']

poke_gens = [4, 1, 3, 5, 1, 3, 2, 1, 5, 3, 6, 4, 5, 2, 3, 1, 1, 4, 5, 5, 2, 3, 6, 3, 1, 5, 6, 6, 5, 4, 2, 3, 3, 3, 3, 6, 3, 5, 4, 2, 5, 3, 1, 5, 3, 2, 1, 6, 4, 4, 6, 5, 1, 3, 2, 5, 5, 4, 5, 6, 5, 3, 4, 4, 4, 4, 1, 4, 6, 4, 1, 3, 3, 3, 6,]

poke_types = pokemon_types = ['Bug', 'Dark', 'Dragon', 'Electric', 'Fairy', 'Fighting', 'Fire', 'Flying', 'Ghost', 'Grass', 'Ground', 'Ice', 'Normal', 'Poison', 'Psychic', 'Rock', 'Steel', 'Water']

Eliminando loops com built-in
--

In [5]:
# Nested for loop approach
combos = []
for x in poke_types:
    for y in poke_types:
        if x == y:
            continue
        if ((x,y) not in combos) & ((y,x) not in combos):
            combos.append((x,y))
print(combos[:10],'\n')

---------------------------------------------------------------------------------------------------

# Built-in module approach
from itertools import combinations
combos2 = [*combinations(poke_types, 2)]

print(combos2[:10],'\n')

[('Bug', 'Dark'), ('Bug', 'Dragon'), ('Bug', 'Electric'), ('Bug', 'Fairy'), ('Bug', 'Fighting'), ('Bug', 'Fire'), ('Bug', 'Flying'), ('Bug', 'Ghost'), ('Bug', 'Grass'), ('Bug', 'Ground')] 

[('Bug', 'Dark'), ('Bug', 'Dragon'), ('Bug', 'Electric'), ('Bug', 'Fairy'), ('Bug', 'Fighting'), ('Bug', 'Fire'), ('Bug', 'Flying'), ('Bug', 'Ghost'), ('Bug', 'Grass'), ('Bug', 'Ground')] 



Como escrever melhores loop
--

Para que você consiga escrever melhores loops é desejado que você saiba alguns topicos como:
> - Entenda a diferença de cada loop
> - Mova para fora do loop calculos
> - utilize conversões holisticas fora do loop
> - Ou seja, realize tudo que der fora do loop, e teste o que funcione, assim aumentara a sua eficiencia

In [71]:
# Collect all possible pairs using combinations()
possible_pairs = [*combinations(pokemon_types, 2)]

# Create an empty list called enumerated_tuples
enumerated_tuples = []

# Append each enumerated_pair_tuple to the empty list above
for i,pair in enumerate(possible_pairs, 1):
    enumerated_pair_tuple = (i,) + pair
    enumerated_tuples.append(enumerated_pair_tuple)

# Convert all tuples in enumerated_tuples to a list
enumerated_pairs = [*map(list, enumerated_tuples)]
print(enumerated_pairs[:10])

[[1, 'Bug', 'Dark'], [2, 'Bug', 'Dragon'], [3, 'Bug', 'Electric'], [4, 'Bug', 'Fairy'], [5, 'Bug', 'Fighting'], [6, 'Bug', 'Fire'], [7, 'Bug', 'Flying'], [8, 'Bug', 'Ghost'], [9, 'Bug', 'Grass'], [10, 'Bug', 'Ground']]


In [68]:
#define var
hps =np.array([80.0, 60.0, 131.0, 62.0, 71.0, 109.0, 45.0, 53.0, 73.0,60.0, 37.0, 63.0, 59.0, 84.0, 25.0, 50.0, 98.0, 116.0, 29.0, 85.0, 43.0, 46.0, 46.0, 57.0, 94.0, 87.0, 70.0, 59.0, 68.0, 65.0, 89.0, 52.0])

# Calculate the total HP avg and total HP standard deviation
hp_avg = hps.mean()
hp_std = hps.std()

# Use NumPy to eliminate the previous for loop
z_scores = (hps - hp_avg)/hp_std

# Combine names, hps, and z_scores
poke_zscores2 = [*zip(names, hps, z_scores)]
print(*poke_zscores2[:3], sep='\n')

# Use list comprehension with the same logic as the highest_hp_pokemon code block
highest_hp_pokemon2 = [(name, hp, zscore) for name,hp,zscore in poke_zscores2 if zscore > 2]
print(*highest_hp_pokemon2, sep='\n')

('Milotic', 80.0, 0.5080442165505977)
('Buizel', 60.0, -0.3172052722625559)
('Frogadier', 131.0, 2.6124304130241396)
('Frogadier', 131.0, 2.6124304130241396)


---

# TOPIC 4: otimização em pandas

`Pandas` é uma biblioteca para análise de dados vinculada ao `python`. Esta biblioteca estrutura os dados com varias injestões de dados, muita usada por cientista de dados para manipulação dos dados.

Mas, você saberria otimizar o uso deste?
--

É o que vamos mostrar neste tópico, onde abordaremos:
> - iterações com `.interrow()`
> - iterações com `.intertuple()`
> - formas alternativas de usar os loops
> - atigindo a ótima iteração 

Para isso vamos iniciar um arquivo que iremos utilizar em todo este tópico:

In [7]:
import pandas as pd

df =pd.read_csv('https://assets.datacamp.com/production/repositories/3581/datasets/779033fb8fb5021aee9ff46253980abcbc5851f3/baseball_stats.csv')
df

Unnamed: 0,Team,League,Year,RS,RA,W,OBP,SLG,BA,Playoffs,RankSeason,RankPlayoffs,G,OOBP,OSLG
0,ARI,NL,2012,734,688,81,0.328,0.418,0.259,0,,,162,0.317,0.415
1,ATL,NL,2012,700,600,94,0.320,0.389,0.247,1,4.0,5.0,162,0.306,0.378
2,BAL,AL,2012,712,705,93,0.311,0.417,0.247,1,5.0,4.0,162,0.315,0.403
3,BOS,AL,2012,734,806,69,0.315,0.415,0.260,0,,,162,0.331,0.428
4,CHC,NL,2012,613,759,61,0.302,0.378,0.240,0,,,162,0.335,0.424
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1227,PHI,NL,1962,705,759,81,0.330,0.390,0.260,0,,,161,,
1228,PIT,NL,1962,706,626,93,0.321,0.394,0.268,0,,,161,,
1229,SFG,NL,1962,878,690,103,0.341,0.441,0.278,1,1.0,2.0,165,,
1230,STL,NL,1962,774,664,84,0.335,0.394,0.271,0,,,163,,


Começando pelo `.iterrows()`
--
O `.interrows()` é utilizado para retornar uma serie para cada linha, e não há a preservação de tipos entre linhas.
----

> Você nunca deve modificar algo sobre o qual está iterando. Não é garantido que funcione em todos os casos. Dependendo dos tipos de dados, o iterador retorna uma cópia e não uma visualização, e a gravação nele não terá efeito.

In [21]:
import numpy as np

# otimizando o calculo do percentual
def calc_win_perc(wins, games_played):
    win_perc = wins / games_played
    return np.round(win_perc,2)

#  calculando o valor de percentual de vitorias
win_perc_list = []
for i,row in df.iterrows():
    wins = row['W']
    games_played = row['G']
    win_perc = calc_win_perc(wins, games_played)
    win_perc_list.append(win_perc)

df['WP'] = win_perc_list

df.WP.head()

0    0.50
1    0.58
2    0.57
3    0.43
4    0.38
Name: WP, dtype: float64

---
`.intertuples()`
--

Para uso do `.intertuples()` garante a preservação dos tipos das variaveis e é ainda mais rapido que o `.interrows()`.
---

> Os nomes das colunas serão renomeados para nomes posicionais se forem identificadores Python inválidos, repetidos ou iniciados com um sublinhado. 


In [None]:
# Loop over the DaaFrame and print each row
for row in df.itertuples():
    print(row)

In [None]:
# Loop over the DataFrame and print each row's Index, Year and Wins (W)
for row in df.itertuples():
    i = row.Index
    year = row.Year
    wins = row.W
    print(i, year, wins)
    
# Check if rangers made Playoffs (1 means yes; 0 means no)
if row.Playoffs == 1:
    print(i, year, wins)

`.items()`
--
Também existe a função `.items()` que itera sobre as colunas DataFrame, retornando uma tupla com o nome da coluna e o conteúdo como uma série.


Formas alternativas de realizar o looping no pandas
--

Como melhor alternativa temos o metodo `.apply()` que faz papel similar ao metodo `.map()`.
--

`DataFrame.apply( func , axis = 0 , raw = False , result_type = None , args = () , ** kwds)`

Os objetos passados para a função são objetos Series cujo índice é o índice do DataFrame ( `axis=0`) ou as colunas do DataFrame ( `axis=1`). Por default ( `result_type=None`), o tipo de retorno final é inferido do tipo de retorno da função aplicada. Caso contrário, depende do argumento `result_type` .

In [33]:
def calc_run_diff(runs_scored, runs_allowed):
    run_diff = runs_scored - runs_allowed
    return run_diff

In [36]:
%%timeit
run_diffs_apply =df.apply(
            lambda row: calc_run_diff(row['RS'], row['RA']),
            axis=1)
df['RD'] = run_diffs_apply

18.6 ms ± 584 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Assim finalizamos os aprendizados referetens a otimização dos códigos referenste a otimização de códigos em python.
--