# WRITING EFFICIENT CODE WITH PANDAS

## CAPÍTULO 1: Selecionando linhas e colunas de forma eficiente

O Pandas tem como função: **otimizar a realização de tarefas dentro do código Python.**

Para comprovar isso, ao longo do resumo utilizaremos da função **`time`** do pacote **`time`** que irá medir o tempo de execução dos códigos.

### time.time( )

In [93]:
import time
#registro do tempo antes da execução do código
start_time=time.time()

#execute a operação 
def is_divisible(x, y):
    if x % y == 0:
        return True
    else:
        return False 
is_divisible(17316,0.3)

#registro do tempo depois da execução do código
end_time=time.time()

print("O resultado foi calculado em {:.6f} segundos".format(end_time-start_time))

O resultado foi calculado em 0.001000 segundos


## iloc[ ] e loc[ ]

**loc[ ]**: selecionar linhas em específico a partir do nome do índice 

**iloc[ ]**:selecionar linhas em específico a partir do número do índice

In [2]:
import pandas as pd
#vamos utilizar de uma base de dados retirada do keggle que traz dados sobre o cátalogo da netflix no ano de 2021
data = pd.read_csv("netflix1.csv")
data.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


### Vamos começar pelo loc [ ]

In [5]:
#a função loc irá selecionar somente a linha chamada através do nome do índice, nesse caso, os números de forma crescente.
data.loc[0]

show_id                           s1
type                           Movie
title           Dick Johnson Is Dead
director             Kirsten Johnson
country                United States
date_added                 9/25/2021
release_year                    2020
rating                         PG-13
duration                      90 min
listed_in              Documentaries
Name: 0, dtype: object

In [96]:
#podemos utilizar um intervalo para selecionar um grupo de linhas
data.loc[0:2]

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"


### E se quisermos o resultado em forma de DataFrame?

In [6]:
#basta colocar só mais 1 par de colchetes
data.loc[[0]]

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries


In [6]:
# para localizar mais de uma linha basta acrescentar dentro dos colchetes o índice desejado
data.loc[[0,19,2]]

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries
19,s3232,Movie,True: Winter Wishes,"Mark Thornton, Todd Kauffman",United States,11/26/2019,2019,TV-Y,46 min,Children & Family Movies
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"


### Agora o iloc[ ]

In [8]:
#ele permite fazer a filtragem através da posição da linha no DataFrame
#nesse caso a posição das linhas corresponde ao mesmo nome das linhas
data.iloc[[1,7,3]]

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
7,s939,Movie,Motu Patlu in the Game of Zones,Suhas Kadav,India,5/1/2021,2019,TV-Y7,87 min,"Children & Family Movies, Comedies, Music & Mu..."
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"


In [103]:
#por intervalo
data.iloc[3092:3095]

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
3092,s4225,Movie,Puriyatha Puthir,Ranjit Jeyakodi,India,1/1/2019,2017,TV-MA,120 min,"International Movies, Thrillers"
3093,s4226,Movie,Taramani,Ram,India,1/1/2019,2017,TV-MA,148 min,"Dramas, Independent Movies, International Movies"
3094,s4243,Movie,Taylor Swift reputation Stadium Tour,Paul Dugdale,United Kingdom,12/31/2018,2018,TV-PG,125 min,Music & Musicals


### LOC x ILOC: quem ganha na eficiência?

In [10]:
#loc
rows=range(0,8000)
loc_start_time=time.time()
data.loc[rows]
loc_end_time=time.time()
print('{}'.format(loc_end_time-loc_start_time))

0.0060002803802490234


In [11]:
#iloc
rows=range(0,8000)
iloc_start_time=time.time()
data.iloc[rows]
iloc_end_time=time.time()
print('{}'.format(iloc_end_time-iloc_start_time))

0.00500035285949707


In [104]:
#diferença de velocidade:
print('a diferença é de: {:.4} %'.format(((loc_end_time-loc_start_time)-(iloc_end_time-iloc_start_time))/(iloc_end_time-iloc_start_time)*100))
print('Conclusão: Como o iloc[ ] aproveita a ordem dos índices que já são ordenados, ele é portanto mais rápido.')

a diferença é de: 20.0 %
Conclusão: Como o iloc[ ] aproveita a ordem dos índices que já são ordenados, ele é portanto mais rápido.


# Outras funções...

### Para selecionar colunas pelo nome:

In [106]:
#para selecionar a coluna por nome, basta adicionar colchetes duplos
data[['title','country','type']]
#atenção este não é a forma mais eficiente!

Unnamed: 0,title,country,type
0,Dick Johnson Is Dead,United States,Movie
1,Ganglands,France,TV Show
2,Midnight Mass,United States,TV Show
3,Confessions of an Invisible Girl,Brazil,Movie
4,Sankofa,United States,Movie
5,The Great British Baking Show,United Kingdom,TV Show
6,The Starling,United States,Movie
7,Motu Patlu in the Game of Zones,India,Movie
8,Je Suis Karl,Germany,Movie
9,Motu Patlu in Wonderland,India,Movie


### Através da função Iloc[ ] é possivel selecionar uma ou várias colunas pelo nome de forma mais eficiente.

**A sintaxe do iloc para esse propósito é simples:**

-denotamos com dois pontos(:) todas as linhas que queremos do DataFrame

-e depois da vírgula, usamos dois pontos(:) seguido do número que representa até que coluna queremos

In [62]:
data.iloc[:,:5]

Unnamed: 0,show_id,type,title,director,country
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States
1,s3,TV Show,Ganglands,Julien Leclercq,France
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil
4,s8,Movie,Sankofa,Haile Gerima,United States
5,s9,TV Show,The Great British Baking Show,Andy Devonshire,United Kingdom
6,s10,Movie,The Starling,Theodore Melfi,United States
7,s939,Movie,Motu Patlu in the Game of Zones,Suhas Kadav,India
8,s13,Movie,Je Suis Karl,Christian Schwochow,Germany
9,s940,Movie,Motu Patlu in Wonderland,Suhas Kadav,India


#### Conclusão: a função loc[  ] funciona melhor para selecionar colunas, enquanto, a função iloc[  ] é melhor para selecionar linhas específicas.

## Selecionando aleatoriamente linhas e colunas de um DataFrame

### Podemos utilizar o pacote Numpy

In [105]:
import numpy as np
nump_start_time=time.time()
data.iloc[np.random.randint(low=0, high=data.shape[0], size=6)]
#atenção essa não é a forma mais eficiente!

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
7968,s4744,TV Show,A Very Secret Service,Not Given,France,7/30/2018,2018,TV-MA,2 Seasons,"International TV Shows, TV Comedies"
7017,s2945,TV Show,Who Killed Malcolm X?,Not Given,United States,2/7/2020,2020,TV-MA,1 Season,"Crime TV Shows, Docuseries"
3735,s5184,Movie,Mubarakan,Anees Bazmee,India,11/5/2017,2017,PG-13,153 min,"Comedies, Dramas, International Movies"
6982,s1642,TV Show,Sugar Rush Christmas,Not Given,United States,11/27/2020,2020,TV-14,2 Seasons,Reality TV
1261,s1348,Movie,Black Beach,Esteban Crespo,Spain,2/3/2021,2020,TV-MA,116 min,"Action & Adventure, International Movies"
3476,s4803,Movie,Zoo,Shlok Sharma,India,7/1/2018,2018,TV-MA,94 min,"Dramas, Independent Movies, International Movies"


### Podemos usar Pandas (mais eficiência)

#### Função:  .sample() 

In [75]:
pandas_start_time=time.time()
data.sample(6,axis=0)
#denotamos quantas amostras queremos obter e o eixo do qual queremos amostrar

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
965,s927,Movie,Au coeur des gangs,Vondie Curtis-Hall,United States,5/1/2021,2006,R,97 min,"Action & Adventure, Dramas"
2049,s2532,Movie,Dilan 1990,"Fajar Bustomi, Pidi Baiq",Indonesia,5/14/2020,2018,TV-14,109 min,"Dramas, International Movies, Romantic Movies"
693,s506,Movie,Therapy,"Anurin Nwunembom, Musing Derrick",Not Given,7/7/2021,2020,TV-PG,85 min,"Dramas, International Movies"
4141,s5796,Movie,The White Helmets,Orlando von Einsiedel,United Kingdom,9/16/2016,2016,TV-PG,41 min,Documentaries
1122,s1146,Movie,At Eternity's Gate,Julian Schnabel,Ireland,3/31/2021,2018,PG-13,111 min,Dramas
3776,s5257,Movie,Out of Thin Air,Dylan Howitt,Not Given,9/29/2017,2017,TV-MA,85 min,"Documentaries, International Movies"


In [76]:
#diferença de velocidade:
print('a diferença é de: {:.4} %'.format(((time.time()-nump_start_time)-(time.time()-pandas_start_time))/(time.time()-pandas_start_time)*100))
print('Conclusão: utilizar Numpy para selecionar linhas e colunas aleatórias é menos eficiente do que usar a função .sample() do pacote pandas')

a diferença é de: 219.0 %
Conclusão: utilizar Numpy para selecionar linhas e colunas aleatórias é menos eficiente do que usar a função .sample() do pacote pandas


## CAPÍTULO 2: Replacing values in a DataFrame

### Substituindo valores dentro do DataFrame:

In [116]:
#podemos usar o .loc[ ] 
import time
start_time = time.time()
data['country'].loc[data.country == 'United States'] = 'banana'
print("O tempo de excecução usando .loc[] é de {} segundos".format(time.time() - start_time))
data.head()

O tempo de excecução usando .loc[] é de 0.07360339164733887 segundos


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)


Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,banana,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,TV Show,Midnight Mass,Mike Flanagan,banana,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,Movie,Sankofa,Haile Gerima,banana,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


##### É a maneira mais eficiente? nãooo!! 

### Podemos usar a função:  .replace( )

In [119]:
start_time2= time.time()
data['listed_in'].replace('Documentaries','Documentario', inplace=True)
print("O tempo de excecução usando .replace() é de {:.6} segundos".format(time.time() - start_time2))

data.head()

O tempo de excecução usando .replace() é de 0.0176001 segundos


Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentario
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


In [120]:
print('A diferença de tempo entre usar replace e não usar é de {:.4}% '.format(((time.time()-start_time)-(time.time()-start_time2))/(time.time()-start_time2)*100))
print('ou de {:.6} segundos'.format((time.time() - start_time)-(time.time() - start_time2)))
print('então é bom usar!')

A diferença de tempo entre usar replace e não usar é de 981.3% 
ou de 64.3845 segundos
então é bom usar!


## E se quisermos substituir vários valores ao mesmo tempo?? 

### utilizaremos o conceito de listas junto a função  `.replace( )` 

In [110]:
data['type'].replace(['Movie','TV Show'],'netflix', inplace=True)
data.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,netflix,Dick Johnson Is Dead,Kirsten Johnson,banana,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,netflix,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,netflix,Midnight Mass,Mike Flanagan,banana,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,netflix,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,netflix,Sankofa,Haile Gerima,banana,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


caso queiramos substituir simultaneamente vários índices por valores distintos entre si (cada entrada com uma saída diferente):

In [112]:
data['country'].replace(['banana','Brazil','France'],['hamburguer','penta','croissant'], inplace=True)
data.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,netflix,Dick Johnson Is Dead,Kirsten Johnson,hamburguer,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,netflix,Ganglands,Julien Leclercq,croissant,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,netflix,Midnight Mass,Mike Flanagan,hamburguer,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,netflix,Confessions of an Invisible Girl,Bruno Garotti,penta,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,netflix,Sankofa,Haile Gerima,hamburguer,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


## E se quisermos usar um método mais eficiente do que o método mais eficiente que vimos acima?

### Usamos os dicionários!!

In [113]:
# em geral trabalhar com dicionários é muito mais eficiente do que trabalhar com listas

In [117]:
data.replace({'country':{'hamburguer':'United States', 'croissant':'France','penta':'Brazil'}})


Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,netflix,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,netflix,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,netflix,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,netflix,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,netflix,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"
5,s9,netflix,The Great British Baking Show,Andy Devonshire,United Kingdom,9/24/2021,2021,TV-14,9 Seasons,"British TV Shows, Reality TV"
6,s10,netflix,The Starling,Theodore Melfi,United States,9/24/2021,2021,PG-13,104 min,"Comedies, Dramas"
7,s939,netflix,Motu Patlu in the Game of Zones,Suhas Kadav,India,5/1/2021,2019,TV-Y7,87 min,"Children & Family Movies, Comedies, Music & Mu..."
8,s13,netflix,Je Suis Karl,Christian Schwochow,Germany,9/23/2021,2021,TV-MA,127 min,"Dramas, International Movies"
9,s940,netflix,Motu Patlu in Wonderland,Suhas Kadav,India,5/1/2021,2013,TV-Y7,76 min,"Children & Family Movies, Music & Musicals"


#### psé, é bem melhor usar pandas.....