## Tips and Tricks

#### Pandas tem diversas outras funcionalidades, e ainda podemos combinar mais de uma delas juntas pra obter diferentes resultados.,,

Nessa parte, vamos passar por algumas que se mostram bem úteis ao longo dos trabalhos de análise e processamento de dados...



In [1]:
#Primeiro, carregamos as bibliotecas:
import numpy as np
import pandas as pd

In [61]:
#Vamos aproveitar o mesmo dataset que utilizamos antes, o famoso IRIS_DATA
from sklearn.datasets import load_iris
iris = load_iris()
df = pd.DataFrame(np.concatenate((iris.data, np.array([iris.target]).T), axis=1), columns=iris.feature_names + ['target'])

df.tail(6)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
144,6.7,3.3,5.7,2.5,2.0
145,6.7,3.0,5.2,2.3,2.0
146,6.3,2.5,5.0,1.9,2.0
147,6.5,3.0,5.2,2.0,2.0
148,6.2,3.4,5.4,2.3,2.0
149,5.9,3.0,5.1,1.8,2.0


In [3]:
#Usualmente, nas primeiras etapas, queremos conhecer nossos dados, então é muito comum rodas as sequintes funções:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
sepal length (cm)    150 non-null float64
sepal width (cm)     150 non-null float64
petal length (cm)    150 non-null float64
petal width (cm)     150 non-null float64
target               150 non-null float64
dtypes: float64(5)
memory usage: 5.9 KB


In [4]:
df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0


In [60]:
#Um jeito rápido de obter a dimensão é usar 'shape'
df.shape

(150, 5)

In [5]:
#Quando temos alguma categoria, geralmente queremos saber quantos valores únicos existem:
df['target'].nunique()

3

In [6]:
#E, obviamente, queremos saber quais são esses valores únicos
df['target'].unique()

array([0., 1., 2.])

In [7]:
#Depois de saber quantos únicos temos e quais eles são, o passo natural é saber como estão distribuidos:
df['target'].value_counts()

2.0    50
1.0    50
0.0    50
Name: target, dtype: int64

In [16]:
#Essa aqui é minha favorita: Correlação de todos os valores por todos:
df.corr()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
sepal length (cm),1.0,-0.11757,0.871754,0.817941,0.782561
sepal width (cm),-0.11757,1.0,-0.42844,-0.366126,-0.426658
petal length (cm),0.871754,-0.42844,1.0,0.962865,0.949035
petal width (cm),0.817941,-0.366126,0.962865,1.0,0.956547
target,0.782561,-0.426658,0.949035,0.956547,1.0


In [17]:
#Outra tarefa comum é querer aplicar alguma transformação em alguma coluna...
#Podemos fazer isso definindo uma função qualquer:

def to_category(x):
    if x == 0:
        return 'Setosa'
    elif x == 1:
        return 'Virginica'
    else:
        return 'Versicolor'


In [19]:
#E após isso, usamos apply para a coluna que desejamos
df['target2'] = df['target'].apply(to_category)
print(df['target2'].value_counts())
df.head()

Setosa        50
Virginica     50
Versicolor    50
Name: target2, dtype: int64


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target2
0,5.1,3.5,1.4,0.2,0.0,Setosa
1,4.9,3.0,1.4,0.2,0.0,Setosa
2,4.7,3.2,1.3,0.2,0.0,Setosa
3,4.6,3.1,1.5,0.2,0.0,Setosa
4,5.0,3.6,1.4,0.2,0.0,Setosa


In [20]:
#Criando níveis por categoria, método 2
#Se você tive poucos valores (como é o nosso caso)

level_map = {0: 'espécie1', 1: 'espécie2', 2: 'espécie3'}
df['target3'] = df['target'].map(level_map)
print(df['target3'].value_counts())
df.head()

espécie3    50
espécie2    50
espécie1    50
Name: target3, dtype: int64


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target2,target3
0,5.1,3.5,1.4,0.2,0.0,Setosa,espécie1
1,4.9,3.0,1.4,0.2,0.0,Setosa,espécie1
2,4.7,3.2,1.3,0.2,0.0,Setosa,espécie1
3,4.6,3.1,1.5,0.2,0.0,Setosa,espécie1
4,5.0,3.6,1.4,0.2,0.0,Setosa,espécie1


In [21]:
#As vezes, queremos armazenar o nome das colunas em uma lista:
df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'target', 'target2', 'target3'],
      dtype='object')

In [23]:
#E também os index
df.index

RangeIndex(start=0, stop=150, step=1)

In [24]:
#Podemos ordenar por alguma coluna
df.sort_values(by='sepal width (cm)', inplace=True)
df.head(10)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,target2,target3
60,5.0,2.0,3.5,1.0,1.0,Virginica,espécie2
62,6.0,2.2,4.0,1.0,1.0,Virginica,espécie2
119,6.0,2.2,5.0,1.5,2.0,Versicolor,espécie3
68,6.2,2.2,4.5,1.5,1.0,Virginica,espécie2
41,4.5,2.3,1.3,0.3,0.0,Setosa,espécie1
53,5.5,2.3,4.0,1.3,1.0,Virginica,espécie2
93,5.0,2.3,3.3,1.0,1.0,Virginica,espécie2
87,6.3,2.3,4.4,1.3,1.0,Virginica,espécie2
81,5.5,2.4,3.7,1.0,1.0,Virginica,espécie2
80,5.5,2.4,3.8,1.1,1.0,Virginica,espécie2


In [31]:
#Algo que é bem bacana também é, por exemplo, poder separar o nome do pessoal em diferentes colunas:

lista = ['Rodrigo Biasuz', 'Tony Stark', 'Steve Rogers', 'Bruce Banner', 'Natasha Hommanoff']

df1 = pd.DataFrame(lista, columns=['Nome'])
df1

Unnamed: 0,Nome
0,Rodrigo Biasuz
1,Tony Stark
2,Steve Rogers
3,Bruce Banner
4,Natasha Hommanoff


In [32]:
#Podemos colocar numa lista
df1['Nome2'] = df1['Nome'].str.split(" ", expand=False)
df1

Unnamed: 0,Nome,Nome2
0,Rodrigo Biasuz,"[Rodrigo, Biasuz]"
1,Tony Stark,"[Tony, Stark]"
2,Steve Rogers,"[Steve, Rogers]"
3,Bruce Banner,"[Bruce, Banner]"
4,Natasha Hommanoff,"[Natasha, Hommanoff]"


In [33]:
#Ou em diferentes colunas
df1['Nome'].str.split(" ", expand=True)

Unnamed: 0,0,1
0,Rodrigo,Biasuz
1,Tony,Stark
2,Steve,Rogers
3,Bruce,Banner
4,Natasha,Hommanoff


In [34]:
#Se precisar deslocar seu DataFrame pra baixo ou pra cima, temos o método shift
df1.shift(1)

Unnamed: 0,Nome,Nome2
0,,
1,Rodrigo Biasuz,"[Rodrigo, Biasuz]"
2,Tony Stark,"[Tony, Stark]"
3,Steve Rogers,"[Steve, Rogers]"
4,Bruce Banner,"[Bruce, Banner]"


In [35]:
#para adicionar linhas na planilha, podemos colocar direto na última posição usando "shape"
df1.loc[df1.shape[0]] = ['col1', 'col2']
df1

Unnamed: 0,Nome,Nome2
0,Rodrigo Biasuz,"[Rodrigo, Biasuz]"
1,Tony Stark,"[Tony, Stark]"
2,Steve Rogers,"[Steve, Rogers]"
3,Bruce Banner,"[Bruce, Banner]"
4,Natasha Hommanoff,"[Natasha, Hommanoff]"
5,col1,col2


In [36]:
#Outra função bem útil é a soma cumulativa!

#criando uma coluna numérica pra testarmos:

coluna = []
for i in range(df1.shape[0]):
    coluna.append(np.random.randint(10))
    
df1['numérica'] = coluna
df1

Unnamed: 0,Nome,Nome2,numérica
0,Rodrigo Biasuz,"[Rodrigo, Biasuz]",9
1,Tony Stark,"[Tony, Stark]",9
2,Steve Rogers,"[Steve, Rogers]",3
3,Bruce Banner,"[Bruce, Banner]",4
4,Natasha Hommanoff,"[Natasha, Hommanoff]",0
5,col1,col2,5


In [37]:
df1['soma_cumulativa'] = df1['numérica'].cumsum()
df1

Unnamed: 0,Nome,Nome2,numérica,soma_cumulativa
0,Rodrigo Biasuz,"[Rodrigo, Biasuz]",9,9
1,Tony Stark,"[Tony, Stark]",9,18
2,Steve Rogers,"[Steve, Rogers]",3,21
3,Bruce Banner,"[Bruce, Banner]",4,25
4,Natasha Hommanoff,"[Natasha, Hommanoff]",0,25
5,col1,col2,5,30


In [38]:
#Seguidamente nossos dados tem muitas colunas, mas precisamos apenas das numérias, ou as de texto...
df1.select_dtypes(include=['float64', 'int64'])

Unnamed: 0,numérica,soma_cumulativa
0,9,9
1,9,18
2,3,21
3,4,25
4,0,25
5,5,30


In [39]:
#Cópia!
#EXTREMAMENTE IMPORTANTE!

df2 = df1.copy()
df2.loc[0] = ['col1', 'col2', 2, 3]
df1

Unnamed: 0,Nome,Nome2,numérica,soma_cumulativa
0,Rodrigo Biasuz,"[Rodrigo, Biasuz]",9,9
1,Tony Stark,"[Tony, Stark]",9,18
2,Steve Rogers,"[Steve, Rogers]",3,21
3,Bruce Banner,"[Bruce, Banner]",4,25
4,Natasha Hommanoff,"[Natasha, Hommanoff]",0,25
5,col1,col2,5,30


In [40]:
#Iterar pelas colunas também é bem útil:
for index, row in df1.iterrows():
    print (row['Nome'], index)

Rodrigo Biasuz 0
Tony Stark 1
Steve Rogers 2
Bruce Banner 3
Natasha Hommanoff 4
col1 5


In [41]:
#Trocar alguma letra de alguma coluna por outro valor:
df1['Nome'] = df1['Nome'].str.replace(' ','_')
df1

Unnamed: 0,Nome,Nome2,numérica,soma_cumulativa
0,Rodrigo_Biasuz,"[Rodrigo, Biasuz]",9,9
1,Tony_Stark,"[Tony, Stark]",9,18
2,Steve_Rogers,"[Steve, Rogers]",3,21
3,Bruce_Banner,"[Bruce, Banner]",4,25
4,Natasha_Hommanoff,"[Natasha, Hommanoff]",0,25
5,col1,col2,5,30


In [42]:
#Juntar duas colunas´:
df1['juntando'] = df1["numérica"].astype(str) + ' - ' + df1["Nome"]
df1

Unnamed: 0,Nome,Nome2,numérica,soma_cumulativa,juntando
0,Rodrigo_Biasuz,"[Rodrigo, Biasuz]",9,9,9 - Rodrigo_Biasuz
1,Tony_Stark,"[Tony, Stark]",9,18,9 - Tony_Stark
2,Steve_Rogers,"[Steve, Rogers]",3,21,3 - Steve_Rogers
3,Bruce_Banner,"[Bruce, Banner]",4,25,4 - Bruce_Banner
4,Natasha_Hommanoff,"[Natasha, Hommanoff]",0,25,0 - Natasha_Hommanoff
5,col1,col2,5,30,5 - col1


In [None]:
#Adicionando 
df['col_total']     = df.apply(lambda x: x.sum(), axis=1)
df.loc['row_total'] = df.apply(lambda x: x.sum())

In [None]:
#Options
pd.options.display.max_columns = 50  # None -> No Restrictions
pd.options.display.max_rows = 200    # None -> Be careful with this 
pd.options.display.max_colwidth = 100
pd.options.display.precision = 3

In [64]:
# estilo - colocando uma cor por determinada condição
def color_negative_red(val):
    color = 'red' if val < 3 else 'black'
    return 'color: %s' % color
s = df.style.applymap(color_negative_red)
s

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,4.4,2.9,1.4,0.2,0
9,4.9,3.1,1.5,0.1,0


In [65]:
def highlight_max(s):
    '''
    highlight the maximum in a Series yellow.
    '''
    is_max = s == s.max()
    return ['background-color: yellow' if v else '' for v in is_max]

s = df.style.set_table_styles(
[{'selector': 'tr:hover',
  'props': [('background-color', 'yellow')]}]
)
s

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,4.4,2.9,1.4,0.2,0
9,4.9,3.1,1.5,0.1,0
