In [1]:
import pandas as pd
import numpy as np
import statistics as st

# Ordenar Base

In [2]:
df = pd.DataFrame({
    'X' : [25,25,25,37,37,37,45,45,54,2,2],
    'Y' : [4,7,12,56,26,78,94,23,56,34,800],
})

* Ordenar por uma variável, destacada em "by"

In [3]:
df.sort_values(by='X', ascending=False,inplace = True)

In [4]:
df.head()

Unnamed: 0,X,Y
8,54,56
6,45,94
7,45,23
3,37,56
4,37,26


* Ordenar por duas variáveis, podendo ajustar a ordem, ascendente ou descendente, para cada uma

In [5]:
df.sort_values(['X', 'Y'], ascending=[True, False], inplace = True)

In [6]:
df.head()

Unnamed: 0,X,Y
10,2,800
9,2,34
2,25,12
1,25,7
0,25,4


# Tratamento de nulos/vazios

In [7]:
asdf = pd.Series([1, np.nan, 4, 5, 7, 12, np.nan, np.nan])

In [8]:
asdf.head()

0    1.0
1    NaN
2    4.0
3    5.0
4    7.0
dtype: float64

* Dropar observações NaN

In [9]:
asdf.dropna()

0     1.0
2     4.0
3     5.0
4     7.0
5    12.0
dtype: float64

In [10]:
asdf[asdf.notnull()]

0     1.0
2     4.0
3     5.0
4     7.0
5    12.0
dtype: float64

In [11]:
txs2 = pd.DataFrame({
    'X' : [1,np.nan,2,12,np.nan],
    'Y' : [4,3,2,np.nan,np.nan],
    'Z' : [2,np.nan,np.nan,np.nan,np.nan],
    'W' : [np.nan,np.nan,np.nan,np.nan,np.nan]
})

In [12]:
txs2.head()

Unnamed: 0,X,Y,Z,W
0,1.0,4.0,2.0,
1,,3.0,,
2,2.0,2.0,,
3,12.0,,,
4,,,,


* Descarta qualquer linha com NaN

In [13]:
txs2.dropna()

Unnamed: 0,X,Y,Z,W


* Descarta linhas que só possuem NaN

In [14]:
txs2.dropna(how='all')

Unnamed: 0,X,Y,Z,W
0,1.0,4.0,2.0,
1,,3.0,,
2,2.0,2.0,,
3,12.0,,,


* Descarta colunas que só possuem NaN 

In [15]:
txs2.dropna(axis=1, how='all') #so deleta colunas que so possuem vazio

Unnamed: 0,X,Y,Z
0,1.0,4.0,2.0
1,,3.0,
2,2.0,2.0,
3,12.0,,
4,,,


In [16]:
txs2 = pd.DataFrame({
    'X' : [1,np.nan,2,12,np.nan],
    'Y' : [4,3,2,np.nan,np.nan],
    'Z' : [2,np.nan,4,np.nan,np.nan],
    'W' : [5,np.nan,9,np.nan,np.nan]
})
txs2

Unnamed: 0,X,Y,Z,W
0,1.0,4.0,2.0,5.0
1,,3.0,,
2,2.0,2.0,4.0,9.0
3,12.0,,,
4,,,,


* Mantem linhas que possuem 04 observações não nulas

In [17]:
txs2.dropna(thresh=4)

Unnamed: 0,X,Y,Z,W
0,1.0,4.0,2.0,5.0
2,2.0,2.0,4.0,9.0


* Substitui os NaN por valores especificos em cada coluna

In [18]:
txs2.fillna({'X' : 0.5,'Y' : 2, 'Z' : 0.4, 'W' : 12}) 

Unnamed: 0,X,Y,Z,W
0,1.0,4.0,2.0,5.0
1,0.5,3.0,0.4,12.0
2,2.0,2.0,4.0,9.0
3,12.0,2.0,0.4,12.0
4,0.5,2.0,0.4,12.0


* Preenche os NaN da coluna especificada pela média e mediana da mesma, respectivamente

In [19]:
txs2['X'].fillna(txs2['X'].mean()) # média

0     1.0
1     5.0
2     2.0
3    12.0
4     5.0
Name: X, dtype: float64

In [20]:
txs2['X'].fillna(txs2['X'].median()) # mediana

0     1.0
1     2.0
2     2.0
3    12.0
4     2.0
Name: X, dtype: float64

# Tratamento Duplicados

In [21]:
txs2 = pd.DataFrame({
    'X' : ['A','A','B','C'],
    'Y' : ['A','A','B','C'],
    'Z' : ['A','A','C','A'],
})
txs2

Unnamed: 0,X,Y,Z
0,A,A,A
1,A,A,A
2,B,B,C
3,C,C,A


* Verifica linhas duplicadas

In [22]:
txs2.duplicated() #linha 1 é copia da 0

0    False
1     True
2    False
3    False
dtype: bool

* Deleta linhas duplicadas, a primeira que encontrar

In [23]:
txs2.drop_duplicates()

Unnamed: 0,X,Y,Z
0,A,A,A
2,B,B,C
3,C,C,A


* Remove as linhas duplicadas de uma coluna especifica

In [24]:
txs2.drop_duplicates(['Z'])

Unnamed: 0,X,Y,Z
0,A,A,A
2,B,B,C


# Tratamento Valores Discrepantes

In [25]:
txs2 = pd.DataFrame({
    'X' : [25,32,3,7,8,12,34,1200,54,34,67],
    'Y' : [4,7,12,56,26,78,94,23,56,34,800],
})

* Mostra linhas com valor da coluna maior que determinado numero

In [26]:
txs2[txs2['X']>600]

Unnamed: 0,X,Y
7,1200,23


* Remove linhas maior que determinado valor

In [27]:
df.drop(df[df.X>30].index ,inplace=True)

* Substitui o valor que cumpre a condição pela mediana da coluna

In [28]:
txs2['X'][txs2['X']>600] = st.median(txs2['X'])

# Engenharia de Variáveis

* Convertendo tipo de dado, primeiro para inteiro e, na sequência, para string 

In [29]:
df.X = df.X.astype('int64')
df.Y = df.Y.astype('str')

In [30]:
txs2 = pd.DataFrame({
    'X' : ['A','B','C','D','E','F','G'],
    'Y' : [1,2,3,4,5,6,7],
})
txs2

Unnamed: 0,X,Y
0,A,1
1,B,2
2,C,3
3,D,4
4,E,5
5,F,6
6,G,7


* Associaçao de Colunas

In [31]:
ass = {
    'A' : 'BR',
    'B' : 'BR',
    'C' : 'ARG',
    'D' : 'ARG',
    'E' : 'BR',
    'F' : 'ENG',
    'G' : 'ENG',
}

In [32]:
txs2['cat'] = txs2['X'].map(ass) #adicionar uma coluna nova com uma correspondencia
txs2

Unnamed: 0,X,Y,cat
0,A,1,BR
1,B,2,BR
2,C,3,ARG
3,D,4,ARG
4,E,5,BR
5,F,6,ENG
6,G,7,ENG


In [33]:
txs2.replace(['BR','ENG'], ['DFS', 'DEN']) #substitui os valores das listas, na ordem

Unnamed: 0,X,Y,cat
0,A,1,DFS
1,B,2,DFS
2,C,3,ARG
3,D,4,ARG
4,E,5,DFS
5,F,6,DEN
6,G,7,DEN


In [34]:
df = pd.DataFrame({
    'X' : [25,25,25,37,37,37,45,45,54,2,2,30,30,30,30,30,30,30,53,57,666,44,45,434],
    'Y' : [4,7,12,56,26,78,94,23,56,34,800,56,76,35,78,46,78,56,44,45,434,244,4246,60],
})

* Nova coluna relacionada numericamente

In [35]:
df['A'] = (df['Y'] * 20)

In [36]:
df.head()

Unnamed: 0,X,Y,A
0,25,4,80
1,25,7,140
2,25,12,240
3,37,56,1120
4,37,26,520


* Função para categorização de dados

In [37]:
def categoriza(s):
    if s >= 50:
        return 'X'
    elif s >= 30:
        return 'Y'
    elif s >= 15:
        return 'Z'
    else:
        return 'V'

In [38]:
#Aplicando a funcao acima
df['categoria_cat'] = df['X'].apply(categoriza)

In [39]:
df.head()

Unnamed: 0,X,Y,A,categoria_cat
0,25,4,80,Z
1,25,7,140,Z
2,25,12,240,Z
3,37,56,1120,Y
4,37,26,520,Y


* Função para categorização de dados com dois retornos

In [40]:
def categoriza_2(s):
    if s >= 50:
        return 'X','A'
    elif s >= 30:
        return 'Y','A'
    elif s >= 15:
        return 'Z','A'
    else:
        return 'C','D'

In [41]:
#Criando uma coluna para cada retorno
df['categoria_cat1'], df['categoria_cat2'] = zip(*df['X'].map(categoriza_2))

In [42]:
df.head()

Unnamed: 0,X,Y,A,categoria_cat,categoria_cat1,categoria_cat2
0,25,4,80,Z,Z,A
1,25,7,140,Z,Z,A
2,25,12,240,Z,Z,A
3,37,56,1120,Y,Y,A
4,37,26,520,Y,Y,A


* Função para categorização de dados com duas condições e dois retornos

In [43]:
def categoriza_3(s, x):
    if s >= 50 or x <50:
        return '0','1'
    elif s >= 30 or x>=20:
        return '2','3'
    elif s >= 15 or x>30:
        return '4','5'
    else:
        return '6','7'

In [44]:
#Criando duas colunas empregando as colunas das condições
df['categoria_cat3'], df['categoria_cat4'] = zip(*df.apply(lambda x: categoriza_3(x.X, x.Y), axis=1))

In [45]:
df.head()

Unnamed: 0,X,Y,A,categoria_cat,categoria_cat1,categoria_cat2,categoria_cat3,categoria_cat4
0,25,4,80,Z,Z,A,0,1
1,25,7,140,Z,Z,A,0,1
2,25,12,240,Z,Z,A,0,1
3,37,56,1120,Y,Y,A,2,3
4,37,26,520,Y,Y,A,0,1


* Criando categorias a partir de uma condição

In [46]:
df['X'] = np.where(df['X'] < 20, 'A', 'B')

In [47]:
df.head()

Unnamed: 0,X,Y,A,categoria_cat,categoria_cat1,categoria_cat2,categoria_cat3,categoria_cat4
0,B,4,80,Z,Z,A,0,1
1,B,7,140,Z,Z,A,0,1
2,B,12,240,Z,Z,A,0,1
3,B,56,1120,Y,Y,A,2,3
4,B,26,520,Y,Y,A,0,1


* Tornar valores de uma determinada frequência como categorias outros

In [48]:
freq = df['X'].value_counts(normalize=True) #mostra as frequencias de cada categoria
print(freq)
pequenas_freq = freq[freq<0.1].index #seleciona categorias com frequencias menor que 10%

B    0.916667
A    0.083333
Name: X, dtype: float64


In [49]:
df['X'] = df['X'].replace(pequenas_freq, 'Outros') #substitui as categorias acima por 'Outros'

In [50]:
df.head(14)

Unnamed: 0,X,Y,A,categoria_cat,categoria_cat1,categoria_cat2,categoria_cat3,categoria_cat4
0,B,4,80,Z,Z,A,0,1
1,B,7,140,Z,Z,A,0,1
2,B,12,240,Z,Z,A,0,1
3,B,56,1120,Y,Y,A,2,3
4,B,26,520,Y,Y,A,0,1
5,B,78,1560,Y,Y,A,2,3
6,B,94,1880,Y,Y,A,2,3
7,B,23,460,Y,Y,A,0,1
8,B,56,1120,X,X,A,0,1
9,Outros,34,680,V,C,D,0,1


* Calculo de diferença entre linhas

In [51]:
#Diferenca de uma linha em relacao a anterior
df['X'] = df.Y.diff()
#Diferenca percentual
df['X Percentual'] = df.Y.pct_change()*100

In [52]:
df.head()

Unnamed: 0,X,Y,A,categoria_cat,categoria_cat1,categoria_cat2,categoria_cat3,categoria_cat4,X Percentual
0,,4,80,Z,Z,A,0,1,
1,3.0,7,140,Z,Z,A,0,1,75.0
2,5.0,12,240,Z,Z,A,0,1,71.428571
3,44.0,56,1120,Y,Y,A,2,3,366.666667
4,-30.0,26,520,Y,Y,A,0,1,-53.571429


* Soma acumulada agrupada

In [53]:
df['soma_agrupada'] = df.groupby('categoria_cat').Y.cumsum() 
#Y é a variavel quantitativa a ser somada pela variável categoria_cat

In [54]:
df.head()

Unnamed: 0,X,Y,A,categoria_cat,categoria_cat1,categoria_cat2,categoria_cat3,categoria_cat4,X Percentual,soma_agrupada
0,,4,80,Z,Z,A,0,1,,4
1,3.0,7,140,Z,Z,A,0,1,75.0,11
2,5.0,12,240,Z,Z,A,0,1,71.428571,23
3,44.0,56,1120,Y,Y,A,2,3,366.666667,56
4,-30.0,26,520,Y,Y,A,0,1,-53.571429,82


* Contagem de frequencia por colunas

In [55]:
df['contagem_x'] = df.groupby('categoria_cat1').cumcount() + 1
df['contagem_x_e_y'] = df.groupby(['categoria_cat1','categoria_cat3']).cumcount() + 1

In [56]:
df.head()

Unnamed: 0,X,Y,A,categoria_cat,categoria_cat1,categoria_cat2,categoria_cat3,categoria_cat4,X Percentual,soma_agrupada,contagem_x,contagem_x_e_y
0,,4,80,Z,Z,A,0,1,,4,1,1
1,3.0,7,140,Z,Z,A,0,1,75.0,11,2,2
2,5.0,12,240,Z,Z,A,0,1,71.428571,23,3,3
3,44.0,56,1120,Y,Y,A,2,3,366.666667,56,1,1
4,-30.0,26,520,Y,Y,A,0,1,-53.571429,82,2,1


* Classes de variavel quantitativa indicando os limites

In [57]:
x = [3,5,7,8,20,25,30,100,120,6,8,9,12,11,50,45,67,23,98,120,34,45,25,65]

In [58]:
categorias = [2,29,39,55,140] #limites das classes criadas

In [59]:
y = pd.cut(x,categorias) #divide o objeto x nas categorias passadas acima
y.categories #diz as categorias criadas

IntervalIndex([(2, 29], (29, 39], (39, 55], (55, 140]],
              closed='right',
              dtype='interval[int64]')

In [60]:
nome_categorias = ['PrimeiraCat', 'SegundaCat', 'TerceiraCat', 'QuartaCat'] #nomea as categorias

In [61]:
y = pd.cut(x, categorias, labels = nome_categorias) #coloca nome nos intervalos criados (categorias)
y

['PrimeiraCat', 'PrimeiraCat', 'PrimeiraCat', 'PrimeiraCat', 'PrimeiraCat', ..., 'QuartaCat', 'SegundaCat', 'TerceiraCat', 'PrimeiraCat', 'QuartaCat']
Length: 24
Categories (4, object): ['PrimeiraCat' < 'SegundaCat' < 'TerceiraCat' < 'QuartaCat']

* Classes de variavel quantitativa indicado qttd de grupos/quantis

In [62]:
y = pd.cut(x, 4, precision=3) #o numero quatro é a quantidade de categorias e o precision o numero de casas decimais
y

[(2.883, 32.25], (2.883, 32.25], (2.883, 32.25], (2.883, 32.25], (2.883, 32.25], ..., (90.75, 120.0], (32.25, 61.5], (32.25, 61.5], (2.883, 32.25], (61.5, 90.75]]
Length: 24
Categories (4, interval[float64]): [(2.883, 32.25] < (32.25, 61.5] < (61.5, 90.75] < (90.75, 120.0]]

In [63]:
y = pd.qcut(x,4) #qcut divide em quantis e, neste caso, em 4
y

[(2.999, 8.75], (2.999, 8.75], (2.999, 8.75], (2.999, 8.75], (8.75, 25.0], ..., (53.75, 120.0], (25.0, 53.75], (25.0, 53.75], (8.75, 25.0], (53.75, 120.0]]
Length: 24
Categories (4, interval[float64]): [(2.999, 8.75] < (8.75, 25.0] < (25.0, 53.75] < (53.75, 120.0]]

In [64]:
y = pd.qcut(x,[0, 0.2,0.5,0.8,1]) #podemos passar os quantis desejado
y

[(2.999, 8.0], (2.999, 8.0], (2.999, 8.0], (2.999, 8.0], (8.0, 25.0], ..., (65.8, 120.0], (25.0, 65.8], (25.0, 65.8], (8.0, 25.0], (25.0, 65.8]]
Length: 24
Categories (4, interval[float64]): [(2.999, 8.0] < (8.0, 25.0] < (25.0, 65.8] < (65.8, 120.0]]

* Criando variavel dummy

In [65]:
txs2 = pd.DataFrame({
    'X' : ['A','B','C','D','E','F','G'],
    'Y' : [1,2,3,4,5,6,7],
})

In [66]:
txs2 = txs2.join(pd.get_dummies(txs2['X'],prefix='dummie_')) #cria uma dummie da variavel X e adiciona a tabela

In [67]:
txs2

Unnamed: 0,X,Y,dummie__A,dummie__B,dummie__C,dummie__D,dummie__E,dummie__F,dummie__G
0,A,1,1,0,0,0,0,0,0
1,B,2,0,1,0,0,0,0,0
2,C,3,0,0,1,0,0,0,0
3,D,4,0,0,0,1,0,0,0
4,E,5,0,0,0,0,1,0,0
5,F,6,0,0,0,0,0,1,0
6,G,7,0,0,0,0,0,0,1


# Amostragem

* Amostra aleatoria simples
    * Todas as observações tem igual probabilidade de serem selecionados*

In [68]:
txs2 = pd.DataFrame({
    'X' : ['A','B','C','D','E','F','G'],
    'Y' : [1,2,3,4,5,6,7],
})

In [69]:
txs2.sample(n=3) #pega uma amostra de 3 linhas - sem reposição, obs: poderia-se usar o parametro frac = x, em que x seria 
# uma fracao da base

Unnamed: 0,X,Y
6,G,7
3,D,4
5,F,6


In [70]:
txs2.sample(n=6,replace=True) #pega uma amostra de 6 linhas - com reposição

Unnamed: 0,X,Y
1,B,2
0,A,1
2,C,3
3,D,4
2,C,3
6,G,7


* Amostragem Estratificada
    * Extrai observações proporcionalmente ao tamanho de grupos existentes dentro do universo

In [71]:
pokemon = pd.read_csv('pokemon.csv')

In [72]:
pokemon.shape

(801, 41)

In [76]:
pd.value_counts(pokemon['type1']) #grupos que segmentam o universo e seus respectivos tamanhos

water       114
normal      105
grass        78
bug          72
psychic      53
fire         52
rock         45
electric     39
ground       32
poison       32
dark         29
fighting     28
dragon       27
ghost        27
steel        24
ice          23
fairy        18
flying        3
Name: type1, dtype: int64

In [77]:
from sklearn.model_selection import train_test_split

In [78]:
n_amostral = 200 #tamanho da amostra

In [79]:
classe = pokemon['type1'].unique() #diferentes grupos

In [81]:
n_por_classe = round(n_amostral/len(classe)) #proporcao de cada amostra por grupo

In [82]:
# a proporcao amostral por classe é proporcional a frequencia de cada categoria
amostras_por_classe = []
for x in classe:
    index = pokemon['type1'] == x
    obs_c = pokemon[index]
    proporcao_c = len(obs_c) / len(pokemon)
    qtde_c = round(proporcao_c * n_amostral)
    amostra_c = obs_c.sample(qtde_c)
    amostras_por_classe.append(amostra_c)
amostra_estratificada = pd.concat(amostras_por_classe)

In [83]:
amostra_estratificada.shape

(199, 41)

In [84]:
pokemon = pokemon.reset_index()

In [85]:
pokemon.head()

Unnamed: 0,index,abilities,against_bug,against_dark,against_dragon,against_electric,against_fairy,against_fight,against_fire,against_flying,...,percentage_male,pokedex_number,sp_attack,sp_defense,speed,type1,type2,weight_kg,generation,is_legendary
0,0,"['Overgrow', 'Chlorophyll']",1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,...,88.1,1,65,65,45,grass,poison,6.9,1,0
1,1,"['Overgrow', 'Chlorophyll']",1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,...,88.1,2,80,80,60,grass,poison,13.0,1,0
2,2,"['Overgrow', 'Chlorophyll']",1.0,1.0,1.0,0.5,0.5,0.5,2.0,2.0,...,88.1,3,122,120,80,grass,poison,100.0,1,0
3,3,"['Blaze', 'Solar Power']",0.5,1.0,1.0,1.0,0.5,1.0,0.5,1.0,...,88.1,4,60,50,65,fire,,8.5,1,0
4,4,"['Blaze', 'Solar Power']",0.5,1.0,1.0,1.0,0.5,1.0,0.5,1.0,...,88.1,5,80,65,80,fire,,19.0,1,0
