# Preprocessamento

In [1]:
import pandas as pd

In [2]:
# leitura de dados
df = pd.read_csv('exemplo.csv')

In [31]:
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
3,,,,
4,2.0,3.0,4.0,5.0


## Checagem de valores nulos/faltantes

In [33]:
# df.isnull() é a mesma coisa da linha a baixo
df.isna()

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,False,True,False
2,False,False,False,True
3,True,True,True,True
4,False,False,False,False


In [5]:
# pega a quantidade de valores nulos para cada coluna
df.isna().sum()

A    1
B    1
C    2
D    2
dtype: int64

## Eliminar amostrar com valores faltantes.

In [34]:
# da um drop nas linhas que tem valores nulos
# isso não altera o df original, a não ser que você coloque em uma variável
# df.dropna(axis=0, inplace=True), o implace altera o dataframe original.
df.dropna(axis=0)
# Usando o axis=1 voce exclui toda a coluna, o que não é uma boa solução

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
4,2.0,3.0,4.0,5.0


## Eliminar features com valores faltantes

In [7]:
df.dropna(axis=1) # drop nas colunas que tem valores NaN, nesse caso, todas as colunas tem

0
1
2
3
4


In [8]:
df.dropna(how='all') # elimina apenas quando todos os valores de uma linha são NaN

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
4,2.0,3.0,4.0,5.0


In [9]:
# Elimina colunas com 2 ou mais valores NaN
df.dropna(thresh=2)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
4,2.0,3.0,4.0,5.0


In [10]:
# Cria um novo conjunto que não contem a coluna C nula.
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,
4,2.0,3.0,4.0,5.0


In [11]:
# Aqui ele meche com o eixo das linhas, por isso precisa especificar o número
df.drop(labels=[0,1])

Unnamed: 0,A,B,C,D
2,10.0,11.0,12.0,
3,,,,
4,2.0,3.0,4.0,5.0


In [12]:
# Elimina as colunas especificadas já que é o eixo 1 ou eixo das colunas
df.drop(labels=['A','C'], axis=1)

Unnamed: 0,B,D
0,2.0,4.0
1,6.0,8.0
2,11.0,
3,,
4,3.0,5.0


In [13]:
# dataframe normal
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,
3,,,,
4,2.0,3.0,4.0,5.0


# Assinalar valopres aos faltantes

In [14]:
from sklearn.preprocessing import Imputer

In [15]:
df_ = df.dropna(how='all')
 # mata linhas com todos os valores nulos

In [16]:
# aqui o eixo 0 é o eixo das colunas
prep = Imputer(missing_values='NaN', strategy='mean', axis=0)
prep = prep.fit(df_)
dados = prep.transform(df_)
dados



array([[ 1.        ,  2.        ,  3.        ,  4.        ],
       [ 5.        ,  6.        ,  6.33333333,  8.        ],
       [10.        , 11.        , 12.        ,  5.66666667],
       [ 2.        ,  3.        ,  4.        ,  5.        ]])

In [17]:
## Se quiser recriar um dataframe
# pd..DataFrame(dados, columns = df_.columns)

In [18]:
# caso queira instalar algo para o conda, mas como já tenho o anaconta então não precisa
# !conda install xlrd

In [52]:
df2 = pd.read_excel('planilha1.xlsx')

In [53]:
df2

Unnamed: 0,color,size,price,label
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [50]:
tam = {'M':1, 'L':2, 'XL':3}

In [47]:
# criando um dicionário invertido em Python
tam_inv = { v: k for k, v in tam.items() }
tam_inv

{1: 'M', 2: 'L', 3: 'XL'}

In [54]:
df2['size'] = df2['size'].map(tam)
df2

Unnamed: 0,color,size,price,label
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [24]:
for i, o in enumerate(df2['label'].unique()): # i indice o objeto
    print(i, o)

0 class1
1 class2


In [25]:
# criando dicionario onde o label_num é um mapa para o label categórico
labels_num = { v: k for k, v in enumerate(df2['label'].unique()) }
labels_num

{'class1': 0, 'class2': 1}

In [26]:
df2['label'] = df2['label'].map(labels_num)
df2

Unnamed: 0,color,size,price,label
0,green,1,10.1,0
1,red,2,13.5,1
2,blue,3,15.3,0


In [27]:
pd.get_dummies(df2['color'], drop_first=True)

Unnamed: 0,green,red
0,1,0
1,0,1
2,0,0


In [28]:
pd.get_dummies(df2, drop_first=True) 
# transforma uma feature em 3 features, onde cada feature é binária.
# quando as features não são ordenadas, podemos usar o one hot encoding para lidar com isso
# se eu tiver n colors eu represento com n-1 features

Unnamed: 0,size,price,label,color_green,color_red
0,1,10.1,0,1,0
1,2,13.5,1,0,1
2,3,15.3,0,0,0


In [73]:
df3 = pd.read_excel('planilha1.xlsx')

In [74]:
# usando o scikit para transformar features categóricas em numéricas

In [75]:
from sklearn.preprocessing import LabelEncoder

In [76]:
df3

Unnamed: 0,color,size,price,label
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


In [77]:
df3['size'] = df3['size'].map(tam)
df3

Unnamed: 0,color,size,price,label
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [78]:
df3['label']

0    class1
1    class2
2    class1
Name: label, dtype: object

In [79]:
le = LabelEncoder()
le.fit_transform(df3['label'])

array([0, 1, 0])

In [80]:
df3['label'] = le.fit_transform(df3['label'])
df3['label']

0    0
1    1
2    0
Name: label, dtype: int32

In [81]:
le.inverse_transform(df3['label'])

array(['class1', 'class2', 'class1'], dtype=object)

In [None]:
!pip install sklearn

In [90]:
import sklearn
sklearn.__version__

'0.20.1'

In [82]:
from sklearn.preprocessing import OneHotEncoder

In [None]:
ohe = OneHotEncoder(categorical_features=[0], sparse=False)
ohe.fit_transform(df3)