# Pre Processamento

In [2]:
import pandas as pd

In [3]:
from io import StringIO

## Criar um arquivo CSV

In [44]:
# Criar um arquivo CSV
csv_data = \
'''A, B, C, D
1.0,2.0,3.0,4.0
5.0,6.0,,8.0
10.0,11.0,12.0,'''

In [45]:
csv_data 

'A, B, C, D\n1.0,2.0,3.0,4.0\n5.0,6.0,,8.0\n10.0,11.0,12.0,'

## Ler uma string para transformar num arquivo CSV

In [47]:
# ler uma string para transformar num arquivo CSV
df = pd.read_csv(StringIO(csv_data))
# criar um backup (dfb)
dfb = df

In [48]:
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [49]:
df.describe()

Unnamed: 0,A,B,C,D
count,3.0,3.0,2.0,2.0
mean,5.333333,6.333333,7.5,6.0
std,4.50925,4.50925,6.363961,2.828427
min,1.0,2.0,3.0,4.0
25%,3.0,4.0,5.25,5.0
50%,5.0,6.0,7.5,6.0
75%,7.5,8.5,9.75,7.0
max,10.0,11.0,12.0,8.0


## Ver os dados nulos (Sim ou Não)

In [50]:
# ver os dados nulos (Sim ou Não)
df.isnull()

Unnamed: 0,A,B,C,D
0,False,False,False,False
1,False,False,True,False
2,False,False,False,True


## Contar dados nulos em cada coluna

In [51]:
# Contar dados nulos em cada coluna
df.isnull().sum()

A     0
 B    0
 C    1
 D    1
dtype: int64

In [52]:
# Outra forma de contar os nulos
count_nan = len(df) - df.count()
count_nan

A     0
 B    0
 C    1
 D    1
dtype: int64

## Ver se tem nulos apresentando True ou False

In [53]:
# Ver se tem nulos apresentando True ou False
df.isnull().any()

A     False
 B    False
 C     True
 D     True
dtype: bool

In [54]:
# Ver se tem nulos apresentando True ou False
df1 = df.isnull().sum() > 0
df1

A     False
 B    False
 C     True
 D     True
dtype: bool

## Tornar o DataFrame num array para usar em modelos Deep Learning

In [55]:
# Tornar o DataFrame num array para usar em modelos Deep Learning
# Deep Learning não trabalha com DataFrame, temos de transformar num array de phyton
# O Array de numpy tem operações e rapidez que não são executaveis no array de phyton
df1 = df.values
df1

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

In [56]:
# Como remover as linhas que faltam valores
# 1 - coluna, 0 é linha
df1 = df.dropna(axis=0) 
df1

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


## Como remover as linhas que faltam valores

In [57]:
# Como remover as linhas que faltam valores
# 1 - coluna, 0 é linha
# inplace - torna efetiva a alteração do drop
df = pd.read_csv(StringIO(csv_data))
df.dropna(axis=1, inplace = True ) 

In [58]:
df

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [59]:
# se não informar o axis, o default é 0 ,axis=0 = linha
df3 = df.dropna(how='any') 
df3

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [60]:
# se não informar o axis, o default é 0 ,axis=0 = linha
df3 = df.dropna(how='any') 
df3

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [61]:
# Tresh - pelo menos um valor da linha não nulo
df = dfb
df.dropna(thresh=1)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


## Substituir os valores nulos pelo valor médio da coluna

In [79]:
# Substituir os valores nulos pelo valor médio da coluna
# https://machinelearningmastery.com/prepare-data-machine-learning-python-scikit-learn/
# https://stackoverflow.com/questions/38584184/imputer-on-some-dataframe-columns-in-python

df = dfb

from sklearn.preprocessing import Imputer

# gerar uma instancia da classe já que o Imputer é uma instancia
imp = Imputer(missing_values="NaN", strategy="mean", axis = 0 )

In [80]:
# Fit para definir
# Transform para aplicar
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [83]:
# Fit para definir
imp = imp.fit(df.values)

In [84]:
# Transform para aplicar
imputed_data = imp.transform(df.values)

In [85]:
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

## Lidando com valores nominais /  categoricos

In [104]:
df = pd.DataFrame([["green", "M",10.1,"class1"],
                  ["red", "L", 13.5,"class2"],
                  ["blue", "XL", 15.3, "class1"]])

In [105]:
df.columns = ["color", "size", "price", "classlabel"]

In [106]:
dfb = df
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


### Codificar a coluna Size  (transformar num numero)

In [107]:
# Codificar a coluna Size  (transformar num numero)
# Criar um dicionario
size_mapping = {"XL": 3,
               "L": 2,
               "M": 1}
size_mapping

{'XL': 3, 'L': 2, 'M': 1}

In [108]:
# Aplicar um dicionario a uma coluna
df["size"] = df["size"].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [116]:
# Criar um dicionario
class_mapping = {"class1": "vestido",
               "class2": "camisa"}
class_mapping.items()

dict_items([('class1', 'vestido'), ('class2', 'camisa')])

In [110]:
# Aplicar um dicionario a uma coluna
df["classlabel"] = df["classlabel"].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,vestido
1,red,2,13.5,camisa
2,blue,3,15.3,vestido


### Desafio: como fazer o mapeamento inverso do código para o valor do texto?

In [114]:
# Desafio: como fazer o mapeamento inverso do código para o valor do texto?
# temos de fazer o contrario do exercicio anterior

In [115]:
size_mapping.items()

dict_items([('XL', 3), ('L', 2), ('M', 1)])

In [117]:
# Inverte o dicionario
inv_size_mapping = {v: k for k, v in size_mapping.items()}

In [118]:
inv_size_mapping

{3: 'XL', 2: 'L', 1: 'M'}

In [119]:
# Aplicar um dicionario a uma coluna, revertendo
df["size"] = df["size"].map(inv_size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,vestido
1,red,L,13.5,camisa
2,blue,XL,15.3,vestido


In [120]:
# Gerar o dicionario automaticamente
import numpy as np

In [121]:
np.unique(df["classlabel"])

array(['camisa', 'vestido'], dtype=object)

In [122]:
enumerate(np.unique(df["classlabel"]))

<enumerate at 0x242a3c0ee58>

In [124]:
# criar as tuplas ( sequencia de valores, igual a uma lista)
list(enumerate(np.unique(df["classlabel"])))

[(0, 'camisa'), (1, 'vestido')]

In [125]:
# criar o dicionario automaticamente
dict_class = {label: idx for idx, label in enumerate(np.unique(df["classlabel"]))}

In [126]:
dict_class

{'camisa': 0, 'vestido': 1}

###  Usar o Encoder para substituir automaticamente o que fizemos no exercicio anterior (codificar o texto)

In [127]:
# Usar o Encoder para substituir automaticamente o que fizemos no exercicio anterior (codificar o texto)
from sklearn.preprocessing import LabelEncoder

In [133]:
# gerar uma instancia da classe já que o LabelEncoder é uma instancia
encoder = LabelEncoder()

In [134]:
df["classlabel"].values

array(['vestido', 'camisa', 'vestido'], dtype=object)

In [135]:
# Fit e Transformer para transformar os valores
result = encoder.fit_transform(df["classlabel"].values)

In [136]:
result

array([1, 0, 1], dtype=int64)

In [137]:
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,vestido
1,red,L,13.5,camisa
2,blue,XL,15.3,vestido


In [139]:
# Aplicar e Transform 
df["classlabel"] = encoder.fit_transform(df["classlabel"].values)

In [140]:
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,1
1,red,L,13.5,0
2,blue,XL,15.3,1


In [166]:
# Transformar tudo em colunas numericas
x = df[["color", "size", "price"]].values
x

array([['green', 'M', 10.1],
       ['red', 'L', 13.5],
       ['blue', 'XL', 15.3]], dtype=object)

In [167]:
encoder2 = LabelEncoder()

In [173]:
# Encoder na coluna 0
x[:, 0] = encoder2.fit_transform(x[:,0])
# Encoder na coluna 1
x[:, 1] = encoder2.fit_transform(x[:,1])

In [174]:
x

array([[1, 1, 10.1],
       [2, 0, 13.5],
       [0, 2, 15.3]], dtype=object)

In [175]:
from sklearn.preprocessing import OneHotEncoder

In [176]:
one_h_encoder = OneHotEncoder(categorical_features = [0])

In [177]:
one_h_encoder.fit_transform(x).toarray()

array([[ 0. ,  1. ,  0. ,  1. , 10.1],
       [ 0. ,  0. ,  1. ,  0. , 13.5],
       [ 1. ,  0. ,  0. ,  2. , 15.3]])

In [179]:
one_h_encoder2 = OneHotEncoder(categorical_features = [0], sparse = False)

In [180]:
one_h_encoder2.fit_transform(x)

array([[ 0. ,  1. ,  0. ,  1. , 10.1],
       [ 0. ,  0. ,  1. ,  0. , 13.5],
       [ 1. ,  0. ,  0. ,  2. , 15.3]])

### One-hot encoding com pandas

In [182]:
df[["price", "color", "size"]]

Unnamed: 0,price,color,size
0,10.1,green,M
1,13.5,red,L
2,15.3,blue,XL


In [183]:
# transformar categorical em colunas com 0 ou 1
pd.get_dummies(df[["price","color","size"]])

Unnamed: 0,price,color_blue,color_green,color_red,size_L,size_M,size_XL
0,10.1,0,1,0,0,1,0
1,13.5,0,0,1,1,0,0
2,15.3,1,0,0,0,0,1


In [187]:
# Excluiu  a primeira coluna categorical que ele transforma
# exclui a primeira porque bastam as outras categorical (caso naão seja nenhuma das categorical transformadas é porque era a primeira)
pd.get_dummies(df[["price","color","size"]], drop_first = True)

Unnamed: 0,price,color_green,color_red,size_M,size_XL
0,10.1,1,0,1,0
1,13.5,0,1,0,0
2,15.3,0,0,0,1
