# Inteligência Computacional

## Projeto DATA MINING CUP Competition 2013

In [63]:
import pandas as pd

In [64]:
from copy import deepcopy

In [65]:
data = pd.read_csv('transact_train.csv')

## Tratando Granularidade e Criando Variáveis

### Agrupando Dados
agrupando todos os dataframes separados por sessionNo em um vetor

In [66]:
group = data["sessionNo"]
agg = data.groupby([group])
splited = []
for group in agg:
    splited.append(pd.DataFrame(data = group[1], columns=data.columns.values))

In [67]:
# vetor de dataframes separados por sessionNo
#splited[2]

### Criando Variáveis da mudança de granularidade
Essas são as variáveis que criamos buscando recuperar dados perdidos na mudança da granularidade
##### bStep_count
    Quantidade de bStep maiores que 3 de cada sessão
##### countLog
    Numero de log de cada sessão
##### modes
    Moda do bStep de cada Sessão.

In [68]:
bStep_count = []
countLog = []
modes = []
for session in splited:
    countStep = 0
    countLog.append(len(session))
    modes.append(session['bStep'].mode()[0])
    for j in range(len(session)):
        if(session['bStep'].iloc[j] != "?" and int(session['bStep'].iloc[j]) >= 3):
            countStep +=1
    bStep_count.append(countStep)

In [69]:
#bStep_count
#countLog
#modes

### Mudando Granularidade

In [70]:
#Mudando a granularidade
data = data.groupby(['sessionNo'], as_index=False).last()

### Criando Variáveis de Correlação

As técnicas de inteligência artificial pressupõem que as variáveis não têm correlação entre si, apenas relação direta com a variável alvo.

Essas são as variáveis que criamos buscando informar uma correlação entre variáveis
##### diffCounts
    diferença entre cCount e bCount
##### durCount
    Razão entre a duração e o Ccount

In [71]:
# diffCounts
diffCounts = (data['cCount']-data['bCount']).values

# durCount
durCount = (data['duration']/data['cCount'])
durCount = durCount.replace(float("inf"), "?", regex=False).values
# Testar depois com outros valores para tratar o inf

In [72]:
#diffCounts
#durCount

### Atribuindo numeros às classes
Buscando melhorar o processamento, transformamos todos os nomes de classe para numeros, numa sequencia de 0 ao numero de classes -1 para cada classe diferente.

In [73]:
##Ver os valores diferentes de availability
#data.groupby(['availability'], as_index=False).last()

##Ver os valores diferentes de onlineStatus
#data.groupby(['onlineStatus'], as_index=False).last()

##Ver os valores diferentes de order
#data.groupby(['order'], as_index=False).last()

In [74]:
# availability
data.loc[(data.availability == 'completely not determinable'),'availability']= 0
data.loc[(data.availability == 'completely not orderable'),'availability']= 1
data.loc[(data.availability == 'completely orderable'),'availability']= 2
data.loc[(data.availability == 'mainly not determinable'),'availability']= 3
data.loc[(data.availability == 'mainly not orderable'),'availability']= 4
data.loc[(data.availability == 'mainly orderable'),'availability']= 5
data.loc[(data.availability == 'mixed'),'availability']= 6

# onlineStatus
data.loc[(data.onlineStatus == 'y'),'onlineStatus']= 1
data.loc[(data.onlineStatus == 'n'),'onlineStatus']= 0

# order
data.loc[(data.order == 'y'),'order']= 1
data.loc[(data.order == 'n'),'order']= 0

### Inserindo as colunas das variáveis criadas
Com as variáveis criadas, adicionamos ao conjunto de dados com a granularidade já alterada.

In [75]:
#Inserindo colunas de variáveis no conjunto de dados total

#bStep_count
data.insert(23, "bStep_count", bStep_count , True) 

#countLog
data.insert(24, "countLog", countLog , True)

#modes
data.insert(25, "modes", modes , True) 

#diffCounts
data.insert(26, "diffCounts", diffCounts , True) 

#durCount
data.insert(27, "durCount", durCount, True) 

In [76]:
#data

### Tratando Missing Values

In [77]:
backupData = deepcopy(data)

In [89]:
#Tratamento de missing value com o valor minimo
data['durCount'].mask(data['durCount'] == '?').min()

0.0

In [90]:
def replaceMissingbyMin(data, field):
    if(field == 'durCount'):
        mini = data['durCount'].mask(data['durCount'] == '?').min()
    else:
        mini = data[field].min()
    data[field] = data[field].replace('?', mini, regex=False)


In [91]:
varsNum = ['cMinPrice', 'cMaxPrice', 'cSumPrice', 'bMinPrice', 'bMaxPrice', 'bSumPrice', 'bStep', 'maxVal', 
           'customerScore', 'accountLifetime', 'payments', 'age', 'lastOrder',"bStep_count", "modes" , "countLog" , "diffCounts", "durCount"]

for var in varsNum:
    replaceMissingbyMin(data, var)

In [92]:
data2 = deepcopy(data)

In [93]:
def replaceMissingbyMode(data, field):
    mode = data[field].mode()
    if((mode == '?').bool()):
        mode = data[field].value_counts().index[1]
    data[field] = data[field].replace('?', mode, regex=False)

In [94]:
categories = ['onlineStatus', 'availability', 'address']

In [95]:
#substitui missing value da categoria pela moda
for category in categories:
    replaceMissingbyMode(data, category)

In [96]:
#substitui missing value da categoria pela moda
for category in categories:
    replaceMissingbyMode(data, category)

In [97]:
#substitui missing value da categoria por -1
def replaceMissingbyNew(data, field):
    data[field] = data[field].replace('?', -1, regex=False)

In [98]:
for category in categories:
    replaceMissingbyNew(data2, category)

In [99]:
#Salva a tabela
datas = [data, data2]
data = deepcopy(backupData)

In [100]:
datas[1]

Unnamed: 0,sessionNo,startHour,startWeekday,duration,cCount,cMinPrice,cMaxPrice,cSumPrice,bCount,bMinPrice,...,payments,age,address,lastOrder,bStep_count,countLog,modes,diffCounts,durCount,order
0,1,6,5,39887.0,1,59.99,59.99,59.99,1,59.99,...,1,43,1,49,0,3,1,0,39887.000000,1
1,2,6,5,94469.0,0,0.0,0.0,0.0,0,0.0,...,0,17,-1,10,2,5,4,0,0.000000,1
2,3,6,5,341613.0,11,9.99,29.99,109.95,2,9.99,...,12,45,1,11,1,5,1,9,31055.727273,1
3,4,6,5,42812.0,4,4.99,4.99,19.96,1,4.99,...,0,17,-1,10,0,2,1,3,10703.000000,0
4,5,6,5,2816046.0,45,12.99,179.95,1093.72,4,19.99,...,1,46,1,40,2,8,1,41,62578.800000,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49995,49996,18,7,7271812.0,197,6.99,59.99,4315.03,13,9.99,...,0,17,-1,10,5,31,1,184,36912.751269,1
49996,49997,18,7,667219.0,8,70.99,89.99,667.88,1,89.99,...,0,17,-1,10,0,2,2,7,83402.375000,0
49997,49998,18,7,5988882.0,77,9.99,149.99,5253.28,3,49.95,...,0,17,-1,10,0,3,1,74,77777.688312,0
49998,49999,18,7,715341.0,7,59.0,649.99,1159.95,1,89.99,...,0,24,1,4,0,2,1,6,102191.571429,0


In [101]:
#Substitui missing value  pelo máximo.