# I Hackathon GEAM InsightLab

Competição organizada pelo Grupo de Estudos em Aprendizado de Maquina para os Encontros Universitários UFC Quixadá 2019. 

- Equipe "Lovelaces": Bárbara Neves, Marianna Pinho e Tassiane Barros.

## Descrição do Problema

Muitos animais são abandonados pelos donos como indesejados, enquanto outros são apanhados na rua após se perderem ou serem retirados de situações de crueldade. Muitos desses animais encontram famílias para levá-los para casa, mas muitos não têm a mesma sorte.

Todos os anos, cerca de 7,6 milhões de animais acabam em abrigos nos EUA. Destes, 2,7 milhões são sacrificados.

Usando um conjunto de dados fornecido pelo Austin Animal Center, que contém informações sobre raça, cor, sexo e idade, pedimos para vocês descubram o destino de cada animal.

Isto pode nos permitir entender as tendências nos resultados com animais. Essas ideias podem ajudar os abrigos a concentrarem suas energia em animais específicos que precisam de um pouco de ajuda extra para encontrar um novo lar.

## Imports Necessários

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from time import strptime
from sklearn.ensemble import RandomForestClassifier,GradientBoostingClassifier
from sklearn.impute import SimpleImputer
from sklearn.multiclass import OneVsRestClassifier
from xgboost import XGBClassifier

## Leitura e Exploração dos Dados

In [2]:
#Como o arquivo deve ser submetido
example_sub = pd.read_csv('Dataset/i-hackathon-geam-insightlab/sample_submission.csv')
example_sub.head()

Unnamed: 0,animal_id,outcome_type
0,A725807,Adoption
1,A713176,Adoption
2,A752992,Adoption
3,A753923,Adoption
4,A763405,Adoption


In [3]:
train_df = pd.read_csv('Dataset/i-hackathon-geam-insightlab/train.csv')

FileNotFoundError: [Errno 2] File b'i-hackathon-geam-insightlab/train.csv' does not exist: b'i-hackathon-geam-insightlab/train.csv'

In [None]:
test_df = pd.read_csv('i-hackathon-geam-insightlab/test.csv')

### Verificando Valores Faltantes

In [None]:
train_df.info()

In [None]:
test_df.info()

## Pré-Processamento

### Removendo *Features* Desnecessárias para o Problema 

In [None]:
train_df = train_df.drop(labels = ['name','outcome_subtype'], axis=1)
test_df = test_df.drop(labels = ['name'], axis=1)

### Transformando os Atributos

In [None]:
animal_numero = {v:k for k,v in enumerate(train_df['animal_type'].unique())}
train_df['animal_type'] = train_df['animal_type'].map(animal_numero)
train_df = train_df.dropna(axis = 0)
test_df['animal_type'] = test_df['animal_type'].map(animal_numero)

In [None]:
breed_numero = {v:k for k,v in enumerate(train_df['breed'].unique())}
train_df['breed'] = train_df['breed'].map(breed_numero)
test_df['breed'] = test_df['breed'].map(breed_numero)

In [None]:
cor_numero = {v:k for k,v in enumerate(train_df['color'].unique())}
train_df['color'] = train_df['color'].map(cor_numero)
test_df['color'] = test_df['color'].map(cor_numero)

In [None]:
sexo_numero = {v:k for k,v in enumerate(train_df['sex_upon_outcome'].unique())}
train_df['sex_upon_outcome'] = train_df['sex_upon_outcome'].map(sexo_numero)
test_df['sex_upon_outcome'] = test_df['sex_upon_outcome'].map(sexo_numero)

#### Transformando os Atributos da Classe do Problema

In [None]:
label_numero = {v:k for k,v in enumerate(train_df['outcome_type'].unique())}
train_df['outcome_type'] = train_df['outcome_type'].map(label_numero)

### Padronizando os Dados

#### Idade

In [None]:
new_train = train_df['age_upon_outcome'].str.split(" ",n=1,expand = True)
train_df['numero'] = new_train[0]
train_df['tipo'] = new_train[1]

In [None]:
train_df['numero'] = train_df['numero'].apply(lambda x : int(x))

In [None]:
total_list = []
for i,j in zip(train_df['numero'],train_df['tipo']):
    total = 0
    if(j == 'year' or j == 'years'):
        total = i * 365
    elif(j == 'month' or j == 'months'):
        total = i * 30
    elif(j == 'week' or j == 'weeks'):
        total = i * 7
    else:
        total = i
    total_list.append(total)

In [None]:
train_df['age_upon_outcome'] = total_list
train_df.drop(labels = ['numero','tipo'], axis=1, inplace=True)

#### Teste

In [None]:
test_df['age_upon_outcome'] = test_df['age_upon_outcome'].replace(to_replace = np.nan, value = '1 day')

In [None]:
new_test = test_df['age_upon_outcome'].str.split(" ",n=1,expand = True)
test_df['numero'] = new_test[0]
test_df['tipo'] = new_test[1]

test_df['numero'] = test_df['numero'].apply(lambda x : int(x))

In [None]:
total_list = []
for i,j in zip(test_df['numero'],test_df['tipo']):
    total = 0
    if(j == 'year' or j == 'years'):
        total = i * 365
    elif(j == 'month' or j == 'months'):
        total = i * 30
    elif(j == 'week' or j == 'weeks'):
        total = i * 7
    else:
        total = i
    total_list.append(total)

In [None]:
test_df['age_upon_outcome'] = total_list
test_df.drop(labels = ['numero','tipo'], axis=1, inplace=True)

In [None]:
# train_df = train_df.drop(labels = ['age_upon_outcome'], axis=1)
# test_df = test_df.drop(labels = ['age_upon_outcome'], axis=1)

#### Dados Temporais no Tipo Apropriado

In [None]:
train_df['arrival_datetime'] = pd.to_datetime(train_df['arrival_datetime'])
test_df['arrival_datetime'] = pd.to_datetime(test_df['arrival_datetime'])

In [None]:
train_df['year'] = train_df['arrival_datetime'].dt.strftime('%Y').apply(lambda x : int(x))
train_df['month'] = train_df['arrival_datetime'].dt.strftime('%m').apply(lambda x : int(x))
train_df['day'] = train_df['arrival_datetime'].dt.strftime('%d').apply(lambda x : int(x))
train_df['hour'] = train_df['arrival_datetime'].dt.strftime('%H:%M').apply(lambda x: int(x[:2])*60 + int(x[3:]))

test_df['year'] = test_df['arrival_datetime'].dt.strftime('%Y').apply(lambda x : int(x))
test_df['month'] = test_df['arrival_datetime'].dt.strftime('%m').apply(lambda x : int(x))
test_df['day'] = test_df['arrival_datetime'].dt.strftime('%d').apply(lambda x : int(x))
test_df['hour'] = test_df['arrival_datetime'].dt.strftime('%H:%M').apply(lambda x: int(x[:2])*60 + int(x[3:]))

In [None]:
train_df.drop('arrival_datetime',axis=1, inplace=True)
test_df.drop('arrival_datetime',axis=1, inplace=True)

#### Verificação

In [None]:
train_df.head()

In [None]:
test_df.head()

## Criação do Dataset após o Pré-Processamento

In [None]:
train_aux = train_df.drop(['animal_id','outcome_type'],axis=1)
test_aux = test_df.drop('animal_id',axis=1)

In [None]:
train_aux.to_csv("New Dataset/trainf.csv")
test_aux.to_csv("New Dataset/testf.csv")

## Resolvendo o Problema

### X_train, y_train e X_test

In [None]:
X_train = train_aux.values
Y_train = train_df['outcome_type'].values
X_test = test_aux.values

### Substituindo os Valores Faltantes do Dados do Teste

In [None]:
imp_mean = SimpleImputer(missing_values=np.nan, strategy = 'mean')
imp_mean.fit(X_train)
X_test = imp_mean.transform(X_test)

### Implementação do Algoritmo

In [None]:
clf = OneVsRestClassifier(XGBClassifier(n_jobs=-1, max_depth=4))
#GradientBoostingClassifier() #RandomForestClassifier(n_estimators=100, max_depth=5, random_state= 42)

clf.fit(X_train, Y_train)

In [None]:
y_pred = clf.predict(X_test)

## Geração do Arquivo de Submissão

In [None]:
to_submit = pd.DataFrame(test_df['animal_id'])

In [None]:
to_submit['outcome_type'] = y_pred

In [None]:
to_submit.head()

In [None]:
label_inv = {v:k for k,v in label_numero.items()}

In [None]:
label_inv

In [None]:
to_submit['outcome_type'] = to_submit['outcome_type'].map(label_inv)
to_submit.head()

In [None]:
to_submit.to_csv("Result/submission.csv",index=False)