# Introdução

O campo da física de altas energias busca compreender as quatro principais forças que regem as interações entre partículas. As informações necessárias para este estudo são coletadas a partir do estudo de uma classificação específica de partículas, que são produzidas em condições extremas.

A única forma conhecida de se gerar e analisar tais partículas é por meio de colisões realizadas em aceleradores de partículas, porém nem toda colisão gera dados relevantes. Na realidade, o Grande Colisor de Hadrons (LHC) gera em média três partículas de interesse (denominadas partículas exóticas) a cada $10^9$ colisões. As colisões restantes geram partículas denominadas background, e não são utilizadas.

Dada a quantidade de colisões realizada por hora, e a complexidade de se analisar os dados obtidos, há um grande interesse em desenvolver uma forma automatizada de se diferenciar partículas exóticas das background. Para realizar esta diferenciação, são utilizados 18 dados. Destes, 8 são dados cinéticos coletados por detectores dentro do próprio acelerador de partículas, enquanto os 10 restantes são calculados em função dos anteriores.

O dataset analizado, denominado SUSY, apresenta um total de cinco milhões de instâncias de partículas teóricas. Cada uma possui 18 variáveis numéricas representando os dados utilizados para a diferenciação entre partículas exóticas e background, e uma variável booleana que representa a **qual destas classificações** a partícula em questão se encaixa. Os dados do dataset SUSY foram gerados a partir de simulações Monte Carlo, ou seja, não são produto de colisões reais.

# Objetivos
## Geral
Leonardo
    Determinar modelo de predição para classificar se a particula é exotica ou não.
## Especificos
Leonardo
    Determinar a melhor metrica para avaliar os resultados exemplos (precisão, acurácia, falso positivo, falso negativo) e porque

# Informações do Dataset

Importando bibliotecas para manipulação do Dataset:

In [7]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Importando Dataset, e separando entre variáveis dependentes e independentes:

Como o dataset é muito extenso, será utilizada a técnica do **memmap** que são usados para acessar pequenos segmentos de arquivos grandes no disco, sem carregar todo o arquivo na memória. [(NUMPY_MEMMAP)](https://docs.scipy.org/doc/numpy/reference/generated/numpy.memmap.html)

In [4]:
a = np.memmap('data_x.mymemmap', dtype='float32', mode='w+', shape=(4999999,18))
a[:] = pd.read_csv('SUSY.csv').iloc[:,1:19].values
del a
data_x = np.memmap('data_x.mymemmap', dtype='float32', mode='r+', shape=(4999999,18))

b = np.memmap('data_y.mymemmap', dtype='float32', mode='w+', shape=(4999999))
b[:] = pd.read_csv('SUSY.csv').iloc[:,0].values
del b
data_y = np.memmap('data_y.mymemmap', dtype='float32', mode='r+', shape=(4999999))

Agora, separando as variáveis entre dataset de treino e dataset de teste, utilizando o train_test_split [train_test_split](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) do scikitlearn

In [None]:
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data_x,data_y, test_size = 0.25, random_state=0)

Analisando o Dataset agora. Para tal, temos que importá-lo na memória. Após análise básica, podemos deletar.

In [17]:
dataset = pd.read_csv('SUSY.csv')

In [13]:
dataset.head()

Unnamed: 0,0.000000000000000000e+00,9.728614687919616699e-01,6.538545489311218262e-01,1.176224589347839355e+00,1.157156467437744141e+00,-1.739873170852661133e+00,-8.743090629577636719e-01,5.677649974822998047e-01,-1.750000417232513428e-01,8.100607395172119141e-01,-2.525521218776702881e-01,1.921887040138244629e+00,8.896374106407165527e-01,4.107718467712402344e-01,1.145620822906494141e+00,1.932632088661193848e+00,9.944640994071960449e-01,1.367815494537353516e+00,4.071449860930442810e-02
0,1.0,1.667973,0.064191,-1.225171,0.506102,-0.338939,1.672543,3.475464,-1.219136,0.012955,3.775174,1.045977,0.568051,0.481928,0.0,0.44841,0.205356,1.321893,0.377584
1,1.0,0.44484,-0.134298,-0.709972,0.451719,-1.613871,-0.768661,1.219918,0.504026,1.831248,-0.431385,0.526283,0.941514,1.587535,2.024308,0.603498,1.562374,1.135454,0.18091
2,1.0,0.381256,-0.976145,0.693152,0.448959,0.891753,-0.677328,2.03306,1.533041,3.04626,-1.005285,0.569386,1.015211,1.582217,1.551914,0.761215,1.715464,1.492257,0.090719
3,1.0,1.309996,-0.690089,-0.676259,1.589283,-0.693326,0.622907,1.087562,-0.381742,0.589204,1.365479,1.179295,0.968218,0.728563,0.0,1.083158,0.043429,1.154854,0.094859
4,0.0,0.456398,1.099371,1.512453,0.751772,0.638967,-0.742216,0.322601,1.321054,0.169502,0.359941,0.489256,0.416168,0.754829,0.30375,0.461067,0.345541,0.733242,0.186044


In [14]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4999999 entries, 0 to 4999998
Data columns (total 19 columns):
0.000000000000000000e+00     float64
9.728614687919616699e-01     float64
6.538545489311218262e-01     float64
1.176224589347839355e+00     float64
1.157156467437744141e+00     float64
-1.739873170852661133e+00    float64
-8.743090629577636719e-01    float64
5.677649974822998047e-01     float64
-1.750000417232513428e-01    float64
8.100607395172119141e-01     float64
-2.525521218776702881e-01    float64
1.921887040138244629e+00     float64
8.896374106407165527e-01     float64
4.107718467712402344e-01     float64
1.145620822906494141e+00     float64
1.932632088661193848e+00     float64
9.944640994071960449e-01     float64
1.367815494537353516e+00     float64
4.071449860930442810e-02     float64
dtypes: float64(19)
memory usage: 724.8 MB


In [15]:
dataset.describe()

Unnamed: 0,0.000000000000000000e+00,9.728614687919616699e-01,6.538545489311218262e-01,1.176224589347839355e+00,1.157156467437744141e+00,-1.739873170852661133e+00,-8.743090629577636719e-01,5.677649974822998047e-01,-1.750000417232513428e-01,8.100607395172119141e-01,-2.525521218776702881e-01,1.921887040138244629e+00,8.896374106407165527e-01,4.107718467712402344e-01,1.145620822906494141e+00,1.932632088661193848e+00,9.944640994071960449e-01,1.367815494537353516e+00,4.071449860930442810e-02
count,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0,4999999.0
mean,0.4575655,1.000318,2.179504e-05,-5.018183e-05,0.9994304,-3.678343e-05,-1.954757e-05,0.9999745,3.545853e-05,1.001437,-4.873422e-05,1.00036,0.9999559,0.9999165,1.000421,1.000112,1.000192,0.9994851,0.2249139
std,0.4981961,0.6873341,1.003107,1.00167,0.65422,1.002839,1.001631,0.8728877,1.001654,0.8901669,1.001594,0.6288446,0.584114,0.4708406,0.8592492,0.6207164,0.6237673,0.4360949,0.1969804
min,0.0,0.2548815,-2.102927,-1.734789,0.428586,-2.059306,-1.734202,0.0002598711,-1.727117,7.693475e-08,-16.71863,0.267307,0.001041228,0.002048078,0.0,0.02734135,0.004452858,3.211849e-07,4.17213e-08
25%,0.0,0.5624837,-0.7573516,-0.8673567,0.5969881,-0.7695912,-0.8683741,0.4784546,-0.866151,0.3691849,-0.4923983,0.5883285,0.6223411,0.6505438,0.1705213,0.5985209,0.5134394,0.6879128,0.06908195
50%,0.0,0.7915511,0.0001339398,-0.0003887097,0.7997993,-0.0003792388,0.0002009779,0.773836,-0.009172366,0.8019273,-0.08037898,0.8286114,0.8781311,0.9344711,0.9018388,0.8355336,0.9142514,1.094396,0.16725
75%,1.0,1.204413,0.7576488,0.8670981,1.162353,0.7692302,0.8674778,1.207444,0.868762,1.375392,0.348901,1.211083,1.220313,1.283522,1.613231,1.207994,1.384583,1.369183,0.3303655
max,1.0,20.55345,2.101605,1.734839,33.03562,2.059721,1.734686,21.06888,1.740689,23.38644,20.4879,21.07572,16.16682,6.73121,20.68624,21.15226,15.6137,1.59166,1.0


In [24]:
# dataset['1.145620822906494141e+00']
total = 0
for x in range(len(dataset['1.145620822906494141e+00'])):
    if dataset['1.145620822906494141e+00'][x] == 0:
        total = total + 1
print(total)

1061873


In [16]:
del dataset

# Algoritmos de Classificação

KNN,SGD,KA,GBC colocar imagem do sklearnin de seleção dos algoritmos  
Rafael, Adrianne

# Análise das Features
Gesiel falar sobre as variações dos modelos e pré concluir
## Pré Processamento
Gesiel
## Redução de Features
Afonso, João Pedro
## Teste Redução
    Testar as features com os algoritmos SGD, GBC de classificação
    Afonso
## Conclusão Análise Features
    Afonso
Concluir que é melhor não reduzir as features

# conclusão
## Algoritmo utilizado
Thiago
## Resultados Obtidos
Thiago
    Apresentar resultados obtidos, gráficos e resultados da mensuração