# Análise de Dados

A **Análise de Dados** é um campo de pesquisa muito presente no mundo atual. Isso se da pelo fato do enorme número de dados coletados, os quais podem ser trabalhados a fim de gerar resultados ótimos. De fato, saber trabalhar com estes dados requer conhecimentos acerca de probabilidade, entre outras áreas. Dessa forma, saber definir dados úteis e dados a serem descartados podem acelerar o processo de treinamento do modelo de Machine Learning ao qual deseja-se treinar. Além disso, em inúmeros casos o redimensionamento da quantidade de atributos (features) pode facilitar tal processo, seja através do descarte ou pelo resumo destes.

## **Tratando os Dados**

O **pré-processamento** dos dados é de suma importância para sua análise, uma vez que os dados foram tratados para serem utilizados durante o treinamento do modelo.

# **Redução de Dimensionalidade**

A **Redução de Dimensionalidade** tem por objetivo reduzir o número de features do seu conjunto de features. Imagine um conjunto de dados com 100 colunas (features) e reduzimos tal para 20 colunas. Tal redução permite que se tenha dados resumidos, o que facilita o treinamento de um modelo de Machine Learning, visto este modelo sendo treinado com um grande conjunto de atributos tende a ser altamente dependente dos dados utilizados em seu treinamento, resultando em uma performance ruim com dados reais. Dessa maneira, quanto maior o número de features, mais complexo pode se tornar o modelo e mais tempo será necessário para o seu treinamento. Além disso, quanto maior o número de features, mais amostras são necessárias.

<center><img src="img/featureComplexidade.png" alt="Drawing" style="width: 420px;height: 300px"/></center>

**Tal processo pode ser feito de várias maneiras, retirando features ou combinando-as para gerar novas features. Tais métodos são explicados abaixo:**

<center><img src="img/selecaoFeatures.png" alt="Drawing" style="width: 550px;height: 350px"/></center>

## **Métodos para retirar features:**

Esse método mantém as features mais importante e descarta as que são redundantes do seu dataset.

### **Método de seleção de features:**

Este método tem por objetivo **identificar e selecionar os atributos que são relevantes** para o treinamento do modelo. Imagine que se deseja estimar o peso de uma pessoa, talvez, não seja interessante realizar o treinamento com a feature de cor da pele. Por outro lado, o atributo altura pode contribuir e muito para o treinamento.
Tal processo pode ser feito manualmente, baseado na relevância identificada pela pessoa a qual está analisando o dataset. Ainda assim, quando isso não é possível, faz se uso de outras ferramentas, as quais são citadas abaixo:
*    Utilizar um mapa de calor que mostre a correlação entre as features;
*    Plotar um gráfico que relacione cada feature com a variável alvo;

Ainda é possível aplicar tal metodologia usando bibliotecas com recursos prontos, sendo uma delas a **sci-kit learn**. Um recurso dessa biblioteca é citado abaixo:

*    **Limite de variação:** Tal método realiza o descarte das informações irrelevantes, baseado na variância a qual tal feature posssui. A partir disso, ele elimina as features, as quais sua própria variância não excede um determinado limite pré-estabelecido. Abaixo um exemplo, o qual descarta a primeira e a última coluna do dataset, visto que o limiar definido é **0**, pois não foi passado nada para o método "VarianceThreshold()". O limiar é definido pelo argumento passado para o método. Para mais informações sobre tal processo acesse o <a link="https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html">link</a>.

In [10]:
from sklearn.feature_selection import VarianceThreshold
X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
selector = VarianceThreshold()
selector.fit_transform(X)

array([[2, 0],
       [1, 4],
       [1, 1]])

Outro recurso da biblioteca do **sci-kit learn** é o:
*    **Seleção Univariada:** A Seleção Univariada de features usa testes estatísticos para selecioná-las. Este método descreve um tipo de dado que consiste em observações em apenas uma única característica ou atributo. A seleção de feature univariado examina cada feature individualmente para determinar a força do relacionamento da feature com a variável de resposta. Alguns exemplos de testes estatísticos que podem ser usados para avaliar a relevância das características são Correlação de Pearson, Coeficiente de informação máxima, Correlação de distância, ANOVA e Chi-square. Chi-square é usado para encontrar a relação entre variáveis categóricas e Anova é preferida quando as variáveis são contínuas. Para mais informações sobre tal método, acesse o <a link="https://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection.html">link</a>.

## **Métodos para combinar features:**

### **Métodos lineares:**