# Dados

<img src='du.png'>

## Coletar os dados 

* Dados primários (coleta na fonte): Surveys, Experimentos, Grupos de Foco
 - custo elevado
 - muito tempo/ baixa qualidade
 - conseguir exatamente os dados que precisamentos

* Dados Secundários (já disponivéis): open data sourcers, ERP, industry reports
    - fácil / acesso rápido
    - baixo custo
    - dados irrelevantes

### Tipos de Dados 

<img src='tipos_dados.png'>

* **Tipo**: 
    - Define se o atributo representa quantidades (quantitativo ou númerico) ou qualidades (simbólico ou categórico)
    - Ex. de conuntos qualitativos são {pequeno, médio, grande} e {matemática, fisíca, quimíca}. Apesar de alguns conjuntos poderem ser ordenados, oeprações matemáticas não podem ser aplicadas 
    - Atributos quantitativos podem ser contínuos ou discretos

<img src='tipos_atributos.png'>

<font color='red'>  Observe que uma medida quantitativa possui,além do valor numérico, uma unidade, por exemplo, metro. </font>

* Atributos quantitativos podem assumis valores binários, inteiros ou reais. Já os qualitativos são, geralmente, representados, por um número finito de símbolos ou nomes.
* Entretanto, alguns atributos categóricos são representados por números, mas nesse caso, não faz sentido a utilização de operadores aritméticos sobre os seus valores

* **Escala** 
    - Define as operações que podem ser realizadas sobre os valores de um atributo 
    - Nominais(quali), ordinais(quali), intervalares(quanti) e racionais(quanti)

* Nominais: 
    - valores são apenas nomes diferentes, carregando a menor quantidade de informação possível
    - não existe relação de ordem 
    - as operações mais utilizadas são de igualdade e desigualdade
    - ex.: nome do paciente, RG, CPF, CEP
        
* Ordinais:
    - refletem uma ordem das categorias representadas
    - as operações utilizadas são; >, >=,  <, <=, ==,!=
    - ex.: hierarquia militar, avaliações do tempo (frio, morno, quente)
        
* Intervalares:
    - são representados por números que variam dentro de um intervalo
    - é possível definir tanto a ordem quanto a diferença em magnitude entre dois valores
    - a diferença em magnitude indica a distância que separa dois valores no intevalo de possíveis valores
    
* Racionais:
    - são os que carregam mais informação
    - os números tem um significado absoluto, ou seja, faz sentido utilizar a razão entre dois valores 

<img src='cpf_numero.jpeg'>

### Balanceamento 

<img src='imbalanced.png'>

* Uma classe abaixo dos 30% normalmente é um problema de desbalanceamento

### Dados Estruturados e Não estruturados 

<img src='structured_data.jpg'>

### Batch vs Streaming 

### Big Data vs Not Big Data

## Análise Exploratória 

Inferência Estatistica e Teste de Hipoteses

<img src='bussinessmoments.png'>

<img src='skewess.png'>

<img src='kurtosis.png'>

* **Representação Gráfica:**
    - Univariada:
        - Boxplot: identificar outlier e o shape da distribuição
        - Histograma: identificar o shape da distribuição e identificar outliers
        - Q-Qplot: dados são normais ou não
    - Bivariada:
        - Scatter plot: correlação (positiva, negativa, não existe), força (moderada, forte, fraca), linear ou nao linear; Outliers
    - Multivariada:
         - Regressão

## Qualidade dos dados 

* Identificar outliers
* Identificar dados faltantes
* Identificar diferentes níveis de granularidade
* Validação e confiabilidade
* Dados Inconsistentes
* Informação errada
* Metadados errados 

# Vamos para a prática? 

- Objetivo 1: Prever a tag do texto
- Objetivo 2: Prever qual será a tecnologia do momento dadas as perguntas do stackoverflow

In [7]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [9]:
answers = pd.read_csv('archive/Answers.csv', encoding='latin-1')
questions = pd.read_csv('archive/Questions.csv', encoding='latin-1')
tags =  pd.read_csv('archive/Tags.csv', encoding='latin-1')

In [11]:
answers.head()

Unnamed: 0,Id,OwnerUserId,CreationDate,ParentId,Score,Body
0,92,61.0,2008-08-01T14:45:37Z,90,13,"<p><a href=""http://svnbook.red-bean.com/"">Vers..."
1,124,26.0,2008-08-01T16:09:47Z,80,12,<p>I wound up using this. It is a kind of a ha...
2,199,50.0,2008-08-01T19:36:46Z,180,1,<p>I've read somewhere the human eye can't dis...
3,269,91.0,2008-08-01T23:49:57Z,260,4,"<p>Yes, I thought about that, but I soon figur..."
4,307,49.0,2008-08-02T01:49:46Z,260,28,"<p><a href=""http://www.codeproject.com/Article..."


# Data Prep 
    

<img src='dp.png'>

**Eliminação Manual de atributos**
- Não faz sentido usar atributos Nome e Id para o Diagnóstico (por exemplo)
- outros atributos irrelevantes podem ser facilmente identificados, por exemplo, atributos que tem o mesmo valor para todos os objetos
                                                            

**Integração de Dados**
- Identificação de identidade 
- Metadados (ajudam a identificar chaves que tenham nomes diferentes ou dados que foram atualizados em momentos diferentes)


**Amostragem de Dados**
- Quando as amostras não são representativas, diferentes amostras de uma mesma população podem gerar modelos diferentes
- Tipos de amostragem:
  - Amostragem aleatória simples: sem reposição ou com reposição
  - Amostragem estratificada
  - Amostragem progressiva  

**Dados Desbalanceados**

- Redefinir o tamanhodo conjunto de dados - oversampling ou undersampling
- Utilizar diferentes custos de classificação para diferentes classes - penalizar a classificação incorreta da classe majoritária
- Induzir um modelo para uma classe - criar um classificador para cada classe

**Limpeza dos dados** 

- Incompletos (valores ausentes)
    - eliminar objetos com valores ausentes 
    - definir e preencher manualmente valores para os atributos
    - utilizar algum metódo ou heurística para definir os valores ausentes
    - utilizar algoritmos de AM que lidam com valores faltantes 
    
- Inconsistentes (uma relação conhecida entre os atributos é violada)
    - remoção
- Redundância 
    - podem ser objetos ou atributos 
    - normalmente objetos duplicados são removidos pois influenciam na decisão do AM
- Ruídos
    - dados que não pertencem a distribuição quegerou os dados analisados
    - existem diversas técnicas para reduzir o ruído em um atributo 

**Transformação dos dados**

- Conversão Simbólica-Númerico: binário quando não há relação de ordem ou inteiro quando há relação de ordem 

**Redução de Dimensionalidade**
- Agregação: 
    * combinar os atributos originais por meio de funções lineares ou não lineares: PCA
- Seleção
    * Embutida: arvores de decisão
    * Baseada em filtro: etapa de pré processamento (ex. correlação)
    * Baseada em wrapper: utiliza o algoritmo como uma caixa preta de seleção