## Análise Exploratoria de Dados

# Ferramentas e Bibliotecas



*   [Google Colab](https://colab.google/): Serviço de nuvem gratuito hospedado pelo Google para incentivar a pesquisa de Aprendizado de Máquina e Inteligência Atificial;
* Bibliotecas **Python**: **pandas, matplotlib**

## Referências sobre a biblioteca **pandas** e **matplotlib**:

*   [pandas](https://pandas.pydata.org/) é uma bilioteca para análise de dados em Python, de código aberto, licenciada pod BSD, utiliza o conceito de dataframes que funcionam como uma matriz de dados, formada por linhas e colunas.

* Documentação da biblioteca [matplotlib](https://matplotlib.org/stable/index.html).

* Ciência de Dados comReprodutibilidade usando Jupyter, disponível: [https://www.doi.org/]().

* Introdução à Análise de Dados com Python e pandas, disponível em: [https://enucomp.com.br/2017/enucomp_anaisX_2017.pdf]()

* Introdução à Análise Exploratória de Dados com Python, disponível em: [https://ercas2019.enucompi.com.br/doc/livro_de_minicursos_ercas_pi_2019.pdf]()


## Bibliotecas Necessárias

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
print('Versão numpy -> %s' % np.__version__)
print('Versão pandas -> %s' % pd.__version__)
print('Versão seaborn -> %s' % sns.__version__)

Versão numpy -> 1.23.5
Versão pandas -> 1.5.3
Versão seaborn -> 0.12.2


In [3]:
import matplotlib

print('Versão matplotlib %s' % matplotlib.__version__)

Versão matplotlib 3.7.1


## Elementos de Dados Estruturados

Dados são uma coleção de objetos discretos, eventos e fatos na forma de números, texto, imagens, vídeos objetos, áudio eoutras entidades.

Muitos desses dados não são estruturados: imagens são um conjunto de pixels, sendo que cada pixel contém informações de cor RGB (red, green, blue -- vermelhor, verde, azul); textos são sequências de palavras e caracteres, geralmente organizados em seções, subseções e assim por diante. A Análise Exploratória de Dados (AED) visa trabalhar essa torrentede dados brutos e transfomá-los em informação acionável.

A organização dos dados coletados é **fundamental** para que não hajam erros de processamento e **perda** de informações.

A **apresentação** dos dados **depende** do tipo de variável e daquilo que se quer **mostrar**.

**Variáveis**

A AED analisa **cada** variável, ou seja, qualquer característica associada a uma população, como peso, altura, sexo ou idade por exemplo.

As variáveis podem assumir diferentes valores, que basicamente podem ser **separados** em:

  * **Quantitativos** ou númericos.
  
  * **Qualitativos** ou não númericos, ou categóricos.

**As variáveis quantitativas ou númericas podem ser:**

  * **Discretas**: assumem apenas valores inteiros: Ex.: números de irmãos, número de passageiros;
  
  * **Conínuas**: assume qualquer valor no intervalo dos números reais. Ex.: peso, altura.

**As variáveis qualitativas ou categóricas podem ser:**

  * **Nominais**: quando as categorias não possuem uma ordem natural. Ex.: nomes, cores, sexo;
  
  * **Ordinais**: quando as categorias podem ser ordenadas. Ex.: tamanho (pequeno, médio, grande), classe social (baixa, média, alta), grau de instrução (básico, médio, graduação, pós-graduação).

A imagem abaixo resume os tipos de variáveis.


![teste](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1590355846511-158TZXXUJQH0AKRSL0Q5/Captura+de+Tela+2020-05-23+%C3%A0s+13.37.32.png)


**Covenção dos dados de entrada**:

  * Os dados devem estar no formato de **matriz** (linha x coluna);
  
  * Cada linha da matriz corresponde a **uma** unidade experimental (**elemento** da **população** ou **amostra** no qual observamos as variáveis/**colunas** da tabela);

  * Cada **coluna** da matriz corresponde a uma **variável**;

## Pandas

O pandas é uma biblioteca licenciada com código aberto que oferece estruturas de dados de alto desempenho e de fácil utilização voltado a análise de dados para a linguagem de programação Python.

  * Transforma dados de entrada em uma tabela de dados
  * Componentes chave
      
      * Series (Séries)
      
      * DataFrame

## Séries (series)


  * Objeto unidimensional do tipo array contendo dados e rótulos (labels) (ou índices), criado sobre o numpy.