## Análise Exploratoria de Dados

# Ferramentas e Bibliotecas



*   [Google Colab](https://colab.google/): Serviço de nuvem gratuito hospedado pelo Google para incentivar a pesquisa de Aprendizado de Máquina e Inteligência Atificial;
* Bibliotecas **Python**: **pandas, matplotlib**

## Referências sobre a biblioteca **pandas** e **matplotlib**:

*   [pandas](https://pandas.pydata.org/) é uma bilioteca para análise de dados em Python, de código aberto, licenciada pod BSD, utiliza o conceito de dataframes que funcionam como uma matriz de dados, formada por linhas e colunas.

* Documentação da biblioteca [matplotlib](https://matplotlib.org/stable/index.html).

* Ciência de Dados comReprodutibilidade usando Jupyter, disponível: [https://www.doi.org/]().

* Introdução à Análise de Dados com Python e pandas, disponível em: [https://enucomp.com.br/2017/enucomp_anaisX_2017.pdf]()

* Introdução à Análise Exploratória de Dados com Python, disponível em: [https://ercas2019.enucompi.com.br/doc/livro_de_minicursos_ercas_pi_2019.pdf]()


## Bibliotecas Necessárias

In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
print('Versão numpy -> %s' % np.__version__)
print('Versão pandas -> %s' % pd.__version__)
print('Versão seaborn -> %s' % sns.__version__)

Versão numpy -> 1.23.5
Versão pandas -> 1.5.3
Versão seaborn -> 0.12.2


In [3]:
import matplotlib

print('Versão matplotlib %s' % matplotlib.__version__)

Versão matplotlib 3.7.1


## Elementos de Dados Estruturados

Dados são uma coleção de objetos discretos, eventos e fatos na forma de números, texto, imagens, vídeos objetos, áudio eoutras entidades.

Muitos desses dados não são estruturados: imagens são um conjunto de pixels, sendo que cada pixel contém informações de cor RGB (red, green, blue -- vermelhor, verde, azul); textos são sequências de palavras e caracteres, geralmente organizados em seções, subseções e assim por diante. A Análise Exploratória de Dados (AED) visa trabalhar essa torrentede dados brutos e transfomá-los em informação acionável.

A organização dos dados coletados é **fundamental** para que não hajam erros de processamento e **perda** de informações.

A **apresentação** dos dados **depende** do tipo de variável e daquilo que se quer **mostrar**.

**Variáveis**

A AED analisa **cada** variável, ou seja, qualquer característica associada a uma população, como peso, altura, sexo ou idade por exemplo.

As variáveis podem assumir diferentes valores, que basicamente podem ser **separados** em:

  * **Quantitativos** ou númericos.
  
  * **Qualitativos** ou não númericos, ou categóricos.

**As variáveis quantitativas ou númericas podem ser:**

  * **Discretas**: assumem apenas valores inteiros: Ex.: números de irmãos, número de passageiros;
  
  * **Conínuas**: assume qualquer valor no intervalo dos números reais. Ex.: peso, altura.

**As variáveis qualitativas ou categóricas podem ser:**

  * **Nominais**: quando as categorias não possuem uma ordem natural. Ex.: nomes, cores, sexo;
  
  * **Ordinais**: quando as categorias podem ser ordenadas. Ex.: tamanho (pequeno, médio, grande), classe social (baixa, média, alta), grau de instrução (básico, médio, graduação, pós-graduação).

A imagem abaixo resume os tipos de variáveis.


![teste](https://images.squarespace-cdn.com/content/v1/5a2a067e8dd04151f6e8250d/1590355846511-158TZXXUJQH0AKRSL0Q5/Captura+de+Tela+2020-05-23+%C3%A0s+13.37.32.png)


**Covenção dos dados de entrada**:

  * Os dados devem estar no formato de **matriz** (linha x coluna);
  
  * Cada linha da matriz corresponde a **uma** unidade experimental (**elemento** da **população** ou **amostra** no qual observamos as variáveis/**colunas** da tabela);

  * Cada **coluna** da matriz corresponde a uma **variável**;

## Pandas

O pandas é uma biblioteca licenciada com código aberto que oferece estruturas de dados de alto desempenho e de fácil utilização voltado a análise de dados para a linguagem de programação Python.

  * Transforma dados de entrada em uma tabela de dados
  * Componentes chave
      
      * Series (Séries)
      
      * DataFrame

### Séries (series)

  * Objeto unidimensional do tipo array contendo dados e rótulos (labels) (ou índices), criado sobre o numpy.

  * Se um índice não for informado explicitamente, Pandas cria um automaticamente (equivalente a `range (n)`, sendo N é o tamanho dos seus dados)

  * O índice é usado para implementar buscas rápidas, alinhamento de dados e operações de junção (como join em SQL)

  * Suporta índices hierárquicos, onde cada label é uma tupla

  * Criando uma serie

In [4]:
my_series = pd.Series([10, 20, 30, 40, 50])
print(my_series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


* Conteúdos podem ser acessados via um ou mais índices

In [5]:
my_series[2]

30

In [6]:
my_series.index = ['A', 'B', 'C', 'D', 'E']
my_series

A    10
B    20
C    30
D    40
E    50
dtype: int64

In [7]:
my_series['C']

30

In [8]:
print(my_series['A'])

10


In [10]:
print(my_series[['B', 'C']])

B    20
C    30
dtype: int64


* slicing funciona para índices númericos e nominais

In [11]:
print(my_series[0:2])

A    10
B    20
dtype: int64


In [12]:
print(my_series['B':'D'])

B    20
C    30
D    40
dtype: int64


In [13]:
print(my_series['B':])

B    20
C    30
D    40
E    50
dtype: int64


In [14]:
print(my_series[:'C'])

A    10
B    20
C    30
dtype: int64


* máscaras booleanas também podem ser usadas

In [15]:
my_series >= 30

A    False
B    False
C     True
D     True
E     True
dtype: bool

In [16]:
mask = my_series >= 30

In [17]:
my_series[mask]

C    30
D    40
E    50
dtype: int64

* reindex

    * modifica o valor do índice, adiciona valores faltantes ou preenche valores faltantes

In [18]:
s = pd.Series(range(4))
s

0    0
1    1
2    2
3    3
dtype: int64

In [19]:
print('Original')
print(s)

Original
0    0
1    1
2    2
3    3
dtype: int64


In [20]:
sn = s.reindex([4, 3, 2, 1, 0, 5])
print(sn)

4    NaN
3    3.0
2    2.0
1    1.0
0    0.0
5    NaN
dtype: float64


In [21]:
print('Método 1 de tratar valores faltantes')
sn_1 = s.reindex([4, 3, 2, 1, 0, 5], fill_value=-1)
sn_1

Método 1 de tratar valores faltantes


4   -1
3    3
2    2
1    1
0    0
5   -1
dtype: int64

In [22]:
print('Método 2 de tratar os valores faltantes')
sn_2 = s.reindex([4, 3, 2, 1, 0, 5], method='nearest')
sn_2

Método 2 de tratar os valores faltantes


4    3
3    3
2    2
1    1
0    0
5    3
dtype: int64

* Operações aritméticas (realizada de acordo com o "match" dos índices)

In [23]:
print(sn_1)
print(sn_2)

4   -1
3    3
2    2
1    1
0    0
5   -1
dtype: int64
4    3
3    3
2    2
1    1
0    0
5    3
dtype: int64


In [24]:
print(sn_1 + sn_2)

4    2
3    6
2    4
1    2
0    0
5    2
dtype: int64


In [25]:
print(sn_1 * sn_2)

4   -3
3    9
2    4
1    1
0    0
5   -3
dtype: int64


* é possível organizar os elementos de uma série pelo índice ou pelos valores

In [26]:
print(sn_1)

4   -1
3    3
2    2
1    1
0    0
5   -1
dtype: int64


In [27]:
print(sn_1.sort_index())

0    0
1    1
2    2
3    3
4   -1
5   -1
dtype: int64


In [28]:
print(sn_1.sort_values())

4   -1
5   -1
0    0
1    1
2    2
3    3
dtype: int64


* Hé muitos métodos implementados para operar nos valores. Alguns exemplos, são:

    * unique()
    * value_counts()
    * isin()
    * ...(muito mais na parte II, próxima aula)

In [29]:
new_series = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
print(new_series)

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object


In [30]:
print(new_series.unique())

['c' 'a' 'd' 'b']


In [31]:
print(new_series.value_counts())

c    3
a    3
b    2
d    1
dtype: int64


In [32]:
print(new_series.isin(['b', 'd']))

0    False
1    False
2     True
3    False
4    False
5     True
6     True
7    False
8    False
dtype: bool


In [33]:
dir(new_series)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__redu

### DataFrames

Dataframe é uma estrutura de dados tabular bidimensional e mutável em tamanho, potencialmente heterogênea, com eixos rotulados (linas e colunas).

  * Possui índices de linhas e colunas

  * Pode ser interpretado como um dicionário de Séries (cada série em uma linha) em que todas as Séries compartilham o mesmo conjunto de índices (os índices das colunas)

Dataframes podem ser criados de muitas maneiras diferentes:

  * **2-D NumPy array:** Uma matriz de dados, podendo passar os índices de linha e coluna

  * **Dict of arrays, lists, or tuples:** Cada sequência se torna uma coluna. As sequ~encias devem ter o mesmo número de elementos

  * **Dict of Series:** Cada séries se torna uma coluna. Índices de cada séries são unidos para formar o índice das linhas

  * **Dict of dicts:** Cada dicionário se torna uma coluna. Chaves dos dicionários se unem para formar os índices das linhas

  * **List of dicts or Series:** Cada item se torna uma linha no DataFrame. A união das chaves (para dicionário) ou índices (para Séries) gera o índice das colunas

  * **List of lists or tuples:** Similar a uma matriz do numpy

  * **DataFrame:** O índice do DataFrame é mantido a não ser que um novo seja fornecido

  * **NumPy masked array:** matriz de dados em que valores falso se tornam NaN

In [34]:
data = {
    'Name': ['Fulano A', 'Fulano B', 'Beltrano A', 'Beltrano B', 'Sicrano A', 'Sicrano B'],
    'Age': [20, 21, 19, 28, 20, 22]
}

df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age
0,Fulano A,20
1,Fulano B,21
2,Beltrano A,19
3,Beltrano B,28
4,Sicrano A,20
5,Sicrano B,22


**Atenção:** Duas funções são muito úteis para analisar rapidamente um novo DataFrame: df.head() e df.dtypes()

In [35]:
df.head()

Unnamed: 0,Name,Age
0,Fulano A,20
1,Fulano B,21
2,Beltrano A,19
3,Beltrano B,28
4,Sicrano A,20


In [36]:
df.head(2)

Unnamed: 0,Name,Age
0,Fulano A,20
1,Fulano B,21


In [37]:
df.dtypes

Name    object
Age      int64
dtype: object

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    6 non-null      object
 1   Age     6 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 224.0+ bytes


#### Manipulando e Acessando Colunas

  * Colunas podem ser acessadas;

      * usando seus rótulos dentro de [ ]

      * usando rótulos como atributo

      * usando lista de rótulos dentro de [ ] (acessa várias colunas

* Colunas podem ser criadas simplesmente criando um novo rótulo

* Colunas podem ser removidas usando o método `drop` ou `del`