# Python para Análise de Dados

- Visão Geral de Bibliotecas Python para Cientistas de Dados
- Lendo Dados, Selecionando e Filtrando os Dados, Manipulando Dados, Ordenando, Agrupando, Reorganizando, Plotando
- Estatística Descritiva
- Estatística Inferencial

## Bibliotecas Python para Ciência de Dados

Ferramentas e Bibliotecas populares:

- NumPy
- SciPy
- Pandas
- Scikit-Learn
- Matplotlib
- Seaborn

### NumPy

- Introduz objetos para arrays multidimensionais e matrizes, assim como funções que permitem facilmente a execução de operações matemáticas e estatísticas avançadas nesses objetos.
- Provê vetorização de operações matemáticas em arrays e matrizes no qual melhora significante a perfomance
- Muitas outras bibliotecas em Python são construídas em cima da NumPy

### SciPy

- Coleção de algoritmos para Álgebra Linear, Equações Diferenciais, Integração Numérica, Otimização, Estatística e muito mais
- Construída em cima de NumPy

### Pandas

- Adiciona estruturas de dados e ferramentas desenvolvidas para trabalharmos com dados tipo-tabela (similares às Séries e DataFrames em R)
- Provê ferramentas para manipulação de dados: reshaping, merging, sorting, slicing, aggregation, etc.
- Permite que possamos lidar com dados 'faltantes'

### Scikit-Learn

- Provê Algoritmos de Machine Learning: Classificação, Regressão, Clusterização, Validação de Modelos.
- Construído em cima de NumPy, SciPy e Matplotlib

### Matplotlib

- Biblioteca de plotagens 2D no qual produz figuras de qualidade em uma variedade de formatos
- Um conjunto de funcionalidades similar àquelas de MATLAB
- Line plots, Scatter Plots, Barcharts, Histograms, Pie Charts, etc
- Relativamente de baixo nível, é necessário um certo esforço para criar visualizações avançadas

### Seaborn

- Baseada em Matplotlib
- Provê uma interface de alto nível para desenharmos gráficos estatísticos atrativos
- Similar (em estilo) à popular biblioteca ggplot2 em R

In [2]:
# Importando as Bibliotecas
import numpy as np
import scipy as sp
import pandas as pd
import matplotlib as mpl
import seaborn as sns
%matplotlib inline

In [3]:
# Armazenando dados csv em um DataFrame (Uma das estruturas de dados mais importantes em Pandas)
df = pd.read_csv('https://gist.githubusercontent.com/the-akira/1c7503a04dfe9b159832ac4e98319b0c/raw/561fe4d2fa727177581c6391fdd4ca913fa91673/salarios.csv')

In [4]:
df.head(11)

Unnamed: 0,rank,disciplina,phd,serviço,gênero,salário
0,Prof,B,56,49,Masculino,186960
1,Prof,A,12,34,Feminino,93000
2,Prof,B,13,37,Masculino,66000
3,Prof,C,25,75,Masculino,77000
4,Prof,A,24,55,Feminino,336600
5,Prof,A,26,50,Masculino,170000
6,Prof,B,50,24,Feminino,120000
7,Prof,B,35,22,Feminino,130000
8,Prof,A,45,50,Masculino,144000
9,Prof,C,22,23,Masculino,88000


## Tipos de Dados do DataFrame

| Pandas Tipo | Python Nativo Tipo | Descrição |
| --- | --- | --- |
| objeto | string | O mais geral dtype. Será atribuído a sua coluna caso ela tenha tipos mistos |
| int64 | int | Caractéres numéricos. 64 se refere à memória alocada |
| float64 | float | Caractéres numéricos com decimais |
| datetime64, timedelta[ns] | N/A | Valores para guardar dados temporais |

In [12]:
df['salário'].dtype

dtype('int64')

In [13]:
df.dtypes

rank          object
disciplina    object
phd            int64
serviço        int64
gênero        object
salário        int64
dtype: object

## Atributos do DataFrame

| df.attribute | Descrição | 
| --- | --- | 
| dtypes | lista os tipos das colunas | 
| columns | lista o nome das colunas |
| axes | lista os rótulos das linhas e o nome das colunas | 
| ndim | número de dimensões | 
| size | número de elementos | 
| shape | retorna uma tupla representando a dimensionalidade | 
| values | numpy representação dos dados | 

## Métodos do DataFrame

| df.method() | Descrição | 
| --- | --- | 
| head() | primeiras linhas do DataFrame | 
| tail() | últimas linhas do DataFrame |
| describe() | gera estatística descritiva (para colunas numéricas apenas) |
| max() | retorna o valor máximo para todas as colunas numéricas | 
| min() | retorna o valor mínimo para todas as colunas numéricas | 
| mean() | retorna média para todas as colunas numéricas | 
| median() | retorna a mediana para todas as colunas numéricas | 
| mode() | retorna a moda | 
| std() | desvio padrão | 
| sample() | retorna uma amostra aleatória do DataFrame | 
| dropna() | dropa todos os registros com valores faltantes | 

### Selecionando uma coluna em um DataFrame

In [14]:
df['gênero']

0     Masculino
1      Feminino
2     Masculino
3     Masculino
4      Feminino
5     Masculino
6      Feminino
7      Feminino
8     Masculino
9     Masculino
10    Masculino
Name: gênero, dtype: object

In [15]:
df.gênero

0     Masculino
1      Feminino
2     Masculino
3     Masculino
4      Feminino
5     Masculino
6      Feminino
7      Feminino
8     Masculino
9     Masculino
10    Masculino
Name: gênero, dtype: object

## O método groupby do DataFrame

Ao utilizarmos o método **groupby()** nós podemos:

- Dividir os dados em grupos baseados em algum critério
- Calcular estatísticas (ou aplicar funções) em cada grupo
- Similar à função **dplyr()** em R

In [16]:
# Agrupar os dados utilizando rank
df_rank = df.groupby(['rank'])
df_rank

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f95a55f8e48>

In [17]:
# Calcula o valor médio para cada coluna numérica por cada grupo
df_rank.mean()

Unnamed: 0_level_0,phd,serviço,salário
rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Prof,32.0,39.363636,137869.090909


Uma vez que o objeto groupby foi criado nós podemos calcular várias estatísticas para cada grupo

In [18]:
df.groupby('rank')[['salário']].mean()

Unnamed: 0_level_0,salário
rank,Unnamed: 1_level_1
Prof,137869.090909


Notas de perfomance para groupby:

- Nenhum agrupamento/divisão ocorre até que seja necessário. Criando o objeto groupby apenas verifica que passamos um mapping válido
- Por padrão as chaves do grupo são organizadas durante a operação groupby. Talvez você queira passar sort=False para um potencial ganho em desempenho

In [19]:
# Calcula o salário médio para cada rank de professor (nesse exemplo tem apenas um tipo de Professor)
df.groupby(['rank'], sort=False)[['salário']].mean()

Unnamed: 0_level_0,salário
rank,Unnamed: 1_level_1
Prof,137869.090909


## DataFrame: Filtrando

Para criarmos subgrupos dos nossos dados nós podemos aplicar *Boolean Indexing*. Esse tipo de índice é comumente conhecido como filtro. Por exemplo, se desejamos um subgrupo de linhas no qual o salário é maior do que 120.000:

In [20]:
df_sub = df[df['salário'] > 120000]
df_sub

Unnamed: 0,rank,disciplina,phd,serviço,gênero,salário
0,Prof,B,56,49,Masculino,186960
4,Prof,A,24,55,Feminino,336600
5,Prof,A,26,50,Masculino,170000
7,Prof,B,35,22,Feminino,130000
8,Prof,A,45,50,Masculino,144000


Qualquer operador booleano pode ser utilizado para criarmos subgrupos dos dados:

\> **maior**;

< **menor**;

== **igual**;

\>= **maior ou igual**;

<= **menor ou igual**;

!= **diferente**;

In [21]:
# Seleciona apenas as linhas que possuem professores femininos
df_f = df[df['gênero'] == 'Feminino']
df_f

Unnamed: 0,rank,disciplina,phd,serviço,gênero,salário
1,Prof,A,12,34,Feminino,93000
4,Prof,A,24,55,Feminino,336600
6,Prof,B,50,24,Feminino,120000
7,Prof,B,35,22,Feminino,130000


## DataFrame: Slicing

- Existem algumas maneiras de criarmos subgrupos do DataFrame:
    - Uma ou mais colunas
    - Uma ou mais linhas
    - Um subconjunto de linhas e colunas

- Linhas e colunas podem ser selecionadas por sua posição ou rótulo

Ao selecionarmos uma coluna, é possível um único conjunto de colchetes, porém o objeto resultante será uma Series (não um DataFrame)

In [22]:
df['salário']
type(df['salário'])

pandas.core.series.Series

Quando nós precisamos selecionar mais deu uma coluna e/ou fazer o output ser um DataFrame, nós devemos usar colchetes duplos:

In [23]:
df[['rank', 'salário']]
type(df[['rank', 'salário']])

pandas.core.frame.DataFrame

## DataFrame: Selecionando linhas

Se nós precisarmos selecionar uma extensão de linhas, nós podemos especificar a extensão utilizando ":"

In [20]:
df[3:6]

Unnamed: 0,rank,discipline,phd,service,sex,salary
3,Prof,C,25,75,Male,77000
4,Prof,A,24,55,Female,336600
5,Prof,A,26,50,Male,170000


Perceba que a primeira linha tem a posição 0, e o último valor na extensão é omitido.

## DataFrame: Método loc

Se nós precisarmos selecionar uma extensão de linhas (utilizando seus rótulos) nós podemos utilizar o método **loc**

In [24]:
df.loc[2:6,['rank','gênero','salário']]

Unnamed: 0,rank,gênero,salário
2,Prof,Masculino,66000
3,Prof,Masculino,77000
4,Prof,Feminino,336600
5,Prof,Masculino,170000
6,Prof,Feminino,120000


## DataFrame: Método iloc

Se nós precisarmos selecionar uma extensão de linhas e/ou colunas (utilização suas posições) nós podemos utilizar o método **iloc**

In [26]:
df.iloc[2:7,[0,3,4,5]]

Unnamed: 0,rank,service,sex,salary
2,Prof,37,Male,66000
3,Prof,75,Male,77000
4,Prof,55,Female,336600
5,Prof,50,Male,170000
6,Prof,24,Female,120000


## DataFrame: Método iloc (Sumário)

In [27]:
df.iloc[0]

rank            Prof
discipline         B
phd               56
service           49
sex             Male
salary        186960
Name: 0, dtype: object

In [29]:
df.iloc[-1]

rank            Prof
discipline         B
phd               50
service           24
sex           Female
salary        120000
Name: 6, dtype: object

In [30]:
df.iloc[:,0] # Primeira coluna

0    Prof
1    Prof
2    Prof
3    Prof
4    Prof
5    Prof
6    Prof
Name: rank, dtype: object

In [31]:
df.iloc[:,-1] # Última coluna

0    186960
1     93000
2     66000
3     77000
4    336600
5    170000
6    120000
Name: salary, dtype: int64

In [32]:
df.iloc[0:7] # Sete primeiras linhas

Unnamed: 0,rank,discipline,phd,service,sex,salary
0,Prof,B,56,49,Male,186960
1,Prof,A,12,34,Female,93000
2,Prof,B,13,37,Male,66000
3,Prof,C,25,75,Male,77000
4,Prof,A,24,55,Female,336600
5,Prof,A,26,50,Male,170000
6,Prof,B,50,24,Female,120000


In [33]:
df.iloc[:,0:2] # Duas primeiras colunas

Unnamed: 0,rank,discipline
0,Prof,B
1,Prof,A
2,Prof,B
3,Prof,C
4,Prof,A
5,Prof,A
6,Prof,B


In [37]:
df.iloc[1:3, 0:2] # Segunda e terceira linha e as duas primeiras colunas

Unnamed: 0,rank,discipline
1,Prof,A
2,Prof,B


In [38]:
df.iloc[[0,5],[1,3]] # Primeira e Sexta linhas e Segunda e Quarta colunas

Unnamed: 0,discipline,service
0,B,49
5,A,50


## DataFrame: Ordenando

Nós podemos ordernar os dados por um valor na coluna. Por padrão a organização irá ocorrer de maneira ascendente e um novo DataFrame será retornado

In [25]:
df_sorted = df.sort_values(by='serviço')
df_sorted.head()

Unnamed: 0,rank,disciplina,phd,serviço,gênero,salário
10,Prof,B,44,14,Masculino,105000
7,Prof,B,35,22,Feminino,130000
9,Prof,C,22,23,Masculino,88000
6,Prof,B,50,24,Feminino,120000
1,Prof,A,12,34,Feminino,93000


Também podemos ordernar usando duas ou mais colunas:

In [26]:
df_sorted = df.sort_values(by=['serviço', 'salário'], ascending=[True,False])
df_sorted.head()

Unnamed: 0,rank,disciplina,phd,serviço,gênero,salário
10,Prof,B,44,14,Masculino,105000
7,Prof,B,35,22,Feminino,130000
9,Prof,C,22,23,Masculino,88000
6,Prof,B,50,24,Feminino,120000
1,Prof,A,12,34,Feminino,93000


## Valores Faltantes

Existem alguns métodos que nos permitem lidar com valores faltantes no DataFrame:

| df.method | Descrição | 
| --- | --- | 
| dropna() | Dropa as observações faltantes | 
| dropna(how='all') | Dropa observações onde todas as células são NA |
| dropna(axis=1,how='all') | Dropa a coluna se todos os valores estiverem faltando | 
| dropna(thresh=5) | Dropa as linhas que contém menos de 5 valores não-faltantes | 
| fillna(0) | Substitui valores faltantes por zeros | 
| isnull() | retorna True se o valor está faltando | 
| notnull() | Retorna True para valores não-faltantes | 

## Valores Faltantes

- Ao somarmos os dados, valores faltantes serão tratados como zero
- Se todos os valores estiverem faltando, a soma será igual a NaN
- Os métodos cumsum() e cumprod() ignoram valores faltantes, porém preservam eles no array resultante
- Valores faltantes no método groupby são excluídos
- Muitos métodos de estatística descritiva tem a opção skipna para controlar se dados faltantes devem ser excluídos. Esse valor é setado para True por padrão (diferente de R)

## Funções de Agregação em Pandas

Agregração -> Computar um sumário de estatísticas para cada grupo
- Computa a soma do grupo ou médias
- Computa o tamanho do grupo/contagens

Funções de agregação comuns:

min, max, count, sum, prod, mean, median, mode, mad, std, var