<a href="https://colab.research.google.com/github/euleralencar/mineracao_dados_python/blob/main/aula%2001/Aula_01_exercicio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Análise de Dados com Pandas

**By: Ronisson Lucas Calmon da Conceição**

Author, Researcher and Professor in Data Science and Statistics

PhD candidate at Federal University of Bahia (UFBA) and Data Science Consultant

[My Linkedin](https://www.linkedin.com/in/ronisson-lucas-calmon-da-concei%C3%A7%C3%A3o-7aa884202/)

[My github](https://github.com/ronissonlucas)

Follow me !

##### **Agenda**
* Aspectos introdutórios
* Estrutura de Dados no Pandas
* Sumarizando Dados,Estatística Descritiva e Transformações
* Renomeando colunas
* Selecionando dados
* Ordenação
* Inserção de colunas
* Filtros
* Drop de linhas e colunas
* Funções úteis
* Apply, apply map e map
* IO
* GroupBy

In [None]:
# install packages
!pip install pandas numpy geobr seaborn geopandas plotly

In [None]:
# imports
# data manipulation
import pandas as pd
import numpy as np
import geopandas as gpd

# data visualization
import geobr
import seaborn as sns
import matplotlib.pyplot as plt

### Aspectos introdutórios
#### O que é Data Science?

Para além da programação e das demais ferramentas, Ciência de Dados é um campo interdisciplinar e desta forma envolve a aplicação de outras disciplinas como Matemática e Estatística, com ênfase na análise de dados para possíveis tomadas de decisão.
Assim, o objetivo desta trilha é demonstrar os principais conceitos estatísticos a serem utilizados em Ciência de Dados. Não pretende ser um resumo exaustivo ou definitivo, visto a complexidade destas áreas.

<img src = 'https://abracd.org/wp-content/uploads/2019/04/diagrama-data-science.png'/>

#### Ecossitema do Python

##### Eixo base

1. NumPy

Biblioteca de manipulação de arrays multidimensionais de alta performance, possui diversas funções matemáticas e estatísticas.

2. Pandas

Principal biblioteca de manipulação e análise de dados. Possui diversos métodos para agrupar, filtrar, manipular, limpar e combinar dados de forma simples.

3. StatsModels

Módulo com diversas funções estatísticas.

4. SciPy

Biblioteca para computação científica, com funções de álgebra linear, cálculo, estatística, dentre outras.

##### Data Visualization

1. Matplotlib

2. Seaborn

3. Plotly

4. Altair

5. Bokeh

6. Pydot

7. Yellowbrick

##### Machine Learning e Deep Learning

1. Scikit-learn

2. TensorFlow

3. PyTorch

4. Keras


##### Scraping

1. Scrapy

2. Beautiful Soup

##### Processamento de Linguagem Natural

1. NLTK

2. SpaCy

3. Gensim

Há diversas outras bibliotecas e módulos dentro do ecossitema Pythônico. 

### Estrutura de Dados no Pandas
#### Series

O que é uma Series?
* array unidimensional (ou podemos entender essa estrutura como sendo uma coluna do Excel);
* ponto de partida para entender as estruras de dados do Pandas.

Usamos o construtor: `pandas.Series( data, index, dtype, copy)`.


* `data`: aceita formas variadas de inputs, como arrays NumPy (ndarray), listas, tuplas, constantes e dicionários.
* `index`: índice do ojbeto Series, deve ter o mesmo tamanho do array data, o valor default é np.arrange(n), caso nenhum array seja passado.
* `dtype`: informa o dtype dos dados, pode ser inferido.

In [None]:
# exemplo 1 (lista e tupla)

# ou ainda: pd.Series((7, 8, 9, 10, 11))

In [None]:
# exemplo 2 (ndarray)


In [None]:
# exemplo 3 (dicionário)


In [None]:
# exemplo 4 (constante)


Vamos aprender a acessar elementos de uma Series.

In [None]:
# 5 primeiros elementos 


In [None]:
# 5 últimos elementos 


Veremos que para acessar elementos usaremos uma  sintaxe similar as listas e mesmo objetos ndarray.

In [None]:
# primeiro elemento


In [None]:
# último elemento


In [None]:
# 5 primeiros elementos


In [None]:
# pega os elementos entre as posições 1 e 4 (exclusive)


In [None]:
# pega os dois últimos elementos


Vamos acessar os elementos pelo label.

In [None]:
# pega o primeiro elemento


In [None]:
# pega elementos do rótulo 'a' até o 'd'


In [None]:
# múltiplos elementos


Agora podemos verificar alguns atributos do nosso objeto.

In [None]:
# shape
# temos 8 linhas


In [None]:
# índice


In [None]:
# valores: retorna um objeto ndarray


In [None]:
# número de dimensões


Agora podemos aplicar estatística descritiva para entender melhor nossos dados, para tanto vamos criar outro objeto.

In [None]:
notas = [7, 9, 8, 5]
alunos = ['Lucas', 'Laís', 'Tales', 'Rebeca']
series = pd.Series(notas, index = alunos, name = 'Notas Matemática')

In [None]:
series

In [None]:
# média das notas


In [None]:
# desvio padrão


In [None]:
# variância


In [None]:
# mediana


In [None]:
# nota máxima


In [None]:
# aluno com nota máxima


In [None]:
# nota mínima


In [None]:
# aluno com nota mínima


Vejamos agora algumas operações com Series, para tanto iremos criar duas séries.

In [None]:
np.random.seed(8)
n = 5
notas_biologia = pd.Series(np.random.randint(1, 10, size = n))
notas_matematica = pd.Series(np.random.randint(1, 10, size = n))

In [None]:
# média global


E se nossa tarefa fosse selecionar apenas os alunos com nota maior ou igual a 6?

In [None]:
# alunos com nota maior ou igual a 6


In [None]:
# alunos com nota igual a 9


In [None]:
# alunos com nota diferente de 9
# ou: notas_biologia[notas_biologia != 9]


In [None]:
# adicionando novos valores
notas_biologia[5] = 9
notas_biologia[6] = 9
notas_biologia[7] = 4

Agora vamos contar a frequência das notas de biologia:

Observe que temos então 3 alunos com nota 9, 2 alunos com notas 4, e assim por diante. Podemos obter esta frequência em termos percentuais, passando `normalize = True`.

Por fim, uma operação útil seria a concatenação de Series.

Visualização de Dados com Series

In [None]:
np.random.seed(9)
series = pd.Series(np.random.normal(80, 1.5, size = 50))

In [None]:
# gráfico de linhas


In [None]:
# histograma


In [None]:
# boxplot


### DataFrame

##### Criando DataFrames: Exemplo 1

##### Criando DataFrames: Exemplo 2

##### Inspeção de Dados

In [None]:
# 5 primeiras linhas


In [None]:
# 5 últimas linhas


In [None]:
# quantidade de linhas e colunas


In [None]:
# quantidade de linhas


In [None]:
# checa o tipo do objeto


In [None]:
# linha x coluna


In [None]:
# sumário do DataFrame


In [None]:
# índice do DataFrame


In [None]:
# colunas do DataFrame


In [None]:
# dtype de cada coluna


In [None]:
# número de dimensões


In [None]:
# Series: vetor unidimensional


In [None]:
# sumário estatístico dos dados


In [None]:
# transposição do resultado do sumário estatístico


In [None]:
# 'all': permite gerar um sumário descritivo para as colunas categóricas


In [None]:
# quantidade de observações não nulas por coluna


### Sumarizando Dados e Estatística Descritiva

In [None]:
# cria uma máscara a partir da qual iremos gerar algumas medidas estatísticas


In [None]:
# quantidade de dados não nulo em cada coluna


In [None]:
# valor mínimo em cada coluna


In [None]:
# índice do valor mínimo em cada coluna


In [None]:
# índice do valor mínimo na coluna Idade


In [None]:
# valor máximo em cada coluna


In [None]:
# índice do valor máximo em cada coluna


In [None]:
# índice do valor máximo na coluna Idade


In [None]:
# média dos valores em cada coluna


In [None]:
# variância dos valores em cada coluna


In [None]:
# desvio padrão dos valores em cada coluna


In [None]:
# desvio médio absoluto dos valores em cada coluna


In [None]:
# median dos valores em cada coluna


In [None]:
# moda dos valores em cada coluna


In [None]:
# soma da renda de todos os clientes


In [None]:
# soma cumulativa da renda


In [None]:
# quartis de renda (Q1 e Q3)


In [None]:
# covariância: associação entre variáveis quantitativas


In [None]:
# correlação: associação entre variáveis quantitativas
# varia de -1 a 1
# valores próximos de 1: correlação alta positiva
# valores próximos de -1: correlação alta negativa
# valores próximos de 0: ausência de correlação


In [None]:
# url 

# leitura do dado


In [None]:
# veremos melhor a função pivot_table mais adiante


In [None]:
# filtra os dados para estados selecionados


In [None]:
# dados a partir de 2010


In [None]:
# taxa de desemprego média para cada estado


In [None]:
# podemos alterar o axis
# então estaríamos calculando a média mensal entre os estados selecionados


Vamos escrever nossa própria métrica de agregação.

Podemos escrever a função de agregação de outro modo:

Podemos aplicar mais de uma métrica de agregação por vez:

In [None]:
# podemos alterar o axis
# neste caso obtemos informações sobre a taxa de desemprego mensal dos estados selecionados


### Renomeando colunas

In [None]:
# coluna do data frame


In [None]:
# cria uma cópia dos dados


In [None]:
# renomeia a coluna 'Id' para 'id'


In [None]:
# renomeia outras colunas


In [None]:
# note que criamos apenas uma view


In [None]:
# aplica o método .lower() em cada coluna do DataFrame via função lambda


In [None]:
# aplica o método .upper() em cada coluna do DataFrame via função lambda


### Selecionando dados

.iloc[]: seleciona valores pelo índice.

Sintaxe: `data_frame.iloc[linha, coluna]`

In [None]:
# todas as linhas da coluna de posição 0


In [None]:
# valores entre 'a' e 'd'


In [None]:
# valores das linhas 'a' até 'c', para a coluna de posição 0


In [None]:
# valores das linhas 'b' até 'd', para a colunas de posição 0 e 1


In [None]:
# valores a partir da coluna 'c', colunas de posição [0 e 2]


.loc[]: seleciona valores pelo label.

Sintaxe: `data_frame.loc[linha, coluna]`

In [None]:
# todas as linhas da coluna A


In [None]:
# valores entre 'a' e 'd'


In [None]:
# valores das linhas 'a' até 'c', para a coluna A


In [None]:
# valores das linhas 'b' até 'd', para a colunas A e B


In [None]:
# valores a partir da coluna 'c', colunas de posição [0 e 2]


In [None]:
# seleciona todas as colunas da última linha


In [None]:
# seleciona todas as colunas das duas últimas linhas


In [None]:
# todos os valores da última coluna


Selecionando apenas um valor:

In [None]:
# altera o valor


### Ordenação

In [None]:
# ordena o data frame pelo nível de renda


In [None]:
# ordena pelo nível de renda e idade


In [None]:
# ordena os dados pelo nível de escolaridade e sexo


In [None]:
# valores únicos da coluna Escolaridade


In [None]:
# mapeamento dos valores da coluna escolaridade: 'C'


In [None]:
# mapeamento dos valores da coluna de Escolaridade ordenados em ordem alfabética


In [None]:
# mapeamento dos valores da coluna de Escolaridade ordenados


In [None]:
# ordena os dados a partir das colunas Renda e Escolaridade


In [None]:
# ordena os dados a partir das colunas Renda e Escolaridade


In [None]:
# ordena os dados a partir das colunas Renda e Escolaridade


In [None]:
# ordena os dados a partir das colunas Renda, Escolaridade e Sexo
# note que setamos inplace = True


In [None]:
# reset do índice


### Inserção de colunas

In [None]:
# cria coluna de ativos


In [None]:
# cria coluna de renda total


In [None]:
# renda média total dos indivíduos


In [None]:
# renda média dos indivíduos


In [None]:
# outra forma de calcular a renda média dos indivíduos


In [None]:
# renda média (ativos e renda)


In [None]:
# posição da coluna 'ativo'


In [None]:
# insere a coluna renda_media na posição da coluna 'ativo'


### Filtros

Nesta seção aprenderemos a fazer filtro com os dados. Por exemplo, como filtrar os dados a partir de uma determianda categorica ou de um conjunto de condições?

In [None]:
# condição simples: filtra os dados a partir do sexo Feminino


In [None]:
# shape do filtro


In [None]:
# condição simples: filtra os dados a partir do sexo Feminino


In [None]:
#SyntaxError: invalid syntax: df.query("Sexo == "Feminino"")

In [None]:
# condição simples: filtra os dados a partir do sexo Feminino


In [None]:
# condição 1: sexo feminino
# condição 2: escolaridade ensino superior
# AND: &


In [None]:
# condição 1: sexo masculino
# condição 2: renda>= 7_500

In [None]:
# condição 1: escolaridade Ensino Fundamental
# condição 2: escolaridade Ensino Médio
# OR: |


In [None]:
# condição 1: renda>=8_000
# condição 2: idade>=50
# condição 3: feminino



In [None]:
# nega a proposição


In [None]:
# nega a proposição, pega informações apenas para clientes do gênero masculino


In [None]:
# outro exemplo de negação
# pega todos os clientes cuja a escolaridade não seja Ensino Superior


In [None]:
# pega apenas os clientes com escolaridade igual a Ensino Superior


In [None]:
# nega a condição, pega clientes cuja escolaridade não seja Ensino Superior


In [None]:
# pega apenas os clientes cuja a escolaridade seja diferente de Ensino Médio


In [None]:
# verifica se Ensino Médio está contido no array com valores únicos da nossa consulta


### Drop de linhas e colunas

In [None]:
# cópia dos dados


In [None]:
# remove as colunas Id e Escolaridade


In [None]:
# remove a coluna Id, com inplace = True


In [None]:
# índice das linhas a partir da condição construída


In [None]:
# índice das linhas a serem removidas


In [None]:
# remove a linha 0


In [None]:
# remove as linhas no range [0,,3]


In [None]:
#drop das colunas Id, Idade e Renda


In [None]:
# drop das colunas pela posição 


In [None]:
# drop das colunas via lista


### Funções úteis

sample(): amostra aleatória

In [None]:
# amostra aleatória


transpose(): tranposição dos dados

select_dtypes(): seleciona colunas a partir do dtype (return a subset of the DataFrame's columns based on the column dtypes)

astype(): cast a pandas object to a specified dtype ``dtype``

In [None]:
# itera nas colunas do tipo object e converte para category



add_prefix() e add_suffix()

add_prefix(): For Series, the row labels are prefixed. For DataFrame, the column labels are prefixed.



add_suffix(): For Series, the row labels are suffixed. For DataFrame, the column labels are suffixed.



isna() e notna()

In [None]:
# missing values por colunas


In [None]:
# drop de missing values
# veremos mais adiante uma aplicação desta função, que possui vários parâmetros


In [None]:
# verifica se uma linha é duplicada


In [None]:
# soma das linhas duplicadas


In [None]:
# valos únicos


In [None]:
# conta os valores únicos


In [None]:
# conta os valores únicos em cada coluna


In [None]:
# altera a configuração dos valores da coluna Sexo




In [None]:
# poderíamos usar para criar uma coluna dummy




O Pandas possui uma função específica para criar variáveis dummies. Antes de aplicar algum modelo estatístico ou de Machine Learning precisamos transformar as variáveis categóricas em número.

In [None]:
# podemos fazer dummies para todas as colunas categóricas de uma única vez


Vejamos agora algumas opções para tratar strings:

### Apply, Apply map e map

***

**Revisão de funções**

Vamos ver antes o que é um função no Python. Funções são úteis para:
* Encapsular código;
* Automatizar etapas;
* Obter um código mais limpo e performático;
* Escalar o código.

Sintaxe funções sem parâmetros e sem retorno:
    
<code>
def function_name():
    code
</code>

**Exemplo 1:**

In [None]:
# executa a função


Sintaxe função com parâmetros e sem retorno:
    
<code>
def function_name(arg1, arg2, arg3):
    code
</code>

**Exemplo 2:**

Podemos nomear os argumentos:

In [None]:
# o que signifca aquele None?


Sintaxe de função com parâmetros e retorno:
    
<code>
def function_name(arg1, arg2, arg3):
    code
    return code
</code>

**Exemplo 3:**

Funções nativas (built-in) importantes:

In [None]:
# retorna o tipo do objeto (str, int, float, list, tuple, dict)


In [None]:
# retorna a soma de array


In [None]:
# retorna o tamanho de um array ou cadeia de caracteres


In [None]:
# retorna valor mínimo em um array ou cadeia de caracteres


Para saber mais de funções veja:
* https://www.w3schools.com/python/python_functions.asp
* https://docs.python.org/3/library/functions.html

***

**map()**
* percorre item por item e aplica uma função desejada.

Neste exemplo, vamos percorrer cada valor de renda e aplicar a função np.log().


In [None]:
# mapeia os valores da coluna Sexo a partir da função construída


**apply()**
* podemos aplicar uma função em todas as linhas ou em todas as colunas (ou seja, aplica uma função em um determinado eixo).

In [None]:
# mapeia os valores da coluna Renda


***

Mais exemplos:

Vamos tentar usar apply e map para aplicar log nos valores do nosso DataFrame.

***

### IO (Leitura de dados)

O podemos permite que trabalhemos com distintos tipos de dados.

In [None]:
# salva o DataFrame criado no formato .csv


In [None]:
# salva o DataFrame criado no formato xlsx


In [None]:
# lê o arquivo em csv


In [None]:
# lê o arquivo em Excel


### GroupBy

In [None]:
# colunas referentes as provadas


In [None]:
# média das provas


In [None]:
# quantidade de valores únicos em cada coluna


In [None]:
# proporção entre os gêneros (absoluto)


In [None]:
# proporção entre os gêneros (percentual)


Podemos fazer um gráfico para ver essa proporção:

Agora podemos criar uma funçao para encapsular o código anterior, de forma que apliquemos este plot para outras colunas.

In [None]:
# executa a função


Podemos mapear as informações por gênero:

Vamos fazer de outra forma o mesmo plot (mais escalável):

Podemos então encapsular o código anterior em uma função:

Podemos então generalizar:

Vamos obter estatística descritivas de acordo com algumas variáveis categóricas do dataset.

In [None]:
# média em matemática por gênero


Vamos supor que, caso o aluno tenha pontuado acima de 70 pontos, tenha sido aprovado. Assim, vamos mapear os possíveis casos de forma agregada.

In [None]:
# estatísticas descritivas de matemática por gênero


Agora vamos agrupar por gênero e lunch (tipo de refeição do aluno).

Façamos um agrupamento por raça/etnia e grau de instrução familiar:

### Próximos capítulos

Na próxima aula iremos trabalhar com microdados do ENEM, de modo que iremos aprender na prática processos como Limpeza de Dados, Análise Exploratória e Visualização Estatística. Aprenderemos ainda joins, missing data e outras tratativas.

Aula 2:
* Cleaning Data
* Reshape
* Hierarchical Index
* Merge
* Case: Microdados ENEM
    * DataViz: Matplotlib e Seaborn
    * Análise Exploratória e Estatística
    * Clustering

Aula 3:
* Visualização de dados na prática com Plotly (international trade data)
* Time Series e modelos estatísticos da família Box-Jenkins

### Materiais adicionais e referências
* https://datascience.quantecon.org/pandas/index.html
* https://www.kaggle.com/abdullahsahin/step-by-step-pandas-tutorial-for-beginner
* https://www.kaggle.com/kralmachine/pandas-tutorial-for-beginners
* https://www.kaggle.com/prashant111/comprehensive-data-analysis-with-pandas
* https://www.w3schools.com/python/pandas/default.asp
* https://www.geeksforgeeks.org/pandas-tutorial/
* https://jakevdp.github.io/PythonDataScienceHandbook/