# Aula 07 - O processo de análise de dados

## 07.01 - Visão geral do processo de análise de dados

### Etapa 1: Fazer perguntas (Question)
Ou você recebe os dados e faz perguntas baseadas neles ou faz as perguntas primeiro e, depois, reúne os dados com base nelas. Em ambos os casos, ótimas perguntas ajudam você a focar nas partes relevantes de seus dados e direcionar sua análise para insights significativos.

### Etapa 2: Limpar os dados (Wrangle)
Você obtém os dados de que precisa de uma forma que consegue trabalhar em três etapas:
- reunir (gather);
- avaliar (asses); e
- limpar (clean).

Você reúne os dados de que precisa para responder às perguntas, avalia seus dados para identificar qualquer problema na qualidade ou estrutura deles e os limpa modificando, substituindo ou removendo dados para garantir que seu conjunto de dados seja da mais alta qualidade e o mais estruturado possível.
 
### Etapa 3: Realizar a análise exploratória de dados (do inglês, exploratory data analysis, ou EDA) (Explore)
Você explora e, em seguida, aumenta seus dados para maximizar o potencial de suas análises, visualizações e modelos. Explorar envolve encontrar padrões em seus dados e visualizar relações entre eles e ter intuições sobre o assunto em que você está trabalhando. Após explorar, você pode fazer coisas como remover outliers e criar melhores recursos com seus dados, também conhecido como engenharia de recursos (feature engineering).

### Etapa 4: Tirar conclusões (ou até fazer previsões) (Draw conclusions)
Esta etapa é geralmente abordada com machine learning ou estatísticas inferenciais que estão além do escopo desse curso, que focará em tirar conclusões com estatística descritiva.


### Etapa 5: Comunicar os resultados (Communicate)
Você frequentemente precisa justificar e transmitir significado nos insights que encontrou. Ou, se seu objetivo final é construir um sistema, você normalmente precisa compartilhar o que construiu, explicar como chegou às decisões em relação ao design e reportar seu nível de desempenho. Existem muitas formas de comunicar seus resultados: relatórios, slides, postagens de blog, e-mails, apresentações ou até mesmo conversas. A visualização dos dados será sempre muito valiosa.

## 07.02 - Visão geral sobre pacotes

### NumPy
Da documentação oficial de Numpy (http://www.numpy.org/) , temos:

> NumPy is the fundamental package for scientific computing with Python. It contains among other things:
>
> - a powerful N-dimensional array object
> - sophisticated (broadcasting) functions
> - tools for integrating C/C++ and Fortran code
> - useful linear algebra, Fourier transform, and random number capabilities
> 
> Besides its obvious scientific uses, NumPy can also be used as an efficient multi-dimensional container of generic data. Arbitrary data-types can be defined. This allows NumPy to seamlessly and speedily integrate with a wide variety of databases.

### Pandas
Da documentação oficial de pandas (https://pandas.pydata.org/), temos:

> Pandas is an open source, BSD-licensed library providing high-performance, easy-to-use data structures and data analysis tools for the Python programming language.

### Matplotlib
Da documentação oficial do Matplotlib (https://matplotlib.org/), temos:

> Matplotlib is a Python 2D plotting library which produces publication quality figures in a variety of hardcopy formats and interactive environments across platforms. Matplotlib can be used in Python scripts, the Python and IPython shells, the Jupyter notebook, web application servers, and four graphical user interface toolkits.
> Matplotlib tries to make easy things easy and hard things possible. You can generate plots, histograms, power spectra, bar charts, errorcharts, scatterplots, etc., with just a few lines of code. For examples, see the sample plots and thumbnail gallery.
> For simple plotting the pyplot module provides a MATLAB-like interface, particularly when combined with IPython. For the power user, you have full control of line styles, font properties, axes properties, etc, via an object oriented interface or via a set of functions familiar to MATLAB users.

### Scikit Learn
Da documentação oficial do Scikit Learn (http://scikit-learn.org/stable/), temos:

> 
> - Simple and efficient tools for data mining and data analysis
> - Accessible to everybody, and reusable in various contexts
> - Built on NumPy, SciPy, and matplotlib
> - Open source, commercially usable - BSD license


### IPython
Da documentação oficial do IPython (https://ipython.org/), temos:

> IPython provides a rich architecture for interactive computing with:
> - A powerful interactive shell.
> - A kernel for Jupyter.
> - Support for interactive data visualization and use of GUI toolkits.
> - Flexible, embeddable interpreters to load into your own projects.
> - Easy to use, high performance tools for parallel computing.


### SciPy
SciPy é um conjunto de pacotes para uso em engenharia, ciência e matemática. Contém o NumPy, Matplotlib, IPython, Simpy e pandas. (https://www.scipy.org/)


## 07.03 - Lendo e gravando CSV



In [2]:
import pandas as pd

df = pd.read_csv("bases/alunos_notas.csv")
df.head()

Unnamed: 0,registro,Nome,Frq,HW,Teste1,Projeto1,Test2,Projeto2,Final
0,27604,José,0.96,0.97,87.0,98.0,92.0,93.0,95.0
1,30572,Alexandra,1.0,0.84,92.0,89.0,94.0,92.0,91.0
2,39203,Averistéia,0.84,0.74,68.0,70.0,84.0,90.0,82.0
3,28592,Kristiano,0.96,1.0,82.0,94.0,90.0,81.0,84.0
4,27492,Ricado,0.32,0.85,98.0,100.0,73.0,82.0,88.0


### Teste com dataset pego em https://brasil.io/dataset/gastos-deputados/cota_parlamentar
(Antes eu tinha usado uma base de portfolio de investimentos disponibilizada em http://archive.ics.uci.edu/ml/datasets/Stock+portfolio+performance. A base ainda está em "/bases/stock_portfolio_dataset_modified.csv".

Eu modifiquei o arquivo original. Fiquei somente com a aba com todos os períodos, apaguei os dados de saída não normatizados, salvei em CSV e substitui a vírgula como símbolo decimal para ponto. Por fim, o arquivo está salvo no subdiretório bases com o nome "gastos-deputados-2017.csv".

#### Passo 1: acessando dados

In [9]:
dados_deputados = pd.read_csv("bases/gastos-deputados-2017.csv", header = 0)
dados_deputados.head()

Unnamed: 0,numano,nummes,datemissao,txnomeparlamentar,sgpartido,sguf,txtdescricao,txtcnpjcpf,txtfornecedor,vlrdocumento,vlrglosa,vlrliquido
0,2017,12,,ABEL MESQUITA JR.,DEM,RR,TELEFONIA,,CELULAR FUNCIONAL,490.8,0.0,490.8
1,2017,12,,ABEL MESQUITA JR.,DEM,RR,TELEFONIA,,RAMAL,141.51,0.0,141.51
2,2017,12,,ADELMO CARNEIRO LEÃO,PT,MG,TELEFONIA,,RAMAL,71.39,0.0,71.39
3,2017,12,,ADELMO CARNEIRO LEÃO,PT,MG,TELEFONIA,,CELULAR FUNCIONAL,39.56,0.0,39.56
4,2017,12,,AFONSO FLORENCE,PT,BA,TELEFONIA,,RAMAL,25.63,0.0,25.63


#### Passo 2: gravando em outro CSV

In [10]:
dados_deputados.to_csv("bases/dados_deputados_NOVO.csv")

## 07.04 - Avaliando a intuição
Uso do pandas para avaliação preliminar do dataset.

In [11]:
dados_deputados = pd.read_csv("bases/gastos-deputados-2017.csv", header = 0)

# isto retorna uma tupla com as mesmas dimensões do dataframe
dados_portfolio.shape

(72100, 12)

In [12]:
# isto retorna os tipos de dados das colunas
dados_deputados.dtypes

numano                 int64
nummes                 int64
datemissao            object
txnomeparlamentar     object
sgpartido             object
sguf                  object
txtdescricao          object
txtcnpjcpf            object
txtfornecedor         object
vlrdocumento         float64
vlrglosa             float64
vlrliquido           float64
dtype: object

In [13]:
# isto exibe um resumo conciso do dataframe,
# incluindo o número de valores não-nulos em cada coluna
dados_deputados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72101 entries, 0 to 72100
Data columns (total 12 columns):
numano               72101 non-null int64
nummes               72101 non-null int64
datemissao           62564 non-null object
txnomeparlamentar    72101 non-null object
sgpartido            72101 non-null object
sguf                 71906 non-null object
txtdescricao         72101 non-null object
txtcnpjcpf           58067 non-null object
txtfornecedor        72101 non-null object
vlrdocumento         72101 non-null float64
vlrglosa             72101 non-null float64
vlrliquido           72101 non-null float64
dtypes: float64(3), int64(2), object(7)
memory usage: 6.6+ MB


In [14]:
# isto retorna o número de valores únicos em cada coluna
dados_deputados.nunique()

numano                   1
nummes                  12
datemissao            4486
txnomeparlamentar      561
sgpartido               28
sguf                    27
txtdescricao            18
txtcnpjcpf            9828
txtfornecedor        12221
vlrdocumento         29495
vlrglosa              1507
vlrliquido           29642
dtype: int64

In [15]:
# isto retorna estatísticas descritivas úteis para cada coluna de dados
dados_deputados.describe()

Unnamed: 0,numano,nummes,vlrdocumento,vlrglosa,vlrliquido
count,72101.0,72101.0,72101.0,72101.0,72101.0
mean,2017.0,10.561892,757.531284,2.995253,731.712604
std,0.0,1.995727,2626.869547,66.737865,2561.69372
min,2017.0,1.0,-3166.16,0.0,-3166.16
25%,2017.0,10.0,54.33,0.0,53.1
50%,2017.0,11.0,180.89,0.0,179.17
75%,2017.0,12.0,650.74,0.0,640.0
max,2017.0,12.0,155000.0,6000.0,155000.0


In [16]:
# isto retorna as primeiras linhas do nosso dataframe
# como padrão, retorna as primeiras cinco linhas
# embora você possa especificar quantas linhas você gostaria que fossem retornadas
dados_deputados.head(20)

Unnamed: 0,numano,nummes,datemissao,txnomeparlamentar,sgpartido,sguf,txtdescricao,txtcnpjcpf,txtfornecedor,vlrdocumento,vlrglosa,vlrliquido
0,2017,12,,ABEL MESQUITA JR.,DEM,RR,TELEFONIA,,CELULAR FUNCIONAL,490.8,0.0,490.8
1,2017,12,,ABEL MESQUITA JR.,DEM,RR,TELEFONIA,,RAMAL,141.51,0.0,141.51
2,2017,12,,ADELMO CARNEIRO LEÃO,PT,MG,TELEFONIA,,RAMAL,71.39,0.0,71.39
3,2017,12,,ADELMO CARNEIRO LEÃO,PT,MG,TELEFONIA,,CELULAR FUNCIONAL,39.56,0.0,39.56
4,2017,12,,AFONSO FLORENCE,PT,BA,TELEFONIA,,RAMAL,25.63,0.0,25.63
5,2017,12,,ALAN RICK,DEM,AC,TELEFONIA,,RAMAL,105.11,0.0,105.11
6,2017,12,,ALEX CANZIANI,PTB,PR,TELEFONIA,,RAMAL,235.07,0.0,235.07
7,2017,12,,ANDRÉ AMARAL,PROS,PB,TELEFONIA,,RAMAL,85.06,0.0,85.06
8,2017,12,,ANDRÉ FIGUEIREDO,PDT,CE,TELEFONIA,,RAMAL,83.04,0.0,83.04
9,2017,12,,ALBERTO FILHO,PP,MA,TELEFONIA,,RAMAL,89.84,0.0,89.84


In [17]:
# isso também se aplicar ao comando `.tail()` que retorna as últimas linhas do dataframe
dados_deputados.tail(2)

Unnamed: 0,numano,nummes,datemissao,txnomeparlamentar,sgpartido,sguf,txtdescricao,txtcnpjcpf,txtfornecedor,vlrdocumento,vlrglosa,vlrliquido
72099,2017,10,2017-10-17 00:00:00+00:00,JOÃO FERNANDO COUTINHO,PROS,PE,COMBUSTÍVEIS E LUBRIFICANTES.,10750039000180,POSTO DISBRAVE IMPERIAL LTDA,50.0,0.0,50.0
72100,2017,10,2017-10-17 00:00:00+00:00,JOÃO FERNANDO COUTINHO,PROS,PE,FORNECIMENTO DE ALIMENTAÇÃO DO PARLAMENTAR,4277081000394,RESTAURANTE DAS MINAS LTDA - EPP,65.49,0.0,65.49


In [18]:
# Exibir o índice e rótulo de cada coluna
for i, v in enumerate(dados_deputados.columns):
    print(i, v)

0 numano
1 nummes
2 datemissao
3 txnomeparlamentar
4 sgpartido
5 sguf
6 txtdescricao
7 txtcnpjcpf
8 txtfornecedor
9 vlrdocumento
10 vlrglosa
11 vlrliquido
