# Introdução prática à ciência de dados utilizando o Pandas

## Aula 1 - Fundamentos de análise de dados

Podemos dizer que Análise de Dados é um processo iterativo envolvendo coleta (collection), preparação (wrangling), análise exploratória dos dados (EDA), e podemos dizer tirar conclusões. A seguir temos um diagrama representando esse processo.

### **Data collection** 

A coleta de dados é o primeiro passo natural para qualquer análise de dados. Na verdade, a análise começa antes mesmo de termos os dados: quando decidimos o que queremos investigar ou analisar, temos que pensar em que tipo de dados podemos coletar que serão úteis para nossa análise.

Alguns exemplos de fontes de dados:
* Web scraping de um site Html - podemos usar pacotes do Python, tais como: selenium, requests, scrapy e beautifulsoup;
* APIs para serviços web a partir dos quais podemos coletar dados com o pacote requests;
* Bancos de dados - os dados são extraídos com SQL, por exemplo;
* Recursos da Internet que fornecem dados para download, como sites governamentais;
* Log files.

Obs.:
1. E o capítulo The Road Ahead fornece inúmeros recursos para encotrarmos fontes de dados.
2. O capítulo Working with Pandas DataFrames nos dará habilidades que precisamos para trabalhar com as fontes de dados mencionadas.
3. Estamos rodeados de dados. Sendo assim, é importante ter certeza de que estamos coletando dados que nos ajudarão a tirar conclusões.

**Atenção!** 
Não se preocupe muito em encontrar os dados perfeitos antes de iniciar uma análise. É mais provável que sempre haverá algo que desejamos adicionar / remover do conjunto de dados (dataset) inicial, reformatar, mesclar (merge) com outros dados ou alterar de alguma forma.

### **Data wrangling**  

**Data wrangling** é o processo de preparar os dados e colocá-los em um formato que possa ser usado para análise.

A triste realidade dos dados é que muitas vezes estão sujos, ou seja, precisam de limpeza (preparação) antes de serem usados.

A seguir estão alguns problemas que podemos encontrar com nossos dados:(Algumas fontes de erros dos dados:)
* Erros humanos: os dados são registrados (ou mesmo coletados) incorretamente, como por exemplo colocar 100 em vez de 1000 ou erros de digitação.
* Erro do computador: talvez não estivéssemos gravando entradas por um tempo (dados ausentes).
* Valores inesperados: pode ser que quem estava registrando os dados decidiu usar ? para um valor ausente em uma coluna numérica, então agora todas as entradas na coluna serão tratadas como texto em vez de valores numéricos.
* Informações incompletas: pense em uma pesquisa com perguntas optativas; nem todos irão respondê-las, assim, faltarão dados, mas não devido a erro do computador ou humano.
* Resolução: os dados podem ter sido coletados por segundo, mas precisamos de dados por hora para nossa análise.
* Relevância dos campos: Frequentemente, os dados são coletados ou gerados como resultado de algum processo, e não explicitamente para nossa análise. Assim, para deixá-lo em um estado utilizável, teremos que limpá-lo
* Formato dos dados: os dados podem ter ser registrados em um formato que não conduz à análise, o que exigirá que seja reformatado
* Configurações incorretas no processo de gravação dos dados: dados provenientes de fontes, como rastreadores e / ou webhooks configurados incorretamente, podem ter campos ausentes ou passados na ordem errada




obs.: A maioria desses problemas de qualidade de dados pode ser remediada, mas alguns não, como quando os dados são coletados diariamente e precisamos deles em uma resolução de hora em hora.

**Atenção!** É muito importante examinar cuidadosamente os dados e lidar com quaisquer problemas, para que a análise não seja distorcida.

Obs.:
Esse processo será abordado no capítulo Data Wrangling with Pandas e no capítulo Aggregating Pandas DataFrames.


### **Exploratory data analysis - EDA** 

Durante o EDA, utilizamos visualizações e estatísticas resumidas para obtermos um melhor entendimento dos dados. Uma vez que o cérebro humano se destaca na escolha de padrões visuais, a visualização de dados é essencial para qualquer análise. Na verdade, algumas características dos dados só podem ser observadas em um gráfico. Dependendo dos dados, podemos criar gráficos para ver como uma variável de interesse evoluiu ao longo do tempo, comparar quantas observações pertencem a cada categoria, descobrir outliers, olhar para distribuições de variáveis contínuas e discretas e muito mais.


Obs.: No capítulo Visualizing Data with Pandas and Matplotlib e no capítulo Plotting with Seaborn and Customization Techniques, aprenderemos como criar esses gráficos para EDA e apresentação. 

No diagrama visto anteriormente, a EDA e o data wrangling estão no mesmo box. Isso ocorre porque estão intimamente ligados:
* Os dados precisam ser preparados antes da EDA.
* As visualizações criadas durante o EDA podem indicar a necessidade de limpeza adicional de dados.
* Data wrangling usa estatísticas resumidas para procurar problemas potenciais de dados, enquanto a EDA aos usa para entender os dados. A limpeza inadequada distorcerá as descobertas quando estivermos conduzindo a EDA. Além disso, as habilidades de data wrangling serão necessárias para obter estatísticas resumidas em subconjuntos de dados.


Ao calcularmos as estatísticas, devemos ter em mente o tipo de dados que coletamos. Os dados podem ser quantitativos (quantidades mensuráveis - unidade de medida associada) ou categóricos (descrições, agrupamentos ou categorias). Dentro dessas classes de dados, temos subdivisões adicionais que nos permitem saber quais tipos de operações podemos realizar nelas.

Por exemplo, os dados categóricos podem ser nominais, onde atribuímos um valor numérico a cada nível da categoria, como on = 1 / off = 0, mas não podemos dizer que um é maior do que o outro porque isso não faz sentido. O fato de on ser maior do que off não tem significado porque escolhemos arbitrariamente esses números para representar os estados on e off. Neste caso, podemos representar os dados com um Booleano (valor True / False): is_on. Os dados categóricos também podem ser ordinais, o que significa que podemos classificar os níveis (por exemplo, podemos ter baixo < médio < alto).

Com dados quantitativos, podemos estar em uma escala intervalar ou racional. A escala intervalar inclui coisas como temperatura. Podemos medir temperaturas em Celsius e comparar as temperaturas de duas cidades, mas não significa nada dizer que uma cidade é duas vezes mais quente que a outra. Portanto, os valores da escala intervalar podem ser comparados de forma significativa usando adição / subtração, mas não multiplicação / divisão. A escala racional, então, são os valores que podem ser comparados de forma significativa usando multiplicação e divisão. Exemplos da escala racional incluem preços, tamanhos e contagens.

### **Tirando conclusões**

Depois de coletar os dados para nossa análise, limpá-los e realizar uma EDA completa, é hora de tirar conclusões.

É aqui que resumimos nossas descobertas da EDA e decidimos as próximas etapas:
* Notamos algum padrão ou relações ao visualizar os dados?
* Parece que podemos fazer predições acuradas a partir de nossos dados? Faz sentido passar para a modelagem dos dados?
* Precisamos coletar novos pontos de dados?
* Como os dados são distribuídos?
* Os dados nos ajudam a responder às perguntas que temos ou nos dão um insight sobre o problema que estamos investigando?
* Precisamos coletar dados novos ou adicionais?

Se avançarmos para a modelagem os dados, isso se enquadrará em machine learning e nas estatísticas. Embora não seja tecnicamente uma análise de dados, geralmente é a etapa posterior, vamos abordar no capítulo Getting Started with Machine Learning in Python e no capítulo Making Better Predictions – Optimizing Models. Além disso, veremos como todo esse processo funcionará na prática no capítulo Machine Learning Anomaly Detection. 

O diagrama a seguir descreve todo o processo, desde a análise de dados até o aprendizado de máquina. (Seção Machine learning workflow do apêndice).

O capítulo Financial Analysis – Bitcoin and the Stock Market, e o capítulo Rule-Based Anomaly Detection focarão em tirar conclusões de análises de dados, em vez de construir modelos.

> Dataframe Pandas

Series

Index

DataFrame

Trazendo os dados para um dataframe pandas

Inspecionando um dataframe

Pegando subconjuntos dos dados

Adicionando e removendo dados

> Data wrangling com Pandas

Data cleaning

Data transformation

Data enrichment

> Agregando dataframes pandas

Operações database-style em dataframes

Operações em dataframe

Agregações com pandas e numpy

> Visualização de dados com pandas e matplotlib

> Plotando com seaborn

> Onde conseguir dados 

Microdados ENEM - http://portal.inep.gov.br/microdados

Portal Brasileiro de Dados Abertos - http://dados.gov.br/

Datahub - http://datahub.io/

NASA - http://data.nasa.gov/

The World Bank - http://data.worldbank.org/

United States Government - http://www.data.gov/

Informações sobre a cidade do Rio de Janeiro - https://www.data.rio/

Dados abertos do estado de São Paulo - https://www.governoaberto.sp.gov.br/

Dados abertos de Brasília - http://www.dados.df.gov.br/