# Jupyter notebooks: Introdução

<img src = "https://ibm.box.com/shared/static/jmtb4pgle2dsdlzfmyrgv755cnqw95wk.png" width = 300, align = "center"></a>


## Índice

<div class="alert alert-block alert-info" style="margin-top: 20px;color:green">
<li><a href="#ref1">Introdução</a>
<li><a href="#ref2">Começando a análise</a></li>
<li><a href="#ref3">Insights</a></li>

<a name="ref1"></a>
<h1>Introdução</h1>

O Jupyter notebook (ou iPython)  é uma ferramenta de análise de dados baseada na linguagem Python que permite a realização dos processo de análise e tratamento de dados em tempo real por meio do navegador ou após a instalação do pacote em seu sistema

Com esta ferramenta, você é capaz de utilizar a linguagem Markdown para apresentar A descrição ou Storytelling dos seu dados, dados RAW quando o seu formato é inespecífico e, claro, A linguagem Python, em suas versões 2 ou 3, para injetar a inteligência necessária em sua agenda(notebook) 

> **Nota:** 
- Nos exemplos seguir será utilizada a versão 3 da linguagem Python, porém você pode utilizar a versão 2 caso a conheça, ao selecionar esta opção na parte superior direita da guia principal.
- O foco desta agenda não será ensinar a linguagem Python _per se_, mas criar um guia de referência para ser utilizado futuramente caso você queira trilhar a carreira de analista de dados.
- Todo o conteúdo foi criado em plataformas livres, e o seu uso e alteração podem ser efetuados sem restrições, embora o crédito ao criador será bem-vindo para que futuras apresentações possam ser desenvolvidas :)

<h6>Spoiler: o <i>HTML</i> funciona também...</h6>

<h2>Criando celulas:</h2> para criar as células será necessário clicar no icone + no menu superior e selecionar o seu tipo como code, Markdown(HTML) ou RAW(sem formatação). Por padrão a celula tem o formato code respeita a versão selecionada a direita do menu principal.
Para executar uma célula de código será necessário pressionar ao mesmo tempo as teclas Ctrl e Enter com a célula selecionada ou o botão play no menu superior.


## primeiro passo: Hello World
Inicialmente você irá executar a primeira instrução de codigo no Jupyter, obviamente será o noss Hello World!!!
> pressione Ctrl + Enter na celula abaixo:

In [None]:
print('Hello World!')

Observe que a sintaxe respeita totalmente as regras da linguagem Python e o seu resultado aparece imediatamente abaixo da célula, semelhante a uma saida de console. Dessa forma toda a informa fica agrupada facilmente onde é necessaria
> **dica:** Você pode usar esse ambiente para treinar o uso basico das linguagens Python, R e C++(em algumas versões do Jupyter)
não será abordado o basico do Python mas essa informação será adicionada em breve aqui

<a name="ref2"></a>
# Começando a análise
## Obtendo dados

Existem vários formatos para um dataset(conjuntos de dados), .csv, .json, .xlsx  etc. um dataset pode ser armazenado me diferentes locais, como em seu computador ou até mesmo online.
Neste ponto, vamos aprender como carregar os nossos datasets no Jupyter Notebook.
Em nosso caso, o dataset dos automóveis é uma fonte online, e está no formato CSV (comma separated value). Vamos usar este dataset como exemplo para a nossa leitura de dados.
Fonte: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data
Tipo: csv
A biblioteca Pandas é uma ferramentra muito útil que nos permite ler numerosos datasets em um dataframe(quadro de dados); a plataforma Jupyter notebook já possui nativamente a **biblioteca Pandas** então tudo o que precisamos é importá-la sem nos preocumarmos com uma instação externa.


In [None]:
# importando a biblioteca pandas
import pandas as pd

## Lendo os dados
Usaremos a função **"pandas.read_csv()"**  para ler o aruivo CSV. O caminho do arquivo será atribuido a variavel **path** digitado entre aspas duplas para ser reconhecido como URL.
Como os dados a serem bixados não possuem cabeçalhos(nome de coluna) será inserido o argumento **" headers = None"**  dentro do método **"read_csv()"** evitando assim que o pandas atribua  primeira linha como cabeçalho automaticamente.
Você pode atribuir o dataset a qualquer variável que você criar.

In [None]:
# atribuindo a URL do arquivo online a variavel path
path="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"

# atribuindo a variave df o conteudo de path em formato csv, sem cabeçalho
df = pd.read_csv(path,header=None)
print("Executado com sucesso!!!")

Após a leitura do dataset, podemos executar o método **`dataframe.head(n)`** para vermos as linhas iniciais do dataset e checar se tudo ocorreu como previsto.
Você também pode utilizar o método **`dataframe.tail(n)`** para mostrar as ultimas linhas do dataset
**OBS:** O argumento n tem que ser um número inteiro e, caso não seja aferido, o valor default a ser mostrado será de 5 linhas.

In [None]:
# mostrando as primeiras 5 linhas do dataframe df
df.head(5)

In [None]:
# mostrando as 10 ultimas linhas do dataframe df
df.tail(10)

## Adicionando os cabeçalhos
Ao olhar para o nosso dataset, vemos que o pandas atribuiu aos cabeçalhos um valor numerico a partir do 0. 

Para descrever melhor as informações nós temos que adicionar os nomes das colunas, esta informação está disponível em:  https://archive.ics.uci.edu/ml/datasets/Automobile
<p></p>
<div>Porém, nós temos que adicionar os cabeçalhos maualmente</div>
<div>Primeiramente, vamos criar uma lista <b>"headers"</b> que inclui todos os nomes de colunas em ordem.</div>
<div>então, usaremos a expressão <b>dataframe.columns = headers`</b> para alterar os cabeçalhos pela lista que criamos.</div>

In [None]:
# criando a lista com os nomes das colunas
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
headers

In [None]:
# alterando as colunas pelo valor contido em headers
df.columns = headers
df.head(10)

nós também podemos excluir alguns valores da coluna "price" como a seguir (Mais detalhes adiante)

In [None]:
df.dropna(subset=["price"], axis=0)

Para ler os valores apenas das colunas são usados os atributos columns

In [None]:
df.columns

## Salvando o dataset
Agora que já tratamos do nosso dataset podemos salvá-lo com o método **`dataframe.to_csv()`** você pode adicionar um caminho para salvar os seus arquivos.

Por exemplo, se você quiser salvar o seu dataset "df" como "automobile.csv" em sua máquina local, utilize a sintaxe abaixo:
~~~~
df.to_csv("automobile.csv")
~~~~

### Você pode ler e salvar os arquivos nos seguintes formatos:



| Formato  | Ler        | Salvar           |
| ------------- |:--------------:| ----------------:|
| csv           | `pd.read_csv()`  |`df.to_csv()`     |
| json          | `pd.read_json()` |`df.to_json()`    |
| excel         | `pd.read_excel()`|`df.to_excel()`   |
| hdf           | `pd.read_hdf()`  |`df.to_hdf()`     |
| sql           | `pd.read_sql()`  |`df.to_sql()`     |
| ...           |   ...          |       ...        |

<a name="ref3"></a>
# Insights: O básico
Depois de converter a nossa informação em um dataframe pandas, é hora de explorarmos o dataset;
Existem muitas formas de oobtermos os insights essenciais dos dados para entendermos melhor o nosso dataset.

## Tipos de dados
Os dados possuem diversos tipos.
Opricipais tipos armazenados nos dataframes pandas são: `object`, `float`, `int`, `bool` e `datetime64`. em ordem, para aprendermos melhor sobre cada atributo, é sempre bom sabermos qual o tipo de dado de cada coluna. No pandas usamos:
~~~~
dataframe.dtypes
~~~~
Que retorna uma série com o tipo de dado de cada coluna.

In [None]:
# checa o tipo de dado de cada coluna do dataframe "df" por meio do .dtypes
df.dtypes

Como resultado mostrado acima no diz claramente, o tipo de dado de "symboling" e "curb-weight" são `int64`, "normalized-losses" é um `object`, e "wheel-base" é um `float64`, e etc.
Esses tipos de dados podem ser alterados como veremos posteriormente.

## Describe
Se nós quisermos obter uma descrição estatistica de cada coluna, como a enumeração, valor médio e desvio padrão entre outros, nós utilizamos o método `describe`:
~~~~
dataframe.describe()
~~~~
Este método nos retorna vários resumos estatísticos, excluindo-se os valores `NaN` (Not a Number).
> **nota:** A biblioteca pandas foi criada com o idioma inglês, sendo necessário assim, saber o termo em inglês de seus termos estatísticos. 

In [None]:
df.describe()

Isto nos mostra o resumo estatístico de todos os tipos numéricos (int,float) das colunas.
Por exemplo, o atributo "symboling" tem 205 itens contados, o valor medio desta coluna é 0.83, seu desvio padrão é 1.25, e oseu valor mínimo é -2, Seu 25º percentil é 0, seu 50º percentil é 1, seu 75º percentil é 2, e o seu valor máximo é 3.

Todavia, se você quiser analisar todas as colunas, incluindo as do tipo `object`, você pode adicionar o argumento `include = "all"` dentro do método como observado abaixo:

In [None]:
# descreve todas as colunas de "df" 
df.describe(include = "all")

Agora, nos é apresentado o resumo estatístico de todas as colunas, incluindo as do tipo objeto.
Como podemos ver agora, alguns valores nos são apresentados como `NaN`, isso se deve ao fato desses valores não poderem ser representados devido ao tipo de dado que eles possuem.

Você pode selecionar colunas específicas do seu dataframe ao adicioná-las como argumento antes da função describe como exemplificada abaixo:

In [None]:
df[['length','compression-ratio']].describe()

## Info
Outro método que podemos utilizar para verificar o nosso dataframe é o `info` que pode ser utilizado conforme a sintaxe abaixo
~~~~
dataframe.info
~~~~
Ele nos provê um resumo mais conciso(maior) do nosso dataframe:

In [None]:
# Checando o info do nosso "df"
df.info

Ele nos apresenta a informação das primeiras 30, e das últimas 20 linhas do nosso dataframe. Também nos mostra que o dataframe possui 205 linhas e 26 colunas.