<p style="text-align:center">
    <a href="https://skills.network/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork20235326-2022-01-01" target="_blank">
    <img src="https://www.ufac.br/nave/imagens/logo.png/@@images/b79444d1-a803-4e49-b5da-98228cf1e2fd.png" width="200" alt="Nave Tech Logo"/>
    </a>
</p>

# Introdução ao Notebook

## Objetivos

Após completar este lab, você poderá:

*   Adquirir dados de diferentes fontes e formatos
*   Obter _insights_ do dados utilizando a biblioteca Pandas


#Tabela de Conteúdos

<div class="alert alert-block alert-info" style="margin-top: 20px">
<ol>
    <li><a href="https://#data_acquisition">Aquisição dos dados</a>
    <li><a href="https://#basic_insight">Insight básico do Dataset</a></li>
</ol>

</div>
<hr>


<h1 id="data_acquisition">Aquisição dos dados</h1>
<p>
Há vários formatos para um _dataset_: .csv, .json, .xlsx  etc. O _dataset_ pode ser armazenado em diferentes locais, na sua máquina local ou algumas vezes online.<br>

Nesta seção, você irá aprender como carregar um _dataset_ a partir do seu Notebook Colab. Tudo que é necessário é abrir este arquivo .ipynb no drive da conta institucional sou.ufac.br. Note que este Notebook também pode ser executado localmente na sua máquina desde que você copie este .ipynb, instale o Jupyter, disponível para download por meio do famoso pacote para _data science_ <a href="https://www.anaconda.com/products/distribution">Anaconda</a>.<br>

Em nosso caso, o dataset Automobile é uma fonte online, e está no formato CSV (comma separated value). Vamos usá-lo como exemplo para prática de leitura dos dados.

<ul>
    <li>Fonte: <a href="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork20235326-2022-01-01" target="_blank">https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data</a></li>
    <li>Tipo do dado: csv</li>
</ul>

A biblioteca Pandas é uma ferramenta útil que nos permite ler vários conjuntos de dados em um dataframe; nossas plataformas de notebook Colab têm uma <b>Biblioteca Pandas</b> integrada, então tudo o que precisamos fazer é importar Pandas sem instalar.
</p>


In [None]:
#install specific version of libraries used in  lab
#! mamba install pandas==1.3.3  -y
#! mamba install numpy=1.21.2 -y

In [None]:
# import pandas library
import pandas as pd
import numpy as np

<h2>Leitura dos dados</h2>
<p>
Nós usamos a função <code>pandas.read_csv()</code> para ler o arquivo csv. Entre parenteses, nós colocamos o endereço com o caminho do arquivo junto com uma aspa dupla para que o pandas leia o arquivo em um dataframe a partir desse endereço. O caminho do arquivo pode ser uma URL ou um endereço do arquivo da sua máquina local.<br>

Como os dados deste dataset não incluem cabeçalhos (_headers_), podemos adicionar um argumento <code>headers = None</code> dentro do método <code>read_csv()</code>  para que o pandas não entenda que a primeira linha contem um cabeçalho.<br>

Você também pode atribuir o dataset a qualquer variável que criar.

</p>


Vamos obter o dataset diretamente do repositório público <a href="https://archive.ics.uci.edu/ml/index.php">Machine Learning UCI</a>, indicando a URL completa contendo o caminho para o csv do dataset <a href="https://archive.ics.uci.edu/ml/datasets/automobile">Automobile</a> no argumento de <code>read_csv()</code> .


In [None]:
# Import pandas library
import pandas as pd

#Import numpy library
import numpy as np

# Read the online file by the URL provides above, and assign it to variable "df"
other_path = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df = pd.read_csv(other_path, header=None)

Após a leitura do dataset, podemos usa o método <code>dataframe.head(n)</code> para verificar as top _n_ linhas do dataframe, onde _n_ é um inteiro. Ao contrário de <code>dataframe.head(n)</code>, <code>dataframe.tail(n)</code> mostrará as n linhas inferiores (ou seja do fundo) do dataframe.


In [None]:
# imprima as 5 primeiras linhas usando dataframe.head()
print("As primeiras 5 linhas do dataframe") 
df.head(5)

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão #1: </h1>
<b>Imprima as últimas 10 linhas do dataframe "df".</b>
</div>


In [None]:
# Escreva seu codigo abaixo e pressione Shift+Enter para executar 


<details><summary>Click here for the solution</summary>

```python
print("The last 10 rows of the dataframe\n")
df.tail(10)
```


<h3>Adicionando Headers</h3>
<p>
Dê uma olhada no dataset. Pandas automaticamente definie o header com um inteiro iniciando em 0.
</p>
<p>
Para melhor descrição do nossos dados, podemos colocar um header. Para este dataset em particular, esta informação está disponível em:  <a href="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.names" target="_blank">https://archive.ics.uci.edu/ml/datasets/Automobile</a>.
</p>
<p>
Assim, nós adicionamos cabeçalhos manualmente.
</p>
<p>
Primeiro, nós criamos uma lista "headers" que inclui todos os nomes de colunas em ordem.
Então, nós usamos <code>dataframe.columns = headers</code> para substituir o headers com a lista que criamos.
</p>


In [None]:
# cria lista headers
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]
print("headers\n", headers)

headers
 ['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration', 'num-of-doors', 'body-style', 'drive-wheels', 'engine-location', 'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type', 'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke', 'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg', 'highway-mpg', 'price']


Nós substituímos os headers e verificamos novamente nosso dataframe <code>df</code>:


In [None]:
df.columns = headers
df.head(5)

Nós podemos substituir o símbolo "?" por NaN (Not a Number) para em seguida aplicar o <code>dropna()</code> que remove valores ausentes:


In [None]:
df1=df.replace('?',np.NaN)
df1.head()

Podemos descartar as linhas com valores ausentes ao longo da coluna "price" da seguinte maneira:


In [None]:
df=df1.dropna(subset=["price"], axis=0)
df.head(20)

Agora, lemos o dataset bruto e adicionamos os headers corretamente ao dataframe.

 <div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão #2: </h1>
<b>Encontre o nome das colunas do frame.</b>
</div>


In [None]:
# Escreva seu codigo abaixo e pressione Shift+Enter para executar


<details><summary>Click here for the solution</summary>

```python
print(df.columns)
```

</details>


<h2>Salve o Dataset</h2>
<p>
Da mesma forma, Pandas nos permite salvar o dataset em csv. Usando o método <code>dataframe.to_csv()</code>, podemos adicionar o path do arquivo e o nome ao longo das aspas duplas no parênteses.
</p>
<p>
Por exemplo, se você salvar o dataframe <b>df</b> como <b>automobile.csv</b> em seu google drive, você pode usar a seguinte sintaxe abaixo, onde <code>index = False</code> significa o nome das linhas não serão escritos.
</p>
<p>
Porém, para salvar o dataframe df no Google Colab, precisamos configurar a conta do Google Drive como unidade virtual para que possamos acessar os recursos da unidade como se fosse um disco rígido local. Essa configuração envolve autorizar o Colab para ter acesso a sua conta google institucional.
</p>


In [None]:
#conectar GDrive com Colab, executando as duas linhas de codigo
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive


<p>A partir de agora, a unidade virtual sob o diretório /content/drive/ está acessível para leitura e escrita de arquivos. Você pode por exemplo importar arquivos contidos no Drive ou exportar um dataframe para um arquivo. Para este exemplo, vamos salvar o dataframe em um csv na pasta ''Colab Notebooks/NaveTech/'' da seguinte forma
</p>

In [None]:
df.to_csv("/content/drive/MyDrive/Colab Notebooks/NaveTech/automobile.csv",index=False)

Podemos também ler e salvar em outros formatos de arquivos. Nós também podemos usar função similares como **`pd.read_csv()`** e **`df.to_csv()`**  para outros formatos de dados. As funções são listadas na seguinte tabela:


<h2>Ler/Salvar em outros formatos</h2>

| Formato dos dados |        Ler       |            Salvar |
| ------------ | :---------------: | --------------: |
| csv          |  `pd.read_csv()`  |   `df.to_csv()` |
| json         |  `pd.read_json()` |  `df.to_json()` |
| excel        | `pd.read_excel()` | `df.to_excel()` |
| hdf          |  `pd.read_hdf()`  |   `df.to_hdf()` |
| sql          |  `pd.read_sql()`  |   `df.to_sql()` |
| ...          |        ...        |             ... |


 <div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão #3: </h1>
<b>Abra o arquivo automobile.csv que se encontra no drive e carregue na variável <code>df_drive</code>. Em seguida, verifique se tudo ocorreu bem com a leitura usando algum dos métodos checados.</b>
</div>


In [None]:
# Escreva seu codigo abaixo e pressione Shift+Enter para executar


<h1 id="basic_insight">Um insight básico do Dataset</h1>
<p>
Após ler os dados no dataframe do Pandas, é hora de explorarmos o dataset.<br>

Há várias maneiras de obter insights essenciais dos dados para nos ajudar melhor a entender o conjunto de dados.

</p>


<h2>Tipos de dados</h2>
<p>
Dados tem uma variedade de tipos.<br>

Os principais tipos armazenados nos dataframes do Pandas são <b>object</b>, <b>float</b>, <b>int</b>, <b>bool</b> and <b>datetime64</b>. Para melhor aprender sobre cada feature, é sempre bom conhecermos os tipos de dados de cada coluna. No Pandas:

</p>


In [None]:
df.dtypes


Uma série com o tipo de dados de cada coluna é retornada.


In [None]:
# verifique o tipo dos dados do dataframe "df" com .dtypes


<p>
Como mostrado acima, é claro ver que o tipo de dados "symboling" e "curb-weight" são <code>int64</code>, "normalized-losses" é <code>object</code>, e "wheel-base" é <code>float64</code>, etc.
</p>
<p>
Estes tipos de dados podem ser alterados; aprenderemos como realizar isso em um módulo posterior.
</p>


<h2>Descrição</h2>
Se quisermos obter um resumo estatístico de cada coluna, por exemplo, contagem, valor médio da coluna, desvio padrão da coluna, etc., usamos <code>describe</code>:


Este método irá fornecer vários resumos estatísicos, excluindo valores <code>NaN</code> (Not a Number).


In [None]:
df.describe()

<p>
Isso mostra o resumo estatístico de todas as colunas numéricas (int, float).<br>

Por exemplo, a feature "symboling" aparece em 201 linhas, o valor médio **mean** desta coluna é 0.84, o desvio padrão **std** é 1.25, o valor mínimo é -2, 25th percentile é 0, 50th percentile é 1, 75th percentile é 2, e o valor máximo **max** é 3. <br>

No entanto, e se nós também checarmos todas as colunas incluindo aquelas que são do tipo object? <br><br>

Podemos adicionar um argumento <code>include = "all"</code> dentro dos parênteses. Vamos tentar novamente.

</p>


In [None]:
# describe all the columns in "df" 
df.describe(include = "all")

<p>
Agora, describe fornece o resumo estatístico de todas as colunas, incluindo features do tipo object.<br>

Agora podemos ver quantos valores únicos existem, qual é o valor superior, qual e a frequência do valor superior nas colunas do tipo object.<br>

Alguns valores na tabela acima são mostrados como "NaN". Isto deve-se aqueles valores numéricos que não estão disponíveis considerando um tipo coluna em particular.<br>

</p>


<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão #4: </h1>

<p>
Podemos selecionar as colunas de um dataframe indicando o nome de cada coluna. Por exemplo, podemos selecionar as três colunas da seguinte maneira:
</p>
<p>
    <code>dataframe[[' column 1 ',column 2', 'column 3']]</code>
</p>
<p>
Onde "column" é o nome da coluna, você pode aplicar o método ".describe()" para obter as estatísticas dessas colunas da seguinte maneira:
</p>
<p>
    <code>dataframe[[' column 1 ',column 2', 'column 3'] ].describe()</code>
</p>

Aplique o método ".describe()" para as colunas 'length' e 'compression-ratio'.

</div>


In [None]:
# Escreva seu codigo abaixo e pressione Shift-Enter para executar 


<details><summary>Click here for the solution</summary>

```python
df[['length', 'compression-ratio']].describe()
```

</details>


<h2>Info</h2>
Outro método que podemos usar para checar o dataset é:


Este fornece um resumo conciso do seu DataFrame.

Este método imprime informações sobre um DataFrame incluindo os índices dtype e colunas, valores não nulo e o uso de memória.


In [None]:
# look at the info of "df"
df.info()

<h2>Armazenando algumas estatísticas em um novo Dataframe</h2>
<p>Para manualmente armazenarmos alguns dados estatísticos de <code>df</code> em uma nova tabela, criaremos um novo Dataframe chamado <code>df_stats</code></p>
<p> Este novo Dataframe terá como dimensões 1 linha e 3 colunas e conterá informações de mínimo, máximo e média da coluna length de <code>df</code>.
</p>

<p>Um dicionário de lista será dado como parâmetro ao método Dataframe(). As chaves do dicionário serão usadas como colunas do novo dataframe df_stats.</p>

In [None]:
df_stats = pd.DataFrame(
    {
        "length_min": [
            df["length"].min()
        ],
        "length_max": [
            df["length"].max()
        ],
        "length_mean": [
           df["length"].mean() 
        ]
    }  
)

Você pode conferir as dimensões da novo Dataframe usando o atributo de df_stats chamado .shape.

In [None]:
df_stats

df_stats.shape

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão #5: </h1>

<p>
Insira no dataframe <code>df_stats</code> novas estatísticas para as seguintes colunas de df: compression-ratio, engine-size e wheel-base.
</div>

In [None]:
# Escreva seu codigo abaixo e pressione Shift-Enter para executar 

<h1>Muito bem! Você acabou de completar o Notebook de Introdução a Análise de Dados!</h1>


### Créditos

Este notebook foi completamente revisado e foi adaptado a partir do material do curso da IBM no Coursera: *Data Analysis with Python* por Joseph Santarcangelo, Ph.D
