 <a href="https://www.fiap.com.br"><img src = "https://www.fiap.com.br/wp-content/themes/fiap2016/images/sharing/fiap.png" width = 300, align = "center"></a>

<h1 align=center><font size = 5>Análise de dados com Python</font></h1>

# Introdução

### Usando um notebook em Python 

Vamos a abordar a aquisição de dados de várias maneiras e obter as informações necessárias de um conjunto de dados. No final desta aula, você irá carregar / ler dados com sucesso no Jupyter Notebook e obter a descrição da ideia do conjunto de dados através da Biblioteca Pandas. 



## Conteúdo

<div class="alert alert-block alert-info" style="margin-top: 20px">
<li><a href="#ref1">Aquisição de dados</a>
<li><a href="#ref2">Insights Básicos sobre a base de dados</a></li>
<p></p>
Tempo estimado necessário: <strong>15 min</strong>
</div>
<hr>

<a id="ref1"></a>
# Aquisição de Dados

Existem vários formatos para um conjunto de dados: .csv, .json, .xlsx, etc. Os conjuntos de dados podem ser armazenados em diferentes locais, em sua máquina local ou online.

Nesta seção, você aprenderá como carregar / ler conjunto de dados no nosso Notebook Jupyter.

No nosso caso, o Automobile Dataset é uma fonte on-line, e está no formato CSV (valores separados por vírgula). Vamos usar este conjunto de dados como um exemplo para praticar a leitura de dados.

fonte de dados: https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data
Tipo de dados : csv

A Biblioteca Pandas é uma ferramenta útil que nos permite ler vários conjuntos de dados em um quadro de dados; a maioria das plataformas de notebooks do Jupyter possui uma Biblioteca de Pandas ** integrada para que tudo o que precisamos fazer é importá-la ou instala-la.


In [None]:
# importe a biblioteca pandas 
import pandas as pd


## Lendo os dados

Usamos o método "pandas.read_csv ()" para ler o arquivo csv. Entre aspas, colocamos o caminho do arquivo junto com uma aspa, de modo que os pandas lerão o arquivo em um quadro de dados desse endereço. O caminho do arquivo pode ser um URL ou o endereço de arquivo local. Como os dados da linha não incluem cabeçalhos, podemos adicionar um argumento **"headers = None"** dentro do método **"read_csv ()"**, de modo que os pandas não definam automaticamente a primeira linha como um cabeçalho. Você também pode atribuir o conjunto de dados a qualquer variável que você criou.


In [None]:

# Importe a pandas como um objeto
import pandas as pd

# leia o arquivo online pelos URLs fornecidos acima e atribua-o a variável "df"
path="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"

df = pd.read_csv(path,header=None)


In [None]:
df1 = pd.read_csv("clean_df.csv", header=None)

In [None]:
df1.head()

In [None]:
df.head(5)



Depois de ler o conjunto de dados, podemos usar o método **`dataframe.head (n)`** para verificar as principais n linhas do quadro de dados onde n é um número inteiro. Confirmar para **`dataframe.head (n)`**, **`dataframe.tail (n)`** irá mostrar-lhe o n linhas inferiores de quadro de dados.


In [None]:
# mostre as 5 primeiras linhas usando o comando dataframe.head().
df.head(5)

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Pergunta #1: </h1>
<b> Verifique as 10 linhas inferiores do quadro de dados "df".</b>
</div>

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Pergunta #1 Resposta: </h1>
<b>Execute o código abaixo! Você obteve o código certo?</b>
</div>


 <div align="right">
<a href="#q2" class="btn btn-default" data-toggle="collapse">Clique aqui para ver a resposta</a>

</div>
<div id="q2" class="collapse">
```
df.tail(10)
```
</div>



## Adicione os cabeçalhos

Dê uma olhada em nosso conjunto de dados; pandas define automaticamente o cabeçalho por um número inteiro a partir de 0.
<div>
    
Para melhor descrever nossos dados, podemos introduzir um cabeçalho, esta informação está disponível em: https://archive.ics.uci.edu/ml/datasets/Automobile</div>
<p></p>
<div>Assim, temos que adicionar cabeçalhos manualmente.</div>

<div>Primeiramente, nós criamos uma lista com os "headers" que inclui todos os nomes das colunas em ordem.</div>

<div>Então, nós usamos **`dataframe.columns = headers`** para substituir os cabeçalhos a partir da lista que criamos.</div>




In [None]:
# criar lista de cabeçalhos
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]

In [None]:
# substituir cabeçalhos
df.columns = headers

# reveja seu data frame
df.head(10)

Agora, lemos com sucesso o conjunto de dados bruto e adicionamos os cabeçalhos corretos no quadro de dados.

 <div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1>Pergunta #2: </h1>
<b>Encontre o nome das colunas do dataframe</b>
</div>

  <div align="right">
<a href="#q3" class="btn btn-default" data-toggle="collapse">Clique aqui para a resposta</a>

</div>
<div id="q3" class="collapse">
```
df.columns
```
</div>


# Salvando a base de dados

De forma correspondente, os Pandas nos permitem salvar o conjunto de dados csv pelo método dataframe.to_csv (), você pode adicionar o caminho e o nome do arquivo junto com as aspas no colchete.

Por exemplo, se você salvasse o dataframe "df" como "automobile.csv" em sua máquina local, você pode usar a sintaxe abaixo:

In [None]:
df.to_csv("automobile.csv")

## Leitura e escrita Read/Save Outros formatos
Da mesma forma que lemos e salvamos arquivos csv, nós podemos usar métodos similares para ler e salvar outras bases em outros formatos:


| Formato dos dados | Leitura           | Salvar             |
| ------------- |:--------------:| ----------------:|
| csv           | `pd.read_csv()`  |`df.to_csv()`     |
| json          | `pd.read_json()` |`df.to_json()`    |
| excel         | `pd.read_excel()`|`df.to_excel()`   |
| hdf           | `pd.read_hdf()`  |`df.to_hdf()`     |
| sql           | `pd.read_sql()`  |`df.to_sql()`     |
| ...           |   ...          |       ...        |

<a id="ref2"></a>
# Insigths Básicos de um Banco de dados 

Depois de ler dados no quadro de dados da Pandas, é hora de explorar um pouco o conjunto de dados.

Existem várias maneiras de obter informações essenciais do conjunto de dados, para nos ajudar a entender melhor nosso conjunto de dados.



## Tipos de dados

Os dados têm uma variedade de tipos. Os principais tipos armazenados em objetos de pandas são `object`, `float`, `int`, `bool` e `datetime64`.Para melhor aprender sobre cada atributos, sempre é bom para nós conhecer o tipo de dados de cada coluna. Em Pandas:

~~~~
dataframe.dtypes
~~~~
retorna uma série com o tipo de dados de cada coluna.n.

In [None]:
# verifique o tipo de dados do quadro de dados "df" by .dtypes
df.dtypes


Como resultado mostrado acima, é claro que o tipo de dados de "symboling" e "curb-weight" são int64, "normalized-losses" são objetos e "wheel-base" é float64, etc. Na verdade, aqueles Os tipos de dados podem ser alterados de propósito, nós aprenderemos isso em um módulo posterior.


## Describe
Se quisermos verificar o resumo estatístico de cada coluna, como contagem de registros, valor médio da coluna, desvio padrão da coluna, etc.
~~~~
dataframe.describe()
~~~~
Gera várias estatísticas de resumo, excluindo `NaN` (Não é um número) valores.

In [None]:
# use .describe para obter o resumo estatístico de "df"
df.describe()



Aqui, ele mostra o resumo estatístico de todas as colunas numéricas (int, float).
Por exemplo, o atributo "simbolização" tem 205 contagens, o valor médio desta coluna é 0.83, o desvio padrão é 1.25, o valor mínimo é -2, o percentil 25 é 0, o percentil 50 é 1, o percentil 75 é 2 e o valor máximo é 3.
No entanto, e se nós também possamos verificar todas as colunas, incluindo outros tipos (como o objeto) de dados?
No entanto, e se nós também possamos verificar todas as colunas, incluindo outros tipos (como "objeto") de dados?

Você pode adicionar um argumento `include =" all "` dentro do suporte. Vamos tentar novamente.

In [None]:
# descreva todas as colunas em "df" 
df.describe(include = "all")


Agora, fornece o resumo estatístico de todas as colunas, incluindo atributos digitados por objetos. Agora podemos ver quantos valores únicos, que é o valor superior e a freqüência do maior valor em colunas com caracteres de objeto. Alguns valores na tabela acima mostram como "NaN", porque esse número não está disponível em relação ao tipo de coluna particular.


 <div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão #3: </h1>

<p>Você pode selecionar a coluna de um dataframe pela indicaçào do nome de cada coluna, por exemplo você pode selecionar o nome das três colunas a seguir </p>
<p></p>

<p>dataframe[[' column 1 ',column 2', 'column 3'] ]</p>
<p></p>

<p>onde "colums" é o nome da coluna, você pode aplicar o método ".describe()" para extrair as estatisticas das colunas como abaixo:</p>
<p></p>

<p>dataframe[[' column 1 ',column 2', 'column 3'] ].describe() </p>
<p></p>


Aplique o comando  ".describe()" para as colunas 'length' e 'compression-ratio'.
</div>

## Informações

Outro método que você pode usar para checar o seu dataset é:
~~~~
dataframe.info
~~~~
ele fornece um resumo conciso do seu dataframe.

In [None]:
# Veja a saída do com o comando .info "df"
df.info()

Aqui, podemos ver as informações do nosso quadro de dados, com as 30 primeiras linhas e as 30 linhas inferiores.

E também nos mostra que o quadro de dados inteiro tem 205 linhas e 26 colunas no total.

In [None]:
#Substituindo casos faltantes

In [None]:
df.dropna(subset=["price"], axis=0)

# Excelente você completou o primeiro notebook em Python

  
### Sobre os autores:  

Este notebook foi escrito por [Mahdi Noorian PhD](https://www.linkedin.com/in/mahdi-noorian-58219234/) ,[Joseph Santarcangelo PhD]( https://www.linkedin.com/in/joseph-s-50398b136/), Bahare Talayian, Eric Xiao, Steven Dong, Parizad , Hima Vsudevan and [Fiorella Wenver](https://www.linkedin.com/in/fiorellawever/).

Adaptado por Claudio Pinheiro

