### Coletando Dados

<p>Existem vários formatos para um conjunto de dados: .csv, .json, .xlsx etc.<br> 
E esse conjunto pode estar armazenado em diferentes lugares, localmente ou online.
    
Neste notebook, você aprenderá como carregar um conjunto de dados em formato csv (comma separated values), salvo localmente. Iremos utilizar o Automobile Dataset (uma fonte gratuita disponível <a href="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data" target="_blank">aqui</a>)


Usaremos também este arquivo como um exemplo para praticar formas de tratamento e leitura dos dados.



In [1]:
# importando as bibliotecas que iremos utilizar
# Pandas e Numpy
import pandas as pd
import numpy as np

### Lendo o arquivo

Usamos a função <b>pandas.read_csv()</b> para ler o arquivo csv. 

Como parametro dessa função, enviaremos uma string com o caminho do arquivo que queremos ler (pode ser uma URL ou o endereço do arquivo local). Se verificarmos o arquivo, iremos notar que não existe cabeçalho, nesse caso, podemos definir também o parametro <i>headers=None</i> para que o pandas não defina automaticamente a primeira linha como cabeçalho (iremos criar cabeçalhos em seguida).

In [4]:
caminho_arquivo = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df = pd.read_csv(caminho_arquivo, header=None)

Com o nosso dataframe (df) criado, podemos dar uma breve olhada nos dados. Para isso, podemos utilizar o método <i>dataframe.head(n)</i> que exibe as primeiras n linhas do dataframe ou <i>dataframe.tail(n)</i> que exibe as últimas n linhas.

In [6]:
df.head() # se você não definir um valor de n, o padrão será 5

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,16,17,18,19,20,21,22,23,24,25
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


### Adicionando cabeçalhos
<p> Como vimos, o arquivo que utilizamos não possui um cabeçalho (a primeira linha não descreve os nomes das colunas). É importante que tenhamos cabeçalhos definidos para que possamos trabalhar com os dados e compreender qual informação cada coluna representa.

Iremos utilizar a descrição das colunas do dataset que estamos utilizando, disponível <a href="https://archive.ics.uci.edu/ml/datasets/Automobile" target="_blank">aqui</a> para adicionarmos o nosso cabeçalho manualmente.

In [7]:
#primeiro criamos uma lista de "cabeçalhos" que inclui todos os nomes de colunas em ordem.
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]


#em seguida, usamos dataframe.columns = headers para substituir os cabeçalhos pela lista que criamos.
df.columns = headers
df.head(10)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,?,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,?,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
9,0,?,audi,gas,turbo,two,hatchback,4wd,front,99.5,...,131,mpfi,3.13,3.4,7.0,160,5500,16,22,?


Repare os dados da coluna <i>normalized-losses</i>. Algumas linhas exibem o caracter ? no lugar do valor que deveriam apresentar. Esse tipo de erro é comum e necessita de uma intervenção antes de declarar que o dataframe está pronto para análise. 

In [9]:
# primeiro, iremos subistutir o caracter '?' por NaN (not a number)
# crio um dataframe temporário (df1) que vai armazenar o resultado dessa operação
df1=df.replace('?',np.NaN)

In [10]:
# Agora utilizamos a função dropna que vai excluir todas as linhas do dataframe que contenham
# o valor NaN na coluna preço:

df=df1.dropna(subset=["price"], axis=0)
df.head(20)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450
5,2,,audi,gas,std,two,sedan,fwd,front,99.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,15250
6,1,158.0,audi,gas,std,four,sedan,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,17710
7,1,,audi,gas,std,four,wagon,fwd,front,105.8,...,136,mpfi,3.19,3.4,8.5,110,5500,19,25,18920
8,1,158.0,audi,gas,turbo,four,sedan,fwd,front,105.8,...,131,mpfi,3.13,3.4,8.3,140,5500,17,20,23875
10,2,192.0,bmw,gas,std,two,sedan,rwd,front,101.2,...,108,mpfi,3.5,2.8,8.8,101,5800,23,29,16430


# É isso!

### Este é apenas um exemplo de coleta e tratamento básico de dados.


### Muito obrigado pela sua leitura!

## Autor:

<h4>Anderson Cordeiro</h4>

Você pode encontrar mais conteúdo no meu Medium<br> ou então entrar em contato comigo :D

<a href="https://www.linkedin.com/in/anderson-cordeiro-26986430/" target="_blank">[LinkedIn]</a>
<a href="https://medium.com/@andcordeiro" target="_blank">[Medium]</a>
