### Como carregar dados de aprendizado de máquina

Você deve ser capaz de carregar seus dados antes de iniciar seu projeto de aprendizado de máquina. O
O formato mais comum para dados de aprendizado de máquina são os arquivos CSV. Existem várias maneiras de
carregue um arquivo CSV em Python. Nesta lição, você aprenderá três maneiras que pode usar para carregar
seus dados CSV em Python:

1. Carregue arquivos CSV com a biblioteca padrão do Python.
2. Carregue arquivos CSV com NumPy.
3. Carregar arquivos CSV com Pandas.

#### Considerações ao carregar dados CSV

Há uma série de considerações ao carregar seus dados de aprendizado de máquina de arquivos CSV.
Para referência, você pode aprender muito sobre as expectativas para arquivos CSV revisando o CSV
pedido de comentário intitulado Formato comum e tipo MIME para valores separados por vírgula
(CSV) Arquivos1.

##### File Header

Seus dados têm um cabeçalho de arquivo? Nesse caso, isso pode ajudar a atribuir nomes automaticamente a cada
coluna de dados. Caso contrário, pode ser necessário nomear seus atributos manualmente. De qualquer maneira, você deve
especifique explicitamente se seu arquivo CSV tinha ou não um cabeçalho de arquivo ao carregar seus dados.

##### Comments

Seus dados têm comentários? Os comentários em um arquivo CSV são indicados por um hash (#) na
início de uma linha. Se você tiver comentários em seu arquivo, dependendo do método usado para carregar seu
dados, você pode precisar indicar se deve ou não esperar comentários e o personagem a esperar
para significar uma linha de comentário.

##### Delimiter

O delimitador padrão que separa valores em campos é a vírgula (,). seu le poderia
use um delimitador diferente como tabulação ou espaço em branco, caso em que você deve especificá-lo explicitamente.

##### Quotes

Às vezes, os valores de campo podem ter espaços. Nesses arquivos CSV, os valores geralmente são citados. O
o caractere de aspas padrão é o caractere de aspas duplas. Outros caracteres podem ser usados,
e você deve especificar o caractere de aspas usado em seu arquivo.

#### Pima Indians Dataset

O conjunto de dados dos índios Pima é usado para demonstrar o carregamento de dados nesta lição. Também será usado
em muitas das lições que virão. Este conjunto de dados descreve os registros médicos dos índios Pima
e se cada paciente terá ou não um início de diabetes dentro de cinco anos. Como tal
é um problema de classificação. É um bom conjunto de dados para demonstração porque todas as entradas
os atributos são numéricos e a variável de saída a ser prevista é binária (0 ou 1). os dados são
disponível gratuitamente no UCI Machine Learning Repository2.

#### Load CSV Files with the Python Standard Library

A API Python fornece o módulo CSV e a função reader() que pode ser usada para carregar
Arquivos CSV. Depois de carregado, você pode converter os dados CSV em um array NumPy e usá-lo para a máquina
aprendizado. Por exemplo, você pode baixar3 o conjunto de dados dos índios Pima em seu diretório local
com o nome de arquivo pima-indians-diabetes.data.csv. Todos os campos neste conjunto de dados são numéricos
e não há linha de cabeçalho.

In [None]:
# Load CSV Using Python Standard Library
import csv
import numpy
filename = 'pima-indians-diabetes.data.csv'
raw_data = open(filename, 'rb')
reader = csv.reader(raw_data, delimiter=',', quoting=csv.QUOTE_NONE)
x = list(reader)
data = numpy.array(x).astype('float')
print(data.shape)

Exemplo de carregamento de um arquivo CSV usando a biblioteca padrão do Python.

O exemplo carrega um objeto que pode iterar sobre cada linha dos dados e pode ser facilmente
convertido em uma matriz NumPy. A execução do exemplo imprime a forma da matriz.

In [None]:
print(data.shape)

Saída do exemplo de carregamento de um arquivo CSV usando a biblioteca padrão do Python.

Para obter mais informações sobre a função csv.reader(), consulte Leitura e gravação de arquivos CSV em
a documentação da API do Python.

#### Load CSV Files with NumPy

Você pode carregar seus dados CSV usando NumPy e a função numpy.loadtxt(). esta função
não assume nenhuma linha de cabeçalho e todos os dados têm o mesmo formato. O exemplo abaixo assume que o
le pima-indians-diabetes.data.csv está em seu diretório de trabalho atual.

In [None]:
# Load CSV using NumPy
from numpy import loadtxt
filename = 'pima-indians-diabetes.data.csv'
raw_data = open(filename, 'rb')
data = loadtxt(raw_data, delimiter=",")
print(data.shape)

Exemplo de carregamento de um arquivo CSV usando NumPy.

A execução do exemplo carregará o arquivo como numpy.ndarray5 e imprimirá a forma dos dados:

In [None]:
# Saída do exemplo carregando um arquivo CSV usando NumPy. 
print(data.shape)

Este exemplo pode ser modificado para carregar o mesmo conjunto de dados diretamente de uma URL da seguinte forma:

In [None]:
# Load CSV from URL using NumPy
from numpy import loadtxt
from urllib import urlopen
url = 'https://goo.gl/vhm1eU'
raw_data = urlopen(url)
dataset = loadtxt(raw_data, delimiter=",")
print(dataset.shape)

Again, running the example produces the same resulting shape of the data.

In [None]:
# Output of example loading a CSV URL using NumPy.
print(dataset.shape)

For more information on the numpy.loadtxt()6 function see the API documentation.

#### Load CSV Files with Pandas

Você pode carregar seus dados CSV usando Pandas e a função pandas.read csv(). esta função
é muito
flexível e talvez seja minha abordagem recomendada para carregar seu aprendizado de máquina
dados. A função retorna um pandas.DataFrame7 que você pode começar a resumir imediatamente
e plotagem. O exemplo abaixo assume que o arquivo pima-indians-diabetes.data.csv é
no diretório de trabalho atual.

In [None]:
# Load CSV using Pandas
from pandas import read_csv
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
print(data.shape)

Observe que neste exemplo especificamos explicitamente os nomes de cada atributo para o DataFrame.
A execução do exemplo exibe a forma dos dados:

In [None]:
# Output of example loading a CSV file using Pandas.
print(data.shape)

Também podemos modificar este exemplo para carregar dados CSV diretamente de um URL.

In [None]:
# Load CSV using Pandas from URL
from pandas import read_csv
url = 'https://goo.gl/vhm1eU'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(url, names=names)
print(data.shape)

Again, running the example downloads the CSV file, parses it and displays the shape of the
loaded DataFrame.

In [None]:
# Output of example loading a CSV URL using Pandas.
print(data.shape)

To learn more about the pandas.read csv()8 function you can refer to the API documen-
tation.

In [None]:
%reload_ext watermark
%watermark -a "Caique Miranda" -gu "caiquemiranda" -iv

### End.