### Estudos Miranda: Como carregar dados de aprendizado de máquina

Você deve ser capaz de carregar seus dados antes de iniciar seu projeto de aprendizado de máquina. O formato mais comum para dados de aprendizado de máquina são os arquivos CSV. Existem várias maneiras de carregue um arquivo CSV em Python. Nesta lição, você aprenderá três maneiras que pode usar para carregar seus dados CSV em Python:

1. Carregue arquivos CSV com a biblioteca padrão do Python.
2. Carregue arquivos CSV com NumPy.
3. Carregar arquivos CSV com Pandas.

#### Considerações ao carregar dados CSV

Há uma série de considerações ao carregar seus dados de aprendizado de máquina de arquivos CSV. Para referência, você pode aprender muito sobre as expectativas para arquivos CSV revisando o CSV pedido de comentário intitulado Formato comum e tipo MIME para valores separados por vírgula (CSV) Arquivos.

##### Cabeçalho do arquivo

Seus dados têm um cabeçalho de arquivo? Nesse caso, isso pode ajudar a atribuir nomes automaticamente a cada coluna de dados. Caso contrário, pode ser necessário nomear seus atributos manualmente. De qualquer maneira, você deve especifique explicitamente se seu arquivo CSV tinha ou não um cabeçalho de arquivo ao carregar seus dados.

##### Comentários

Seus dados têm comentários? Os comentários em um arquivo CSV são indicados por um hash `(#)` na início de uma linha. Se você tiver comentários em seu arquivo, dependendo do método usado para carregar seu dados, você pode precisar indicar se deve ou não esperar comentários e o personagem a esperar para significar uma linha de comentário.

##### Delimitador

O delimitador padrão que separa valores em campos é a vírgula `(,)`. seu le poderia use um delimitador diferente como tabulação ou espaço em branco, caso em que você deve especificá-lo explicitamente.

##### Citações

Às vezes, os valores de campo podem ter espaços. Nesses arquivos CSV, os valores geralmente são citados. O o caractere de aspas padrão é o caractere de aspas duplas. Outros caracteres podem ser usados, e você deve especificar o caractere de aspas usado em seu arquivo.

#### Pima Indians Dataset

O conjunto de dados dos índios Pima é usado para demonstrar o carregamento de dados nesta lição. Também será usado em muitas das lições que virão. Este conjunto de dados descreve os registros médicos dos índios Pima e se cada paciente terá ou não um início de diabetes dentro de cinco anos. Como tal é um problema de classificação. É um bom conjunto de dados para demonstração porque todas as entradas os atributos são numéricos e a variável de saída a ser prevista é binária (0 ou 1). os dados são disponível gratuitamente no UCI Machine Learning Repository.

#### Carregar arquivos CSV com a biblioteca padrão do Python

A API Python fornece o módulo CSV e a função `reader()` que pode ser usada para carregar Arquivos CSV. Depois de carregado, você pode converter os dados CSV em um array NumPy e usá-lo para a máquina aprendizado. Por exemplo, você pode baixar o conjunto de dados dos índios Pima em seu diretório local com o nome de arquivo 'diabetes.csv'. Todos os campos neste conjunto de dados são numéricos e não há linha de cabeçalho.

In [2]:
# Load CSV Using Python Standard Library

import csv
import numpy

filename = 'datasets/diabetes.csv'
raw_data = open(filename, 'rb')

with open(filename, newline='') as raw_data:
    reader = csv.reader(raw_data,
                        delimiter=',')  
    
    x = list(reader)
    
    data = numpy.array(x).astype('float')
    
    print(data.shape)

(768, 9)


O exemplo carrega um objeto que pode iterar sobre cada linha dos dados e pode ser facilmente convertido em uma matriz NumPy. A execução do exemplo imprime a forma da matriz.

In [3]:
# Saída do exemplo de carregamento de um arquivo CSV usando a biblioteca padrão do Python.
print(data.shape)

(768, 9)


Para obter mais informações sobre a função `csv.reader()`, consulte Leitura e gravação de arquivos CSV em a documentação da API do Python.

#### Carregar arquivos CSV com NumPy

Você pode carregar seus dados CSV usando NumPy e a função `numpy.loadtxt()`. esta função não assume nenhuma linha de cabeçalho e todos os dados têm o mesmo formato. O exemplo abaixo assume que o arquivo diabetes.csv está em seu diretório de trabalho atual.

In [4]:
# Load CSV using NumPy

from numpy import loadtxt

filename = 'datasets/diabetes.csv'
raw_data = open(filename, 'rb')
data = loadtxt(raw_data,
               delimiter = ",")

print(data.shape)

(768, 9)


A execução do exemplo carregará o arquivo como `numpy.ndarray` e imprimirá a forma dos dados:

In [5]:
# Saída do exemplo carregando um arquivo CSV usando NumPy. 
print(data.shape)

(768, 9)


Este exemplo pode ser modificado para carregar o mesmo conjunto de dados diretamente de uma URL da seguinte forma:

In [6]:
# Load CSV from URL using NumPy

from urllib.request import urlopen

url = 'https://raw.githubusercontent.com/caiquemiranda/machine-learning-mastery/main/datasets/diabetes.csv'
raw_data = urlopen(url)

dataset = loadtxt(raw_data, 
                  delimiter = ",")

print(dataset.shape)

(768, 9)


Novamente, executar o exemplo produz a mesma forma resultante dos dados.

In [7]:
# Output of example loading a CSV URL using NumPy.
print(dataset.shape)

(768, 9)


Para obter mais informações sobre a função `numpy.loadtxt()`, consulte a documentação da API.

#### Carregar arquivos CSV com Pandas

Você pode carregar seus dados CSV usando Pandas e a função `pandas.read_csv()`. esta função é muito flexível e talvez seja minha abordagem recomendada para carregar seu aprendizado de máquina dados. A função retorna um pandas.DataFrame que você pode começar a resumir imediatamente e plotagem. O exemplo abaixo assume que o arquivo pima-indians-diabetes.data.csv é no diretório de trabalho atual.

In [8]:
# Load CSV using Pandas

from pandas import read_csv

filename = 'datasets/diabetes.csv'

names = ['preg', 'plas', 'pres', 
         'skin', 'test', 'mass', 
         'pedi', 'age', 'class']

data = read_csv(filename, 
                names = names)

print(data.shape)

(768, 9)


In [9]:
data.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


Observe que neste exemplo especificamos explicitamente os nomes de cada atributo para o DataFrame.
A execução do exemplo exibe a forma dos dados:

In [10]:
# Output of example loading a CSV file using Pandas.
print(data.shape)

(768, 9)


Também podemos modificar este exemplo para carregar dados CSV diretamente de um URL.

In [11]:
# Load CSV using Pandas from URL

from pandas import read_csv

url = 'https://raw.githubusercontent.com/caiquemiranda/machine-learning-mastery/main/datasets/diabetes.csv'

names = ['preg', 'plas', 'pres', 
         'skin', 'test', 'mass', 
         'pedi', 'age', 'class']

data = read_csv(url, names=names)

print(data.shape)

(768, 9)


Novamente, executar o exemplo baixa o arquivo CSV, analisa-o e exibe a forma do DataFrame carregado.

In [12]:
# Output of example loading a CSV URL using Pandas.
print(data.shape)

(768, 9)


Para saber mais sobre a função `pandas.read_csv()`, você pode consultar a documentação da API.

In [13]:
%reload_ext watermark
%watermark -gu "caiquemiranda" -iv

Github username: caiquemiranda

csv  : 1.0
numpy: 1.23.0



### End.