# Lidando com Arquivos CSV

Vamos começar a pré-processar dados usando uma biblioteca do Python chamada **Pandas**. Com essa ferramenta, vamos poder organizar todos os dados que serão posteriormente utilizados para fazer treinamento nos algoritmos de aprendizagem de máquina.

Nesse arquivo, será possível aprender a lidar com dados armazenados em documentos com extensão **.csv**.

> "*Os arquivos Comma-separated values, também conhecido como CSV, são arquivos de texto de formato regulamentado pelo RFC 4180, que faz uma ordenação de bytes ou um formato de terminador de linha, separando valores com vírgulas. Ele comumente é usado em softwares offices, tais como o Microsoft Excel e o LibreOffice Calc.*"

### Começando com o Pandas

Vamos importar a biblioteca **Pandas** para trazer todos os recursos disponíveis nela ao nosso ambiente de trabalho.

In [1]:
# importando o pacote pandas 
import pandas as pd

Passando para variável dataframe os dados do arquivo "**Endereco.csv**".

In [2]:
# Abrindo um arquivo com extensão csv
dataframe = pd.read_csv("Enderecos.csv", encoding = "UTF-8", sep = ";")

Mostrando **x** quantidade de dados de usuários armazenados em um dataframe.

In [3]:
# visulizando os 10 primeiros exemplos treinaveis 
dataframe.head(10)

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalidadeEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000
5,6,1399 Firestone Drive,,Bothell,79,98011,0xE6100000010CE0B4E50458DA47402F12A5F80C975EC0,FEBF8191-9804-44C8-877A-33FDE94F0075,2009-02-13 00:00:00.000
6,7,5672 Hale Dr.,,Bothell,79,98011,0xE6100000010C18E304C4ADE1474011A5C28A7C955EC0,0175A174-6C34-4D41-B3C1-4419CD6A0446,2009-12-11 00:00:00.000
7,8,6387 Scenic Avenue,,Bothell,79,98011,0xE6100000010C0029A5D93BDF4740E248962FD5975EC0,3715E813-4DCA-49E0-8F1C-31857D21F269,2008-12-17 00:00:00.000
8,9,8713 Yosemite Ct.,,Bothell,79,98011,0xE6100000010C6A80AD742DDC4740851574F7198C5EC0,268AF621-76D7-4C78-9441-144FD139821A,2012-05-30 00:00:00.000
9,10,250 Race Court,,Bothell,79,98011,0xE6100000010C219D64AE1FE4474040862564B7825EC0,0B6B739D-8EB6-4378-8D55-FE196AF34C04,2008-12-02 00:00:00.000


Verificando as linhas e as colunas contidas no dataframe.

In [4]:
# dimensao do dataset
dataframe.shape

(1000, 9)

Repare que temos 9 campos de dados diferentes para um total de 1000 usuários cadastrados nesse banco de dados.

Para especificar onde começará o cabeçalho, repare o código abaixo. Quando o cabeçalho ou "**header**" começa em uma linha > 0, todos os dados posteriores são ignorados.

In [5]:
# especificando o cabecalho do dataset
dataframe = pd.read_csv("Enderecos.csv", encoding = "UTF-8", sep = ";", header = 0)

Observe que os dados continuam no mesmo formato:

In [6]:
# visualizando os 5 primeiros exemplos treinaveis
dataframe.head(5)

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalidadeEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000


Veja que é possível informar que o dataframe possui um header que não está na linha 0.

In [7]:
# especificando o cabecalho do dataset (incorreto)
dataframe = pd.read_csv("Enderecos.csv", encoding = "UTF-8", sep = ";", header = 1)

Observe a mudança no dataframe.

In [8]:
# visualizando os 5 primeiros exemplos treinaveis
dataframe.head(5)

Unnamed: 0,1,1970 Napa Ct.,NULL,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
0,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
1,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
2,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
3,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000
4,6,1399 Firestone Drive,,Bothell,79,98011,0xE6100000010CE0B4E50458DA47402F12A5F80C975EC0,FEBF8191-9804-44C8-877A-33FDE94F0075,2009-02-13 00:00:00.000


Vamos retornar aos dados originais.

In [9]:
# especificando o cabecalho do dataset
dataframe = pd.read_csv("Enderecos.csv", encoding = "UTF-8", sep = ";", header = 0)

Vamos agora delimitar a quantidade de colunas a serem usadas em um dataframe:

In [10]:
# selecionando colunas especificas do dataset
dataframe = pd.read_csv("Enderecos.csv", encoding = "UTF-8", sep = ";", 
                        usecols = ["EnderecoID", "EnderecoPrimario"])

Observe que agora só será mostrada na saída de dados as colunas selecionadas:

In [11]:
# visualizando os 5 primeiros exemplos treinaveis
dataframe.head(5)

Unnamed: 0,EnderecoID,EnderecoPrimario
0,1,1970 Napa Ct.
1,2,9833 Mt. Dias Blv.
2,3,7484 Roundtree Drive
3,4,9539 Glenside Dr
4,5,1226 Shoe St.


Veja que de fato as outras informaçãoes não estão mais contidas no dataframe após esse pré-processamento dos dados.

In [12]:
# dimensao do dataset
dataframe.shape

(1000, 2)

De mesmo modo, podemos selecionar apenas uma determinada quantidade de linhas.

In [13]:
# selecionando apenas os 500 primeiros exemplos treinaveis
dataframe = pd.read_csv("Enderecos.csv", encoding = "UTF-8", sep = ";", 
                       usecols = ["EnderecoID", "EnderecoPrimario"], nrows = 500)

Veja agora as dimensões desse vetor multidimensional armazenado no objeto "dataframe".

In [14]:
# dimensao do dataset 
dataframe.shape

(500, 2)

E dessa forma que podemos dar os passos iniciais com o pré-processamento de banco de dados armazenados em arquivos .csv.

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br)