# Lidando com Arquivos CSV

Vamos começar a pré-processar banco de dados usando uma biblioteca do Python chamada **Pandas**. Com essa ferramenta, vamos poder organizar todos os dados que serão posteriormente usados para fazer treinamento em nossos algoritmos de aprendizagem de máquina.

Nesse arquivo, será possível aprender a lidar com dados armazenados em documentos com extensão **.csv**.

> "*Os arquivos Comma-separated values, também conhecido como CSV, são arquivos de texto de formato regulamentado pelo RFC 4180, que faz uma ordenação de bytes ou um formato de terminador de linha, separando valores com vírgulas. Ele comumente é usado em softwares offices, tais como o Microsoft Excel e o LibreOffice Calc.*"

### Começando com o Pandas

Vamos importar a biblioteca **Pandas** para trazer todos os recursos disponíveis nela ao nosso ambiente de trabalho.

In [2]:
# Importanto a biblioteca Pandas da linguagem de Programação Python 
import pandas as pd
# as pd é uma forma de abreviar o nome da biblioteca, de modo que não teremos que ficar digitando o nome 
# dela por extenso todas as vezes que as funções pertencentes a ela forem chamadas no código.

Passando para variável dataframe os dados do arquivo "**Endereco DataFrame.csv**".

In [3]:
# Abrindo um arquivo com extensão CSV
dataframe = pd.read_csv("Enderecos DataFrame.csv", encoding = "UTF-8", sep = ";")
# atribuimos a variável dataframe toda a base de dados endereçada no arquivo "Endereco DataFrame.csv"
# através da função "read_csv" da biblioteca "Pandas", cujo método "encoding" recebe o parâmetro "UTF-8"
# que é a codificação binária do arquivo, e o método "sep" recebe o parâmetro ";", que é como os dados
# foram separados em cada linha.

Mostrando **x** quantidade de dados de usuários armazenados em um dataframe.

In [4]:
dataframe.head(30)
# usamos o atributo "head" da biblioteca "Pandas" no objeto "dataframe" para ler os dados que
# ele armazena. O parâmetro indica a quantidade de linhas a ser visualizada, incluindo a linha "header",
# comumente chamada de cabeçalho.

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalidadeEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000
5,6,1399 Firestone Drive,,Bothell,79,98011,0xE6100000010CE0B4E50458DA47402F12A5F80C975EC0,FEBF8191-9804-44C8-877A-33FDE94F0075,2009-02-13 00:00:00.000
6,7,5672 Hale Dr.,,Bothell,79,98011,0xE6100000010C18E304C4ADE1474011A5C28A7C955EC0,0175A174-6C34-4D41-B3C1-4419CD6A0446,2009-12-11 00:00:00.000
7,8,6387 Scenic Avenue,,Bothell,79,98011,0xE6100000010C0029A5D93BDF4740E248962FD5975EC0,3715E813-4DCA-49E0-8F1C-31857D21F269,2008-12-17 00:00:00.000
8,9,8713 Yosemite Ct.,,Bothell,79,98011,0xE6100000010C6A80AD742DDC4740851574F7198C5EC0,268AF621-76D7-4C78-9441-144FD139821A,2012-05-30 00:00:00.000
9,10,250 Race Court,,Bothell,79,98011,0xE6100000010C219D64AE1FE4474040862564B7825EC0,0B6B739D-8EB6-4378-8D55-FE196AF34C04,2008-12-02 00:00:00.000


Verificando as linhas e as colunas contidas no dataframe.

In [5]:
dataframe.shape
# usamos o atributo "shape" do Python para verificar a quantidade de linhas e colunas do objeto.
# Em outras palavras, estamos vendo as dimensões de um vetor multidimensional

(1000, 9)

Repare que temos 9 campos de dados diferentes para um total de 1000 usuários cadastrados nesse banco de dados.

Para especificar onde começará o cabeçalho, repare o código abaixo. Quando o cabeçalho ou "**header**" começa em uma linha > 0, todos os dados posteriores são ignorados.

In [6]:
dataframe = pd.read_csv("Enderecos DataFrame.csv", encoding = "UTF-8", sep = ";", header = 0)
# na função "read_csv" da biblioteca "Pandas", o método "header" terá um atributo do tipo inteiro que 
# indicará onde será o começo da "header". No caso acima, estamos informado a "header" padrão, também 
# chamada de "default".

Observe que os dados continuam no mesmo formato:

In [7]:
dataframe.head(10)
# imprimindo na saída de dados os 10 primeiros usuários cadastrados no banco de dados, considerando a 
# header começando na linha 0.

Unnamed: 0,EnderecoID,EnderecoPrimario,EnderecoSecundario,Cidade,ProvinciaID,CodigoPostal,LocalidadeEspacial,GuiaDeLinha,DataModificada
0,1,1970 Napa Ct.,,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
1,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
2,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
3,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
4,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000
5,6,1399 Firestone Drive,,Bothell,79,98011,0xE6100000010CE0B4E50458DA47402F12A5F80C975EC0,FEBF8191-9804-44C8-877A-33FDE94F0075,2009-02-13 00:00:00.000
6,7,5672 Hale Dr.,,Bothell,79,98011,0xE6100000010C18E304C4ADE1474011A5C28A7C955EC0,0175A174-6C34-4D41-B3C1-4419CD6A0446,2009-12-11 00:00:00.000
7,8,6387 Scenic Avenue,,Bothell,79,98011,0xE6100000010C0029A5D93BDF4740E248962FD5975EC0,3715E813-4DCA-49E0-8F1C-31857D21F269,2008-12-17 00:00:00.000
8,9,8713 Yosemite Ct.,,Bothell,79,98011,0xE6100000010C6A80AD742DDC4740851574F7198C5EC0,268AF621-76D7-4C78-9441-144FD139821A,2012-05-30 00:00:00.000
9,10,250 Race Court,,Bothell,79,98011,0xE6100000010C219D64AE1FE4474040862564B7825EC0,0B6B739D-8EB6-4378-8D55-FE196AF34C04,2008-12-02 00:00:00.000


Veja que é possível informar que o dataframe possui um header que não está na linha 0.

In [8]:
dataframe = pd.read_csv("Enderecos DataFrame.csv", encoding = "UTF-8", sep = ";", header = 1)
# na função "read_csv" da biblioteca "Pandas", o método "header" recebe um atributo do tipo inteiro == 1,
# desse modo, o nosso cabeçalho estará na linha 1 e o conteúdo das linhas acima é descartado.

Observe a mudança no dataframe.

In [9]:
dataframe.head(10)
# imprimindo na saída de dados os 10 primeiros usuários cadastrados no banco de dados, considerando a 
# header começando na linha 1.

Unnamed: 0,1,1970 Napa Ct.,NULL,Bothell,79,98011,0xE6100000010CAE8BFC28BCE4474067A89189898A5EC0,9AADCB0D-36CF-483F-84D8-585C2D4EC6E9,2007-12-04 00:00:00.000
0,2,9833 Mt. Dias Blv.,,Bothell,79,98011,0xE6100000010CD6FA851AE6D74740BC262A0A03905EC0,32A54B9E-E034-4BFB-B573-A71CDE60D8C0,2008-11-30 00:00:00.000
1,3,7484 Roundtree Drive,,Bothell,79,98011,0xE6100000010C18E304C4ADE14740DA930C7893915EC0,4C506923-6D1B-452C-A07C-BAA6F5B142A4,2013-03-07 00:00:00.000
2,4,9539 Glenside Dr,,Bothell,79,98011,0xE6100000010C813A0D5F9FDE474011A5C28A7C955EC0,E5946C78-4BCC-477F-9FA1-CC09DE16A880,2009-02-03 00:00:00.000
3,5,1226 Shoe St.,,Bothell,79,98011,0xE6100000010C61C64D8ABBD94740C460EA3FD8855EC0,FBAFF937-4A97-4AF0-81FD-B849900E9BB0,2008-12-19 00:00:00.000
4,6,1399 Firestone Drive,,Bothell,79,98011,0xE6100000010CE0B4E50458DA47402F12A5F80C975EC0,FEBF8191-9804-44C8-877A-33FDE94F0075,2009-02-13 00:00:00.000
5,7,5672 Hale Dr.,,Bothell,79,98011,0xE6100000010C18E304C4ADE1474011A5C28A7C955EC0,0175A174-6C34-4D41-B3C1-4419CD6A0446,2009-12-11 00:00:00.000
6,8,6387 Scenic Avenue,,Bothell,79,98011,0xE6100000010C0029A5D93BDF4740E248962FD5975EC0,3715E813-4DCA-49E0-8F1C-31857D21F269,2008-12-17 00:00:00.000
7,9,8713 Yosemite Ct.,,Bothell,79,98011,0xE6100000010C6A80AD742DDC4740851574F7198C5EC0,268AF621-76D7-4C78-9441-144FD139821A,2012-05-30 00:00:00.000
8,10,250 Race Court,,Bothell,79,98011,0xE6100000010C219D64AE1FE4474040862564B7825EC0,0B6B739D-8EB6-4378-8D55-FE196AF34C04,2008-12-02 00:00:00.000
9,11,1318 Lasalle Street,,Bothell,79,98011,0xE6100000010CCEFFBBFD9FE9474057B9479C728E5EC0,981B3303-ACA2-49C7-9A96-FB670785B269,2013-02-28 00:00:00.000


Vamos retornar aos dados originais.

In [10]:
dataframe = pd.read_csv("Enderecos DataFrame.csv", encoding = "UTF-8", sep = ";", header = 0)
# usando a função "read_csv" da biblioteca "Pandas" para atribuir a variável ou objeto "dataframe" os dados
# padrões endereçados no arquivo "Enderecos DataFrame.csv"

Vamos agora delimitar a quantidade de colunas a serem usadas em um dataframe:

In [11]:
dataframe = pd.read_csv("Enderecos DataFrame.csv", encoding = "UTF-8", sep = ";", 
                        usecols = ["EnderecoID", "EnderecoPrimario"])
# Usando a função "read_csv" da biblioteca "Pandas" com todos os métodos explicados anteriormente, mas 
# agora foi feita a chamada do método "usecols", esse que recebe em seu parâmetro uma lista de string com
# os nomes equivalentes as colunas que queremos selecionar, essas que são os tipos de dados presentes no 
# arquivo "Enderecos DataFrame.csv".

Observe que agora só será mostrada na saída de dados as colunas selecionadas:

In [12]:
dataframe.head(10)
# Usando o atributo "head" da biblioteca "Pandas" para ler os dados da variável ou objeto "dataframe" 
# dos 10 primeiros usuários

Unnamed: 0,EnderecoID,EnderecoPrimario
0,1,1970 Napa Ct.
1,2,9833 Mt. Dias Blv.
2,3,7484 Roundtree Drive
3,4,9539 Glenside Dr
4,5,1226 Shoe St.
5,6,1399 Firestone Drive
6,7,5672 Hale Dr.
7,8,6387 Scenic Avenue
8,9,8713 Yosemite Ct.
9,10,250 Race Court


Veja que de fato as outras informaçãoes não estão mais contidas no dataframe após esse pré-processamento dos dados.

In [13]:
dataframe.shape
# Usando oatributo "shape" da biblioteca "Pandas" para visualizar as linhas e as colunas da variável ou
# objeto "dataframe".

(1000, 2)

De mesmo modo, podemos selecionar apenas uma determinada quantidade de linhas.

In [14]:
dataframe = pd.read_csv("Enderecos DataFrame.csv", encoding = "UTF-8", sep = ";", 
                       usecols = ["EnderecoID", "EnderecoPrimario"], nrows = 500)
# Usando a função "read_csv" da biblioteca "Pandas", com todos os métodos explicados anteriormentes, mas
# agora foi feita a chamada do método "nrows" com um atributo do tipo inteiro == 500. Com esse método, é 
# possível selecionar apenas uma determinada quantidade de linhas do dataframe a ser atribuido a variável
# ou objeto "dataframe". No exemplo acima, foi passado as 500 primeiras linhas do dataframe.

Veja agora as dimensões desse vetor multidimensional armazenado no objeto "dataframe".

In [15]:
dataframe.shape
# Usando o atributo "shape" do Python para verificar as dimensões do vetor multidimensional "dataframe".

(500, 2)

E dessa forma que podemos dar os passos iniciais com o pré-processamento de banco de dados armazenados em arquivos .csv.

### Alguma dúvida? Entre em contato comigo:

- [Me Envie um E-mail](mailto:alyssonmachado388@gmail.com);