In [38]:
import pandas as pd


# 1 - TRABALHANDO COM ARQUIVOS CSV

## 1.1 - Leitura de Arquivo CSV

Arquivos CSV são padrões muito comuns quando transferimos ou exportamos dados de diferentes ferramentas, por seu formato de fácil leitura. Então é algo que vemos com frequência.

In [39]:
path_superstore_data = 'in/superstore_data.csv'
superstore_data = pd.read_csv(path_superstore_data)

superstore_data.head()


Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


## 1.2 - Parâmetros Adicionais na Leitura de CSV

### SEP

Podemos usar o parâmetro `sep=` para definir o separador dos dados, isso é útil quando o separador não segue o padrão **(que é ",")**.

In [40]:
path_superstore_data_ponto_virgula = 'in/superstore_data_ponto_virgula.csv'

superstore_data_ponto_virgula = pd.read_csv(path_superstore_data_ponto_virgula, sep=';')
superstore_data_ponto_virgula.head()


Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474.0,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474.0,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### NROWS

Quando temos um dataset muito grande e queremos analisar apenas uma parte dele podemos usar o parâmetro `nrows=`. Com ele definimos a quantidade de linhas que devem ser lidas.

In [41]:
primeiros_registros_superstore_data = pd.read_csv(path_superstore_data, nrows=5)
primeiros_registros_superstore_data


Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


### USECOLS

De forma semelhante podemos usar o `usecols=` para selecionar quais colunas queremos ler em um dataset. Sendo que para isso podemos usar os índices ou nomes das colunas.

In [42]:
selecao_por_nome = ['Id', 'Year_Birth', 'Income']
selecao_por_nome_superstore_data = pd.read_csv(path_superstore_data, usecols=selecao_por_nome)

selecao_por_nome_superstore_data


Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


In [43]:
selecao_por_posicao = [0, 1, 4] # Mesmo que as colunas Id, Year_Birth, Income
selecao_por_posicao_superstore_data = pd.read_csv(path_superstore_data, usecols=selecao_por_posicao)

selecao_por_posicao_superstore_data


Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0


## 1.3 - Escrevendo Arquivos CSV

Como é um formato muito utilizado é normal precisarmos salvar esse tipo de arquivo.

Sendo que é normal usarmos o `sep=` aqui também para mudar o separador, além disso se usarmos o `index=False` removemos o index, fazendo com que não seja salvo no arquivo (muitas vezes o recomendado).

In [44]:
path_out = 'out/clients_superstore.csv'
selecao_por_nome_superstore_data.to_csv(path_out, sep=';')


In [45]:
clients_superstore = pd.read_csv(path_out, sep=';')
clients_superstore


Unnamed: 0.1,Unnamed: 0,Id,Year_Birth,Income
0,0,1826,1970,84835.0
1,1,1,1961,57091.0
2,2,10476,1958,67267.0
3,3,1386,1967,32474.0
4,4,5371,1989,21474.0
...,...,...,...,...
2235,2235,10142,1976,66476.0
2236,2236,5263,1977,31056.0
2237,2237,22,1976,46310.0
2238,2238,528,1978,65819.0


In [46]:
selecao_por_nome_superstore_data.to_csv(path_out, sep=';', index=False)

pd.read_csv(path_out, sep=';')


Unnamed: 0,Id,Year_Birth,Income
0,1826,1970,84835.0
1,1,1961,57091.0
2,10476,1958,67267.0
3,1386,1967,32474.0
4,5371,1989,21474.0
...,...,...,...
2235,10142,1976,66476.0
2236,5263,1977,31056.0
2237,22,1976,46310.0
2238,528,1978,65819.0
