# Lendo arquivos CSV
Vamos praticar a leitura de arquivos csv com este conjunto de dados fictício com notas de alunos. Como você já viu algumas vezes, `read_csv()` é usado para carregar dados de arquivos csv em um dataframe do Pandas. Temos apenas que especificar o caminho do arquivo que contém nossos dados. Eu armazenei `student_scores.csv` no mesmo diretório que este notebook Jupyter, então temos apenas que fornecer o nome do arquivo.

Execute cada célula conforme você avança neste notebook Jupyter.

In [1]:
import pandas as pd

df = pd.read_csv('student_scores.csv')

`head()` é uma função útil que você pode chamar no seu dataframe para exibir as primeiras linhas. Vamos usá-la para ver como os dados estão organizados.

In [2]:
df.head()

Unnamed: 0,ID,Name,Attendance,HW,Test1,Project1,Test2,Project2,Final
0,27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0
1,30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0
2,39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
3,28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0
4,27492,Rick,0.32,0.85,98.0,100.0,73.0,82.0,88.0


Lembre-se, CSV é uma sigla que significa valores separados por vírgula (do inglês: *comma separated values*) - mas o separador utilizado pode ser diferente, como outros caracteres, espaços, tabulação, etc. Caso seu arquivo seja separado por dois pontos, por exemplo, você ainda pode usar `read_csv()` com o parâmetro `sep`.

In [3]:
df = pd.read_csv('student_scores.csv', sep=':')
df.head()

Unnamed: 0,"ID,Name,Attendance,HW,Test1,Project1,Test2,Project2,Final"
0,"27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0"
1,"30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0"
2,"39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0"
3,"28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0"
4,"27492,Rick,0.32,0.85,98.0,100.0,73.0,82.0,88.0"


Isso obviamente não funcionou porque nosso arquivo CSV está realmente separado por vírgulas. Como não há dois pontos no arquivo, nada foi separado e tudo foi lido como uma única coluna!

## Cabeçalhos
Outra coisa que você pode fazer com `read_csv` é especificar que linha do arquivo é o cabeçalho, que especifica os rótulos de cada coluna. Normalmente se usa a primeira linha para isso, mas pode ser que se queira escolher uma linha mais abaixo caso haja informações adicionais no topo do arquivo. Podemos fazer isso assim.

In [4]:
df = pd.read_csv('student_scores.csv', header=2)
df.head()

Unnamed: 0,30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0.1,91.0
0,39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
1,28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0
2,27492,Rick,0.32,0.85,98.0,100.0,73.0,82.0,88.0


Aqui, a linha 2 foi usada como o cabeçalho e tudo que estava nas linhas acima foi ignorado. Como padrão, `read_csv` usa header=0, que usa a primeira linha como cabeçalho das colunas.

Se rótulos de colunas não foram incluídos no seu arquivo, você pode usar `header=None` para previnir que sua primeira linhas de dados seja interpretada de forma incorreta como rótulos de colunas.

In [5]:
df = pd.read_csv('student_scores.csv', header=None)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,ID,Name,Attendance,HW,Test1,Project1,Test2,Project2,Final
1,27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0
2,30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0
3,39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
4,28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0


Você também pode especificar seus próprios rótulos de colunas assim.

In [6]:
labels = ['id', 'name', 'attendance', 'hw', 'test1', 'project1', 'test2', 'project2', 'final']
df = pd.read_csv('student_scores.csv', names=labels)
df.head()

Unnamed: 0,id,name,attendance,hw,test1,project1,test2,project2,final
0,ID,Name,Attendance,HW,Test1,Project1,Test2,Project2,Final
1,27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0
2,30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0
3,39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
4,28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0


Se você quiser dizer para o pandas que havia um cabeçalho que você está substituindo, você pode especificar a linha do cabeçalho substituído assim.

In [7]:
labels = ['id', 'name', 'attendance', 'hw', 'test1', 'project1', 'test2', 'project2', 'final']
df = pd.read_csv('student_scores.csv', header=0, names=labels)
df.head()

Unnamed: 0,id,name,attendance,hw,test1,project1,test2,project2,final
0,27604,Joe,0.96,0.97,87.0,98.0,92.0,93.0,95.0
1,30572,Alex,1.0,0.84,92.0,89.0,94.0,92.0,91.0
2,39203,Avery,0.84,0.74,68.0,70.0,84.0,90.0,82.0
3,28592,Kris,0.96,1.0,82.0,94.0,90.0,81.0,84.0
4,27492,Rick,0.32,0.85,98.0,100.0,73.0,82.0,88.0


## Índice
Ao invés de usar o índice padrão (inteiros incrementados de 1 a partir do 0), você pode especificar uma ou mais colunas para serem o índice do seu dataframe.

In [8]:
df = pd.read_csv('student_scores.csv', index_col='Name')
df.head()

Unnamed: 0_level_0,ID,Attendance,HW,Test1,Project1,Test2,Project2,Final
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Joe,27604,0.96,0.97,87.0,98.0,92.0,93.0,95.0
Alex,30572,1.0,0.84,92.0,89.0,94.0,92.0,91.0
Avery,39203,0.84,0.74,68.0,70.0,84.0,90.0,82.0
Kris,28592,0.96,1.0,82.0,94.0,90.0,81.0,84.0
Rick,27492,0.32,0.85,98.0,100.0,73.0,82.0,88.0


In [9]:
df = pd.read_csv('student_scores.csv', index_col=['Name', 'ID'])
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Attendance,HW,Test1,Project1,Test2,Project2,Final
Name,ID,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Joe,27604,0.96,0.97,87.0,98.0,92.0,93.0,95.0
Alex,30572,1.0,0.84,92.0,89.0,94.0,92.0,91.0
Avery,39203,0.84,0.74,68.0,70.0,84.0,90.0,82.0
Kris,28592,0.96,1.0,82.0,94.0,90.0,81.0,84.0
Rick,27492,0.32,0.85,98.0,100.0,73.0,82.0,88.0


Você pode fazer muito mais que isso simplesmente usando esta função, como separar datas, preencher valores nulos, pular linhas, etc. Muitas destas coisas podem ser feitas com diferentes passos após a chamada da função `read_csv()`. Vamos modificar nossos dados de outras formas, mas você sempre pode consultar como fazer alguns destes passos com esta função [aqui](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).

## Teste #1
Use `read_csv()` para ler o arquivo `cancer_data.csv` e use uma coluna adequada como índice. Então, use `.head()` no seu dataframe para verificar se você fez isto corretamente. *Dica: Primeiro execute `read_csv()` **sem parâmetros** e então `head()` para ver como os dados estão organizados inicialmente.*

In [12]:
df_cancer = pd.read_csv('cancer_data.csv', index_col=['id','radius_mean'])
df_cancer.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,diagnosis,texture_mean,perimeter_mean,area_mean,smoothness_mean,compactness_mean,concavity_mean,concave_points_mean,symmetry_mean,fractal_dimension_mean,...,radius_max,texture_max,perimeter_max,area_max,smoothness_max,compactness_max,concavity_max,concave_points_max,symmetry_max,fractal_dimension_max
id,radius_mean,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1
842302,17.99,M,,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
842517,20.57,M,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
84300903,19.69,M,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
84348301,11.42,M,20.38,77.58,386.1,,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,,0.8663,0.6869,0.2575,0.6638,0.173
84358402,20.29,M,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


## Teste #2
Use `read_csv()` para ler o arquivo `powerplant_data.csv` com nomes de colunas mais descritivos, baseados na descrição das características neste [website](http://archive.ics.uci.edu/ml/datasets/combined+cycle+power+plant). Então, use `.head()` no seu dataframe para verificar se você fez isto corretamente. *Dica: Como no teste anterior, primeiro execute `read_csv()` sem parâmetros e então `head()` para ver como os dados estão organizados inicialmente.*

In [15]:
df_powerplant = pd.read_csv('powerplant_data.csv')
df_powerplant.head()

Unnamed: 0,AT,V,AP,RH,PE
0,8.34,40.77,1010.84,90.01,480.48
1,23.64,58.49,1011.4,74.2,445.75
2,29.74,56.9,1007.15,41.91,438.76
3,19.07,49.69,1007.22,76.79,453.09
4,11.8,40.66,1017.13,97.2,464.43


# Gravando arquivos CSV
Legal! Agora vamos salvar seu segundo dataframe com dados da usina elétrica em um arquivo csv para a próxima seção.

In [16]:
df_powerplant.to_csv('powerplant_data_edited.csv')

Vamor ver se isso funcionou da forma que gostaríamos.

In [17]:
df = pd.read_csv('powerplant_data_edited.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,AT,V,AP,RH,PE
0,0,8.34,40.77,1010.84,90.01,480.48
1,1,23.64,58.49,1011.4,74.2,445.75
2,2,29.74,56.9,1007.15,41.91,438.76
3,3,19.07,49.69,1007.22,76.79,453.09
4,4,11.8,40.66,1017.13,97.2,464.43


O que é esse `Unnamed:0`? `to_csv()` armazenará nosso índice a não ser que digamos explicitamente que ele não deve fazer isso. Para fazê-lo ignorar o índice, nós temos que fornecer o parâmetro `index=False`

In [18]:
df_powerplant.to_csv('powerplant_data_edited.csv', index=False)

In [19]:
df = pd.read_csv('powerplant_data_edited.csv')
df.head()

Unnamed: 0,AT,V,AP,RH,PE
0,8.34,40.77,1010.84,90.01,480.48
1,23.64,58.49,1011.4,74.2,445.75
2,29.74,56.9,1007.15,41.91,438.76
3,19.07,49.69,1007.22,76.79,453.09
4,11.8,40.66,1017.13,97.2,464.43
