# Lendo arquivos CSV
Vamos praticar a leitura de arquivos csv com este conjunto de dados fictício com notas de alunos. Como você já viu algumas vezes, `read_csv()` é usado para carregar dados de arquivos csv em um dataframe do Pandas. Temos apenas que especificar o caminho do arquivo que contém nossos dados. Eu armazenei `student_scores.csv` no mesmo diretório que este notebook Jupyter, então temos apenas que fornecer o nome do arquivo.

Execute cada célula conforme você avança neste notebook Jupyter.

In [None]:
import pandas as pd

df = pd.read_csv('student_scores.csv')

`head()` é uma função útil que você pode chamar no seu dataframe para exibir as primeiras linhas. Vamos usá-la para ver como os dados estão organizados.

In [None]:
df.head()

Lembre-se, CSV é uma sigla que significa valores separados por vírgula (do inglês: *comma separated values*) - mas o separador utilizado pode ser diferente, como outros caracteres, espaços, tabulação, etc. Caso seu arquivo seja separado por dois pontos, por exemplo, você ainda pode usar `read_csv()` com o parâmetro `sep`.

In [None]:
df = pd.read_csv('student_scores.csv', sep=':')
df.head()

Isso obviamente não funcionou porque nosso arquivo CSV está realmente separado por vírgulas. Como não há dois pontos no arquivo, nada foi separado e tudo foi lido como uma única coluna!

## Cabeçalhos
Outra coisa que você pode fazer com `read_csv` é especificar que linha do arquivo é o cabeçalho, que especifica os rótulos de cada coluna. Normalmente se usa a primeira linha para isso, mas pode ser que se queira escolher uma linha mais abaixo caso haja informações adicionais no topo do arquivo. Podemos fazer isso assim.

In [None]:
df = pd.read_csv('student_scores.csv', header=2)
df.head()

Aqui, a linha 2 foi usada como o cabeçalho e tudo que estava nas linhas acima foi ignorado. Como padrão, `read_csv` usa header=0, que usa a primeira linha como cabeçalho das colunas.

Se rótulos de colunas não foram incluídos no seu arquivo, você pode usar `header=None` para previnir que sua primeira linhas de dados seja interpretada de forma incorreta como rótulos de colunas.

In [None]:
df = pd.read_csv('student_scores.csv', header=None)
df.head()

Você também pode especificar seus próprios rótulos de colunas assim.

In [None]:
labels = ['id', 'name', 'attendance', 'hw', 'test1', 'project1', 'test2', 'project2', 'final']
df = pd.read_csv('student_scores.csv', names=labels)
df.head()

Se você quiser dizer para o pandas que havia um cabeçalho que você está substituindo, você pode especificar a linha do cabeçalho substituído assim.

In [None]:
labels = ['id', 'name', 'attendance', 'hw', 'test1', 'project1', 'test2', 'project2', 'final']
df = pd.read_csv('student_scores.csv', header=0, names=labels)
df.head()

## Índice
Ao invés de usar o índice padrão (inteiros incrementados de 1 a partir do 0), você pode especificar uma ou mais colunas para serem o índice do seu dataframe.

In [None]:
df = pd.read_csv('student_scores.csv', index_col='Name')
df.head()

In [None]:
df = pd.read_csv('student_scores.csv', index_col=['Name', 'ID'])
df.head()

Você pode fazer muito mais que isso simplesmente usando esta função, como separar datas, preencher valores nulos, pular linhas, etc. Muitas destas coisas podem ser feitas com diferentes passos após a chamada da função `read_csv()`. Vamos modificar nossos dados de outras formas, mas você sempre pode consultar como fazer alguns destes passos com esta função [aqui](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).

## Teste #1
Use `read_csv()` para ler o arquivo `cancer_data.csv` e use uma coluna adequada como índice. Então, use `.head()` no seu dataframe para verificar se você fez isto corretamente. *Dica: Primeiro execute `read_csv()` **sem parâmetros** e então `head()` para ver como os dados estão organizados inicialmente.*

In [None]:
df_cancer =

## Teste #2
Use `read_csv()` para ler o arquivo `powerplant_data.csv` com nomes de colunas mais descritivos, baseados na descrição das características neste [website](http://archive.ics.uci.edu/ml/datasets/combined+cycle+power+plant). Então, use `.head()` no seu dataframe para verificar se você fez isto corretamente. *Dica: Como no teste anterior, primeiro execute `read_csv()` sem parâmetros e então `head()` para ver como os dados estão organizados inicialmente.*

In [None]:
df_powerplant =

# Gravando arquivos CSV
Legal! Agora vamos salvar seu segundo dataframe com dados da usina elétrica em um arquivo csv para a próxima seção.

In [None]:
df_powerplant.to_csv('powerplant_data_edited.csv')

Vamor ver se isso funcionou da forma que gostaríamos.

In [None]:
df = pd.read_csv('powerplant_data_edited.csv')
df.head()

O que é esse `Unnamed:0`? `to_csv()` armazenará nosso índice a não ser que digamos explicitamente que ele não deve fazer isso. Para fazê-lo ignorar o índice, nós temos que fornecer o parâmetro `index=False`

In [None]:
df_powerplant.to_csv('powerplant_data_edited.csv', index=False)

In [None]:
df = pd.read_csv('powerplant_data_edited.csv')
df.head()