# Pandas

Nessa aula, vamos ver o básico do Pandas, uma biblioteca poderosa para trabalhar com dados tabulares, como CSV.

Vamos ver:
* Importar Pandas
* Ler um CSV
* Explorar e filtrar dados
* Escrever um CSV

## Importar Pandas

In [75]:
import pandas as pd

Para ler um arquivo CSV, usaremos a função `pd.read_csv ()` e inseriremos o nome do caminho de arquivo desejado.

In [76]:
quotes_df = pd.read_csv('CSV/quotes_aula_final.csv')

Isso cria um [objeto DataFrame](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#dataframe) Pandas - geralmente abreviado como * df *, por exemplo, *quotes_df*. Um DataFrame se parece e age muito como uma planilha. Mas tem poderes e funções especiais.

Ao ler o arquivo CSV, também especificamos a `encoding` e o` delimiter`. O `delimiter` especifica o caractere que separa ou "delimita" as colunas em nosso conjunto de dados. Para arquivos CSV, o delimitador geralmente será uma vírgula. (CSV é a abreviação de *Valores separados por vírgula*.) Às vezes, no entanto, o delimitador de um arquivo CSV pode ser uma tabulação (`\ t`) ou, mais raramente, outro caractere.

## Mostrar dados

Podemos exibir um DataFrame em um notebook Jupyter simplesmente executando uma célula com o nome da variável do DataFrame.

In [None]:
quotes_df

* Index
  * Os números crescentes na coluna da extrema esquerda do DataFrame são chamados de *Index*. Você pode selecionar linhas com base no índice.
  * Por padrão, o Index é uma sequência de números começando com zero. No entanto, você pode alterar o index para outra coisa, como uma das colunas em seu conjunto de dados. 

In [None]:
# index_col=0 -> coluna 0 é o index
quotes_df = pd.read_csv('quotes_aula_final.csv' , sep=',', index_col=0) 

In [None]:
quotes_df

### Exibir as primeiras *n* linhas

Para examinar as primeiras n linhas em um DataFrame, podemos usar um método chamado `.head()`. 

In [None]:
quotes_df.head()

In [None]:
quotes_df.head(10)

## Ver as últimas *n* linhas

In [None]:
quotes_df.tail()

Para obter informações importantes sobre todas as colunas no DataFrame, podemos usar `.info()`.

In [None]:
quotes_df.info()

Este relatório nos dirá quantos valores não nulos ou não em branco estão em cada coluna, bem como qual *tipo* de dados está em cada coluna.

| **Pandas Data Type** |  **Explicação**                                                                                   |
|:-------------:|:---------------------------------------------------------------------------------------------------:|
| `object`         | string                                                                               |
| `float64`         | float                                               |
| `int64`       | integer                                                        |
| `datetime64`       |  date time              

In [None]:
quotes_df.shape

## Analisar as colunas

In [None]:
quotes_df.columns

In [None]:
# tipo dos dados das colunas
quotes_df.dtypes

## Selecionar uma coluna

Para selecionar uma coluna do DataFrame, digitaremos o nome do DataFrame seguido por colchetes e um nome de coluna entre aspas.

In [None]:
quotes_df['Autor']

Tecnicamente, uma única coluna em um DataFrame é um objeto [*Series*](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#dsintro).

In [None]:
type(quotes_df['Autor'])

Um objeto Series é exibido de maneira diferente de um objeto DataFrame. Para selecionar uma coluna como DataFrame e não como objeto Series, usaremos dois colchetes.

In [None]:
quotes_df[['Autor']]

In [None]:
type(quotes_df[['Autor']])

Usando dois colchetes, também podemos selecionar várias colunas ao mesmo tempo.

In [None]:
quotes_df[['Autor','Tags']]

E se colocarmos apenas um colchete?

In [None]:
quotes_df['Autor','Tags']


In [None]:
# renomear colunas
quotes_df.rename(columns={'Autor':'AUTOR', 'Tags':'TAGS'}, inplace=True)

In [None]:
quotes_df.head(2)

### Substituir strings nas linhas de uma coluna

In [None]:
quotes_df['Tags'] = quotes_df['Tags'].str.replace(',', ' - ')

In [None]:
quotes_df.head(2)

## Contar valores

Para contar o número de valores *únicos* em uma coluna, podemos usar o método `.value_counts ()`.

In [None]:
quotes_df['Autor'].value_counts()

## Filtrar/Subconjunto de Dados

Podemos filtrar um DataFrame Pandas para selecionar apenas alguns valores. Filtrar dados por determinados valores é semelhante a selecionar colunas.

Digitamos o nome do DataFrame seguido por colchetes e então, em vez de inserir um nome de coluna, inserimos uma condição Verdadeiro/Falso. Por exemplo, para selecionar apenas linhas que contenham o valor "Albert Einstein", inserimos a condição `quotes_df ['Autor'] == 'Albert Einstein'`

In [None]:
quotes_df[quotes_df['Autor'] == 'Albert Einstein']

In [None]:
# filtrar coluna que contenha algum valor usando contains
quotes_df[quotes_df['Tags'].str.contains('life')]

In [None]:
# if the value is NA, then replace it with the value of the column
quotes_df['Tags'].fillna('NA', inplace=True)

In [None]:
quotes_df[quotes_df['Tags'].str.contains('life')]

E se colocarmos apenas o que queremos filtrar?

In [None]:
quotes_df['Autor'] == 'Albert Einstein'

Filtrar DataFrames às vezes pode ser confuso e difícil de manejar (à medida que as condições dentro das condições se acumulam). Pode ser útil criar uma variável separada para um filtro, como a seguir.

In [None]:
einstein_filter = quotes_df['Autor'] == 'Albert Einstein'

In [None]:
quotes_df[einstein_filter]

In [None]:
einstein_df = quotes_df[einstein_filter]

## Salvar como CSV

In [None]:
einstein_df.to_csv("einstein.csv", encoding='utf-8', index=False)