# Pandas

Nessa aula, vamos ver o básico do Pandas, uma biblioteca poderosa para trabalhar com dados tabulares, como CSV.

Vamos ver:
* Importar Pandas
* Ler um CSV
* Explorar e filtrar dados
* Escrever um CSV

## Importar Pandas

In [1]:
import pandas as pd

Para ler um arquivo CSV, usaremos a função `pd.read_csv ()` e inseriremos o nome do caminho de arquivo desejado.

In [3]:
quotes_df = pd.read_csv('CSVs/quotes_aula_final.csv')

Isso cria um [objeto DataFrame](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#dataframe) Pandas - geralmente abreviado como * df *, por exemplo, *quotes_df*. Um DataFrame se parece e age muito como uma planilha. Mas tem poderes e funções especiais.

Ao ler o arquivo CSV, também especificamos a `encoding` e o` delimiter`. O `delimiter` especifica o caractere que separa ou "delimita" as colunas em nosso conjunto de dados. Para arquivos CSV, o delimitador geralmente será uma vírgula. (CSV é a abreviação de *Valores separados por vírgula*.) Às vezes, no entanto, o delimitador de um arquivo CSV pode ser uma tabulação (`\ t`) ou, mais raramente, outro caractere.

## Mostrar dados

Podemos exibir um DataFrame em um notebook Jupyter simplesmente executando uma célula com o nome da variável do DataFrame.

In [4]:
quotes_df

Unnamed: 0.1,Unnamed: 0,Autor,Texto,Tags
0,0,Albert Einstein,“The world as we have created it is a process ...,"change,deep-thoughts,thinking,world"
1,1,J.K. Rowling,"“It is our choices, Harry, that show what we t...","abilities,choices"
2,2,Albert Einstein,“There are only two ways to live your life. On...,"inspirational,life,live,miracle,miracles"
3,3,Jane Austen,"“The person, be it gentleman or lady, who has ...","aliteracy,books,classic,humor"
4,4,Marilyn Monroe,"“Imperfection is beauty, madness is genius and...","be-yourself,inspirational"
...,...,...,...,...
95,95,Harper Lee,“You never really understand a person until yo...,better-life-empathy
96,96,Madeleine L'Engle,“You have to write the book that wants to be w...,"books,children,difficult,grown-ups,write,write..."
97,97,Mark Twain,“Never tell the truth to people who are not wo...,truth
98,98,Dr. Seuss,"“A person's a person, no matter how small.”",inspirational


* Index
  * Os números crescentes na coluna da extrema esquerda do DataFrame são chamados de *Index*. Você pode selecionar linhas com base no índice.
  * Por padrão, o Index é uma sequência de números começando com zero. No entanto, você pode alterar o index para outra coisa, como uma das colunas em seu conjunto de dados. 

In [6]:
# index_col=0 -> coluna 0 é o index
quotes_df = pd.read_csv('CSVs/quotes_aula_final.csv' , sep=',', index_col=0) 

In [7]:
quotes_df

Unnamed: 0,Autor,Texto,Tags
0,Albert Einstein,“The world as we have created it is a process ...,"change,deep-thoughts,thinking,world"
1,J.K. Rowling,"“It is our choices, Harry, that show what we t...","abilities,choices"
2,Albert Einstein,“There are only two ways to live your life. On...,"inspirational,life,live,miracle,miracles"
3,Jane Austen,"“The person, be it gentleman or lady, who has ...","aliteracy,books,classic,humor"
4,Marilyn Monroe,"“Imperfection is beauty, madness is genius and...","be-yourself,inspirational"
...,...,...,...
95,Harper Lee,“You never really understand a person until yo...,better-life-empathy
96,Madeleine L'Engle,“You have to write the book that wants to be w...,"books,children,difficult,grown-ups,write,write..."
97,Mark Twain,“Never tell the truth to people who are not wo...,truth
98,Dr. Seuss,"“A person's a person, no matter how small.”",inspirational


### Exibir as primeiras *n* linhas

Para examinar as primeiras n linhas em um DataFrame, podemos usar um método chamado `.head()`. 

In [8]:
quotes_df.head()

Unnamed: 0,Autor,Texto,Tags
0,Albert Einstein,“The world as we have created it is a process ...,"change,deep-thoughts,thinking,world"
1,J.K. Rowling,"“It is our choices, Harry, that show what we t...","abilities,choices"
2,Albert Einstein,“There are only two ways to live your life. On...,"inspirational,life,live,miracle,miracles"
3,Jane Austen,"“The person, be it gentleman or lady, who has ...","aliteracy,books,classic,humor"
4,Marilyn Monroe,"“Imperfection is beauty, madness is genius and...","be-yourself,inspirational"


In [9]:
quotes_df.head(10)

Unnamed: 0,Autor,Texto,Tags
0,Albert Einstein,“The world as we have created it is a process ...,"change,deep-thoughts,thinking,world"
1,J.K. Rowling,"“It is our choices, Harry, that show what we t...","abilities,choices"
2,Albert Einstein,“There are only two ways to live your life. On...,"inspirational,life,live,miracle,miracles"
3,Jane Austen,"“The person, be it gentleman or lady, who has ...","aliteracy,books,classic,humor"
4,Marilyn Monroe,"“Imperfection is beauty, madness is genius and...","be-yourself,inspirational"
5,Albert Einstein,“Try not to become a man of success. Rather be...,"adulthood,success,value"
6,André Gide,“It is better to be hated for what you are tha...,"life,love"
7,Thomas A. Edison,"“I have not failed. I've just found 10,000 way...","edison,failure,inspirational,paraphrased"
8,Eleanor Roosevelt,“A woman is like a tea bag; you never know how...,misattributed-eleanor-roosevelt
9,Steve Martin,"“A day without sunshine is like, you know, nig...","humor,obvious,simile"


## Ver as últimas *n* linhas

In [10]:
quotes_df.tail()

Unnamed: 0,Autor,Texto,Tags
95,Harper Lee,“You never really understand a person until yo...,better-life-empathy
96,Madeleine L'Engle,“You have to write the book that wants to be w...,"books,children,difficult,grown-ups,write,write..."
97,Mark Twain,“Never tell the truth to people who are not wo...,truth
98,Dr. Seuss,"“A person's a person, no matter how small.”",inspirational
99,George R.R. Martin,“... a mind needs books as a sword needs a whe...,"books,mind"


Para obter informações importantes sobre todas as colunas no DataFrame, podemos usar `.info()`.

In [11]:
quotes_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100 entries, 0 to 99
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Autor   100 non-null    object
 1   Texto   100 non-null    object
 2   Tags    97 non-null     object
dtypes: object(3)
memory usage: 3.1+ KB


Este relatório nos dirá quantos valores não nulos ou não em branco estão em cada coluna, bem como qual *tipo* de dados está em cada coluna.

| **Pandas Data Type** |  **Explicação**                                                                                   |
|:-------------:|:---------------------------------------------------------------------------------------------------:|
| `object`         | string                                                                               |
| `float64`         | float                                               |
| `int64`       | integer                                                        |
| `datetime64`       |  date time              

In [12]:
quotes_df.shape

(100, 3)

## Analisar as colunas

In [13]:
quotes_df.columns

Index(['Autor', 'Texto', 'Tags'], dtype='object')

In [14]:
# tipo dos dados das colunas
quotes_df.dtypes

Autor    object
Texto    object
Tags     object
dtype: object

## Selecionar uma coluna

Para selecionar uma coluna do DataFrame, digitaremos o nome do DataFrame seguido por colchetes e um nome de coluna entre aspas.

In [15]:
quotes_df['Autor']

0        Albert Einstein
1           J.K. Rowling
2        Albert Einstein
3            Jane Austen
4         Marilyn Monroe
             ...        
95            Harper Lee
96     Madeleine L'Engle
97            Mark Twain
98             Dr. Seuss
99    George R.R. Martin
Name: Autor, Length: 100, dtype: object

Tecnicamente, uma única coluna em um DataFrame é um objeto [*Series*](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#dsintro).

In [16]:
type(quotes_df['Autor'])

pandas.core.series.Series

Um objeto Series é exibido de maneira diferente de um objeto DataFrame. Para selecionar uma coluna como DataFrame e não como objeto Series, usaremos dois colchetes.

In [17]:
quotes_df[['Autor']]

Unnamed: 0,Autor
0,Albert Einstein
1,J.K. Rowling
2,Albert Einstein
3,Jane Austen
4,Marilyn Monroe
...,...
95,Harper Lee
96,Madeleine L'Engle
97,Mark Twain
98,Dr. Seuss


In [18]:
type(quotes_df[['Autor']])

pandas.core.frame.DataFrame

Usando dois colchetes, também podemos selecionar várias colunas ao mesmo tempo.

In [19]:
quotes_df[['Autor','Tags']]

Unnamed: 0,Autor,Tags
0,Albert Einstein,"change,deep-thoughts,thinking,world"
1,J.K. Rowling,"abilities,choices"
2,Albert Einstein,"inspirational,life,live,miracle,miracles"
3,Jane Austen,"aliteracy,books,classic,humor"
4,Marilyn Monroe,"be-yourself,inspirational"
...,...,...
95,Harper Lee,better-life-empathy
96,Madeleine L'Engle,"books,children,difficult,grown-ups,write,write..."
97,Mark Twain,truth
98,Dr. Seuss,inspirational


E se colocarmos apenas um colchete?

In [20]:
quotes_df['Autor','Tags']


KeyError: ('Autor', 'Tags')

In [23]:
# renomear colunas
quotes_df.rename(columns={'Autor':'AUTOR', 'Tags':'TAGS'}, inplace=True)

In [24]:
quotes_df.head(2)

Unnamed: 0,AUTOR,Texto,TAGS
0,Albert Einstein,“The world as we have created it is a process ...,"change,deep-thoughts,thinking,world"
1,J.K. Rowling,"“It is our choices, Harry, that show what we t...","abilities,choices"


### Substituir strings nas linhas de uma coluna

In [25]:
quotes_df['TAGS'] = quotes_df['TAGS'].str.replace(',', ' - ')

In [26]:
quotes_df.head(2)

Unnamed: 0,AUTOR,Texto,TAGS
0,Albert Einstein,“The world as we have created it is a process ...,change - deep-thoughts - thinking - world
1,J.K. Rowling,"“It is our choices, Harry, that show what we t...",abilities - choices


## Contar valores

Para contar o número de valores *únicos* em uma coluna, podemos usar o método `.value_counts()`.

In [28]:
quotes_df['AUTOR'].value_counts()

Albert Einstein           10
J.K. Rowling               9
Marilyn Monroe             7
Dr. Seuss                  6
Mark Twain                 6
C.S. Lewis                 5
Jane Austen                5
Bob Marley                 3
Eleanor Roosevelt          2
Charles Bukowski           2
Suzanne Collins            2
George R.R. Martin         2
Ralph Waldo Emerson        2
Mother Teresa              2
Ernest Hemingway           2
J.D. Salinger              1
George Bernard Shaw        1
J.R.R. Tolkien             1
Alfred Tennyson            1
Terry Pratchett            1
John Lennon                1
George Carlin              1
W.C. Fields                1
Ayn Rand                   1
Jimi Hendrix               1
J.M. Barrie                1
E.E. Cummings              1
Khaled Hosseini            1
Harper Lee                 1
Helen Keller               1
Haruki Murakami            1
Stephenie Meyer            1
Garrison Keillor           1
Thomas A. Edison           1
Douglas Adams 

In [29]:
type(quotes_df['AUTOR'].value_counts())

pandas.core.series.Series

## Filtrar/Subconjunto de Dados

Podemos filtrar um DataFrame Pandas para selecionar apenas alguns valores. Filtrar dados por determinados valores é semelhante a selecionar colunas.

Digitamos o nome do DataFrame seguido por colchetes e então, em vez de inserir um nome de coluna, inserimos uma condição Verdadeiro/Falso. Por exemplo, para selecionar apenas linhas que contenham o valor "Albert Einstein", inserimos a condição `quotes_df ['Autor'] == 'Albert Einstein'`

In [32]:
quotes_df[quotes_df['AUTOR'] == 'Albert Einstein']

Unnamed: 0,AUTOR,Texto,TAGS


In [33]:
# filtrar coluna que contenha algum valor usando contains
quotes_df[quotes_df['TAGS'].str.contains('life')]

ValueError: Cannot mask with non-boolean array containing NA / NaN values

In [34]:
# if the value is NA, then replace it with the value of the column
quotes_df['TAGS'].fillna('SEM TAGS', inplace=True)

In [35]:
quotes_df[quotes_df['TAGS'].str.contains('life')]

Unnamed: 0,AUTOR,Texto,TAGS
2,Albert Einstein,“There are only two ways to live your life. On...,inspirational - life - live - miracle - miracles
6,André Gide,“It is better to be hated for what you are tha...,life - love
10,Marilyn Monroe,“This life is what you make it. No matter what...,friends - heartbreak - inspirational - life - ...
15,Douglas Adams,"“I may not have gone where I intended to go, b...",life - navigation
18,Mark Twain,"“Good friends, good books, and a sleepy consci...",books - contentment - friends - friendship - life
19,Allen Saunders,“Life is what happens to us while we are makin...,fate - life - misattributed-john-lennon - plan...
25,Dr. Seuss,"“Today you are You, that is truer than true. T...",comedy - life - yourself
44,Albert Einstein,“Life is like riding a bicycle. To keep your b...,life - simile
59,George Bernard Shaw,“Life isn't about finding yourself. Life is ab...,inspirational - life - yourself
67,Ralph Waldo Emerson,“Finish each day and be done with it. You have...,life - regrets


E se colocarmos apenas o que queremos filtrar?

In [38]:
quotes_df[quotes_df['AUTOR'] == 'Albert Einstein']

Unnamed: 0,AUTOR,Texto,TAGS
0,Albert Einstein,“The world as we have created it is a process ...,change - deep-thoughts - thinking - world
2,Albert Einstein,“There are only two ways to live your life. On...,inspirational - life - live - miracle - miracles
5,Albert Einstein,“Try not to become a man of success. Rather be...,adulthood - success - value
12,Albert Einstein,"“If you can't explain it to a six year old, yo...",simplicity - understand
26,Albert Einstein,"“If you want your children to be intelligent, ...",children - fairy-tales
28,Albert Einstein,“Logic will get you from A to Z; imagination w...,imagination
37,Albert Einstein,“Any fool can know. The point is to understand.”,knowledge - learning - understanding - wisdom
44,Albert Einstein,“Life is like riding a bicycle. To keep your b...,life - simile
53,Albert Einstein,"“If I were not a physicist, I would probably b...",music
80,Albert Einstein,“Anyone who has never made a mistake has never...,mistakes


In [37]:
quotes_df['AUTOR'] == 'Albert Einstein'

0      True
1     False
2      True
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Name: AUTOR, Length: 100, dtype: bool

Filtrar DataFrames às vezes pode ser confuso e difícil de manejar (à medida que as condições dentro das condições se acumulam). Pode ser útil criar uma variável separada para um filtro, como a seguir.

In [39]:
einstein_filter = quotes_df['AUTOR'] == 'Albert Einstein'
monroe_fiilter = quotes_df['AUTOR'] == 'Marilyn Monroe'

In [41]:
quotes_df[monroe_fiilter]

Unnamed: 0,AUTOR,Texto,TAGS
4,Marilyn Monroe,"“Imperfection is beauty, madness is genius and...",be-yourself - inspirational
10,Marilyn Monroe,“This life is what you make it. No matter what...,friends - heartbreak - inspirational - life - ...
42,Marilyn Monroe,“You believe lies so you eventually learn to t...,SEM TAGS
43,Marilyn Monroe,"“If you can make a woman laugh, you can make h...",girls - love
45,Marilyn Monroe,“The real lover is the man who can thrill you ...,love
46,Marilyn Monroe,"“A wise girl kisses but doesn't love, listens ...",attributed-no-source
52,Marilyn Monroe,"“I am good, but not an angel. I do sin, but I ...",attributed-no-source


In [42]:
einstein_df = quotes_df[einstein_filter]
monroe_df = quotes_df[monroe_fiilter]

## Salvar como CSV

In [47]:
einstein_df.to_csv("CSVs/einstein.csv", encoding='utf-8', index=True)
monroe_df.to_csv("CSVs/monroe.csv", encoding='utf-8', index=False)