# Pandas

`Pandas` é uma biblioteca gratuita e *open-source* para trabalhar com dados em Python, primeiramente desenvolvida por [Wes McKinney](https://en.wikipedia.org/wiki/Wes_McKinney). Esta biblioteca oferece estruturas de dados e operações para manipulação de tabelas numéricas e séries temporais. Seu nome vem de **pan**el **da**ta (painel de dados).

É bastante utilizado para **análise de dados** e sua manipulação associada de dados tabulares com **DataFrame** (quadro de dados). O `Pandas` permite a importação de variados tipos de dados como `csv`, `json`, `sql`, `excel`, etc.

Para instalá-la, basta digitar no terminal o seguinte comando:

`pip install pandas`

Se você estiver usando o ambiente `conda`, poderá instalar com o comando:

`conta install pandas`

Os principais links para conhecer mais sobre o Pandas:
* [Seu site oficial](https://pandas.pydata.org/).
* Iniciando: [instruções para instalação](https://pandas.pydata.org/getting_started.html) e [primeiras informações](https://pandas.pydata.org/docs/getting_started/index.html).
* [Tutoriais iniciais](https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html).
* [Guia do usuário](https://pandas.pydata.org/docs/user_guide/index.html).
* [API Reference](https://pandas.pydata.org/docs/reference/index.html).

---

## Com que tipo de dados o Pandas lida?[^1]

[^1]: Traduzido e adaptado de [What kind of data does pandas handle?](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html#min-tut-01-tableoriented)

Como já foi dito anteriormente, o `Pandas` lida bastante com dados tabulares, ou tabelas de dados:

![pandas data table representation](01_table_dataframe.svg)

Uma tabela de dados é armazenada em um `DataFrame`, o qual consiste em uma estrutura de dados com duas dimensões que pode armazenar diferentes tipos de dados (incluindo caracteres, inteiros, números reais, valores categóricos, etc.) em colunas. Ao mesmo tempo, cada linha significa uma `instância`, ou observação diferente de algum objeto.

Vejamos um rápido exemplo em código para melhor entendimento.

In [1]:
# pd é o 'apelido' (alias) padrão do Pandas adotado pela comunidade
import pandas as pd

df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnel, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

df

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22,male
1,"Allen, Mr. William Henry",35,male
2,"Bonnel, Miss. Elizabeth",58,female


O `DataFrame` criado é uma tabela com 3 linhas e 3 colunas. As colunas possuem nomes (ou rótulos) e armazenam diferentes tipos de dados. A coluna **Name** armazena valores textuais, enquanto que a coluna **Age** armazena valores inteiros, e a última coluna, **Sex**, armazena valores categóricos no formato textual.

A seleção de uma única coluna de um `DataFrame` retorna um objeto do tipo `Series`:

![each column in a DataFrame is a Series](01_table_series.svg)

In [2]:
coluna_age = df["Age"]
print(type(coluna_age))

coluna_age

<class 'pandas.core.series.Series'>


0    22
1    35
2    58
Name: Age, dtype: int64

É possível verificar encontrar algumas informações sobre os dados, utilizando métodos `built in`.

In [3]:
df["Age"].max()

58

In [5]:
df["Sex"].head(2)

0    male
1    male
Name: Sex, dtype: object

In [7]:
df.at[1, "Age"]

35

In [4]:
df.describe()

Unnamed: 0,Age
count,3.0
mean,38.333333
std,18.230012
min,22.0
25%,28.5
50%,35.0
75%,46.5
max,58.0


O método `describe` provê uma visualização rápida dos dados numéricos presentes em um `DataFrame`.

---

## Como ler e escrever dados tabulares[^2]

[^2]: Traduzido e adaptado de [How do I read and write tabular data?](https://pandas.pydata.org/docs/getting_started/intro_tutorials/02_read_write.html)

![How do I read and write tabular data?](02_io_readwrite.svg)

Vamos abrir o seguinte [link](https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv). Trata-se de um conjunto ou base de dados bruto (*raw data*) no formato `csv`, cujo nome é Titanic.

O treinamento em ***Data Science*** e/ou ***Machine Learning*** é feito com dados brutos encontrados em variados repositórios. Normalmente, cada conjunto de dados possui algumas informações, como quais são os atributos (colunas) presentes e o que cada um representa, o tipo mais comum de atividade para aquele conjunto de dados (classificação, regressão, etc.), seu histórico, quais trabalhos científicos de impacto utilizaram aquela base, e quaisquer outras informações que o dono dos dados tenha fornecido.

Os dados que estamos vendo fazem parte de uma base (ou conjunto) chamada Titanic. Na página de tutoriais do `Pandas` que serviu de base para essa seção são fornecidas as seguintes informações sobre as colunas:

* PassengerId: id de cada passageiro.
* Survived: indicação se o passageiro sobreviveu. 0 para sim e 1 para não.
* Pclass: uma de três classes de passagem: classe 1, 2 e 3.
* Name: nome do passageiro.
* Sex: gênero do passageiro.
* Age: idade do passageiro em anos.
* SibSp: número de irmãos ou cônjuges a bordo.
* Parch: número de pais ou filhos a bordo.
* Ticket: número da passagem do passageiro.
* Fare: indicando a tarifa.
* Cabin: número da cabine do passageiro.
* Embarked: porta de embarque.

Antes de continuarmos, a seguir uma lista de repositórios (posts sobre esses links e algumas das bases: [aqui](https://pub.towardsai.net/best-datasets-for-machine-learning-data-science-computer-vision-nlp-ai-c9541058cf4f) e [aqui](https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b)):

* [Google Dataset Search](https://datasetsearch.research.google.com/).
* [Kaggle](https://www.kaggle.com/).
* [UCI](https://archive.ics.uci.edu/ml/index.php), ou sua [versão beta](https://archive-beta.ics.uci.edu/) de nova interface gráfica.
* [VisualData](https://visualdata.io/discovery).
* [CMU Libraries](https://guides.library.cmu.edu/machine-learning/datasets).
* [The Big Bad NLP Database](https://index.quantumstat.com/).
* [Open Data AWS](https://registry.opendata.aws/).
* [Microsoft Research Open Data](https://msropendata.com/).
* [Awesome Public Datasets](https://github.com/awesomedata/awesome-public-datasets).
* [Data Europa](https://data.europa.eu/en).
* [Data Gov Estados Unidos](https://data.gov/).
* [Data Gov Nova Zelândia](https://catalogue.data.govt.nz/dataset).
* [Data Gov India](https://data.gov.in/).
* [Data Gov Irlanda do Norte](https://www.opendatani.gov.uk/).

Voltando à base de dados Titanic. Vamos ler e carregar os dados:

In [1]:
import pandas as pd

titanic = pd.read_csv("titanic.csv")

titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [10]:
# Para ver as primeiras N linhas
n = 8
titanic.head(n)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


In [11]:
# Para ver as n últimas linhas
titanic.tail(n)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [12]:
# Vamos descobrir o tipo de dado de cada coluna
titanic.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Note que foi escrito `titanic.dtypes` em vez de `titanic.dtypes()`. Isto se deve ao fato de `dtypes` ser um atributo do `DataFrame`, e não um método.

In [15]:
# Para armazenar os dados em algum formato, basta utilizar algum método to_*
titanic.to_excel("titanic.xlsx", sheet_name="passageiros", index=False)

O parâmetro `index=False` faz com que os rótulos de índice das linhas não sejam salvos na planilha.

In [16]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


O método `info()` retorna um conjunto de informações técnicas sobre o `DataFrame`. Observe que o total de linhas é 891, ou seja, a quantidade de observações (neste caso, passageiros) é 891. Porém, as colunas **Age** e **Cabin** não possuem 891 valores. Esses valores que faltam são conhecidos como `missing values`.

---

## Como selecionar um subconjunto de um `DataFrame`?[^3]

[^3]: Traduzido e adaptado de [How do I select a subset of a DataFrame?](https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html)

<br>

### Selecionando colunas específicas de um `DataFrame`

![subset column](03_subset_columns.svg)

Para selecionar uma coluna, basta usar os colchetes `[]` com o nome da coluna desejada.

In [2]:
ages = titanic["Age"]
ages.head()

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

Cada coluna em um `DataFrame` é um objeto `Series`. Como uma úncia coluna foi selecionada, o objeto retornado é um `Series` do Pandas.

In [3]:
type(titanic["Age"])

pandas.core.series.Series

In [4]:
type(ages)

pandas.core.series.Series

Para verificarmos o *formato* dos dados, podemos chamar o atributo `shape`.

In [5]:
titanic["Age"].shape

(891,)

Lembrando que atributos são chamados sem os parênteses `()`. Além disso, é importante ressaltar que um `Series` é um objeto unidimensional, por isso apenas a quantidade de linhas é retornada.

E se eu quiser ver duas colunas? Para isso precisamos passar entre os colchetes uma lista contendo os nomes das colunas. Uma lista, em `Python` também possui a notação de envolver seus elementos entre colchetes.

In [6]:
age_and_sex = titanic[["Age", "Sex"]]

age_and_sex.head()

Unnamed: 0,Age,Sex
0,22.0,male
1,38.0,female
2,26.0,female
3,35.0,female
4,35.0,male


Agora que selecionamos mais de uma coluna, o retorno deixou de ser `Series`, e passa a ser `DataFrame`.

In [7]:
type(age_and_sex)

pandas.core.frame.DataFrame

### Filtrando linhas específicas de um `DataFrame`

![subset rows](03_subset_rows.svg)

Para selecionar linhas baseadas em uma expressão condicional, basta usar uma condição dentro dos colchetes.

In [9]:
acima_dos_35 = titanic[titanic["Age"] > 35]

acima_dos_35.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.275,,S
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0,,S


A condição dentro dos colchetes checa cada linha de acordo com a expressão passada.

In [10]:
titanic["Age"] > 35

0      False
1       True
2      False
3      False
4      False
       ...  
886    False
887    False
888    False
889    False
890    False
Name: Age, Length: 891, dtype: bool

O resultado de cada expressão condicional é um objeto `Series` de valores booleanos com o mesmo número de linhas do `DataFrame` original. Um objeto `Series` de valores booleanos pode ser usado para filtrar um `DataFrame` ao colocá-lo entre colchetes. Apenas as linhas cujo valor correspondente seja `True` são retornadas.

Agora, lembrando que a base de dados `titanic` tem 891 linhas, quantas delas satisfazem a condição de passageiro maior de 35 anos? Podemos encontrar essa informação com o atributo `shape`.

In [11]:
acima_dos_35.shape

(217, 12)

Agora que sabemos que a filtragem de linhas acontece após passar um `Series` de valores booleanos, podemos utilizar esse conhecimento para garimpar outras informações de nossa base de dados. Por exemplo, vamos ver quais foram os passageiros das cabines de classe 2 e 3.

In [12]:
class_2_and_3 = titanic[titanic["Pclass"].isin([2, 3])]

class_2_and_3.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


No código acima utilizamos o método `isin()`. Porém, podemos encontrar o mesmo resultado através da combinação de expressões condicionais.

In [16]:
class_23 = titanic[(titanic["Pclass"] == 2) | (titanic["Pclass"] == 3)]

class_23.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S


O símbolo `|` consiste no operador `OR`.

É importante lembrar que, ao fazer a combinação de expressões condicionais, cada condição tem de estar entre parênteses. Além disso, o Pandas só reconhece os operadores `&` e `|`, não aceitando `and` e `or` do `Python`.

Trazendo de volta os `missing values`, uma das alternativas para lidar com eles é simplemente descartá-los. Uma forma de fazer isso é utilizando o método `notna()`, o qual `True` apenas para valores não nulos.

In [17]:
age_no_na = titanic[titanic["Age"].notna()]

age_no_na.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [18]:
age_no_na.shape

(714, 12)

### Selecionando linhas e colunas específicas de um `DataFrame`

![subset columns and rows](03_subset_columns_rows.svg)

A utilização de um par de colchetes não é suficiente para este caso. Para isso é possível utilizar os operadores `loc[]` e `iloc[]`. A letra *i* do `iloc[]` se refere aos índices numéricos. Esses operadores requerem dois valores separados por uma vírgula. O primeiro valor se refere às linhas e o segundo valor, após a vírgula, às colunas.

In [19]:
adult_names = titanic.loc[titanic["Age"] > 35, "Name"]

adult_names.head()

1     Cumings, Mrs. John Bradley (Florence Briggs Th...
6                               McCarthy, Mr. Timothy J
11                             Bonnell, Miss. Elizabeth
13                          Andersson, Mr. Anders Johan
15                     Hewlett, Mrs. (Mary D Kingcome) 
Name: Name, dtype: object

In [20]:
titanic.iloc[9:25, 2:5]

Unnamed: 0,Pclass,Name,Sex
9,2,"Nasser, Mrs. Nicholas (Adele Achem)",female
10,3,"Sandstrom, Miss. Marguerite Rut",female
11,1,"Bonnell, Miss. Elizabeth",female
12,3,"Saundercock, Mr. William Henry",male
13,3,"Andersson, Mr. Anders Johan",male
14,3,"Vestrom, Miss. Hulda Amanda Adolfina",female
15,2,"Hewlett, Mrs. (Mary D Kingcome)",female
16,3,"Rice, Master. Eugene",male
17,2,"Williams, Mr. Charles Eugene",male
18,3,"Vander Planke, Mrs. Julius (Emelia Maria Vande...",female


É possível modificar os valores dos dados selecionados.

In [21]:
titanic.iloc[0:3, 3] = "anônimo"

titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,anônimo,male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,anônimo,female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,anônimo,female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


---

## O que fazer a partir daqui?

Vamos continuar os [tutoriais iniciais](https://pandas.pydata.org/docs/getting_started/intro_tutorials/index.html) e depois podemos ver os [tutoriais do guia de usuário](https://pandas.pydata.org/docs/user_guide/index.html).