# 🐼 Introdução ao Pandas

Para começar, o que é Pandas?  Resumidamente, Pandas é uma **biblioteca Python**, ou seja, um conjunto de ferramentas com funções diferenciadas dentro da linguagem de programação Python.

  ***
  <font color = "grey"><b>Um recado importante:</b>
  
Antes de você começar a se aprofundar neste material, recomendamos o estudo da sintaxe básica de Python, já que, aqui, o enfoque será o aprendizado de Pandas, que inclui muito da linguagem básica de Python, mas que não será o objetivo deste material.
  
Caso você tenha interesse em aprender a linguagem Python, temos uma material resumo feito e pensado para você! Baixe ele e use como sua colinha. É só uma questão de tempo para você dominar a linguagem e se juntar aos Pyfriends.</font>
  ***

Voltando ao Pandas, se você busca aprender maneiras para analisar e manipular dados e estruturas de dados, está no lugar certo! A biblioteca Pandas é uma das ferramentas preferidas para **análise de dados**, de forma muito eficiente e fácil de usar.

### 🔍 PANDAS vs. Planilhas (Ex: Excel)

Dissemos acima que Pandas é ideal para análise de dados, mas não dissemos que análise de dados consiste basicamente em trabalhar com planilhas. Então, por que não usar Excel? Quais as diferenças entre eles?

Bom, a princípio, Excel é um tanto mais convidativo por conta da sua interface. Lá você já tem um "formato" de tabela, com linhas, colunas e células pré-definidas. Tem também toda a barra de ferramentas superior muito semelhante ao MS Word, o que costuma ser mais conhecido e, portanto, mais confortável.

Mas um dos primeiro diferenciais é a automatização. Em Python, poucas linhas de código já te garantem uma planilha automatizada, enquanto no excel isso pode ser bem mais complicado - e talvez só seja possível com VBA. Além disso, a interface de Excel, que o deixa tão agradável, também pode ser um ponto negativo: isso demanda um arquivo mais pesado. Em geral, o Excel se torna instável a partir de 500MB, o que pode ser um mega problema para bases de dados grandes. Já pensou você ser um analista de finaças e sua planinha quebrar e afetar seus dados? Cruzes!

Tem mais algumas coisas que são muito mais simples com Python, como ordenar dados por mais de um critério ou excluir dados repetidos. Mas, afinal, qual é melhor? Depende. Talvez você só precise para manipular uma planilha pequena, em uma situação específica, e você nem tenha interesse em aprender a programar. Então provavelmente o Excel vai lhe servir bem! Por outro lado, se você vai trabalhar dados de uma maneira um pouco mais complexa, provavelmente Pandas é o melhor para você!

### 🎲 Estruturas de dados

#### `Series`

A estrutura de dados `Series` é uma matriz unidimensional, ou seja, uma lista de valores. Ela armazena qualquer tipo de dado (é simples assim mesmo, não tem mistério). Vamos criar uma `Series` com as notas das p1:

In [None]:
notas = pd.Series([5.5, 8, 3, 7.5, 10])
notas

Unnamed: 0,0
0,5.5
1,8.0
2,3.0
3,7.5
4,10.0


Toda estrutura `Series` tem um índice para cada um dos seus elementos, chamado **`index`**. Neste caso, os índices da `Series` estão na coluna da esquerda. Como não especificamos, o padrão Pandas de índices é uma lista de valores inteiros começando pelo número 0.

In [None]:
notas.values  #Retorna apenas os valores da Series

array([ 5.5,  8. ,  3. ,  7.5, 10. ])

In [None]:
notas.index  #Retorna o index da Series

RangeIndex(start=0, stop=5, step=1)

Para ficar mais fácil de visualizar, vamos nomear os índices com o nome de cada matéria:

In [None]:
notas = pd.Series([5.5, 8, 3, 7.5, 10], index=['Medicina Geral de Adultos', 'Medicina Geral de Crianças', 'Epidemiologia', 'Anatomia Patológica', 'Saúde Pública'], name='p1')
notas

Unnamed: 0,p1
Medicina Geral de Adultos,5.5
Medicina Geral de Crianças,8.0
Epidemiologia,3.0
Anatomia Patológica,7.5
Saúde Pública,10.0


Podemos acessar um determinado valor pelo seu `index`:

In [None]:
notas['Epidemiologia']

np.float64(3.0)

***
**Observação importante**: lembra das sequências em Python? Para acessar um elemento de uma lista ou dicionário, usavamos a notação com colchetes:

*nome_lista[indice/elemento]*
  
Para acessar qualquer índice/elemento dentro de uma Series ou DataFrame utilizaremos essa mesma notação!
  ***

Vamos brincar com esses dados? Podemos aplicar expressões matemáticas neles, olha só:

In [None]:
notas**2  #Elevamos os valores ao quadrado

Unnamed: 0,p1
Medicina Geral de Adultos,30.25
Medicina Geral de Crianças,64.0
Epidemiologia,9.0
Anatomia Patológica,56.25
Saúde Pública,100.0


**Observação importante:** Ao realizarmos essa operação anterior, nós NÃO alteramos de fato os valores na memória, é apenas uma forma de visualizar os dados da maneira que desejamos. Se quisermos alterar os dados permanentemente, é necessário reatribuir os novos valores à variável 'notas'.

In [None]:
notas  #Perceba que os valores continuam os mesmos dos originais

Unnamed: 0,p1
Medicina Geral de Adultos,5.5
Medicina Geral de Crianças,8.0
Epidemiologia,3.0
Anatomia Patológica,7.5
Saúde Pública,10.0


In [None]:
notas = notas - 0.5  #Quando reatribuimos à variável os novos valores(com o sinal de =), estamos, de fato, alterando-os.
notas

Unnamed: 0,p1
Medicina Geral de Adultos,5.0
Medicina Geral de Crianças,7.5
Epidemiologia,2.5
Anatomia Patológica,7.0
Saúde Pública,9.5


Lembra de estatística? Podemos usar funções bem legais para analisar os dados, como a média e o desvio padrão.

In [None]:
notas.mean()  #Retorna a média dos dados

np.float64(6.3)

In [None]:
notas.std()  #Retorna o desvio padrão dos dados

2.6598872156540776

Ainda existe uma função que descreve uma análise estatística dos dados:

In [None]:
notas.describe()

Unnamed: 0,p1
count,5.0
mean,6.3
std,2.659887
min,2.5
25%,5.0
50%,7.0
75%,7.5
max,9.5


Assim fica fácil, né?

#### `DataFrame`

`DataFrame` é uma estrutura de dados bidimensional, podendo ter várias colunas, com diferentes tipos de valores, como uma planilha. Vamos criar um `DataFrame`:

In [None]:
dados = pd.DataFrame({'Matérias' : ['Medicina Geral de Adultos', 'Medicina Geral de Crianças', 'Epidemiologia', 'Anatomia Patológica', 'Saúde Pública'],
                   'P1' : [5.5, 8, 3, 7.5, 10],
                   'P2': [8, 7.5, 5, 6, 8.5]})

In [None]:
dados

Unnamed: 0,Matérias,P1,P2
0,Medicina Geral de Adultos,5.5,8.0
1,Medicina Geral de Crianças,8.0,7.5
2,Epidemiologia,3.0,5.0
3,Anatomia Patológica,7.5,6.0
4,Saúde Pública,10.0,8.5


Acima, usamos dicionários para inserir cada coluna. Podemos obter algumas informações básicas sobre o DataFrame pelo método <font color = "orange">**`.info()`**</font> :

In [None]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Matérias  5 non-null      object 
 1   P1        5 non-null      float64
 2   P2        5 non-null      float64
dtypes: float64(2), object(1)
memory usage: 252.0+ bytes


Podemos retirar algumas informações:
  1. Existem 5 linhas;
  2. O índice das linhas são de "0" a "4", esse é o padrão do Pandas, mas podemos alterar esses índices;
  3. Temos 3 colunas, e todas elas estão completas - sem valores nulos;
  4. Podemos ver os `types` de cada coluna, mas existe um método mais adequado, veremos a seguir.
  5. O espaço que o `DataFrame` utiliza na memória.

Também podemos utilizar o método <font color = "orange">**`.dtypes`**</font> :

In [None]:
dados.dtypes  #Retorna o tipo de objeto de cada coluna

Unnamed: 0,0
Matérias,object
P1,float64
P2,float64


Ainda, dá para usar as mesmas funções em `DataFrames` que usamos em `Series`:

In [None]:
dados

Unnamed: 0,Matérias,P1,P2
0,Medicina Geral de Adultos,5.5,8.0
1,Medicina Geral de Crianças,8.0,7.5
2,Epidemiologia,3.0,5.0
3,Anatomia Patológica,7.5,6.0
4,Saúde Pública,10.0,8.5


O método <font color = "orange">**`.describe()`**</font> é flexível e podemos alterá-lo para nos retornar as informações realmente relevantes. Por exemplo, outros percentís, incluir e excluir alguns tipos de dados.

In [None]:
dados.describe()  #Dados estatíticos do DataFrame

Unnamed: 0,P1,P2
count,5.0,5.0
mean,6.8,7.0
std,2.659887,1.457738
min,3.0,5.0
25%,5.5,6.0
50%,7.5,7.5
75%,8.0,8.0
max,10.0,8.5


O método <font color = "orange">**`.describe()`**</font> é flexível e podemos alterá-lo para nos retornar as informações realmente relevantes. Por exemplo, outros percentís, incluir e excluir alguns tipos de dados.

In [None]:
dados.describe(percentiles=[0.05], include='all')

Unnamed: 0,Matérias,P1,P2
count,5,5.0,5.0
unique,5,,
top,Medicina Geral de Adultos,,
freq,1,,
mean,,6.8,7.0
std,,2.659887,1.457738
min,,3.0,5.0
5%,,3.5,5.2
50%,,7.5,7.5
max,,10.0,8.5


Perceba que nosso `index` (o nome das linhas) não faz muito sentido nessa situação. Não existe nenhum problema em deixar como está, mas podemos redefini-lo no DataFrame.
No caso, como não existem matérias com o mesmo nome, podemos usar o nome da matéria (que estão na coluna "Matérias") como referência de índice sem problemas no futuro:

In [None]:
dados = dados.set_index('Matérias') #índice das linhas passou a ser a própria coluna "Matérias"

In [None]:
dados

Unnamed: 0_level_0,P1,P2
Matérias,Unnamed: 1_level_1,Unnamed: 2_level_1
Medicina Geral de Adultos,5.5,8.0
Medicina Geral de Crianças,8.0,7.5
Epidemiologia,3.0,5.0
Anatomia Patológica,7.5,6.0
Saúde Pública,10.0,8.5


In [None]:
dados.mean(axis=1) #Média aplicadas nas linhas do DataFrame que são indentificadas pela coluna índice "Matérias"

Unnamed: 0_level_0,0
Matérias,Unnamed: 1_level_1
Medicina Geral de Adultos,6.75
Medicina Geral de Crianças,7.75
Epidemiologia,4.0
Anatomia Patológica,6.75
Saúde Pública,9.25


In [None]:
dados.describe()  #Dados estatíticos do DataFrame

Unnamed: 0,P1,P2
count,5.0,5.0
mean,6.8,7.0
std,2.659887,1.457738
min,3.0,5.0
25%,5.5,6.0
50%,7.5,7.5
75%,8.0,8.0
max,10.0,8.5


Perceba que esse método retorna o resumo dos dados estatísticos de todas as colunas de dados numéricos. Existem casos em que os números não suportam ser analisados dessa forma, por exemplo, uma coluna que contenha o número da matrícula dos alunos; já que são números, o Pandas realiza esse método até nela. Portanto, **tome cuidado ao realizar operações com os dados corretos**!

In [None]:
dados.columns  #Retorna as colunas do DataFrame

Index(['P1', 'P2'], dtype='object')

Podemos acessar os valores de uma coluna utilizando o nome da coluna.

Como já mencionado, acessamos elementos do DataFrame com a notação das sequências (dentro de colchetes), portanto, podemos colocar o nome da coluna do DF que queremos entre colchetes.

In [None]:
#Estamos chamando a coluna "P1" do DataFrame "dados"

dados['P1']

Unnamed: 0_level_0,P1
Matérias,Unnamed: 1_level_1
Medicina Geral de Adultos,5.5
Medicina Geral de Crianças,8.0
Epidemiologia,3.0
Anatomia Patológica,7.5
Saúde Pública,10.0


E também é possível especificar uma parte do `DataFrame` para retorno:

In [None]:
dados[:3]  #DataFrame até a terceira linha

Unnamed: 0_level_0,P1,P2
Matérias,Unnamed: 1_level_1,Unnamed: 2_level_1
Medicina Geral de Adultos,5.5,8.0
Medicina Geral de Crianças,8.0,7.5
Epidemiologia,3.0,5.0


Ainda, podemos ordenar os valores do `DataFrame` por uma coluna:

In [None]:
dados.sort_values(by='P1')  #Ordem das linhas baseada nos dados da coluna 'P1'

Unnamed: 0_level_0,P1,P2
Matérias,Unnamed: 1_level_1,Unnamed: 2_level_1
Epidemiologia,3.0,5.0
Medicina Geral de Adultos,5.5,8.0
Anatomia Patológica,7.5,6.0
Medicina Geral de Crianças,8.0,7.5
Saúde Pública,10.0,8.5


Quando precisarmos, podemos adicionar uma coluna no nosso `DataFrame`! Mas é importante lembrar que os dados da nova coluna devem ser equivalentes ao `DataFrame`, ou seja, ter a mesma quantidade de linhas existentes:

In [None]:
dados['P3'] = [6, 7, 4, 9, 7] #Colocamos 5 notas, equivalentes as 5 linhas do DataFrame

In [None]:
dados

Unnamed: 0_level_0,P1,P2,P3
Matérias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Medicina Geral de Adultos,5.5,8.0,6
Medicina Geral de Crianças,8.0,7.5,7
Epidemiologia,3.0,5.0,4
Anatomia Patológica,7.5,6.0,9
Saúde Pública,10.0,8.5,7


### ✅ Selecionando dados

Às vezes você precisa de um dado específico para trabalhar. Por exemplo, quais matérias você tirou notas abaixo da média?

Com o tempo, você vai perceber que saber selecionar algum dado, ou um tipo de dado, é muito importante. Por isso, vamos aprender algumas maneiras de selecionar dados.

* Localização pelo **`index`**: selecionando valores de uma linha, coluna:

> * <font color = "orange">**`.loc[]` </font>**: ele localiza através do **nome** da linha

In [None]:
dados

Unnamed: 0_level_0,P1,P2,P3
Matérias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Medicina Geral de Adultos,5.5,8.0,6
Medicina Geral de Crianças,8.0,7.5,7
Epidemiologia,3.0,5.0,4
Anatomia Patológica,7.5,6.0,9
Saúde Pública,10.0,8.5,7


In [None]:
dados.loc['Medicina Geral de Adultos']  #Localizamos todas as informações a respeito da linha com index 'Estatística'

Unnamed: 0,Medicina Geral de Adultos
P1,5.5
P2,8.0
P3,6.0


Podemos localizar informações de mais de uma linha:

In [None]:
dados.loc[['Medicina Geral de Adultos', 'Medicina Geral de Crianças']]

Unnamed: 0_level_0,P1,P2,P3
Matérias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Medicina Geral de Adultos,5.5,8.0,6
Medicina Geral de Crianças,8.0,7.5,7


> * <font color = "orange">**`.iloc[]` </font>**: ele localiza através da **posição** (representada por um número inteiro) da linha no DataFrame

In [None]:
dados.iloc[0]  #Localizamos as informações da primeira linha do DataFrame

Unnamed: 0,Medicina Geral de Adultos
P1,5.5
P2,8.0
P3,6.0


In [None]:
dados.iloc[-1]  #Localizamos as informações da última linha

Unnamed: 0,Saúde Pública
P1,10.0
P2,8.5
P3,7.0


Podemos incluir a localização de colunas também:

In [None]:
dados.iloc[0:2, 0] #Localizamos as informações da primeira coluna com a primeira e segunda linha

Unnamed: 0_level_0,P1
Matérias,Unnamed: 1_level_1
Medicina Geral de Adultos,5.5
Medicina Geral de Crianças,8.0


* Localização por critérios **boleanos**: selecionando dados através de condições

In [None]:
#Selecionar apenas as linhas que tenham valores menores do que '5.75' na coluna 'P1':

dados[dados['P1'] < 5.75]

Unnamed: 0_level_0,P1,P2,P3
Matérias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Medicina Geral de Adultos,5.5,8.0,6
Epidemiologia,3.0,5.0,4


 > Lembra em Python, quando queríamos associar **múltiplas condições**, e utilizávamos operadores como o `and`, `or` e `not`?! Aqui é quase a mesma coisa, só mudam os nomes desses operadores.

 > * <font color = "orange">**`&` </font>**: Assume a função do <font color = "orange">**`and` </font>**
 > * <font color = "orange">**`|` </font>**: Assume a função do <font color = "orange">**`or` </font>**
 > * <font color = "orange">**`~` </font>**: Assume a função do <font color = "orange">**`not`</font>**

In [None]:
#Selecionar as linhas que tenham valores maiores do que '8' nas colunas 'P1' e 'P2':

dados[(dados['P1'] > 8) & (dados['P2'] > 8)]

Unnamed: 0_level_0,P1,P2,P3
Matérias,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Saúde Pública,10.0,8.5,7
