# Pandas
---

<img src="https://selecao.letscode.com.br/favicon.png" width="40px" style="position: absolute; top: 15px; right: 40px; border-radius: 5px;" />

- O Pandas é uma biblioteca do Python que fornece ferramentas de **análise de dados** e **estruturas de dados** de alta performance e *fáceis de usar*.
- Por ser a principal e mais completa biblioteca para estes objetivos, o Pandas é *fundamental para Análise de Dados*.
- É muito comum que os dados que analisamos estejam dispostos em formato de tabelas, sobretudo, quando falamos em análise estatística de dados.
- Esses dados, no formato de tabela, podem apresentar, por exemplo, colunas que trazem diferentes atributos do dado, e linhas que trazem um conjunto de observações.
    - Para exemplificar, [veja esse dataset](https://en.wikipedia.org/wiki/Iris_flower_data_set).
    
Para nos ajudar a lidar com esses dados em formato de tabelas, o Pandas nos fornece um objeto, chamado DataFrame, que é capaz de armazenar e manipular esse tipo de dado de uma forma equivalente às planilhas de Excel.

Consulte a [documentação oficial](https://pandas.pydata.org/docs/getting_started/index.html#intro-to-pandas) dessa biblioteca, para ver a introdução desenvolvida por eles.

### Instalação e importação

In [1]:
!pip install pandas

Collecting pandas
  Downloading pandas-1.3.5-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (11.5 MB)
[K     |████████████████████████████████| 11.5 MB 1.0 MB/s eta 0:00:01
Installing collected packages: pandas
Successfully installed pandas-1.3.5


In [1]:
# Importação da biblioteca
import pandas as pd

In [2]:
import numpy as np

## Series

A `Series` é como uma coluna ou uma linha do DataFrame (tabela). Embora possa parecer que esse objeto é idêntico a um Numpy array, ele possui atributos distintos, os quais vamos estudar agora.

#### Criando a primeira `Series`

In [5]:
series = pd.Series([10, 20, 30, 40, 50])

series

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [6]:
series

0    10
1    20
2    30
3    40
4    50
dtype: int64

#### `type`

In [9]:
type(series)

pandas.core.series.Series

#### Atributos importantes: `index` e `values`

In [7]:
series.index

RangeIndex(start=0, stop=5, step=1)

In [8]:
series.values

array([10, 20, 30, 40, 50])

#### Definindo os índice da Series

In [12]:
np.random.seed(17)

In [14]:
passos_array = np.random.randint(100, 10000, 7)

In [11]:
np.random.randint(100, 10000, 7)

array([ 458, 9213, 6661, 4462, 9102, 7237, 8425])

In [15]:
passos = pd.Series(passos_array)

In [16]:
passos

0    4664
1    3045
2    1874
3    5916
4    2926
5    4678
6    5863
dtype: int64

In [19]:
passos = pd.Series([ 458, 9213, 6661, 4462, 9102, 7237, 8425], index=['dom', 'seg', 'ter', 'qua', 'qui', 'sex', 'sab'])

In [20]:
passos

dom     458
seg    9213
ter    6661
qua    4462
qui    9102
sex    7237
sab    8425
dtype: int64

In [21]:
passos.index

Index(['dom', 'seg', 'ter', 'qua', 'qui', 'sex', 'sab'], dtype='object')

In [22]:
passos.values

array([ 458, 9213, 6661, 4462, 9102, 7237, 8425])

In [23]:
'A B C D E F'.split()

['A', 'B', 'C', 'D', 'E', 'F']

In [42]:
# passos = pd.Series([ 458, 9213, 6661, 4462, 9102, 7237, 8425], index='dom seg ter qua qui sex sab'.split())

In [43]:
# passos = pd.Series([ 458, 9213, 6661, 4462, 9102, 7237, 8425], index='dom seg ter qua qui sex sab'.split(), name='passos')

In [26]:
passos

dom     458
seg    9213
ter    6661
qua    4462
qui    9102
sex    7237
sab    8425
Name: passos, dtype: int64

## Principais Métodos

#### Estatísticos

- `max`
- `min`
- `sum`
- `mean`
- `median`
- `std`
- `var`
- `mode`
- `describe`

In [44]:
np.random.seed(17)

In [45]:
passos_array = np.random.randint(100, 10000, 7)

In [50]:
passos = pd.Series(passos_array, index='dom seg ter qua qui sex sab'.split(), name='passos')

In [51]:
passos

dom    2291
seg     506
ter    9629
qua    6161
qui    8570
sex    9347
sab    3723
Name: passos, dtype: int64

In [52]:
passos.max()

9629

In [53]:
passos.index[passos.argmax()]

'ter'

In [54]:
passos.sum()

40227

In [55]:
passos.mean()

5746.714285714285

In [56]:
passos.median()

6161.0

In [57]:
passos.std()

3644.156084943203

In [58]:
passos.var()

13279873.571428573

In [59]:
passos.mode()

0     506
1    2291
2    3723
3    6161
4    8570
5    9347
6    9629
dtype: int64

In [60]:
passos.quantile(q=0.25)

3007.0

In [61]:
passos.quantile([0.25, 0.5, 0.75])

0.25    3007.0
0.50    6161.0
0.75    8958.5
Name: passos, dtype: float64

In [63]:
passos.quantile([x / 100 for x in range(1, 101)])

0.01     613.10
0.02     720.20
0.03     827.30
0.04     934.40
0.05    1041.50
         ...   
0.96    9561.32
0.97    9578.24
0.98    9595.16
0.99    9612.08
1.00    9629.00
Name: passos, Length: 100, dtype: float64

In [69]:
passos.describe(percentiles=[x / 10 for x in range(1, 10)])

count       7.000000
mean     5746.714286
std      3644.156085
min       506.000000
10%      1577.000000
20%      2577.400000
30%      3436.600000
40%      4698.200000
50%      6161.000000
60%      7606.400000
70%      8725.400000
80%      9191.600000
90%      9459.800000
max      9629.000000
Name: passos, dtype: float64

#### `head` e `tail`

In [71]:
passos.head(3)

dom    2291
seg     506
ter    9629
Name: passos, dtype: int64

In [73]:
passos.tail(3)

qui    8570
sex    9347
sab    3723
Name: passos, dtype: int64

#### `unique` e `value_counts`

#### `sort_values`

### Indexação e Slices

### Operações Matemáticas

### Máscaras

### Operações com Series