# Pandas
---

<img src="https://selecao.letscode.com.br/favicon.png" width="40px" style="position: absolute; top: 15px; right: 40px; border-radius: 5px;" />

- O Pandas é uma biblioteca do Python que fornece ferramentas de **análise de dados** e **estruturas de dados** de alta performance e *fáceis de usar*.
- Por ser a principal e mais completa biblioteca para estes objetivos, o Pandas é *fundamental para Análise de Dados*.
- É muito comum que os dados que analisamos estejam dispostos em formato de tabelas, sobretudo, quando falamos em análise estatística de dados.
- Esses dados, no formato de tabela, podem apresentar, por exemplo, colunas que trazem diferentes atributos do dado, e linhas que trazem um conjunto de observações.
    - Para exemplificar, [veja esse dataset](https://en.wikipedia.org/wiki/Iris_flower_data_set).
    
Para nos ajudar a lidar com esses dados em formato de tabelas, o Pandas nos fornece um objeto, chamado DataFrame, que é capaz de armazenar e manipular esse tipo de dado de uma forma equivalente às planilhas de Excel.

Consulte a [documentação oficial](https://pandas.pydata.org/docs/getting_started/index.html#intro-to-pandas) dessa biblioteca, para ver a introdução desenvolvida por eles.

### Instalação e importação

In [1]:
!pip install pandas

Collecting pandas
  Downloading pandas-1.3.5-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (11.5 MB)
[K     |████████████████████████████████| 11.5 MB 1.0 MB/s eta 0:00:01
Installing collected packages: pandas
Successfully installed pandas-1.3.5


In [1]:
# Importação da biblioteca
import pandas as pd

In [2]:
import numpy as np

## Series

A `Series` é como uma coluna ou uma linha do DataFrame (tabela). Embora possa parecer que esse objeto é idêntico a um Numpy array, ele possui atributos distintos, os quais vamos estudar agora.

#### Criando a primeira `Series`

In [5]:
series = pd.Series([10, 20, 30, 40, 50])

series

0    10
1    20
2    30
3    40
4    50
dtype: int64

In [6]:
series

0    10
1    20
2    30
3    40
4    50
dtype: int64

#### `type`

In [9]:
type(series)

pandas.core.series.Series

#### Atributos importantes: `index` e `values`

In [7]:
series.index

RangeIndex(start=0, stop=5, step=1)

In [8]:
series.values

array([10, 20, 30, 40, 50])

#### Definindo os índice da Series

In [12]:
np.random.seed(17)

In [14]:
passos_array = np.random.randint(100, 10000, 7)

In [11]:
np.random.randint(100, 10000, 7)

array([ 458, 9213, 6661, 4462, 9102, 7237, 8425])

In [15]:
passos = pd.Series(passos_array)

In [16]:
passos

0    4664
1    3045
2    1874
3    5916
4    2926
5    4678
6    5863
dtype: int64

In [19]:
passos = pd.Series([ 458, 9213, 6661, 4462, 9102, 7237, 8425], index=['dom', 'seg', 'ter', 'qua', 'qui', 'sex', 'sab'])

In [20]:
passos

dom     458
seg    9213
ter    6661
qua    4462
qui    9102
sex    7237
sab    8425
dtype: int64

In [21]:
passos.index

Index(['dom', 'seg', 'ter', 'qua', 'qui', 'sex', 'sab'], dtype='object')

In [22]:
passos.values

array([ 458, 9213, 6661, 4462, 9102, 7237, 8425])

In [23]:
'A B C D E F'.split()

['A', 'B', 'C', 'D', 'E', 'F']

In [42]:
# passos = pd.Series([ 458, 9213, 6661, 4462, 9102, 7237, 8425], index='dom seg ter qua qui sex sab'.split())

In [43]:
# passos = pd.Series([ 458, 9213, 6661, 4462, 9102, 7237, 8425], index='dom seg ter qua qui sex sab'.split(), name='passos')

In [26]:
passos

dom     458
seg    9213
ter    6661
qua    4462
qui    9102
sex    7237
sab    8425
Name: passos, dtype: int64

## Principais Métodos

#### Estatísticos

- `max`
- `min`
- `sum`
- `mean`
- `median`
- `std`
- `var`
- `mode`
- `describe`

In [44]:
np.random.seed(17)

In [45]:
passos_array = np.random.randint(100, 10000, 7)

In [50]:
passos = pd.Series(passos_array, index='dom seg ter qua qui sex sab'.split(), name='passos')

In [51]:
passos

dom    2291
seg     506
ter    9629
qua    6161
qui    8570
sex    9347
sab    3723
Name: passos, dtype: int64

In [52]:
passos.max()

9629

In [53]:
passos.index[passos.argmax()]

'ter'

In [54]:
passos.sum()

40227

In [55]:
passos.mean()

5746.714285714285

In [56]:
passos.median()

6161.0

In [57]:
passos.std()

3644.156084943203

In [58]:
passos.var()

13279873.571428573

In [59]:
passos.mode()

0     506
1    2291
2    3723
3    6161
4    8570
5    9347
6    9629
dtype: int64

In [60]:
passos.quantile(q=0.25)

3007.0

In [61]:
passos.quantile([0.25, 0.5, 0.75])

0.25    3007.0
0.50    6161.0
0.75    8958.5
Name: passos, dtype: float64

In [63]:
passos.quantile([x / 100 for x in range(1, 101)])

0.01     613.10
0.02     720.20
0.03     827.30
0.04     934.40
0.05    1041.50
         ...   
0.96    9561.32
0.97    9578.24
0.98    9595.16
0.99    9612.08
1.00    9629.00
Name: passos, Length: 100, dtype: float64

In [69]:
passos.describe(percentiles=[x / 10 for x in range(1, 10)])

count       7.000000
mean     5746.714286
std      3644.156085
min       506.000000
10%      1577.000000
20%      2577.400000
30%      3436.600000
40%      4698.200000
50%      6161.000000
60%      7606.400000
70%      8725.400000
80%      9191.600000
90%      9459.800000
max      9629.000000
Name: passos, dtype: float64

#### `head` e `tail`

In [71]:
passos.head(3)

dom    2291
seg     506
ter    9629
Name: passos, dtype: int64

In [73]:
passos.tail(3)

qui    8570
sex    9347
sab    3723
Name: passos, dtype: int64

#### `unique` e `value_counts`

In [77]:
series = pd.Series(np.random.randint(1, 6, 20))

In [78]:
series

0     2
1     1
2     3
3     5
4     2
5     1
6     4
7     3
8     4
9     3
10    2
11    5
12    2
13    1
14    4
15    4
16    3
17    4
18    4
19    3
dtype: int64

In [80]:
series.values

array([2, 1, 3, 5, 2, 1, 4, 3, 4, 3, 2, 5, 2, 1, 4, 4, 3, 4, 4, 3])

In [79]:
series.unique()

array([2, 1, 3, 5, 4])

In [81]:
series.value_counts()

4    6
3    5
2    4
1    3
5    2
dtype: int64

In [84]:
series.value_counts(normalize=True)

4    0.30
3    0.25
2    0.20
1    0.15
5    0.10
dtype: float64

In [85]:
series.nunique()

5

#### `sort_values`

In [86]:
passos

dom    2291
seg     506
ter    9629
qua    6161
qui    8570
sex    9347
sab    3723
Name: passos, dtype: int64

In [89]:
passos.sort_values(ascending=False)

ter    9629
sex    9347
qui    8570
qua    6161
sab    3723
dom    2291
seg     506
Name: passos, dtype: int64

### Indexação e Slices

In [90]:
passos

dom    2291
seg     506
ter    9629
qua    6161
qui    8570
sex    9347
sab    3723
Name: passos, dtype: int64

In [91]:
passos[0]

2291

In [92]:
passos['dom']

2291

In [94]:
passos[1:6]

seg     506
ter    9629
qua    6161
qui    8570
sex    9347
Name: passos, dtype: int64

In [95]:
passos['seg':'sex']

seg     506
ter    9629
qua    6161
qui    8570
sex    9347
Name: passos, dtype: int64

In [97]:
passos['sex':'seg':-1]

sex    9347
qui    8570
qua    6161
ter    9629
seg     506
Name: passos, dtype: int64

In [99]:
passos[5:0:-1]

sex    9347
qui    8570
qua    6161
ter    9629
seg     506
Name: passos, dtype: int64

### Operações Matemáticas

In [101]:
passos

dom    2291
seg     506
ter    9629
qua    6161
qui    8570
sex    9347
sab    3723
Name: passos, dtype: int64

In [100]:
passos + 2

dom    2293
seg     508
ter    9631
qua    6163
qui    8572
sex    9349
sab    3725
Name: passos, dtype: int64

In [102]:
passos * 2

dom     4582
seg     1012
ter    19258
qua    12322
qui    17140
sex    18694
sab     7446
Name: passos, dtype: int64

In [103]:
passos**2

dom     5248681
seg      256036
ter    92717641
qua    37957921
qui    73444900
sex    87366409
sab    13860729
Name: passos, dtype: int64

In [106]:
10 + passos

dom    2301
seg     516
ter    9639
qua    6171
qui    8580
sex    9357
sab    3733
Name: passos, dtype: int64

In [111]:
np.random.seed(10)

In [112]:
passos2 = pd.Series(np.random.randint(100, 10000, 7), index='dom seg ter qua qui sex sab'.split(), name='passos')

In [115]:
passos3 = pd.Series([10, 10, 10, 10, 10], index='seg ter qua qui sex'.split(), name='passos')

In [113]:
passos2

dom    1389
seg    7393
ter    1444
qua    7391
qui    9472
sex    4929
sab    1620
Name: passos, dtype: int64

In [114]:
passos + passos2

dom     3680
seg     7899
ter    11073
qua    13552
qui    18042
sex    14276
sab     5343
Name: passos, dtype: int64

In [116]:
passos

dom    2291
seg     506
ter    9629
qua    6161
qui    8570
sex    9347
sab    3723
Name: passos, dtype: int64

In [117]:
passos3

seg    10
ter    10
qua    10
qui    10
sex    10
Name: passos, dtype: int64

In [118]:
passos + passos3

dom       NaN
qua    6171.0
qui    8580.0
sab       NaN
seg     516.0
sex    9357.0
ter    9639.0
Name: passos, dtype: float64

In [121]:
passos

dom    2291
seg     506
ter    9629
qua    6161
qui    8570
sex    9347
sab    3723
Name: passos, dtype: int64

In [120]:
passos.add(passos3, fill_value=0)

dom    2291.0
qua    6171.0
qui    8580.0
sab    3723.0
seg     516.0
sex    9357.0
ter    9639.0
Name: passos, dtype: float64

In [None]:
passos.multiply()

In [123]:
np.log(passos)

dom    7.736744
seg    6.226537
ter    9.172535
qua    8.725994
qui    9.056023
sex    9.142811
sab    8.222285
Name: passos, dtype: float64

In [126]:
np.sin(0)

0.0

In [125]:
np.sin(np.pi/2)

1.0

In [127]:
np.sin(np.pi)

1.2246467991473532e-16

In [131]:
np.radians(180)

3.141592653589793

In [129]:
np.sin(3 * np.pi / 2)

-1.0

### Máscaras

In [132]:
passos >= 4000

dom    False
seg    False
ter     True
qua     True
qui     True
sex     True
sab    False
Name: passos, dtype: bool

In [133]:
passos[passos >= 4000]

ter    9629
qua    6161
qui    8570
sex    9347
Name: passos, dtype: int64

In [138]:
passos.isin([6161, 9347])

dom    False
seg    False
ter    False
qua     True
qui    False
sex     True
sab    False
Name: passos, dtype: bool

In [141]:
'thu' in passos.index

False

In [143]:
passos['dom':'ter']

dom    2291
seg     506
ter    9629
Name: passos, dtype: int64

In [144]:
passos[['seg', 'qua', 'sex']]

seg     506
qua    6161
sex    9347
Name: passos, dtype: int64

## Dúvidas

In [147]:
soma = passos + passos3

In [148]:
soma

dom       NaN
qua    6171.0
qui    8580.0
sab       NaN
seg     516.0
sex    9357.0
ter    9639.0
Name: passos, dtype: float64

In [150]:
soma['seg':'sex']

seg     516.0
sex    9357.0
Name: passos, dtype: float64