# Aula 02 - Introdução à Biblioteca do Pandas
---

<img src="https://lc-public-assets.s3.sa-east-1.amazonaws.com/images/Logos/logoLcPng.webp" width="220px" style="position: absolute; top: 15px; right: 20px; border-radius: 5px;" />

## Introdução ao Pandas

- O Pandas é uma biblioteca do Python que fornece ferramentas de **análise de dados** e **estruturas de dados** de alta performance e *fáceis de usar*.
- Por ser a principal e mais completa biblioteca para estes objetivos, o Pandas é *fundamental para Análise de Dados*.
- É muito comum que os dados que analisamos estejam dispostos em formato de tabelas, sobretudo, quando falamos em análise estatística de dados.
- Esses dados, no formato de tabela, podem apresentar, por exemplo, colunas que trazem diferentes atributos do dado, e linhas que trazem um conjunto de observações.
    - Para exemplificar, [veja esse dataset](https://en.wikipedia.org/wiki/Iris_flower_data_set).
    
Para nos ajudar a lidar com esses dados em formato de tabelas, o Pandas nos fornece um objeto, chamado DataFrame, que é capaz de armazenar e manipular esse tipo de dado de uma forma equivalente às planilhas de Excel.

### Instalação e importação

In [65]:
!pip install pandas



In [66]:
import pandas as pd

## Series

A `Series` é como uma coluna ou uma linha do nosso DataFrame (tabela). Embora possa parecer que esse objeto é idêntico a um Numpy array, ele possui atributos distintos, os quais vamos estudar agora.

#### Criando a primeira `Series`

In [69]:
serie = pd.Series([2320, 5430, 8300, 4560, 3768])

In [70]:
serie

0    2320
1    5430
2    8300
3    4560
4    3768
dtype: int64

#### `type`

In [71]:
type(serie)

pandas.core.series.Series

#### Atributos importantes: `index` e `values`

In [72]:
serie.index

RangeIndex(start=0, stop=5, step=1)

In [73]:
serie.values

array([2320, 5430, 8300, 4560, 3768])

#### Definindo os índice da Series

In [74]:
serie2 = pd.Series(data=[2320, 5430, 8300, 4560, 3768], index=['seg', 'ter', 'qua', 'qui', 'sex'])

In [75]:
serie2

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

In [76]:
pd.Series(data=[2320, 5430, 8300, 4560, 3768], index=range(10, 15))

10    2320
11    5430
12    8300
13    4560
14    3768
dtype: int64

In [77]:
'a b c d e'.split()

['a', 'b', 'c', 'd', 'e']

In [78]:
serie2 = pd.Series(data=[2320, 5430, 8300, 4560, 3768], index='seg ter qua qui sex'.split())

In [79]:
serie2

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

In [82]:
serie2.index

Index(['seg', 'ter', 'qua', 'qui', 'sex'], dtype='object')

In [83]:
serie2.values

array([2320, 5430, 8300, 4560, 3768])

## Principais Métodos

#### Estatísticos

- `max`
- `min`
- `sum`
- `mean`
- `median`
- `std`
- `var`
- `mode`
- `describe`

In [84]:
serie2

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

In [85]:
serie2.max()

8300

In [86]:
serie2.argmax()

2

In [87]:
serie2.min()

2320

In [88]:
serie2.sum()

24378

In [89]:
serie2.mean()

4875.6

In [90]:
serie2.median()

4560.0

In [91]:
serie2.std() # desvio padrão

2229.9858295513895

In [92]:
serie2.var() # variância

4972836.8

In [93]:
serie2.mode()

0    2320
1    3768
2    4560
3    5430
4    8300
dtype: int64

In [94]:
serie2.describe()

count       5.00000
mean     4875.60000
std      2229.98583
min      2320.00000
25%      3768.00000
50%      4560.00000
75%      5430.00000
max      8300.00000
dtype: float64

#### `head` e `tail`

In [97]:
serie2.head(3)

seg    2320
ter    5430
qua    8300
dtype: int64

In [98]:
serie2.tail(2)

qui    4560
sex    3768
dtype: int64

In [99]:
serie2.head()

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

In [100]:
serie2.tail()

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

#### `unique` e `value_counts`

In [105]:
series = pd.Series(data=np.random.randint(10, 20, 50))

series.head()

0    10
1    15
2    15
3    12
4    11
dtype: int64

In [106]:
series.unique()

array([10, 15, 12, 11, 13, 17, 18, 19, 16, 14])

In [114]:
sorted(series.unique())

[10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

In [107]:
series.value_counts()

12    7
13    7
17    7
18    6
15    5
19    5
11    4
10    3
16    3
14    3
dtype: int64

In [111]:
series.value_counts() / len(series) * 100

12    14.0
13    14.0
17    14.0
18    12.0
15    10.0
19    10.0
11     8.0
10     6.0
16     6.0
14     6.0
dtype: float64

In [108]:
len(series)

50

In [113]:
series.value_counts(normalize=True, sort=False)

10    0.06
15    0.10
12    0.14
11    0.08
13    0.14
17    0.14
18    0.12
19    0.10
16    0.06
14    0.06
dtype: float64

#### `sort_values`

In [117]:
series.sort_values().head()

0     10
47    10
24    10
4     11
27    11
dtype: int64

### Operações Matemáticas

In [119]:
series - 10

0     0
1     5
2     5
3     2
4     1
5     2
6     3
7     2
8     7
9     8
10    9
11    5
12    2
13    8
14    7
15    8
16    6
17    3
18    7
19    4
20    2
21    3
22    7
23    9
24    0
25    5
26    8
27    1
28    8
29    9
30    3
31    8
32    3
33    1
34    1
35    7
36    4
37    7
38    3
39    9
40    5
41    6
42    6
43    2
44    7
45    2
46    3
47    0
48    9
49    4
dtype: int64

In [120]:
series + series

0     20
1     30
2     30
3     24
4     22
5     24
6     26
7     24
8     34
9     36
10    38
11    30
12    24
13    36
14    34
15    36
16    32
17    26
18    34
19    28
20    24
21    26
22    34
23    38
24    20
25    30
26    36
27    22
28    36
29    38
30    26
31    36
32    26
33    22
34    22
35    34
36    28
37    34
38    26
39    38
40    30
41    32
42    32
43    24
44    34
45    24
46    26
47    20
48    38
49    28
dtype: int64

In [122]:
serie

0    2320
1    5430
2    8300
3    4560
4    3768
dtype: int64

In [123]:
serie2

seg    2320
ter    5430
qua    8300
qui    4560
sex    3768
dtype: int64

In [121]:
serie2 + serie

0     NaN
1     NaN
2     NaN
3     NaN
4     NaN
qua   NaN
qui   NaN
seg   NaN
sex   NaN
ter   NaN
dtype: float64

In [124]:
serie2 + serie2['seg':'qua']

qua    16600.0
qui        NaN
seg     4640.0
sex        NaN
ter    10860.0
dtype: float64

### Indexação e Slices

### Máscaras

### Operações com Series

## DataFrames
---

- [Criação de DataFrames](https://walissonsilva.com/blog/diferentes-formas-de-criar-um-dataframe)
- Acesso aos dados
    - Acessando coluna(s)
    - Acessando um elemento específico
    - Acessando linha(s)
    - `loc` e `iloc`
- Criando novas colunas
- `reset_index` e `set_index`
- Carregando e Salvando Datasets
    - Conhecendo o [Kaggle](https://www.kaggle.com/)
    - CSV
    - XLSX
    - HTML  
    - ...