# Aula 06 - Introdução à Biblioteca Pandas
---

## Introdução

- O Pandas é uma biblioteca do Python que fornece ferramentas de **análise de dados** e **estruturas de dados** de alta performance e *fáceis de usar*.
- Por ser a principal e mais completa biblioteca para estes objetivos, o Pandas é *fundamental para Análise de Dados*.
- É muito comum que os dados que analisamos estejam dispostos em formato de tabelas, sobretudo, quando falamos em análise estatística de dados.
- Esses dados, no formato de tabela, podem apresentar, por exemplo, colunas que trazem diferentes atributos do dado, e linhas que trazem um conjunto de observações.
    - Para exemplificar, [veja esse dataset](https://en.wikipedia.org/wiki/Iris_flower_data_set).
    
Para nos ajudar a lidar com esses dados em formato de tabelas, o Pandas nos fornece um objeto, chamado DataFrame, que é capaz de armazenar e manipular esse tipo de dado de uma forma equivalente às planilhas de Excel.

In [1]:
# Importação das bibliotecas
import numpy as np
import pandas as pd

## Series

A `Series` é como uma coluna ou uma linha do nosso DataFrame (tabela). Embora possa parecer que esse objeto é idêntico a um Numpy array, ele possui atributos distintos, os quais vamos estudar agora.

In [3]:
steps = pd.Series([4216, 3867, 7934, 4180, 5344])

In [4]:
steps

0    4216
1    3867
2    7934
3    4180
4    5344
dtype: int64

In [6]:
type(steps)

pandas.core.series.Series

In [8]:
steps.values

array([4216, 3867, 7934, 4180, 5344])

In [9]:
steps.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
steps = pd.Series(data=[4216, 3867, 7934, 4180, 5344], index=['seg', 'ter', 'qua', 'qui', 'sex'])

In [11]:
steps

seg    4216
ter    3867
qua    7934
qui    4180
sex    5344
dtype: int64

In [13]:
steps.index

Index(['seg', 'ter', 'qua', 'qui', 'sex'], dtype='object')

In [14]:
steps.values

array([4216, 3867, 7934, 4180, 5344])

In [16]:
steps.min()

3867

In [17]:
steps.max()

7934

In [18]:
steps.mean()

5108.2

In [19]:
steps.sum()

25541

In [20]:
steps.describe()

count       5.000000
mean     5108.200000
std      1676.223493
min      3867.000000
25%      4180.000000
50%      4216.000000
75%      5344.000000
max      7934.000000
dtype: float64

Essa estrutura é bem flexível. Veja alguns exemplos do que você pode fazer com ela:

In [21]:
steps * 2

seg     8432
ter     7734
qua    15868
qui     8360
sex    10688
dtype: int64

In [22]:
np.sqrt(steps)

seg    64.930732
ter    62.185207
qua    89.073004
qui    64.652920
sex    73.102668
dtype: float64