# Pandas

- O Pandas é uma biblioteca do Python que fornece ferramentas de análise de dados e estruturas de dados de alta performance e fáceis de usar.
- Por ser a principal e mais completa biblioteca para estes objetivos, o Pandas é fundamental para Análise de Dados.
- É muito comum que os dados que analisamos estejam dispostos em formato de tabelas, sobretudo, quando falamos em análise estatística de dados.
- Esses dados, no formato de tabela, podem apresentar, por exemplo, colunas que trazem diferentes atributos do dado, e linhas que trazem um conjunto de observações.
- Para exemplificar, [veja esse dataset](https://en.wikipedia.org/wiki/Iris_flower_data_set).

Para nos ajudar a lidar com esses dados em formato de tabelas, o Pandas nos fornece um objeto, chamado DataFrame, que é capaz de armazenar e manipular esse tipo de dado de uma forma equivalente às planilhas de Excel.

In [2]:
# Importação das bibliotecas
import numpy as np
import pandas as pd

# Series

A `Series` é como uma coluna ou uma linha do nosso DataFrame (tabela). Embora possa parecer que esse objeto é idêntico a um Numpy array, ele possui atributos distintos, os quais vamos estudar agora.

In [None]:
# Um exemplo usando os passos que eu dei na semana
steps = pd.Series([4126, 3867, 7934, 4180, 5344])

In [None]:
steps

0    4126
1    3867
2    7934
3    4180
4    5344
dtype: int64

In [None]:
type(steps)

pandas.core.series.Series

## Como retornar os valores da série

In [None]:
steps.values

array([4126, 3867, 7934, 4180, 5344])

## Como retorna os indices do série

In [None]:
# range de 0 a 5 com passo 1
steps.index

RangeIndex(start=0, stop=5, step=1)

## Como nomear cada índice

In [None]:
steps = pd.Series(data=[4126, 3867, 7934, 4180, 5344], index=['seg', 'ter', 'qua', 'qui', 'sex'])

In [None]:
steps

seg    4126
ter    3867
qua    7934
qui    4180
sex    5344
dtype: int64

In [None]:
steps.index

Index(['seg', 'ter', 'qua', 'qui', 'sex'], dtype='object')

## Funções do Numpy

> Lembrando que o valor de uma Serie é retornado em forma de array, ou seja, é possível utilizar as funções do Numpy.

In [None]:
steps.min()

3867

In [None]:
steps.max()

7934

In [None]:
steps.mean()

5090.2

In [None]:
steps.sum()

25451

## Para visualizar um conjunto de informações

In [None]:
steps.describe()

count       5.000000
mean     5090.200000
std      1688.636787
min      3867.000000
25%      4126.000000
50%      4180.000000
75%      5344.000000
max      7934.000000
dtype: float64

Essa estrutura é bem flexível. Veja alguns exemplos do que você pode fazer com ela:

In [None]:
steps * 2

seg     8252
ter     7734
qua    15868
qui     8360
sex    10688
dtype: int64

In [None]:
np.sqrt(steps)

seg    64.233947
ter    62.185207
qua    89.073004
qui    64.652920
sex    73.102668
dtype: float64

## Criando uma series com dicionários

In [None]:
dic = {'python': 10, 'javascript': 9, 'matlab':7}

In [None]:
series = pd.Series(dic)

In [None]:
series

python        10
javascript     9
matlab         7
dtype: int64

## Indexação

In [None]:
s = pd.Series(data=np.random.randint(1, 5, 10), index=['A B C D E F G H I J'.split()])

In [None]:
s

A    3
B    4
C    2
D    4
E    3
F    4
G    2
H    1
I    1
J    3
dtype: int64

In [None]:
s[0]

3

In [None]:
s['A']

3

In [None]:
s[2:4]

C    2
D    4
dtype: int64

In [None]:
s['C':'D']

C    2
D    4
dtype: int64

## Operações

In [None]:
s1 = pd.Series(data=np.random.randint(1, 100, 3), index='facebook instagram youtube'.split())

In [None]:
s2 = pd.Series(data=np.random.randint(1, 100, 3), index='facebook instagram tiktok'.split())

In [None]:
s1

facebook     84
instagram    26
youtube      80
dtype: int64

In [None]:
s2

facebook     45
instagram    67
tiktok       23
dtype: int64

In [None]:
s1 + s2

facebook     129.0
instagram     93.0
tiktok         NaN
youtube        NaN
dtype: float64

In [None]:
s1 - s2

facebook     39.0
instagram   -41.0
tiktok        NaN
youtube       NaN
dtype: float64

## Mascaras

In [None]:
s

A    3
B    4
C    2
D    4
E    3
F    4
G    2
H    1
I    1
J    3
dtype: int64

### Retornando os valores maiores de 2

In [None]:
s[s > 2]

A    3
B    4
D    4
E    3
F    4
J    3
dtype: int64

Apenas os índices dos maiore de 2:

In [None]:
s[s > 2].index

MultiIndex([('A',),
            ('B',),
            ('D',),
            ('E',),
            ('F',),
            ('J',)],
           )

# DataFrame

DataFrame é capaz de armazenar e manipular esse tipo de dado de uma forma equivalente às planilhas de Excel.

> DataFrame é com conjunto de Series

In [3]:
dados = np.array([[72, 180, 26], [80, 170, 19], [60, 165, 15]])

dados

array([[ 72, 180,  26],
       [ 80, 170,  19],
       [ 60, 165,  15]])

In [8]:
df = pd.DataFrame(data=dados, columns=['Peso', 'Altura', 'Idade'])
df

Unnamed: 0,Peso,Altura,Idade
0,72,180,26
1,80,170,19
2,60,165,15


## Indexação

In [9]:
df['Altura']

0    180
1    170
2    165
Name: Altura, dtype: int64

> DataFrame é um conjunto de Series

In [10]:
type(df['Altura'])

pandas.core.series.Series

### Para acessar as linhas (índice)

In [11]:
df.loc[1]

Peso       80
Altura    170
Idade      19
Name: 1, dtype: int64

### Para acessar um dado especifico

In [12]:
df['Altura'][1]

170

In [13]:
df.loc[1]['Altura']

170

### Acessando mais de uma coluna

In [15]:
df[['Peso', 'Altura']]

Unnamed: 0,Peso,Altura
0,72,180
1,80,170
2,60,165


### Acessando dado com índices númericos

In [17]:
df.iloc[2][1]

165