## <font color=green> Series

In [38]:
import pandas as pd

- Series são objetos unidimensionais contendo dados e labels (ou index)
- Formas de criação de Series

In [39]:
s = pd.Series(list('abcdef'))
s

0    a
1    b
2    c
3    d
4    e
5    f
dtype: object

In [40]:
s = pd.Series([2, 4, 6, 8])
s

0    2
1    4
2    6
3    8
dtype: int64

- O index pode ser especificado

In [41]:
s = pd.Series([2, 4, 6, 8], index = ['f', 'a', 'c', 'e'])
s

f    2
a    4
c    6
e    8
dtype: int64

- O valor pode ser selecionado pelo seu index

In [42]:
s['a']

4

- Assim como múltiplos valores também podem ser selecionados

In [43]:
s[['a','c']]

a    4
c    6
dtype: int64

- Os indices não precisam ser valores únicos

In [44]:
s2 = pd.Series(range(4), index = list('abab'))
s2

a    0
b    1
a    2
b    3
dtype: int64

In [45]:
s2['a']

a    0
a    2
dtype: int64

In [46]:
s2['a'][1]

2

- Series suportam operações de filtragem

In [47]:
s

f    2
a    4
c    6
e    8
dtype: int64

In [48]:
s[s>4]

c    6
e    8
dtype: int64

In [49]:
s>4

f    False
a    False
c     True
e     True
dtype: bool

- Podemos realizar também operações aritméticas


In [50]:
s+4

f     6
a     8
c    10
e    12
dtype: int64

In [51]:
s*4

f     8
a    16
c    24
e    32
dtype: int64

- Series suportam variáveis nulas

In [52]:
sdata = {'b': 100, 'c': 150, 'd': 200}
s = pd.Series(sdata)
s

b    100
c    150
d    200
dtype: int64

In [53]:
s = pd.Series(sdata, list('abcd'))
s

a      NaN
b    100.0
c    150.0
d    200.0
dtype: float64

- É possível realizar também operações aritméticas entre duas séries

In [54]:
s2 = pd.Series([1,2,3], index = ['c','b','a'])
s2

c    1
b    2
a    3
dtype: int64

In [55]:
s*s2

a      NaN
b    200.0
c    150.0
d      NaN
dtype: float64

## <font color=green> DataFrame

- DataFrames são como planilhas, uma estrutura de dados contendo uma coleção de colunas.
- Possui linhas e colunas

In [56]:
data = {'pontuação':[71, 90, 80, 72, 80, 81],
        'time':['Flamengo', 'Flamengo', 'Palmeiras', 'Corinthians', 'Palmeiras', 'Corinthians'],
        'ano':[2020, 2019, 2018, 2017, 2016, 2015]}
frame = pd.DataFrame(data)
frame

Unnamed: 0,pontuação,time,ano
0,71,Flamengo,2020
1,90,Flamengo,2019
2,80,Palmeiras,2018
3,72,Corinthians,2017
4,80,Palmeiras,2016
5,81,Corinthians,2015


In [57]:
pop_data = {'Flamengo': {2020:71, 2019:90},
        'Palmeiras': {2018:80, 2016:80},
        'Corinthians': {2017:72, 2015:81}}
pop = pd.DataFrame(pop_data)
pop

Unnamed: 0,Flamengo,Palmeiras,Corinthians
2020,71.0,,
2019,90.0,,
2018,,80.0,
2016,,80.0,
2017,,,72.0
2015,,,81.0


- As colunas podem ser retornadas como uma série

In [58]:
frame['time']

0       Flamengo
1       Flamengo
2      Palmeiras
3    Corinthians
4      Palmeiras
5    Corinthians
Name: time, dtype: object

- O atributo values retorna os dados contidos no DataFrame como um array bidimensional

In [59]:
pop.values

array([[71., nan, nan],
       [90., nan, nan],
       [nan, 80., nan],
       [nan, 80., nan],
       [nan, nan, 72.],
       [nan, nan, 81.]])

In [60]:
pop['Flamengo'].values

array([71., 90., nan, nan, nan, nan])

- Novas colunas podem ser adicionadas (por cálculo aritmético ou atribuição direta)

In [61]:
import numpy as np

In [62]:
frame['nova coluna'] = np.NaN
frame

Unnamed: 0,pontuação,time,ano,nova coluna
0,71,Flamengo,2020,
1,90,Flamengo,2019,
2,80,Palmeiras,2018,
3,72,Corinthians,2017,
4,80,Palmeiras,2016,
5,81,Corinthians,2015,


In [63]:
frame['processada'] = frame['pontuação'] * 2
frame

Unnamed: 0,pontuação,time,ano,nova coluna,processada
0,71,Flamengo,2020,,142
1,90,Flamengo,2019,,180
2,80,Palmeiras,2018,,160
3,72,Corinthians,2017,,144
4,80,Palmeiras,2016,,160
5,81,Corinthians,2015,,162


- DataFrames permitem trocar linhas por colunas

In [64]:
pop.T

Unnamed: 0,2020,2019,2018,2016,2017,2015
Flamengo,71.0,90.0,,,,
Palmeiras,,,80.0,80.0,,
Corinthians,,,,,72.0,81.0


- DataFrame tem suporte a funções descritivas e estatísticas

In [65]:
pop

Unnamed: 0,Flamengo,Palmeiras,Corinthians
2020,71.0,,
2019,90.0,,
2018,,80.0,
2016,,80.0,
2017,,,72.0
2015,,,81.0


- Describe gera vários dados estatísticos de resumo de uma só vez

In [66]:
pop.describe()

Unnamed: 0,Flamengo,Palmeiras,Corinthians
count,2.0,2.0,2.0
mean,80.5,80.0,76.5
std,13.435029,0.0,6.363961
min,71.0,80.0,72.0
25%,75.75,80.0,74.25
50%,80.5,80.0,76.5
75%,85.25,80.0,78.75
max,90.0,80.0,81.0


- Chamar o método sum de DataFrame devolve uma Series contendo as soma das colunas

In [67]:
pop.sum()

Flamengo       161.0
Palmeiras      160.0
Corinthians    153.0
dtype: float64

- Passar axis='columns' faz a soma pelas colunas

In [68]:
pop.sum(axis='columns')

2020    71.0
2019    90.0
2018    80.0
2016    80.0
2017    72.0
2015    81.0
dtype: float64

- Mean retorna a média dos valores

In [69]:
pop.mean()

Flamengo       80.5
Palmeiras      80.0
Corinthians    76.5
dtype: float64

- Median retorna a mediana dos valores

In [70]:
pop.median()

Flamengo       80.5
Palmeiras      80.0
Corinthians    76.5
dtype: float64

- min e max calcula os valores mínimo e máximo

In [71]:
pop.min()

Flamengo       71.0
Palmeiras      80.0
Corinthians    72.0
dtype: float64

In [72]:
pop.max()

Flamengo       90.0
Palmeiras      80.0
Corinthians    81.0
dtype: float64

- Pandas carrega vários tipos de dados como csv, json, xml, html, excel

In [73]:
walmart = pd.read_csv('datasets/Walmart_Store_sales.csv')
walmart

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.90,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.242170,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,26-02-2010,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,05-03-2010,1554806.68,0,46.50,2.625,211.350143,8.106
...,...,...,...,...,...,...,...,...
6430,45,28-09-2012,713173.95,0,64.88,3.997,192.013558,8.684
6431,45,05-10-2012,733455.07,0,64.89,3.985,192.170412,8.667
6432,45,12-10-2012,734464.36,0,54.47,4.000,192.327265,8.667
6433,45,19-10-2012,718125.53,0,56.47,3.969,192.330854,8.667


- É possível realizar consultas por coluna e por index

In [None]:
walmart.query('Holiday_Flag == 1')

In [None]:
walmart.query('Weekly_Sales > 3049614.93')

In [None]:
walmart.query('1 <= index < 7')

- .iloc acessa por posição (linha,coluna)
- .loc permite acessar as variáveis por index 

In [None]:
walmart.iloc[0,1]

In [None]:
walmart.loc[[0,1,2]]

In [None]:
walmart.loc[0]

- .loc também permite criar condições para retornar 

In [None]:
walmart

In [None]:
walmart.loc[walmart['Holiday_Flag'] == 1]

In [None]:
walmart.loc[(walmart['Temperature'] > 90) & (walmart['Store'] == 1)]

- DataFrames permitem fazer copias

In [None]:
df_aux = walmart.copy()
df_aux

- Podemos utilizar del para excluir colunas

In [None]:
del df_aux['CPI']
df_aux

- Já para excluir linhas devemos utilizar o drop

In [None]:
df_aux.drop(0)

In [None]:
df_aux.drop([1,3])

- Perceba que drop retorna um novo objeto removendo o que foi passado por paramentro. Mas o objeto original não é modificado

In [None]:
df_aux

- Para realizar a operação no mesmo objeto é necessário passar True no parametro inplace

In [None]:
df_aux.drop([1,3], inplace=True)
df_aux

- Drop também permite a remoção de colunas

In [None]:
df_aux.drop(['Fuel_Price','Unemployment'], inplace=True, axis='columns')
df_aux

In [None]:
df_aux.index.name = 'indice'
df_aux.columns.name = 'dados'

In [None]:
df_aux

## <font color=green> Reindexação

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

- Reindex nessa Series reorganiza os dados de acordo com o novo índice, introduzindo valores indicativos de ausência se algum valor de índice não estava presente antes

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

- Para dados ordenados, como séries temporais, talvez seja desejável fazer alguma interpolação ou preenchimento de valores de reindexação. A opção method nos permite fazer isso, usando um método como ffill, que faz um preenchimento para a frente (foward-fill) dos valores, enquanto bfill preenche pra trás

In [None]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

In [None]:
obj3.reindex(range(6), method='ffill')

In [None]:
obj3.reindex(range(6), method='bfill')

- Com DataFrame, reindex pode alterar o índice (linha), as colunas, ou ambas. Se apenas uma sequência for passada, as linhas serão reindexadas no resultado

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3,3)), 
                        index=['a','c','d'], 
                        columns=['Ohio', 'Texas', 'California'])
frame

In [None]:
frame2 = frame.reindex(['a','b','c','d'])
frame2

In [None]:
frame3 = frame.reindex(columns=['Texas', 'Utah', 'California'])
frame3