# Pandas
### Biblioteca python, util para analise de dados

In [1]:
import pandas as pd
import numpy as np

###### Series

É uma coluna ou linha de um DataFrame

In [3]:
flower = pd.Series([5.1 ,3.5 ,1.4 ,0.2 ])
type(flower)
#Inspirado nos dados em: https://pt.wikipedia.org/wiki/Conjunto_de_dados_flor_Iris

In [6]:
flower

0    5.1
1    3.5
2    1.4
3    0.2
dtype: float64

In [7]:
flower.values #valores da serie
flower.index #indices da serie

RangeIndex(start=0, stop=4, step=1)

In [9]:
flor = pd.Series(data=[5.1 ,3.5 ,1.4 ,0.2 ],index=['comp sép','larg sép','comp pét','larg pét'])
flor

comp sép    5.1
larg sép    3.5
comp pét    1.4
larg pét    0.2
dtype: float64

In [10]:
flor.index

Index(['comp sép', 'larg sép', 'comp pét', 'larg pét'], dtype='object')

In [11]:
flor.min() #menor valor
flor.max() #maior valor

5.1

In [12]:
flor.mean() #media

2.55

In [13]:
flor.sum() #soma

10.2

In [14]:
#Conjunto de informações matematicas:
flor.describe()

count    4.000000
mean     2.550000
std      2.179449
min      0.200000
25%      1.100000
50%      2.450000
75%      3.900000
max      5.100000
dtype: float64

In [15]:
flor*2

comp sép    10.2
larg sép     7.0
comp pét     2.8
larg pét     0.4
dtype: float64

In [16]:
np.sqrt(flor)

comp sép    2.258318
larg sép    1.870829
comp pét    1.183216
larg pét    0.447214
dtype: float64

**OBS**: Serie tem forma de dicionário

In [2]:
dicio = {'pandas':10 , 'Thiaguinho':2, 'Teteu':10,'Cesinha':9}
ser = pd.Series(dicio)
ser

pandas        10
Thiaguinho     2
Teteu         10
Cesinha        9
dtype: int64

### Indexação

In [6]:
s = pd.Series(np.random.randint(1,5,10),index = ['A','B','C','D','E','F','G','H','I','J'])  
#pode-se usar .split na string pra facilitar
'A B C D E'.split()

['A', 'B', 'C', 'D', 'E']

In [10]:
s

A    4
B    4
C    4
D    3
E    4
F    2
G    1
H    2
I    1
J    2
dtype: int64

In [11]:
s[4]

4

Quando colocamos strings como nossos índices, podemos acessar cada elemento pelo seu valor assim como pela string! 

In [14]:
s[3]

3

In [13]:
s['A']

4

In [15]:
s[0:4] #nao incluiu o indice 4 de fato (letra E)

A    4
B    4
C    4
D    3
dtype: int64

In [16]:
s['A':'E'] #incliu o indice 4 (letra E)

A    4
B    4
C    4
D    3
E    4
dtype: int64

In [17]:
ser['Thiaguinho':'Teteo']

Thiaguinho     2
Teteu         10
dtype: int64

### Operações

In [22]:
t1 = pd.Series(data=np.random.randint(1,10,3),index = 'Rede1 Rede2 Rede3'.split())
t2 = pd.Series(data=np.random.randint(1,10,3),index = 'Rede2 Rede2 Rede1'.split())

In [26]:
t1+t2

Rede1    10.0
Rede2    15.0
Rede2    10.0
Rede3     NaN
dtype: float64

In [24]:
t1

Rede1    7
Rede2    6
Rede3    2
dtype: int64

In [25]:
t2

Rede2    9
Rede2    4
Rede1    3
dtype: int64

    A soma ocorre nos indices iguais. No caso, Rede2 se repete em t2, de forma que há uma distributiva e no final há dois valores diferentes para Rede2. Rede3 resulta em 'Not a Number' devido a falta de outro igual em t2.

### Máscaras

    Por exemplo, peguemos os valores >2 em s:

In [27]:
s[s>2]

A    4
B    4
C    4
D    3
E    4
dtype: int64

In [29]:
s[s>2].index

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

## DataFrame

    O DataFrame é um objeto da biblioteca do Pandas que é muito precioso para qualquer pessoa que está trabalhando com análise de dados. O fato é que esse objeto nos permite armazenar um conjunto de dados em formato de tabela, o que é formato muito comum de se armazenar grandes volumes de dados, sejam eles numéricos ou categóricos.    
    Há algumas maneiras diferentes de se utilizá-los, como:
    
- Array Bidimensional + Lista de Colunas *(O mais comum e o que utilizaremos no restante deste caderno)*

In [None]:
array = np.array([[72, 180, 26], [80, 170, 19], [60, 165, 15]])
df = pd.DataFrame(data=array, columns=['Peso', 'Altura', 'Idade'])

- Dicionário de Listas

In [None]:
dl = {'Peso': [72, 80, 60], 'Altura': [180, 170, 165], 'Idade': [26, 19, 15]}

df = pd.DataFrame(dl)

- Lista de Dicionários

In [None]:
    ld = [
    {
        'Peso': 72,
        'Altura': 180,
        'Idade': 26
    },
    {
        'Peso': 80,
        'Altura': 170,
        'Idade': 19
    },
    {
        'Peso': 60,
        'Altura': 165,
        'Idade': 15
    }
]

    df = pd.DataFrame(ld)

- Lista de Tuplas

In [None]:
    lt = [
    (72, 180, 26),
    (80, 170, 19),
    (60, 165, 15)
]

    df = pd.DataFrame(lt, columns=['Peso', 'Altura', 'Idade'])

- Dicionário de Series

In [None]:
ds = {'Peso': pd.Series([72, 80, 60]), 'Altura': pd.Series([180, 170, 165]), 'Idade': pd.Series([26, 19, 15])}

df = pd.DataFrame(ds)

[Clique aqui para mais informações](https://walissonsilva.com/blog/diferentes-formas-de-criar-um-dataframe)

In [30]:
dados = np.array([[14,167,142],[13,156,18],[6,22,800]])
dados

array([[ 14, 167, 142],
       [ 13, 156,  18],
       [  6,  22, 800]])

In [32]:
DataFrame = pd.DataFrame(data = dados,index = ['linha1','linha2','linha3'],columns = ['Coluna1','Coluna2','Coluna3'])
DataFrame  #index vazio faz com que as linhas sejam numeradas de 0 ~maximo

Unnamed: 0,Coluna1,Coluna2,Coluna3
linha1,14,167,142
linha2,13,156,18
linha3,6,22,800


### Indexação

In [33]:
DataFrame['Coluna1']  #Retorna uma Series

linha1    14
linha2    13
linha3     6
Name: Coluna1, dtype: int64

    Tentar recortar DataFrame[0] resultará em erro pois não existe coluna 0, apenas 'Coluna1'.

In [44]:
DataFrame.loc['linha2'] #Retorna uma series com a linha. Mas deve ser explicitada o nome da linha, não sua indexação.

Coluna1     13
Coluna2    156
Coluna3     18
Name: linha2, dtype: int64

In [45]:
DataFrame.loc['linha1']['Coluna2']

167

In [47]:
DataFrame['Coluna2']['linha3']

22

In [49]:
DataFrame[['Coluna1','Coluna3']]

Unnamed: 0,Coluna1,Coluna3
linha1,14,142
linha2,13,18
linha3,6,800


In [50]:
DataFrame.iloc[2][1] #Acessa informações da dataframe só c numeros

22

### Lendo e Salvando Datasets com Pandas (CSV, EXCEL e HTML) 

In [2]:
df = pd.read_csv('teste.csv')

In [3]:
df

Unnamed: 0,Location,Period,Indicator,Dim1,First Tooltip
0,Afghanistan,2016,Probability (%) of dying between age 30 and ex...,Both sexes,29.8
1,Afghanistan,2016,Probability (%) of dying between age 30 and ex...,Male,31.8
2,Afghanistan,2016,Probability (%) of dying between age 30 and ex...,Female,27.7
3,Afghanistan,2015,Probability (%) of dying between age 30 and ex...,Both sexes,29.8
4,Afghanistan,2015,Probability (%) of dying between age 30 and ex...,Male,31.9
...,...,...,...,...,...
2740,Zimbabwe,2005,Probability (%) of dying between age 30 and ex...,Male,22.1
2741,Zimbabwe,2005,Probability (%) of dying between age 30 and ex...,Female,22.9
2742,Zimbabwe,2000,Probability (%) of dying between age 30 and ex...,Both sexes,21.6
2743,Zimbabwe,2000,Probability (%) of dying between age 30 and ex...,Male,21.6


In [21]:
#Recortando os dados que nos interessa
ind = 0
index = []
for i in a.values:   # laço para saber quais index estão o BR
    ind = ind + 1
    if i == 'Brazil':
        index.append(ind)
index

df[330:345]

Unnamed: 0,Location,Period,Indicator,Dim1,First Tooltip
330,Brazil,2016,Probability (%) of dying between age 30 and ex...,Both sexes,16.6
331,Brazil,2016,Probability (%) of dying between age 30 and ex...,Male,20.0
332,Brazil,2016,Probability (%) of dying between age 30 and ex...,Female,13.5
333,Brazil,2015,Probability (%) of dying between age 30 and ex...,Both sexes,17.0
334,Brazil,2015,Probability (%) of dying between age 30 and ex...,Male,20.5
335,Brazil,2015,Probability (%) of dying between age 30 and ex...,Female,13.8
336,Brazil,2010,Probability (%) of dying between age 30 and ex...,Both sexes,19.0
337,Brazil,2010,Probability (%) of dying between age 30 and ex...,Male,23.0
338,Brazil,2010,Probability (%) of dying between age 30 and ex...,Female,15.4
339,Brazil,2005,Probability (%) of dying between age 30 and ex...,Both sexes,20.8


Há também o pd.read_html() para casos em que a tabela está num site.