# Pandas: Essencial - Parte 1

*Pandas é uma biblioteca bem popular e eficaz do Python para manipulação, modelagem e análise de dados. Veremos abaixo algumas das principais tarefas e funções do Pandas.*

Importando bibliotecas

In [None]:
import pandas as pd #esta é a biblioteca do Pandas
import numpy as np #vamos precisar do Numpy também

### Séries em Pandas

*Uma Serie é como um array unidimensional, uma lista de valores. Toda Serie possui um índice, que dá rótulos a cada elemento da lista*

Criando uma lista que será convertida em série Pandas

In [None]:
array = [1, 2, 4, 6, 8, 10]

Convertendo para uma série Pandas

In [None]:
ds_array = pd.Series(array)
print(ds_array)

0     1
1     2
2     4
3     6
4     8
5    10
dtype: int64


Convertendo Série Pandas para Lista

In [None]:
list_array = ds_array.tolist()
print(list_array)

[1, 2, 4, 6, 8, 10]


Convertendo um dicionário para uma série Pandas

In [None]:
dict = {'a1' : 1, 'a2' : 5, 'a3' : 20, 'a4' : 50, 'a5' : 80}
dict_series = pd.Series(dict)
print(dict_series)

a1     1
a2     5
a3    20
a4    50
a5    80
dtype: int64


Convertendo array Numpy para série Pandas

In [None]:
array = [1, 3, 4, 7, 8, 10 ,15]
np_array = np.array(array)
ds_array = pd.Series(np_array)
print(ds_array)

0     1
1     3
2     4
3     7
4     8
5    10
6    15
dtype: int32


Alterando index da Serie

In [None]:
ds_array.index = ['a', 'b', 'c', 'd', 'e', 'f', 'g']
print(ds_array)

a     1
b     3
c     4
d     7
e     8
f    10
g    15
dtype: int32


Convertendo uma lista com string e floats para série Pandas

In [None]:
array = ['1', '2', 'Python', '5', '6', 'Pandas', '9', '14']
ds_array = pd.Series(array)
print(ds_array)

0         1
1         2
2    Python
3         5
4         6
5    Pandas
6         9
7        14
dtype: object


Convertendo ds_array para uma série numérica

In [None]:
ds_array2 = pd.to_numeric(ds_array, errors='coerce')
print(ds_array2)

0     1.0
1     2.0
2     NaN
3     5.0
4     6.0
5     NaN
6     9.0
7    14.0
dtype: float64


Armazenando valores da série numa variável - *os valores passam a não estar mais atrelados aos seus respectivos indexes* 

In [None]:
valores_serie = ds_array.values
print(valores_serie)

['1' '2' 'Python' '5' '6' 'Pandas' '9' '14']


Convertendo três listas para uma série

In [None]:
array11 = ['A','B','C']
array12 = ['1','2','3','4']
array13 = ['d','e']
serie = pd.Series([array11,array12,array13])
print(serie)

0       [A, B, C]
1    [1, 2, 3, 4]
2          [d, e]
dtype: object


*Cada elemento de uma Série não precisa necessariamente armazenar um único valor, podemos armazenar outros vetores também*

Convertendo a série acima para uma única série

In [None]:
serie_unique = serie.apply(pd.Series).stack().reset_index(drop=True)
#parâmetro drop indica para não inserir em colunas separadas
print(serie_unique)

0    A
1    B
2    C
3    1
4    2
5    3
6    4
7    d
8    e
dtype: object


Adicionando elementos novos numa série

In [None]:
array = ['10', '30', 'ABC', '50', 'Python', 'Teste']
ds_array = pd.Series(array)
print("Série Original")
print(ds_array)

Série Original
0        10
1        30
2       ABC
3        50
4    Python
5     Teste
dtype: object


In [None]:
new = pd.Series(['20', '25'])
new_ds_array = ds_array.append(new)
print("Série nova")
print(new_ds_array)

Série nova
0        10
1        30
2       ABC
3        50
4    Python
5     Teste
0        20
1        25
dtype: object


### Funções Matemáticas

Somando séries Pandas

In [None]:
serie1 = [3, 7, 9, 10, 13, 15, 18]
serie2 = [2, 3, 6, 8, 10, 12, 14]
ds_array1 = pd.Series(serie1)
ds_array2 = pd.Series(serie2)
ds_sum = ds_array1 + ds_array2
print(ds_sum)

0     5
1    10
2    15
3    18
4    23
5    27
6    32
dtype: int64


Subtraindo séries

In [None]:
ds_diff = ds_array1 - ds_array2
print(ds_diff)

0    1
1    4
2    3
3    2
4    3
5    3
6    4
dtype: int64


Multiplicando séries

In [None]:
ds_mult = ds_array1 * ds_array2
print(ds_mult)

0      6
1     21
2     54
3     80
4    130
5    180
6    252
dtype: int64


Dividindo séries

In [None]:
ds_div = ds_array1 / ds_array2
print(ds_div)

0    1.500000
1    2.333333
2    1.500000
3    1.250000
4    1.300000
5    1.250000
6    1.285714
dtype: float64


### Comparações

Utilizando operadores Booleanos nas séries

In [None]:
array = [1, 2, 3, 5, 8, 12, 15, 20, 40, 50, 80, 100, 150, 180, 250, 280, 290, 300]
array_ds = pd.Series(array)

Valores maiores do que 10 em formato booleano

In [None]:
array_bool = array_ds > 10
print(array_bool)

0     False
1     False
2     False
3     False
4     False
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
dtype: bool


Valores menores do que 10

In [None]:
array1 = array_ds[array_ds < 10]
print(array1)

0    1
1    2
2    3
3    5
4    8
dtype: int64


Valores maiores do que 50

In [None]:
array2 = array_ds[array_ds > 50]
print(array2)

10     80
11    100
12    150
13    180
14    250
15    280
16    290
17    300
dtype: int64


Valores maiores do que 30 e menores do que 250

In [None]:
array3 = array_ds[(array_ds > 30) & (array_ds < 250)]
print(array3)

8      40
9      50
10     80
11    100
12    150
13    180
dtype: int64


Valores maiores e igual a 8 e menores e igual a 250

In [None]:
array4 = array_ds[(array_ds >= 8) & (array_ds <= 250)]
print(array4)

4       8
5      12
6      15
7      20
8      40
9      50
10     80
11    100
12    150
13    180
14    250
dtype: int64


### DataFrame

*Um DataFrame é uma estrutura bidimensional de dados, como uma tabela*

In [None]:
df = pd.DataFrame({'Aluno' : ["Marcel", "Bruno", "Leticia", "Julia", "Marcos"],
                   'Faltas' : [3, 4, 2, 1, 4],
                   'Prova' : [2, 7, 5, 10, 6],
                   'Seminário': [8.5, 7.5, 9.0, 7.5, 8.0]})
print(df)

     Aluno  Faltas  Prova  Seminário
0    Bruno       3      2        8.5
1   Marcos       4      7        7.5
2  Leticia       2      5        9.0
3    Julia       1     10        7.5
4     Omar       4      6        8.0


*Um DataFrame pode ser formado de várias Series*

In [None]:
obj = pd.Series([4, 7, -5, None])
pesos = pd.Series([70, 60, 50, 80])
idade = pd.Series([20, 22, 24, 26])
quadro = pd.DataFrame({'obj': obj, 'pesos': pesos, 'idade': idade})
print(quadro)

   obj  pesos  idade
0  4.0     70     20
1  7.0     60     22
2 -5.0     50     24
3  NaN     80     26


Acrescentando um item com  append

*Se quisermos acrescentar uma Serie no DataFrame, precisamos utilizar o parâmetro ignore_index=True para que seja criado mais um registro com um novo index (veja abaixo o que acontece quando não utilizamos esse parâmetro)*

In [None]:
#este código irá gerar um erro propositalmente para demonstração
vetor = pd.Series([3, 54, 19])
quadro = quadro.append(vetor)
print(quadro)

TypeError: Can only append a Series if ignore_index=True or if the Series has a name

*Agora vamos utilizar ignore_index=True*

In [None]:
quadro2 = quadro
vetor = pd.Series([3, 54, 19])
quadro2 = quadro2.append(vetor, ignore_index=True)
print(quadro2)

   obj  pesos  idade    0     1     2
0  4.0   70.0   20.0  NaN   NaN   NaN
1  7.0   60.0   22.0  NaN   NaN   NaN
2 -5.0   50.0   24.0  NaN   NaN   NaN
3  NaN   80.0   26.0  NaN   NaN   NaN
4  NaN    NaN    NaN  3.0  54.0  19.0


*Não aconteceu bem aquilo do que gostaríamos, isso ocorreu porque não especificamos os nomes das colunas dos quais o Pandas deveria acrescentar*

*Para consertarmos isso, os nomes dos indexes desta Serie e das colunas do DataFrame precisam ser os mesmos*

In [None]:
vetor = pd.Series([3, 54, 19], index=['obj', 'pesos', 'idade'])
quadro = quadro.append(vetor, ignore_index=True)
print(quadro)

   obj  pesos  idade
0  4.0     70     20
1  7.0     60     22
2 -5.0     50     24
3  NaN     80     26
4  3.0     54     19
