![Nuclio logo](https://nuclio.school/wp-content/uploads/2018/12/nucleoDS-newBlack.png)

# Pandas

Pandas é uma biblioteca de Python usada para análise de dados.

Embora Python seja uma linguagem útil para a preparação de dados, nunca foi considerado excepcional para análise, com a preferência muitas vezes dada a outras ferramentas como R, SQL ou até mesmo o Excel.

No entanto, com o aparecimento do Pandas, essa dinâmica mudou significativamente!

Pandas oferece:

- Um desempenho excepcional
- Uma estrutura de dados de fácil utilização, semelhante a tabelas (comparável às Séries e DataFrames em R)
- Excelentes ferramentas para análise de dados, incluindo recursos para reformatar, concatenar, adicionar, ordenar, segmentar, entre outros
- Capacidades avançadas de tratamento de dados ausentes (ou nulos)

In [1]:
import pandas as pd


## Estruturas de dados dos Pandas

Pandas apresenta duas novas estruturas de dados no Python:

- **Series:** estruturas unidimensionais
- **DataFrames:** estruturas multidimensionais


Resumidamente, uma **Serie** é uma coluna,
e uma **DataFrame** é uma tabela multi-dimensional gerada a partir de um conjunto de **Series**.

![title](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

# Pandas Series

Uma serie é um array unidimensional que pode conter diversos tipos de dados, podendo ser comparada a uma coluna de uma planilha do Excel.

Os rótulos dos itens em uma serie são chamados de índices, e cada item na serie é associado a um índice rotulado.

Normalmente, cada elemento é rotulado com um índice numérico que vai de 0 a N.

## Criação de uma serie: **pd.Series()**

Consegue-se criar uma serie através do método: **pd.series()**

In [None]:
import pandas as pd

In [2]:
pd.Series?

**pd.Series(data, index=index)**

- O primeiro argumento, **data**, pode conter diferentes tipos de dados (dicionário, ndarray, valor escalar, etc).

- O segundo item, **index**, é uma lista de keys para cada item da lista.

Há muitas formas de criar uma serie. As mais comuns são:

- A partir de uma lista ([ ])
- De um array NumPy (ndarray)
- De uma constante
- De um Dicionário Python (dict)

### Criação de uma serie a partir de uma lista

In [3]:
names = ["Abc", "Def", " Ghi", "Jkl", "Mno"]

In [5]:
my_series = pd.Series(names)

In [6]:
my_series

0     Abc
1     Def
2     Ghi
3     Jkl
4     Mno
dtype: object

**Nota:** Se não especificarmos uma etiqueta (*index*) para a serie, Python atribui-lhe uma etiqueta com o índice da posição de cada elemento.

Mas podemos atribuir rótulos aos elementos das series:

In [7]:
list_students = ["Student 1", "Student 2","Student 3","Student 4","Student 5"]

In [8]:
my_series2 = pd.Series(data=names, index = list_students)

In [9]:
my_series2

Student 1     Abc
Student 2     Def
Student 3     Ghi
Student 4     Jkl
Student 5     Mno
dtype: object



### Criação de uma serie a partir de um *ndarray*

**Nota:** Se criarmos uma serie a partir de um **ndarray**, o índice deve ter o mesmo tamanho do array passado.


#### Sem índice

Se não especificarmos índices, é atribuído um índice automaticamente.

In [10]:
import numpy as np

In [11]:
array_5_items = np.random.randn(5)

In [14]:
array_5_items

array([ 0.836991  , -0.81862529, -0.92437501, -1.30110204,  1.2260815 ])

In [12]:
s_wo_ind = pd.Series(data = array_5_items)

In [13]:
s_wo_ind

0    0.836991
1   -0.818625
2   -0.924375
3   -1.301102
4    1.226082
dtype: float64

#### Com o índice especificado

In [15]:
array_5_items = np.random.randn(5)
array_5_items

array([ 1.71313679,  0.44874719, -1.69812115, -0.64469534, -0.47940206])

In [16]:
list_5_indices = ['1', '10', '100', '1000', '10000']
print(list_5_indices)

['1', '10', '100', '1000', '10000']


In [17]:
s = pd.Series(data = array_5_items, index=list_5_indices)
s

1        1.713137
10       0.448747
100     -1.698121
1000    -0.644695
10000   -0.479402
dtype: float64

In [18]:
list_indices = ["ola"]
s2 = pd.Series(data = array_5_items, index=list_indices)
s2

ValueError: ignored

#### ATENÇÃO!

Pandas **permite valores de índice duplicados**. Isto porque, pd.Series() permite operações de alto desempenho usando métodos que não dependem do índice da serie.

### Criação de uma serie a partir de uma constante

Sim, é verdade! Também conseguimos gerar uma serie através de um valor constante, desde que lhe seja atribuído um índice.

In [19]:
num_series = pd.Series(data = 10, index = ['num'])
num_series

num    10
dtype: int64

In [20]:
num_series = pd.Series(5, index=['num1', 'num2','num3','num4'])
num_series

num1    5
num2    5
num3    5
num4    5
dtype: int64

In [21]:
num_series = pd.Series(10, index=['num1', 'num2','num3','num4','num1', 'num2','num3','num4','num1', 'num2','num3','num4','num1', 'num2','num3','num4'])
num_series

num1    10
num2    10
num3    10
num4    10
num1    10
num2    10
num3    10
num4    10
num1    10
num2    10
num3    10
num4    10
num1    10
num2    10
num3    10
num4    10
dtype: int64

### Criação de uma serie a partir de um dicionário



Também podemos criar uma serie através de um dicionário. Neste caso, as keys do dicionário serão os índices da serie.

In [22]:
d = {'Paris': 1100, 'New York': 1000, 'Madrid': 1300, 'London': 900,
     'Bangalore': 1450, 'Rio': None}
cities = pd.Series(d)
cities

Paris        1100.0
New York     1000.0
Madrid       1300.0
London        900.0
Bangalore    1450.0
Rio             NaN
dtype: float64

## Princípios Básicos de Pandas Series

### Índices e Valores

Uma serie é composta por dois elementos:

- Etiquetas ou Índices
- Valores da série

#### Índices

Índices são o nome que acompanha cada valor de uma serie.

Conseguimos obter os índices de uma serie ao usar a propriedade **index**.

In [23]:
d = {'Paris': 1100, 'New York': 1000, 'Madrid': 1300, 'London': 900,
     'Bangalore': 1450, 'Rio': None}
cities = pd.Series(d)
print(cities.index)

Index(['Paris', 'New York', 'Madrid', 'London', 'Bangalore', 'Rio'], dtype='object')


#### Valores

Os valores de uma serie são os elementos que a compõem.

Conseguimos obter os valores de uma serie ao usar a propriedade **value**.

In [None]:
cities

Paris        1100.0
New York     1000.0
Madrid       1300.0
London        900.0
Bangalore    1450.0
Rio             NaN
dtype: float64

In [None]:
cities.values

array([1100., 1000., 1300.,  900., 1450.,   nan])

### Aceder a elementos

Podemos aceder aos elementos de uma serie através dos seus **índices** ou **rótulos**.



#### Por um índice

In [24]:
cities

Paris        1100.0
New York     1000.0
Madrid       1300.0
London        900.0
Bangalore    1450.0
Rio             NaN
dtype: float64

In [None]:
cities[2]

1300.0



#### Por um rótulo

In [26]:
cities['London']

900.0

In [27]:
cities["New York"]

1000.0

### Modificar índices

#### Modificar automaticamente todos os índices

##### Reatribuindo a Serie com novos índices



In [28]:
cities

Paris        1100.0
New York     1000.0
Madrid       1300.0
London        900.0
Bangalore    1450.0
Rio             NaN
dtype: float64

In [29]:
new_ind = ['Val 1', 'Val 1', 'Val 3', 'Val 4', 'Val 5', 'Val 6']

In [30]:
cities_2 = pd.Series(cities.values, index=new_ind)
cities_2

Val 1    1100.0
Val 1    1000.0
Val 3    1300.0
Val 4     900.0
Val 5    1450.0
Val 6       NaN
dtype: float64

In [31]:
cities_2["Val 1"]

Val 1    1100.0
Val 1    1000.0
dtype: float64

##### Modificando índices diretamente

In [32]:
cities.index

Index(['Paris', 'New York', 'Madrid', 'London', 'Bangalore', 'Rio'], dtype='object')

In [33]:
cities.index = new_ind

In [34]:
cities

Val 1    1100.0
Val 1    1000.0
Val 3    1300.0
Val 4     900.0
Val 5    1450.0
Val 6       NaN
dtype: float64

### Modificar valores

In [35]:
print("Original Val1:")
print(cities['Val 1'])

cities['Val 1'] = 4000.0

print('New Val1:')
print(cities['Val 1'])

Original Val1:
Val 1    1100.0
Val 1    1000.0
dtype: float64
New Val1:
Val 1    4000.0
Val 1    4000.0
dtype: float64


In [36]:
cities["Val. 4"] = "ola mundo!"

In [37]:
cities

Val 1         4000.0
Val 1         4000.0
Val 3         1300.0
Val 4          900.0
Val 5         1450.0
Val 6            NaN
Val. 4    ola mundo!
dtype: object

### Verificar se um elemento existe



Para verificar se um elemento existe, temos que verificar se o seu rótulo aparece na serie.

In [38]:
cities

Val 1         4000.0
Val 1         4000.0
Val 3         1300.0
Val 4          900.0
Val 5         1450.0
Val 6            NaN
Val. 4    ola mundo!
dtype: object

In [39]:
print('Val 3' in cities)

True


In [40]:
print('Val 2' in cities)

False


In [42]:
print(4000.0 in cities.values)

True


In [48]:
print(np.nan in cities.values)

False


In [45]:
cities.values

array([4000.0, 4000.0, 1300.0, 900.0, 1450.0, nan, 'ola mundo!'],
      dtype=object)

### Nomeando uma série

Podemos também dar um nome a uma serie.

Podemos fazê-lo diretamente quando criamos a serie:

In [49]:
s = pd.Series(np.random.randn(5), name='Index trabalhado')

In [50]:
s

0   -0.140613
1   -0.339738
2    0.461039
3    1.596906
4    2.706980
Name: Index trabalhado, dtype: float64

E podemos obter esse nome invocando o atributo **name**.

In [51]:
s.name

'Index trabalhado'

In [52]:
cities.name = "Olá"

In [53]:
cities

Val 1         4000.0
Val 1         4000.0
Val 3         1300.0
Val 4          900.0
Val 5         1450.0
Val 6            NaN
Val. 4    ola mundo!
Name: Olá, dtype: object

E podemos, ainda, renomear a serie usando o método **rename()**:

In [54]:
s = s.rename("My SUPER function")
#s2.name
s

0   -0.140613
1   -0.339738
2    0.461039
3    1.596906
4    2.706980
Name: My SUPER function, dtype: float64

In [55]:
s.name = "Novo nome"
s

0   -0.140613
1   -0.339738
2    0.461039
3    1.596906
4    2.706980
Name: Novo nome, dtype: float64

## Funções próprias de Pandas Series

Uma vez que as series se comportam de forma semelhante aos *ndarrays* de NumPy, muitos dos métodos e funções de NumPy também se aplicam a Pandas Series.

### Funções de exploração


#### Dimensões - shape, count(), len()

O atributo **shape** retorna um tuplo com o tamanho da serie.

In [56]:
s = pd.Series(np.random.randn(5), ['a','b','c','d','e'])
s

a   -0.695058
b   -1.921043
c    0.102043
d    1.593018
e    0.000971
dtype: float64

In [57]:
s.shape

(5,)

Os métodos **count()** e **len()** também retornam o tamanho da serie. Contudo, **count()** não contabiliza os elementos cujo valor seja NaN.



In [58]:
s.count()

5

In [59]:
len(s)

5

In [60]:
cities

Val 1         4000.0
Val 1         4000.0
Val 3         1300.0
Val 4          900.0
Val 5         1450.0
Val 6            NaN
Val. 4    ola mundo!
Name: Olá, dtype: object

In [61]:
len(cities)

7

In [62]:
cities.count()

6

In [66]:
s['a'] = np.nan
s['b'] = np.nan
s['c'] = np.nan
s['d'] = np.nan
s['e'] = np.nan
s

a   NaN
b   NaN
c   NaN
d   NaN
e   NaN
dtype: float64

In [67]:
len(s)

5

In [68]:
s.count()

0

In [69]:
len(s) == s.count()

False



#### Imprimir linhas - head(), tail()

- O método **head()** imprime as primeiras x linhas da Pandas Series

- O método **tail()** imprime as últimas x linhas da Pandas Series

In [70]:
s = pd.Series(np.random.randn(5), ['a','b','c','d','e'])
s

a   -0.887581
b    1.966279
c   -0.374105
d    1.563167
e    0.082537
dtype: float64

In [71]:
s.head(3)

a   -0.887581
b    1.966279
c   -0.374105
dtype: float64

In [72]:
s.tail(1)

e    0.082537
dtype: float64

In [73]:
s.head()

a   -0.887581
b    1.966279
c   -0.374105
d    1.563167
e    0.082537
dtype: float64

In [74]:
s.tail()

a   -0.887581
b    1.966279
c   -0.374105
d    1.563167
e    0.082537
dtype: float64

#### Operações estatísticas

- Mínimo

In [75]:
s.min()

-0.8875805082295913

- Máximo

In [76]:
s.max()

1.9662790274300226

- Média

In [77]:
s.mean()

0.4700593900859672

- Desvio padrão

In [78]:
s.std()

1.238903914705416

#### Método describe()

Conseguimos obter algumas informações estatísticas acerca de uma serie através do método **describe()**.

In [81]:
describe = s.describe()
describe

count    5.000000
mean     0.470059
std      1.238904
min     -0.887581
25%     -0.374105
50%      0.082537
75%      1.563167
max      1.966279
dtype: float64

In [82]:
describe["75%"]

1.5631670417247954

In [83]:
describe["max"]

1.9662790274300226

### Operações vetorizadas



No NumPy, conseguimos efetuar operações vetorizadas (elemento a elemento). O mesmo conseguimos fazer com Pandas Series.

#### Operações com constantes

In [84]:
s = pd.Series(np.random.randint(1,100,size=(5,)), index=['a', 'b', 'c', 'd', 'e'])
s

a    57
b    29
c    98
d    64
e    46
dtype: int64

In [85]:
s + 2

a     59
b     31
c    100
d     66
e     48
dtype: int64

In [86]:
s * 2

a    114
b     58
c    196
d    128
e     92
dtype: int64

In [87]:
s / 3

a    19.000000
b     9.666667
c    32.666667
d    21.333333
e    15.333333
dtype: float64

In [88]:
s // 3

a    19
b     9
c    32
d    21
e    15
dtype: int64

In [89]:
s % 3

a    0
b    2
c    2
d    1
e    1
dtype: int64

#### Funções NumPy

Como já mencionado, conseguimos aplicar as funções NumPy em Pandas Series.

In [90]:
np.exp(s)

a    5.685720e+24
b    3.931334e+12
c    3.637971e+42
d    6.235149e+27
e    9.496119e+19
dtype: float64

#### Funções vetorizadas

#### Exemplo - Adicionar series com os mesmos índices

In [91]:
s = pd.Series(np.random.randint(1,10,size=(5,)), index=['a', 'b', 'c', 'd', 'e'])

In [92]:
s

a    5
b    8
c    8
d    9
e    8
dtype: int64

In [93]:
s+s

a    10
b    16
c    16
d    18
e    16
dtype: int64

In [94]:
s*s

a    25
b    64
c    64
d    81
e    64
dtype: int64

#### Exemplo - Adicionar series com índices *incompatíveis*

In [95]:
s = pd.Series(np.random.randint(1,10,size=(5,)), index=['a', 'b', 'c', 'd', 'e'])
s

a    4
b    4
c    5
d    9
e    8
dtype: int64

In [96]:
p = pd.Series(np.random.randint(1,10,size=(5,)), index=['h', 'b', 'c', 'd', 'e'])
p

h    2
b    8
c    4
d    2
e    7
dtype: int64

In [99]:
l = s + p

In [100]:
len(l) == l.count()

False

In [None]:
s - p

a    NaN
b   -1.0
c    1.0
d   -7.0
e    0.0
h    NaN
dtype: float64


## Filtragem numa serie

### Por marcadores

In [101]:
li = [1.0,2.0,3.0, 4.0]
my_series = pd.Series(data = li)
my_series

0    1.0
1    2.0
2    3.0
3    4.0
dtype: float64

In [102]:
my_series[0]

1.0

#### filter()

In [103]:
print (my_series.filter(items=[1, 2]))


1    2.0
2    3.0
dtype: float64


Esta operação é análoga a especificar a lista de índices que queremos manter:

In [104]:
my_series.filter(like='2')

2    3.0
dtype: float64

In [None]:
cities

Val 1    2000.0
Val 1    2000.0
Val 3    1300.0
Val 4     900.0
Val 5    1450.0
Val 6       NaN
dtype: float64

In [105]:
cities.filter(like='Val')

Val 1         4000.0
Val 1         4000.0
Val 3         1300.0
Val 4          900.0
Val 5         1450.0
Val 6            NaN
Val. 4    ola mundo!
Name: Olá, dtype: object

In [106]:
cities.filter(like='Val ')

Val 1    4000.0
Val 1    4000.0
Val 3    1300.0
Val 4     900.0
Val 5    1450.0
Val 6       NaN
Name: Olá, dtype: object

In [107]:
cities.filter(like='Val.')

Val. 4    ola mundo!
Name: Olá, dtype: object

#### slicing [ ]

In [108]:
print ('Filtrando tudo exceto os valores dos rótulos 1,2 =>\n')
print (my_series[[1, 2]])


Filtrando tudo exceto os valores dos rótulos 1,2 =>

1    2.0
2    3.0
dtype: float64


In [110]:
subset_indices = [0,2,3]
print (my_series[subset_indices])

0    1.0
2    3.0
3    4.0
dtype: float64


### Por índices

É possível filtrar uma serie pela posição (índices) dos elementos na mesma.



In [111]:
s = pd.Series(np.random.randn(10), ['a','b','c','d','e','f','g','h','i','j'])
s

a   -0.163443
b   -0.346062
c   -0.163844
d   -0.641877
e   -1.681161
f   -0.156816
g   -0.396900
h   -1.139532
i    0.015397
j    0.742026
dtype: float64

In [112]:
print ('Filtramos e mantemos o 1º e 3º elementos =>\n')
print (s[[0,2]])

Filtramos e mantemos o 1º e 3º elementos =>

a   -0.163443
c   -0.163844
dtype: float64


In [113]:
print ('Filtramos e mantemos um subconjunto até o 4º elemento =>\n')
print (s[:4])

Filtramos e mantemos um subconjunto até o 4º elemento =>

a   -0.163443
b   -0.346062
c   -0.163844
d   -0.641877
dtype: float64


#### Por condições booleanas nos valores

In [114]:
s

a   -0.163443
b   -0.346062
c   -0.163844
d   -0.641877
e   -1.681161
f   -0.156816
g   -0.396900
h   -1.139532
i    0.015397
j    0.742026
dtype: float64

In [115]:
s[s < 0]

a   -0.163443
b   -0.346062
c   -0.163844
d   -0.641877
e   -1.681161
f   -0.156816
g   -0.396900
h   -1.139532
dtype: float64

In [116]:
s[(s > 0) & (s < 2)]  # Operador & funciona da mesma forma que um 'and'

i    0.015397
j    0.742026
dtype: float64

In [117]:
s[(s > 0) | (s < 2)] # Operador | funciona da mesma forma que um 'or'

a   -0.163443
b   -0.346062
c   -0.163844
d   -0.641877
e   -1.681161
f   -0.156816
g   -0.396900
h   -1.139532
i    0.015397
j    0.742026
dtype: float64

#### Por um intervalo de valores

Com o método **between()** conseguimos obter uma serie de valores booleanos indique indica se cada elemento dessa serie está ou não dentro de um determinado intervalo.



In [118]:
s = pd.Series(np.random.randn(10), ['a','b','c','d','e','f','g','h','i','j'])
s

a    2.545681
b   -0.405976
c   -1.332624
d   -2.557766
e    0.645326
f   -0.797322
g    1.727533
h   -1.460237
i    0.630411
j    0.437290
dtype: float64

In [119]:
s.between(0,1)

a    False
b    False
c    False
d    False
e     True
f    False
g    False
h    False
i     True
j     True
dtype: bool



## Concatenar Series

### append()



É possível adicionar elementos a uma serie através do método **append()**.

O argumento para esse método deve ser uma outra serie, uma lista ou um tuplo de series.

In [120]:
series_1  = pd.Series(np.random.randint(6,size=4), index = ["a","b","c","d"])
series_1

a    4
b    0
c    2
d    3
dtype: int64

In [121]:
series_2 = pd.Series(2000, index = ["a"])
series_2

a    2000
dtype: int64

Agora vamos tentar concatenar ambas as séries em uma.



In [123]:
series_2.append(series_1)

  series_2.append(series_1)


a    2000
a       4
b       0
c       2
d       3
dtype: int64

In [None]:
series_1.append(series_2)

a       3
b       0
c       3
d       0
a    2000
dtype: int64

**Nota:** Reparem que existem etiquetagem duplicada.

### append() com reetiquetagem

Etiquetagem duplicada pode ser um problema:

In [124]:
concat_series = series_1.append(series_2)
concat_series[['a']]

  concat_series = series_1.append(series_2)


a       4
a    2000
dtype: int64

Para evitar este problema, ao concatenar series devemos epecificar a reetiquetagem através do parâmetro **ignore_index = True**.



In [125]:
series_1.append(series_2,ignore_index=True)

  series_1.append(series_2,ignore_index=True)


0       4
1       0
2       2
3       3
4    2000
dtype: int64

In [126]:
series_1.append(series_2, ignore_index=True)[[0]]

  series_1.append(series_2, ignore_index=True)[[0]]


0    4
dtype: int64

### append() mantendo índices e evitando duplicados

Se quisermos manter os índices originais das series concatenadas temos que utilizar o parâmetro **verify_integrity = True**. Assim, ao concatenar series com índices iguais, será apresentada uma mensagem de erro.


In [127]:
series_1.append(series_2, verify_integrity=True)

  series_1.append(series_2, verify_integrity=True)


ValueError: ignored

## Ordenação de series

Podemos ordenar uma serie através dos seus índices ou valores.

### Por índices

Se os rótulos forem alfabéticos estes serão ordenados por ordem alfabética. Se forem numéricos, serão ordenados por ordem numérica crescente.



Contudo, podemos especificar uma ordem diferente usando o parâmetro:
- *ascending* = True ou False

#### Ordenar alfabeticamente

In [128]:
import numpy as np
s = pd.Series(np.random.randn(10), ['a','c','b','f','d','g','e','h','i','j'])
s

a    0.206528
c   -0.535488
b    0.518351
f   -0.204870
d   -0.707768
g   -0.478337
e    1.505821
h   -0.021018
i    0.529129
j   -1.704381
dtype: float64

In [129]:
print ('Reverse Alphabetical Sorting =>\n')

print(s.sort_index(ascending = False))

Reverse Alphabetical Sorting =>

j   -1.704381
i    0.529129
h   -0.021018
g   -0.478337
f   -0.204870
e    1.505821
d   -0.707768
c   -0.535488
b    0.518351
a    0.206528
dtype: float64


In [130]:
s.sort_index(ascending=True)

a    0.206528
b    0.518351
c   -0.535488
d   -0.707768
e    1.505821
f   -0.204870
g   -0.478337
h   -0.021018
i    0.529129
j   -1.704381
dtype: float64

#### Ordenar numericamente

In [131]:
x = pd.Series(np.random.randn(4), [2,3,49,10])
x

2    -0.073700
3    -1.709192
49   -1.656363
10   -0.470246
dtype: float64

In [132]:
print ('Descending Numerical Sorting: =>\n')

print(x.sort_index(ascending = False))

Descending Numerical Sorting: =>

49   -1.656363
10   -0.470246
3    -1.709192
2    -0.073700
dtype: float64


In [133]:
print(x.sort_index(ascending = True))

2    -0.073700
3    -1.709192
10   -0.470246
49   -1.656363
dtype: float64


### Por Valores

Com o método **sort_values()** podemos ordenar uma serie consoante o valor dos seus elementos.

Neste caso, também podemos utilizar o **ascending** para alterar o tipo de ordenação.

In [134]:
print ('Sort values in ascending order: =>\n')

print(x.sort_values())

Sort values in ascending order: =>

3    -1.709192
49   -1.656363
10   -0.470246
2    -0.073700
dtype: float64


In [135]:
print ('Sort values in descending order: =>\n')

print(x.sort_values(ascending = False))

Sort values in descending order: =>

2    -0.073700
10   -0.470246
49   -1.656363
3    -1.709192
dtype: float64


## Eliminar elementos de uma serie

Conseguimos eliminar elementos de uma serie de diferentes formas.



### Eliminar por rótulo

Com o método **drop()** conseguimos especificar um rótulo ou conjunto de rótulos a serem removidos, juntamente com o valor que lhe está atribuído.



In [136]:
a = pd.Series(np.random.randint(5,size=5), index = ["a","b","c","d","e"])
a

a    3
b    0
c    2
d    4
e    3
dtype: int64

In [137]:
a = a.drop(["d"])

In [138]:
a

a    3
b    0
c    2
e    3
dtype: int64

In [139]:
a = a.drop(['a','c','e'])

In [140]:
a

b    0
dtype: int64

### Eliminar duplicados

Para remover valores duplicados, podemos utilizar o método **drop_duplicates()**.

Por padrão, este método mantém a primeira cópia do valor duplicado, removendo as subsequentes.

Se quisermos remover todos os itens duplicados, incluindo a primeira ocorrência, temos de especificar o parâmetro **keep = False**

In [143]:
x = pd.Series([1, 2, 2, 4, 5, 7, 3, 4])
x

0    1
1    2
2    2
3    4
4    5
5    7
6    3
7    4
dtype: int64

In [142]:
print(x.drop_duplicates())

0    1
1    2
3    4
4    5
5    7
6    3
dtype: int64


In [144]:
x.drop_duplicates(keep=False)

0    1
4    5
5    7
6    3
dtype: int64

## Valores nulos

In [145]:
d = {'Paris': 1100, 'New York': 1000, 'Madrid': 1300, 'London': 900,
     'Bangalore': 1450, 'Rio': None}
cities = pd.Series(d)
cities

Paris        1100.0
New York     1000.0
Madrid       1300.0
London        900.0
Bangalore    1450.0
Rio             NaN
dtype: float64

Podemos verificar se existem elementos nulos de diferentes formas:

In [146]:
cities.count() == len(cities)

False

In [147]:
print(cities.isnull())

Paris        False
New York     False
Madrid       False
London       False
Bangalore    False
Rio           True
dtype: bool


In [148]:
cities.isnull().sum()

1

In [None]:
print(cities.notnull())

Paris         True
New York      True
Madrid        True
London        True
Bangalore     True
Rio          False
dtype: bool


In [149]:
cities.notnull().sum()

5

### Eliminar valores nulos

Para remover elementos sem valor de uma serie, devemos usar o método **dropna()**.

In [150]:
y = pd.Series([1, 2, 3, 4, np.nan, 5, 6])

In [151]:
y

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
5    5.0
6    6.0
dtype: float64

In [152]:
print(y.dropna())

0    1.0
1    2.0
2    3.0
3    4.0
5    5.0
6    6.0
dtype: float64


### Substituir valores nulos

Conseguimos substituir valores nulos de uma serie usando o método **fillna()**.

In [153]:
y

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
5    5.0
6    6.0
dtype: float64

In [154]:
print(y.fillna(0))

0    1.0
1    2.0
2    3.0
3    4.0
4    0.0
5    5.0
6    6.0
dtype: float64


In [157]:
z = pd.Series([1, np.nan, 3, 4, np.nan, 5, 6])
z

0    1.0
1    NaN
2    3.0
3    4.0
4    NaN
5    5.0
6    6.0
dtype: float64

In [158]:
print(z.fillna("None"))

0     1.0
1    None
2     3.0
3     4.0
4    None
5     5.0
6     6.0
dtype: object




# Resumo dos métodos incluídos em Pandas Series



## Métodos matemáticos

| Método   | Descrição                                                     |
|:---------|:--------------------------------------------------------------|
| add()    | Adiciona series ou objetos semelhantes a listas com o mesmo comprimento à serie original |
| sub()    | Subtrai series ou objetos semelhantes a listas com o mesmo comprimento da serie original |
| mul()    | Multiplica series ou objetos semelhantes a listas com o mesmo comprimento pela serie original |
| div()    | Divide a serie original por series ou objetos semelhantes a listas com o mesmo comprimento |
| sum()    | Retorna a soma dos valores para o eixo solicitado |
| prod()   | Retorna o produto dos valores para o eixo solicitado |
| mean()   | Retorna a média dos valores para o eixo solicitado |
| pow()    | Elevar cada elemento da serie passada como potência exponencial da serie original e retorna os resultados |
| abs()    | Obtem o valor numérico absoluto de cada elemento na serie |
| cov()    | Encontrar a covariância de duas series |


In [159]:
x = pd.Series([1,2,4,5], ['a','b','c','d'])
x

a    1
b    2
c    4
d    5
dtype: int64

In [160]:
x.add(1)

a    2
b    3
c    5
d    6
dtype: int64

In [161]:
x.sub(1)

a    0
b    1
c    3
d    4
dtype: int64

In [162]:
x.mul(2)

a     2
b     4
c     8
d    10
dtype: int64

In [163]:
x.div(-1)

a   -1.0
b   -2.0
c   -4.0
d   -5.0
dtype: float64

In [164]:
x.pow(2)

a     1
b     4
c    16
d    25
dtype: int64

In [165]:
x.abs()

a    1
b    2
c    4
d    5
dtype: int64

In [166]:
x.sum()

12

In [167]:
x.prod()

40

In [168]:
x.mean()

3.0

In [169]:
y= pd.Series([1,2,4,5], ['a','b','c','d'])
y

a    1
b    2
c    4
d    5
dtype: int64

In [170]:
x.cov(y)

3.333333333333333

## Métodos exploratórios

| Função         | Descrição                                                                                   |
|:-------------- |:-------------------------------------------------------------------------------------------|
| combine_first()| Combina duas series numa só                                        |
| count()        | Retorna o número de observações não nulas na serie                                          |
| size()         | Retorna o número de elementos nos dados subjacentes                                        |
| name()         | Permite dar um nome a uma serie                          |
| is_unique()    | Retorna um booleano se os valores no objeto são únicos                              |
| idxmax()       | Extrai as posições dos índices dos valores mais altos numa serie            |
| idxmin()       | Extrai as posições dos índices dos valores mais baixos numa serie           |
| sort_values()  | Ordena os valores por ordem ascendente ou descendente|
| sort_index()   | Ordena pelo índice em vez de ordenar por valores  |
| head()         | Retorna um número especificado de linhas do início de uma serie |
| tail()         | Retorna um número especificado de linhas do final de uma serie |
| le()           | Compara cada elemento da serie original com a serie passada. Retorna True para cada elemento que é menor ou igual |
| ne()           | Compara cada elemento da serie original com a serie passada. Retorna True para cada elemento que é diferente |
| ge()           | Compara cada elemento da serie original com a serie passada. Retorna True para cada elemento que é maior ou igual |
| eq()           | Compara cada elemento da serie original com a serie passada. Retorna True para cada elemento que é igual |
| gt()           | Compara cada elemento da serie original com a serie passada. Retorna True para cada elemento que é maior |
| lt()           | Compara cada elemento da serie original com a serie passada. Retorna True para cada elemento que é menor |
| clip()         | Restringe valores abaixo e acima dos valores mínimo e máximo passados |
| clip_lower()   | Restringe valores abaixo de um valor mínimo passado |
| clip_upper()   | Restringe valores acima de um valor máximo passado |
| astype()       | Altera o tipo de dados de uma serie |
| tolist()       | Converte uma serie numa lista |
| get()          | Extrai valores específicos de uma serie |
| unique()       | Verifica os valores únicos numa coluna específica |
| nunique()      | Obtem a contagem de valores únicos |
| value_counts() | Conta quantas vezes cada valor único ocorre numa serie |
| factorize()    | Obtem a representação numérica de um array identificando valores distintos |
| map()          | Associaa valores de um objeto a outro |
| between()      | Verificaa quais são os valores que estão entre o primeiro e o segundo argumento |
| apply()        | Executa operações personalizadas que não estão incluídas no pandas ou numpy |


In [171]:
sr = pd.Series(np.random.randint(0, 10, 20))
sr.head()

0    5
1    4
2    7
3    8
4    0
dtype: int64

In [None]:
sr

0     1
1     5
2     7
3     0
4     3
5     2
6     1
7     3
8     3
9     7
10    5
11    6
12    1
13    0
14    8
15    9
16    9
17    1
18    6
19    6
dtype: int64

In [172]:
sr.unique()

array([5, 4, 7, 8, 0, 6, 1, 3, 2])

In [173]:
sr.nunique()

9

In [174]:
sr.value_counts()

4    4
0    4
5    3
6    3
8    2
7    1
1    1
3    1
2    1
dtype: int64

In [None]:
sr.value_counts(normalize=True, bins=3)

(-0.009999999999999998, 3.0]    0.50
(3.0, 6.0]                      0.25
(6.0, 9.0]                      0.25
dtype: float64

In [175]:
sr.astype(str)

0     5
1     4
2     7
3     8
4     0
5     6
6     8
7     5
8     6
9     1
10    3
11    0
12    4
13    5
14    0
15    6
16    4
17    4
18    2
19    0
dtype: object

In [176]:
sr.map({3:6.55})

0      NaN
1      NaN
2      NaN
3      NaN
4      NaN
5      NaN
6      NaN
7      NaN
8      NaN
9      NaN
10    6.55
11     NaN
12     NaN
13     NaN
14     NaN
15     NaN
16     NaN
17     NaN
18     NaN
19     NaN
dtype: float64

In [177]:
def fun(x):
    return x**2 + np.pi

In [178]:
sr.apply(fun)

0     28.141593
1     19.141593
2     52.141593
3     67.141593
4      3.141593
5     39.141593
6     67.141593
7     28.141593
8     39.141593
9      4.141593
10    12.141593
11     3.141593
12    19.141593
13    28.141593
14     3.141593
15    39.141593
16    19.141593
17    19.141593
18     7.141593
19     3.141593
dtype: float64

# Links Úteis

Indexação e seleção de dados: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

Referência da API do Pandas: https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.Series.html

Valores não aplicáveis ​​(NA) ou ausentes em Python: https://www.geeksforgeeks.org/working-with-missing-data-in-pandas/

Funções do Python Lambda: https://towardsdatascience.com/lambda-functions-with-practical-examples-in-python-45934f3653a8