# **Mestrado em Informática**
# **Pós-Graduação em Data Science and Digital Transformation**

## *(Ambientes de) Programação para Ciência de Dados*

# Mónica Vieira Martins
---

> # A biblioteca Pandas 

---

A Pandas é uma biblioteca construída tendo como basa a biblioteca NumPy.   

A Pandas implementa as **DataFrame** e as **Series**, que permitem o armazenamento e interface com grandes quatidades de dados, assim como  a sua manipulação de forma eficiente.  

As **DataFrames** são matrizes multidimensionais: 
* as suas colunas podem conter tipos de dados diversos 
* possuem rótulos para as colunas e índices explícitos para as linhas. 

As **Series** representam um subconjunto de DataFrame (1 coluna)

A biblioteca Pandas inclui métodos para manipular e realizar cálculo, quer com DataFrames, que com Series.  

Para usar a Pandas, é necessário fazer a usa importação no programa: 


In [12]:
import numpy as np
import pandas as pd

## Series

Há várias formas de criar um objeto `Series`:
* a partir de uma lista
* a partir de um dicionário
* a partir de um objeto `DataFrame`

Vejamos alguns exemplos.


### Criar um objeto Series a partir de uma lista 

In [13]:
#criar uma lista de números reais
lista = np.linspace(0.25, 1.0 , 5)
lista

array([0.25  , 0.4375, 0.625 , 0.8125, 1.    ])

In [14]:
#transformar a lista num objeto pd.Series
serie =pd.Series(lista)
serie

0    0.2500
1    0.4375
2    0.6250
3    0.8125
4    1.0000
dtype: float64

####  Atributo `values`

Pode-se aceder aos valores da Série com o atributo`values`

In [15]:
serie.values

array([0.25  , 0.4375, 0.625 , 0.8125, 1.    ])

#### Atributo `index`

E pode-se aceder aos índices da Série com o atributo `index`

In [17]:
serie.index = ['a', 'b', 'c', 'd', 'e']

O acesso aos elementos da série é efetuado de formas semelhante às usadas com as matrizes numPy.  
Por exemplo: 

In [18]:
#acesso ao 2º elemento da série:
serie['b']


np.float64(0.4375)

In [None]:
#acesso aos dois primeiros elementos da série


O índice da série pode ser alterado, e não tem necessariamente que ser constituído por valores inteiros.  
Pode-se alterar o índice da série como se exemplifica: 

In [None]:
#alterar o índice da série


Pode-se agora aceder aos elementos da série com base no índice explícito.   
Por exemplo: 

### Criar um objeto Series a partir de um dicionário

In [8]:
#População em distritos de Portugal
dic_populacao = {'Lisboa':     2275591,
                  'Porto':      1786656,
                  'Aveiro':     700964,
                  'Portalegre': 104889}
dic_populacao

{'Lisboa': 2275591, 'Porto': 1786656, 'Aveiro': 700964, 'Portalegre': 104889}

In [34]:
#criar a serie a partir do dicionário
serie_populacao = pd.Series(dic_populacao)

A serie criada tem como índices as chaves do dicionário, e como valores os valores do dicionários 

Pode-se aceder ao qualquer um dos elementos da série a partir do seu índice explícito, como no exemplo seguinte: 

In [33]:
print (serie)
serie['a' : 'b']

a    0.2500
b    0.4375
c    0.6250
d    0.8125
e    1.0000
dtype: float64


a    0.2500
b    0.4375
dtype: float64

Continua também a ser possível aceder a elementos da série com o índice implícito.

### Indices implícitos e explícitos

Repare-se na diferença de comportamento relativamente ao limite final do intervalo, quando se usa slicing com índices implícitos e slicing com índices explícitos: 

Quando se usou o índice implícito, o último valor não foi considerado, de forma semelhante ao que acontece em numPy.  
Todavia, o último elemento foi considerado quando se usou o índice explícito.

Podemos verificar o mesmo comportamento com `serie_populacao`:


### `loc` e `iloc`

A existência de índices implícitos e explícitos pode gerar alguma confusão, sobretudo se os ultimos forem valores inteiros, como no exemplo que se apresenta: 

In [19]:
B = pd.Series(['a', 'b', 'c']
    , index=[1, 3, 5])
B

1    a
3    b
5    c
dtype: object

In [20]:
#por defeito, no acesso a um elemento é usada a notação explícita
B[3]

'b'

In [None]:
#no entanto, no slicing, é usada a notação ímplicita
B[1:3] 

3    b
5    c
dtype: object

Para evitar possíveis confusões entre a notação implícita e explícita, a pandas possuir os atributos de indexação `loc` e `iloc`

* o atributo `loc` refere-se sempre à indexação **explícita**
* o atributo **`i`**`loc` refere-se à indexação **implícita**

Repare-se nos seguintes exemplos: 

In [22]:
#indexação explícita
B.loc[1]

'a'

In [23]:
#indexação explícita com slicing
B.loc[1:3]

1    a
3    b
dtype: object

In [None]:
#indexação implícita
B.iloc[1]

'b'

In [27]:
#indexação implícita
B.iloc[1:3]

3    b
5    c
dtype: object

## DataFrames

### Criar um objeto DataFrame a partir de um array numPy

In [28]:
#criar um array numPy
A= np.random.randint(1,10,(3,4))
A

array([[7, 6, 3, 2],
       [6, 2, 7, 3],
       [1, 2, 8, 8]])

In [29]:
#criar um DataFrame a partir do array
df_A=pd.DataFrame(A)
df_A

Unnamed: 0,0,1,2,3
0,7,6,3,2
1,6,2,7,3
2,1,2,8,8


In [30]:
#criar um dataFrame a partir do array, mas definindo o nome das colunas e os índices explícitos
df_A.columns = ['Coluna1','Coluna2','Coluna3','Coluna4']
df_A

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
0,7,6,3,2
1,6,2,7,3
2,1,2,8,8


In [31]:
#note-se que tanto as colunas como os índices podem ser definidos a posteriori: 
df_A.index = ['Linha1','Linha2','Linha3']
df_A

Unnamed: 0,Coluna1,Coluna2,Coluna3,Coluna4
Linha1,7,6,3,2
Linha2,6,2,7,3
Linha3,1,2,8,8


In [None]:
# Criar um DataFrame a partir ...
df_B = pd.DataFrame(A, columns=['a', 'b', 'c', 'd'], index=['X','Y','Z'])
df_B

Unnamed: 0,a,b,c,d
X,7,6,3,2
Y,6,2,7,3
Z,1,2,8,8


### Criar um DF a partir de uma serie

Vamor criar um DataFrame a partir da `serie_populacao` definida  acima 

In [48]:
df_pop=pd.DataFrame(serie_populacao)
df_pop

Unnamed: 0,0
Lisboa,2275591
Porto,1786656
Aveiro,700964
Portalegre,104889


Criamos o DataFrame com o método `pf.DataFrame()` e usamos o atributo `columns` para definir o rótulo da coluna   

In [49]:
df_pop=pd.DataFrame(serie_populacao, columns=['Valor População'])
df_pop

Unnamed: 0,Valor População
Lisboa,2275591
Porto,1786656
Aveiro,700964
Portalegre,104889


### Criar um DF a partir de um dicionário

De uma forma semelhante, pode-se criar um DataFrame a partir de um dicionário.

A título de exemplo, usa-se a  `serie_populacao` e defini- se ainda `serie_areas`, contruindo com ambas um dicionário de séries que é convertido em  DataFrame

In [None]:
serie_areas = pd.Series({'Lisboa': 2761 , 'Porto': 2395, 'Aveiro':2808, 'Portalegre':6065})
serie_areas

Lisboa        2761
Porto         2395
Aveiro        2808
Portalegre    6065
dtype: int64

In [38]:
#criar u DataFrame a partir do dicionario constitutído pelas duas séries.
distritos = pd.DataFrame({'População': serie_populacao, 'Área': serie_areas})
distritos

Unnamed: 0,População,Área
Lisboa,2275591,2761
Porto,1786656,2395
Aveiro,700964,2808
Portalegre,104889,6065


Como aconteceu antes com  a serie contruída a partir de um dicionário, os rótulos das colunas do DataFrame assumem os mesmo valores das chaves do dicionário.

Alternativamente, poderíamos ter obtido o mesmo resultado usando um dicionário de listas : 

In [39]:
dic_distritos= {'População':[2275591, 1786656, 700964, 104889],'Area': [2761,2395,2808,6065]}
dic_distritos

{'População': [2275591, 1786656, 700964, 104889],
 'Area': [2761, 2395, 2808, 6065]}

Neste exemplo definimos o índice explícito (nomes dos distritos), já que estes não existiam nesta segunda versão dos dicionário.

In [40]:
distritos_v2=pd.DataFrame(dic_distritos,
                index=['Lisboa', 'Porto', 'Aveiro', 'Portalegre'])
distritos_v2

Unnamed: 0,População,Area
Lisboa,2275591,2761
Porto,1786656,2395
Aveiro,700964,2808
Portalegre,104889,6065


Qualquer um dos DataFrames criados possuir o atributo `columns`  e o atributo `index`

In [41]:
distritos_v2.columns

Index(['População', 'Area'], dtype='object')

In [42]:
distritos_v2.index

Index(['Lisboa', 'Porto', 'Aveiro', 'Portalegre'], dtype='object')

### Criar um DataFrame a partir de um ficheiro

Também se pode criar um DataFrame a partir de um ficheiro com valores tabelados.  

Para isso, usa-me o método `pd.read_csv()`, que permite ler ficheiros em que os valores estão organizados em tabelas.  

Neste método, o atributo `sep` permite definir o carater que separa cada um dos valores no ficheiro original:
*  vírgula `,`
* ponto e vírgula `;`
* tab `\t` 


No exemplo seguinte, vai ser lido o ficheiro de dados referente ao dataset `ìris`

In [43]:
#endereço do ficheiro
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
#o ficheiro original não tem rótulo de colunas. Aqui definimos os rótulos das colunas.
col_names = ['Comprimento Sépala','Largura Sépala',
                'Comprimento Pétala','Largura Pétala', 
                'Rótulo']
# usar pd.read_csv() para ler os dados do ficheiro e preencher com eles um DataFrame
dados_iris=pd.read_csv(url, sep=',', names = col_names)


In [44]:
dados_iris

Unnamed: 0,Comprimento Sépala,Largura Sépala,Comprimento Pétala,Largura Pétala,Rótulo
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [45]:
dados_iris.columns

Index(['Comprimento Sépala', 'Largura Sépala', 'Comprimento Pétala',
       'Largura Pétala', 'Rótulo'],
      dtype='object')

Ao contrário dos DataFrame anteriores, o DataFrame `dados_iris` apenas possui índices implícitos.

In [50]:
dados_iris.index

RangeIndex(start=0, stop=150, step=1)

### Atributos dos DataFrame

Para além dos atributos ``columns`` e `index`, ualquer objeto DataFrame possui ainda os seguintes atributos: 



| Atributo       | Descrição                                                                 |
|----------------|---------------------------------------------------------------------------|
| `shape`        | Devolve um tuplo que representa o número de linhas e colunas no DataFrame. |
| `columns`      | Lista os nomes das colunas do DataFrame.                                  |
| `index`        | Mostra os índices das linhas do DataFrame.                                |
| `dtypes`       | Indica os tipos de dados de cada coluna do DataFrame.                     |
| `size`         | Número total de elementos no DataFrame (linhas x colunas).                |
| `values`       | Devolve os dados do DataFrame como um array NumPy.                        |
| `empty`        | Verifica se o DataFrame está vazio (`True` se estiver vazio).             |
| `ndim`         | Número de dimensões do DataFrame (sempre 2).                              |
| `info()`       | Exibe informações sobre o DataFrame, incluindo número de entradas, tipos de dados e memória utilizada. |
| `head(n)`      | Devolve as primeiras `n` linhas do DataFrame.                             |
| `tail(n)`      | Devolve as últimas `n` linhas do DataFrame.                               |
| `describe()`   | Gera estatísticas descritivas das colunas numéricas.                      |
| `T`            | Transpõe o DataFrame (inverte linhas e colunas).                          |


Usemos o DataFrame `dados_iris` para exemplificar a utilização destes atributos

In [54]:
dados_iris.shape

(150, 5)

O DataFrame possui 150 linhas e 5 colunas, como já tinha sido evidente. O número total de elementos será 150*5, dado por ...

In [52]:
dados_iris.size

750

In [55]:
dados_iris.dtypes

Comprimento Sépala    float64
Largura Sépala        float64
Comprimento Pétala    float64
Largura Pétala        float64
Rótulo                 object
dtype: object

As quatro primeiras colunas do DataFrame contém números de vírgula flutuante, a última contém texto (que em Python é do tipo `object`).  


Confirmemos de seguida que o DataFrame não está vazio: 


In [56]:
dados_iris.empty

False

Viasualizemos os n=5 (valor por omissão) primeiras linhas...

In [57]:
dados_iris.head()

Unnamed: 0,Comprimento Sépala,Largura Sépala,Comprimento Pétala,Largura Pétala,Rótulo
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


...e as n=10 últimas linhas:

In [58]:
dados_iris.tail(10)

Unnamed: 0,Comprimento Sépala,Largura Sépala,Comprimento Pétala,Largura Pétala,Rótulo
140,6.7,3.1,5.6,2.4,Iris-virginica
141,6.9,3.1,5.1,2.3,Iris-virginica
142,5.8,2.7,5.1,1.9,Iris-virginica
143,6.8,3.2,5.9,2.3,Iris-virginica
144,6.7,3.3,5.7,2.5,Iris-virginica
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


O método `info()` condensa muita da informação já obtida:

In [59]:
dados_iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Comprimento Sépala  150 non-null    float64
 1   Largura Sépala      150 non-null    float64
 2   Comprimento Pétala  150 non-null    float64
 3   Largura Pétala      150 non-null    float64
 4   Rótulo              150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


Em especial, a informação formecida por `info()` permite verificar que não existem valores nulos ou `nan` nos dados, pois todas as colunas possume 150 valores não nulos.

In [61]:
dados_iris.describe()

Unnamed: 0,Comprimento Sépala,Largura Sépala,Comprimento Pétala,Largura Pétala
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


### Acesso aos elementos

#### Acesso às linhas 

Como nos objetos Series, o acesso às linhas dos DataFrame é efetuado com os atributos `loc` e `iloc`, como nos exemplos seguintes.


In [69]:
#acesso à primeira linha com índice implícito
distritos.iloc[0]

População    2275591
Área            2761
Name: Lisboa, dtype: int64

In [70]:
#acesso à primeira linha com índice explícito
distritos.loc['Lisboa']

População    2275591
Área            2761
Name: Lisboa, dtype: int64

#### Acesso às colunas

O acesso às colunas do DataFrame  pode ser feito simplesmente através do rótulo da coluna, como se vê nos exemplos seguintes, e sem recorrer a `loc`:  

In [77]:
#acesso à coluna ´´Area´
distritos['Área']

Lisboa        2761
Porto         2395
Aveiro        2808
Portalegre    6065
Name: Área, dtype: int64

No caso do rótulo da coluna ser constituído por uma única palavra, pode-se usar o operador `.`, como neste exemplo: 

In [76]:
#acesso à coluna ´´Area´´
distritos.Área

Lisboa        2761
Porto         2395
Aveiro        2808
Portalegre    6065
Name: Área, dtype: int64

Obtém-se o mesmo efeito usando-se o atributo `loc` ou `iloc`, mas nesse caso é necessário usa a notação completa, `.loc[linha, coluna]`. 
No caso seguinte, acede-se a todos os elementos (linhas) da coluna `Area`

In [83]:
#Acesso a todas as linhas (:), da coluna ´´Area´´, com `loc`
distritos.loc[:,'Área']

Lisboa        2761
Porto         2395
Aveiro        2808
Portalegre    6065
Name: Área, dtype: int64

In [84]:
#Acesso a todas as linhas (:), da coluna ´´Area´´, com `iloc`
distritos.iloc[:,1]

Lisboa        2761
Porto         2395
Aveiro        2808
Portalegre    6065
Name: Área, dtype: int64

Verifique-se que uma coluna de um `DataFrame` é, de facto, um objeto do tipo `Series`

In [92]:
print(type(distritos.Área))
print(type(distritos.iloc[:,1]))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


####  Acesso aos elementos com slicing 

A combinação das técnicas anteriores permite aceder a subconjuntos do DataFrame.

Para aceder a 

In [None]:
#aceder a todas as colunas das linhas "Lisboa" e "Aveiro", com loc
distritos.loc[['Lisboa', 'Aveiro'], :] # ':' no segundo grupo é opcional. assume-se toda as colunas

Unnamed: 0,População,Área
Lisboa,2275591,2761
Aveiro,700964,2808


In [None]:
#mesma coisa, mas com iloc
distritos.iloc[[0, 2]] # ':' no segundo grupo é opcional. assume-se toda as colunas

Unnamed: 0,População,Área
Lisboa,2275591,2761
Aveiro,700964,2808


Os subconjuntos obtidos continuam a ser objetos DataFrame, portanto, com todos os métodos e atributos já referidos de um DataFrame 

In [None]:
type(distritos.iloc[[0, 2], :])

pandas.core.frame.DataFrame

A não ser que sejam constituídos apenas por uma coluna, e nesse caso serão Series

In [105]:
type(distritos.iloc[:, 0])

pandas.core.series.Series

#### Acesso aos elementos, com máscaras

De forma semelhante ao que vimos ser possível com numPy, é possível usar máscaras para aceder a subconjuntos de  elementos de um DataFrame. 

Para isso, usam-se os operadores de comparação (==, <, >, >=, <=, !=) e os operadores lógicos (|, &, !). 

Seguem-se alguns exemplos simples.


In [117]:
#selecionar os dados dos distritos com area >2500
mascara_area = distritos['Área']>2500
distritos.loc[mascara_area, :]

Unnamed: 0,População,Área
Lisboa,2275591,2761
Aveiro,700964,2808
Portalegre,104889,6065


In [128]:
distritos

Unnamed: 0,População,Área
Lisboa,2275591,2761
Porto,1786656,2395
Aveiro,700964,2808
Portalegre,104889,6065


In [132]:
#selecionar os dados dos distritos com população >500000
mascara_area_iloc = distritos.iloc[:, 0] > 500000
distritos.iloc[mascara_area_iloc.values, :]

Unnamed: 0,População,Área
Lisboa,2275591,2761
Porto,1786656,2395
Aveiro,700964,2808


No exemplo seguinte selecionam-se os índices relativos a Lisboa e Aveiro, usando o operador |. 
A título de exemplo, começa-se por mostrar a lista de valores booleanos que resulta da utilização desse operador nos índices

In [136]:
mascara_lx_av = (distritos.index=='Lisboa') | (distritos.index=='Aveiro')
mascara_lx_av

array([ True, False,  True, False])

In [137]:
distritos.loc[mascara_lx_av]

Unnamed: 0,População,Área
Lisboa,2275591,2761
Aveiro,700964,2808


### Acrescentar colunas

Pode-se acrescentar uma ou mais coluna ao DataFrame de uma forma simples, bastando indicar o rótulo da mesma e os valores respetivos.

No exemplo seguinte, acrescenta-se uma coluna nova com a Densidade Populacional,  cujos elementos são a razão entre a População e a Area em cada linha do Data Frame. Por omissão, a coluna é acrescentada no final do DataFrame.

In [173]:
distritos2 = distritos.copy()
distritos2

Unnamed: 0,População,Área
Lisboa,2275591,2761
Porto,1786656,2395
Aveiro,700964,2808
Portalegre,104889,6065


In [174]:
distritos2["Densidade"] = distritos2["População"] / distritos2["Área"]
distritos2

Unnamed: 0,População,Área,Densidade
Lisboa,2275591,2761,824.190873
Porto,1786656,2395,745.994154
Aveiro,700964,2808,249.631054
Portalegre,104889,6065,17.294147


#### O método `insert()`

Se se pretender acrescentar uma coluna numa posição específica do DataFrame, pode usar-se o método `insert()`. A sintaxe é a seguinte: 

`DataFrame.insert(loc, column, value, allow_duplicates=False)`

* `loc`: posição onde a coluna será inserida (baseado em índice implícito).
* `column`: Nome da nova coluna.
* `value`: Valores da nova coluna (podem ser uma lista, um array, ou uma série).
* `allow_duplicates`: Se pode ou não haver outra coluna com o mesmo nome ( False por omissão).

Por exemplo, na célula seguinte insere-re a coluna "Região" na posição 0 do DataFrame

In [175]:
distritos2.insert(2, "Região", ['Estremadura', 'Douro Litoral', 'Beira Litoral', 'Alto Alentejo'], allow_duplicates=False)
distritos2

Unnamed: 0,População,Área,Região,Densidade
Lisboa,2275591,2761,Estremadura,824.190873
Porto,1786656,2395,Douro Litoral,745.994154
Aveiro,700964,2808,Beira Litoral,249.631054
Portalegre,104889,6065,Alto Alentejo,17.294147


### Apagar colunas ou linhas

O método `drop()` é usado para apagar linhas ou colunas de um DataFrame.  
É  necessário indicar o rótulo ou índice da coluna ou linha.  

Por omissão, a operação é realizada nas linhas (axis=0); para apagar colunas, é necessário definir `axis=1`.  

Por omissão, o método devolve uma nova DataFrame alterada `(inplace=False)`, deixando a original inalterada. Para alterar a DF original, é necessário definir `inplace=True`.


Por exemplo, retiremos a coluna da Densidade Populacional de acordo com o exemplo: 

In [176]:
distritos3 = distritos2.drop(columns=["População"])
distritos3

Unnamed: 0,Área,Região,Densidade
Lisboa,2761,Estremadura,824.190873
Porto,2395,Douro Litoral,745.994154
Aveiro,2808,Beira Litoral,249.631054
Portalegre,6065,Alto Alentejo,17.294147


Se visualizarmos os dados originais, verificamos que se mantêm inalterados, pois não usamos `inplace = True`

In [177]:
#os dados originais não foram alterados
distritos2

Unnamed: 0,População,Área,Região,Densidade
Lisboa,2275591,2761,Estremadura,824.190873
Porto,1786656,2395,Douro Litoral,745.994154
Aveiro,700964,2808,Beira Litoral,249.631054
Portalegre,104889,6065,Alto Alentejo,17.294147


Retiramos agora a coluna relativa à Densidade Populacional dos dados originais 

In [178]:
distritos2.drop(columns=["Densidade"], inplace=True)
distritos2

Unnamed: 0,População,Área,Região
Lisboa,2275591,2761,Estremadura
Porto,1786656,2395,Douro Litoral
Aveiro,700964,2808,Beira Litoral
Portalegre,104889,6065,Alto Alentejo


Para apagar linha o processo é semelhante, mas não é necessário definir o eixo, pois, por omissão, são apagadas as linhas

In [None]:
#retirar a coluna referente a Portalegre, mantendo o original inalterado



In [None]:
#o original não foi alterado


In [None]:
#retiremos agora a linha referente a Portalegre, alterando o original


---  
**Mónica Vieira Martins**  
*Data Science and Digital Transformation*