## Sumário

O objectivo deste tutorial é apresentar as funcionalidades da biblioteca Pandas para análise de dados.
O tutorial está organizado em 5 capítulos:

I - Importação de csv e excel

II - Análise exploratória de dados

III - Index, Slice, Select

IV - Limpeza e transformação de dados

V - Visualização de dados

Este notebook debruça-se sobre o **capítulo IV** que demonstra funcionalidades úteis para limpeza e transformação de dados de acordo com as nossas necessidades de análise.

Cada capítulo segue a seguinte estrutura: introdução, tabela sumário, secções e subsecções.



# [**IV. Limpeza e transformação de dados**](#Índice)  <a class="anchor"  id="c1"></a>

## Índice <a class="anchor"  id="Índice"></a>

* [Introdução](#IVi)
* [Tabela sumário](#IVt)
* [1. Tratar valores em falta (NA)](#IV1)
    * [1.1 Remover NA](#IV11)
    * [1.2 Substituir NA](#IV12)
    * [1.3 nan (index)](#IV13)
* [2. Converter tipo de dados](#IV2)
    * [2.1 Converter tipo de dados](#IV11)
    * [2.2 Converter em formato numérico](#IV12)
    * [2.3 Converter em formato data/hora](#IV13)
* [3. Manipular dados agregados](#IV3)
    * [3.1 Criar grupos](#IV31)
    * [3.2 Verificar características dos grupos](#IV32)
    * [3.3 Filtrar dados agrupados](#IV33)
    * [3.3.1 Filtrar pela posição no grupo](#IV331)
        * [3.3.2 Filtrar pelo nome do grupo](#IV332)
        * [3.3.3 Funções agregadas de cada grupo/por coluna](#IV333)
        * [3.3.4 Calcular várias funções agregadas | .agg](#IV334)
        * [3.3.5 Aplicar função customizada | .apply](#IV335)
* [4. Modificar colunas](#IV4)
    * [4.1 Alterar nome de colunas](#IV41)
    * [4.2 Definir coluna como index](#IV42)
    * [4.3 .loc com nomes de linhas](#IV43) 
    * [4.4 Reset index](#IV44)
* [5. iloc vs. .loc](#IV5)
    * [5.1 Converter em maiúsculas/minúsculas](#IV51)
    * [5.2 Remover espaços](#IV52)
    * [5.3 Filtrar por padrões: começa, termina, contém](#IV53)
    * [5.4 Substituir](#IV54)

* [6. ](#IV6)
    * [6.1 ](#IV61)
    * [6.2 ](#IV62)
    * [6.3 ](#IV63)
    * [6.4 ](#IV64)
    * [6.5 ](#IV65)
    * [6.6 ](#IV66)
    * [6.7 ](#II67)
* [7. ](#II7)


# [**Introdução**](#Índice)  <a class="anchor"  id="IVi"></a>

Quando falamos de limpeza e transformação falamos de lidar com valores em falta (NA), excluir valores duplicados, converter tipos de dados (texto para numérico, etc.), agregar dados de acordo com características comuns, filtrar em função de condições específicas, calcular valores agregados (soma, média, etc.), manipular colunas, manipular conteúdo das células, unir tabelas, entre outras.


# [**Tabela sumário**](#Índice) <a class="anchor"  id="IVt"></a>

Objectivo                               |Funcionalidade     |Sintaxe
:----|:-----------------------------------|:---------------------------------|
Remover células com valores em falta (NA)|**.dropna()**  |table.dropna()
Preencher NA com um valor específico     | **.fillna()**|table.fillna('value')
Substituir valor a por b                 | **.replace()** |table.replace( 'a', 'b')
Converter tipo de dados                  | **.astype()** |table.astype( 'type1' ), table[ 'column' ].astype( 'type1' )
Converter tipo de dados                  |**pd.to_numeric()** | pd.to_numeric( [ table[ 'column' ]) 
Extrair data (de campo datetime) |**pd.to_datetime().dt.date** | pd.to_datetime( [ table[ 'column'] ].dt.date
Extrair componentes da data | **pd.to_datetime().dt.x**| x = year, month, month_name(), day...
Agregar dados | **table.groupby()** |


tbc



# [**1. Tratar valores em falta (NA)**](#Índice)  <a class="anchor"  id="IV1"></a>

Objectivo                               |Funcionalidade     |Sintaxe
:----|:-----------------------------------|:---------------------------------|
Remover linhas/colunas com valores em falta (NA)|**.dropna()**  |table.dropna()
Preencher células NA com um valor específico     | **.fillna()**|table.fillna('value')
Substituir valor a por b                 | **.replace()** |table.replace( 'a', 'b')


In [1]:
#Preparar o ambiente. Selecionar o endereço do arquivo abaixo.
import pandas as pd
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))




/kaggle/input/793a9834-3373-433e-9482-162a37bbe1d0_Series - Metadata.csv
/kaggle/input/793a9834-3373-433e-9482-162a37bbe1d0_Data_wide.csv
/kaggle/input/871fdd65-7f81-4e78-8ec0-8c05fd44cbf3_Data_long.csv


In [2]:
file = '/kaggle/input/871fdd65-7f81-4e78-8ec0-8c05fd44cbf3_Data_long.csv'

table1 = pd.read_csv(file)

table1.head()

Unnamed: 0,Time,Country Name,Refugee population by country or territory of asylum,Refugee population by country or territory of origin
0,2018,Afghanistan,72228.0,2681267.0
1,2018,Albania,132.0,13512.0
2,2018,Algeria,94341.0,4181.0
3,2018,American Samoa,,
4,2018,Andorra,,


In [3]:
table1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1335 entries, 0 to 1334
Data columns (total 4 columns):
 #   Column                                                Non-Null Count  Dtype  
---  ------                                                --------------  -----  
 0   Time                                                  1332 non-null   object 
 1   Country Name                                          1330 non-null   object 
 2   Refugee population by country or territory of asylum  1061 non-null   float64
 3   Refugee population by country or territory of origin  1166 non-null   float64
dtypes: float64(2), object(2)
memory usage: 41.8+ KB


## [**1.1 Remover NA**](#Índice)  <a class="anchor"  id="IV11"></a>

## [**1.2 Substituir NA**](#Índice)  <a class="anchor"  id="IV12"></a>

tbc

## [**1.3 nan**](#Índice)  <a class="anchor"  id="IV13"></a>



# [**2. Converter tipo de dados**](#Índice) <a class="anchor"  id="III2"></a>



## [**2.1 Converter tipo de dados**](#Índice)  <a class="anchor"  id="IV21"></a>

Objectivo|Funcionalidade           |Sintaxe
:----|:---------------------------------|:--------------------------------
Obter um intervalo de linhas       | table[row_i : row_j]| table[table[row_i, row_j, se o intervalo pretendido for [i,j-1] 
Obter um intervalo de linhas | .iloc|  table.iloc[[ i : j ], :], linhas i até j-1
Obter um intervalo de linhas | .loc|  table.loc[[ i : j ], :], linhas i até j


## [**2.2 Converter em formato numérico**](#Índice)  <a class="anchor"  id="IV22"></a>

## [**2.3 Converter em formato data/hora**](#Índice)  <a class="anchor"  id="IV22"></a>

# [**3. Manipular dados agregados**](#Índice) <a class="anchor"  id="IV3"></a>


Objectivo                            |Funcionalidade          |Sintaxe            
:---------------------------------------|:-----------------------|:----------
Agrupar dados de uma coluna             |**.groupby()**  |g = table.groupby('column')
Obter { 'grupo1' : [ lista de valores para grupo1 ], ...} | .**groups** |g.groups
Obter nomes dos grupos | **keys()** | g.groups.keys()
Obter número de linhas para cada grupo | **.size()** | g.size()
Obter número de linhas para cada grupo | **.count()** | g.count()
Pré-visualizar | .head(), .tail()
Estatísticas | .describe()
Filtrar ao n-ésimo valor do grupo | **.nth()** | g.nth( 'n' )
Filtrar ao primeiro valor do grupo | first() | g.first()
FIltrar ao último valor do grupo | .last() | g.last()
Filtrar um grupo | **.get_group()** | g.get_group( 'group1' )
Soma ( 1 coluna)  | .sum() | g[ 'column1' ].sum()
Média ( 1 coluna) | .mean() | g[ 'column1' ].mean()
Mínimo ( 1 coluna)| .min() | g[ 'column1' ].min()
Máximo ( 1 coluna)| .max() | g[ 'column1' ].max()
Soma ( múltiplas colunas)  | .sum() | **???**
Média de um grupo específico | **.sum()** | g.get_group( 'group1' )[ 'column1' ].mean()
Calcular várias funções agregadas | **.agg()** | g.agg( { 'column1' : [ 'sum', ...] } )
Aplicar uma função ao grupo | **.apply( lambda x: x...)** | g.get_group( 'column1' ).apply( lambda x: x...)








## [**3.1 Criar grupos**](#Índice)  <a class="anchor"  id="IV31"></a>

Objectivo                            |Funcionalidade          |Sintaxe            
:---------------------------------------|:-----------------------|:----------
Agrupar dados de uma coluna             |**.groupby()**  |g = table.groupby('column')








In [4]:
#Verificar as colunas que compõem a nossa tabela

table1.columns

Index(['Time', 'Country Name',
       'Refugee population by country or territory of asylum',
       'Refugee population by country or territory of origin'],
      dtype='object')

In [5]:
"""
Criar o objecto 'countries' através do método .groupby().
O atributo criado vem com vários métodos e atributos úteis para manipular
dados agrupados.
Cada 'Country Name' distinto será um grupo.
"""

countries = table1.groupby('Country Name')

countries.head()

Unnamed: 0,Time,Country Name,Refugee population by country or territory of asylum,Refugee population by country or territory of origin
0,2018,Afghanistan,72228.0,2681267.0
1,2018,Albania,132.0,13512.0
2,2018,Algeria,94341.0,4181.0
3,2018,American Samoa,,
4,2018,Andorra,,
...,...,...,...,...
1325,2022,Sub-Saharan Africa,7118043.0,7875847.0
1326,2022,Sub-Saharan Africa (excluding high income),7118043.0,7875838.0
1327,2022,Sub-Saharan Africa (IDA & IBRD countries),7118043.0,7875847.0
1328,2022,Upper middle income,8577311.0,1168062.0


## [**3.2 Verificar características dos grupos**](#Índice)  <a class="anchor"  id="IV32"></a>

Objectivo                            |Funcionalidade          |Sintaxe            
:---------------------------------------|:-----------------------|:----------
Agrupar dados de uma coluna             |**.groupby()**  |g = table.groupby('column')
Obter { 'grupo1' : [ lista de valores para grupo1 ], ...} | .**groups** |g.groups
Obter nomes dos grupos | **keys()** | g.groups.keys()
Obter número de linhas para cada grupo | **.size()** | g.size()
Obter número de linhas para cada grupo | **.count()** | g.count()
Pré-visualizar | .head(), .tail()










In [6]:
""".groups - atributo que nos dá um dicionário
{'grupo1' : [lista de valores para grupo1], ...}
"""

countries.groups

{'Afghanistan': [0, 266, 532, 798, 1064], 'Africa Eastern and Southern': [217, 483, 749, 1015, 1281], 'Africa Western and Central': [218, 484, 750, 1016, 1282], 'Albania': [1, 267, 533, 799, 1065], 'Algeria': [2, 268, 534, 800, 1066], 'American Samoa': [3, 269, 535, 801, 1067], 'Andorra': [4, 270, 536, 802, 1068], 'Angola': [5, 271, 537, 803, 1069], 'Antigua and Barbuda': [6, 272, 538, 804, 1070], 'Arab World': [219, 485, 751, 1017, 1283], 'Argentina': [7, 273, 539, 805, 1071], 'Armenia': [8, 274, 540, 806, 1072], 'Aruba': [9, 275, 541, 807, 1073], 'Australia': [10, 276, 542, 808, 1074], 'Austria': [11, 277, 543, 809, 1075], 'Azerbaijan': [12, 278, 544, 810, 1076], 'Bahamas, The': [13, 279, 545, 811, 1077], 'Bahrain': [14, 280, 546, 812, 1078], 'Bangladesh': [15, 281, 547, 813, 1079], 'Barbados': [16, 282, 548, 814, 1080], 'Belarus': [17, 283, 549, 815, 1081], 'Belgium': [18, 284, 550, 816, 1082], 'Belize': [19, 285, 551, 817, 1083], 'Benin': [20, 286, 552, 818, 1084], 'Bermuda': [21, 

In [7]:
#Listagem dos grupos

countries.groups.keys()

dict_keys(['Afghanistan', 'Africa Eastern and Southern', 'Africa Western and Central', 'Albania', 'Algeria', 'American Samoa', 'Andorra', 'Angola', 'Antigua and Barbuda', 'Arab World', 'Argentina', 'Armenia', 'Aruba', 'Australia', 'Austria', 'Azerbaijan', 'Bahamas, The', 'Bahrain', 'Bangladesh', 'Barbados', 'Belarus', 'Belgium', 'Belize', 'Benin', 'Bermuda', 'Bhutan', 'Bolivia', 'Bosnia and Herzegovina', 'Botswana', 'Brazil', 'British Virgin Islands', 'Brunei Darussalam', 'Bulgaria', 'Burkina Faso', 'Burundi', 'Cabo Verde', 'Cambodia', 'Cameroon', 'Canada', 'Caribbean small states', 'Cayman Islands', 'Central African Republic', 'Central Europe and the Baltics', 'Chad', 'Channel Islands', 'Chile', 'China', 'Colombia', 'Comoros', 'Congo, Dem. Rep.', 'Congo, Rep.', 'Costa Rica', "Cote d'Ivoire", 'Croatia', 'Cuba', 'Curacao', 'Cyprus', 'Czechia', 'Denmark', 'Djibouti', 'Dominica', 'Dominican Republic', 'Early-demographic dividend', 'East Asia & Pacific', 'East Asia & Pacific (IDA & IBRD co

In [8]:
#Quantos valores/linhas têm cada um dos grupos 'countries'?
#Neste caso, 5 que corresponde ao número de anos entre 2018 e 2022.


countries.size()

Country Name
Afghanistan                    5
Africa Eastern and Southern    5
Africa Western and Central     5
Albania                        5
Algeria                        5
                              ..
West Bank and Gaza             5
World                          5
Yemen, Rep.                    5
Zambia                         5
Zimbabwe                       5
Length: 266, dtype: int64

In [9]:
countries.count()

Unnamed: 0_level_0,Time,Refugee population by country or territory of asylum,Refugee population by country or territory of origin
Country Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Afghanistan,5,5,5
Africa Eastern and Southern,5,5,5
Africa Western and Central,5,5,5
Albania,5,5,5
Algeria,5,5,5
...,...,...,...
West Bank and Gaza,5,5,5
World,5,5,5
"Yemen, Rep.",5,5,5
Zambia,5,5,5


## [**3.3 Filtrar dados agrupados | .get_group()**](#Índice)  <a class="anchor"  id="III33"></a>

Objectivo                            |Funcionalidade          |Sintaxe            
:---------------------------------------|:-----------------------|:----------
Filtrar ao n-ésimo valor do grupo | **.nth()** | g.nth( 'n' )
Filtrar ao primeiro valor do grupo | first() | g.first()
Filtrar ao último valor do grupo | .last() | g.last()
Filtrar um grupo | **.get_group()** | g.get_group( 'group1' )
Soma ( 1 coluna)  | .sum() | g[ 'column1' ].sum()
Média ( 1 coluna) | .mean() | g[ 'column1' ].mean()
Mínimo ( 1 coluna)| .min() | g[ 'column1' ].min()
Máximo ( 1 coluna)| .max() | g[ 'column1' ].max()
Soma ( múltiplas colunas)  | .sum() | **???**
Média de um grupo específico | **.sum()** | g.get_group( 'group1' )[ 'column1' ].mean()
Calcular várias funções agregadas | **.agg()** | g.agg( { 'column1' : [ 'sum', ...] } )
Aplicar uma função ao grupo | **.apply( lambda x: x...)** | g.get_group( 'column1' ).apply( lambda x: x...)








### [**3.3.1 Filtrar pela posição no grupo**](#Índice)  <a class="anchor" id="IV331 "></a>

Objectivo                            |Funcionalidade          |Sintaxe            
:---------------------------------------|:-----------------------|:----------
Filtrar ao n-ésimo valor do grupo | **.nth()** | g.nth( 'n' )
Filtrar ao primeiro valor do grupo | first() | g.first()
Filtrar ao último valor do grupo | .last() | g.last()









In [10]:
#Filtra à linha 4 de cada grupo.
#Linhas começam em zero.
#Neste caso, é uma forma de filtrar por ano.

countries.nth(4).head()

Unnamed: 0,Time,Country Name,Refugee population by country or territory of asylum,Refugee population by country or territory of origin
1064,2022,Afghanistan,52159.0,5661675.0
1065,2022,Albania,2676.0,20847.0
1066,2022,Algeria,99107.0,7703.0
1067,2022,American Samoa,,
1068,2022,Andorra,,5.0


In [11]:
countries.first().head(3)

Unnamed: 0_level_0,Time,Refugee population by country or territory of asylum,Refugee population by country or territory of origin
Country Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Afghanistan,2018,72228.0,2681267.0
Africa Eastern and Southern,2018,5114399.0,5958200.0
Africa Western and Central,2018,1285773.0,1283440.0


In [12]:
countries.last().head()

Unnamed: 0_level_0,Time,Refugee population by country or territory of asylum,Refugee population by country or territory of origin
Country Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Afghanistan,2022,52159.0,5661675.0
Africa Eastern and Southern,2022,5412266.0,6121402.0
Africa Western and Central,2022,1705777.0,1754445.0
Albania,2022,2676.0,20847.0
Algeria,2022,99107.0,7703.0


In [13]:
#????

#countries.last(2).head()

### [**3.3.2 Filtrar um grupo específico**](#Índice)  <a class="anchor" id="IV332 "></a>

Objectivo                            |Funcionalidade          |Sintaxe            
:---------------------------------------|:-----------------------|:----------
Filtrar um grupo | **.get_group()** | g.get_group( 'group1' )









In [14]:
"""
Pegamos no nosso grupo 'countries' e filtramos os dados correspondentes
a um dos elementos do grupo. Neste caso, 'Italy'.
"""

countries.get_group('Italy')

Unnamed: 0,Time,Country Name,Refugee population by country or territory of asylum,Refugee population by country or territory of origin
96,2018,Italy,189227.0,69.0
362,2019,Italy,207602.0,76.0
628,2020,Italy,128033.0,62.0
894,2021,Italy,144862.0,61.0
1160,2022,Italy,296181.0,151.0


In [15]:


#countries.get_group('Italy').nth(4)

In [16]:
"""Calcular média da coluna 'Refugee...'. Este valor é agrupado e apresentada uma
linha por cada elemento do grupo. Neste caso, média por país.
"""

countries['Refugee population by country or territory of asylum'].mean()

Country Name
Afghanistan                       67168.2
Africa Eastern and Southern     5246934.6
Africa Western and Central      1482394.2
Albania                             628.4
Algeria                           97517.6
                                  ...    
West Bank and Gaza              2357905.8
World                          28147106.8
Yemen, Rep.                      173338.6
Zambia                            61955.6
Zimbabwe                           9194.0
Name: Refugee population by country or territory of asylum, Length: 266, dtype: float64

### [**3.3.3 Funções agregadas de cada grupo/por coluna**](#IV333)

Objectivo                            |Funcionalidade          |Sintaxe            
:---------------------------------------|:-----------------------|:----------
Soma ( 1 coluna)  | .sum() | g[ 'column1' ].sum()
Média ( 1 coluna) | .mean() | g[ 'column1' ].mean()
Mínimo ( 1 coluna)| .min() | g[ 'column1' ].min()
Máximo ( 1 coluna)| .max() | g[ 'column1' ].max()
... |... |
Soma ( múltiplas colunas)  | .sum() | **???**









In [17]:
#Média do indicador 'Refugee' para o elemento do grupo 'Italy'

countries.get_group('Italy')['Refugee population by country or territory of asylum'].mean()

193181.0

In [18]:
#Soma do indicador 'Refugee' para o elemento do grupo 'Italy'

countries.get_group('Italy')['Refugee population by country or territory of asylum'].sum()

965905.0

In [19]:
#Média dod dois indicadores para um grupo??

countries.get_group('Italy').mean()

TypeError: Could not convert ['20182019202020212022' 'ItalyItalyItalyItalyItaly'] to numeric

### [**3.3.4 Calcular várias funções agregadas | .agg**](#IV33)

Objectivo                            |Funcionalidade          |Sintaxe            
:---------------------------------------|:-----------------------|:----------
Calcular várias funções agregadas | **.agg()** | g.agg( { 'column1' : [ 'sum', ...] } )
















In [None]:
countries.agg({'Refugee population by country or territory of asylum' : ['sum','mean','min','max']})

In [None]:
countries.get_group('Italy').agg({'Refugee population by country or territory of asylum' : ['sum','mean','min','max']})

In [None]:
#get_group() with two keys??

countries.get_group('Italy').agg({'Refugee population by country or territory of asylum' : ['sum','mean','min','max']})

### [**3.3.5 Aplicar função customizada | .apply**](#IV335)

Objectivo                            |Funcionalidade          |Sintaxe            
:---------------------------------------|:-----------------------|:----------
Aplicar uma função ao grupo | **.apply( lambda x: x...)** | g.get_group( 'column1' ).apply( lambda x: x...)








In [None]:
countries.get_group('Italy').apply(lambda x: x*2)

In [None]:
countries.get_group('Italy')['Refugee population by country or territory of origin'].apply(lambda x: x*2)

In [None]:
countries.describe().head()

# [**4. Modificar colunas**](#Índice) <a class="anchor"  id="III4"></a>

## [**4.1 Alterar nome de colunas**](#Índice)  <a class="anchor"  id="IV41"></a>

In [None]:
table1.columns

In [None]:
#Vamos alterar o nome das colunas

new_col = table1.rename( columns = {'Time' : 'Year', 'Country Name' : 'Country','Refugee population by country or territory of asylum' : 'Refugees in','Refugee population by country or territory of origin': 'Refugees from'})

new_col[new_col['Country'] == 'Italy'].head()

In [None]:
new_col2 = countries.rename( columns = {'Time' : 'Year', 'Country Name' : 'Country','Refugee population by country or territory of asylum' : 'Refugees in','Refugee population by country or territory of origin': 'Refugees from'})



## [**4.2 Definir coluna como index**](#Índice)  <a class="anchor"  id="III42"></a>



In [None]:
table1.set_index('Country Name')

In [None]:
table1.index

In [None]:
#table1.loc['India', :]

table1.set_index('Country Name').loc['India', :]

## [**4.3 .loc com nomes**](#Índice)  <a class="anchor"  id="III43"></a>

Se uma coluna é definida como index, os valores dessa coluna podem ser usados no loc. Por exemplo, se coluna 'Time' é definida como index, table1.loc[ '2022', : ].
Devolve apenas as linhas referentes a 2022.

## [**4.4 Reset index**](#Índice)  <a class="anchor"  id="III44"></a>

In [None]:
table1.reset_index(drop = True)


## [**4.5 Excluir colunas (definitivamente)**](#Índice)  <a class="anchor"  id="IV45"></a>

In [None]:
table1.drop(columns = 'Refugee population by country or territory of origin')

In [None]:
Excluir colunas de forma permanente

table1.drop( columns = ['Refugee population by country or territory of origin', 'Refugee population by country or territory of asylum'])

In [None]:
table1.head()

## [**4.6 Extrair coluna**](#Índice)  <a class="anchor"  id="IV46"></a>

In [None]:
#Seleccionar uma coluna

table1.pop( 'Time')

In [None]:
table1

# [**5. Manipular *strings***](#Índice) <a class="anchor"  id="III5"></a>

## [**5.1 Converter em maiúsculas/minúsculas**](#Índice)  <a class="anchor"  id="IV51"></a>

In [None]:
file2 = '/kaggle/input/refugee-population/871fdd65-7f81-4e78-8ec0-8c05fd44cbf3_Data_long.csv'

table2 = pd.read_csv(file2)

In [None]:
table2['Country Name'].str.lower()

In [None]:
table2['Country Name'].str.upper()

## [**5.2 Remover espaços**](#Índice)  <a class="anchor"  id="IV52"></a>

In [None]:
"""
Specifying the set of characters to be removed. 
All combinations of this set of characters will be stripped. 
If None then whitespaces are removed.
"""

table2['Country Name'].str.strip()

## [**5.3 Filtrar por padrões: começa, termina, contém**](#IV53)

RegEx

In [None]:
table2[table2['Country Name'].str.startswith('Por', na = False)]

In [None]:
table2['Country Name'].str.endswith('istan', na = False).sum()

In [None]:
table2[table2['Country Name'].str.endswith('istan', na = False)].head()

## [**5.4 Substituir**](#IV54)

In [None]:
table2['Country Name'].replace('Albania', 'Albânia' )


# [**6.**](#Índice)  <a class="anchor"  id="III6"></a>

## [**6.1**](#Índice)  <a class="anchor"  id="III61"></a>

## [**6.2 **](#Índice)  <a class="anchor"  id="III61"></a>

## [**6.3**](#Índice)  <a class="anchor"  id="III63"></a>

## [**6.4**](#Índice)  <a class="anchor"  id="III64"></a>

## [**6.5**](#Índice)  <a class="anchor"  id="III65"></a>

## [**6.6**](#Índice)  <a class="anchor"  id="III66"></a>

# [**7.**](#Índice) <a class="anchor"  id="III7"></a>


Seguir para

#### [I - Importação de csv e excel!](https://www.kaggle.com/code/tejota/analise-de-dados-pandas-tutorial-1-portugues)

#### [II - Análise exploratória de dados!](https://www.kaggle.com/code/tejota/analise-de-dados-pandas-tutorial-1-portugues)

#### [III - Index, Slice, Select!](https://www.kaggle.com/code/tejota/analise-de-dados-pandas-tutorial-2-portugues)



#### [Voltar ao Índice](#Índice)