<img src='letscodebr_cover.jpeg' align='left' width=100%/>

# Ada Tech [DS-PY-004] Técnicas de Programação I (PY) Aula 8: Operações com dados textuais no Pandas.

<a id="section_intro"></a> 
## Introdução

Aqui estão as funções que são úteis para trabalhar com dados do tipo string (string) em objetos do tipo DataFrame ou Series.

## Dataset

Para mostrar exemplos de uso dos métodos apresentados, usaremos as colunas Suburb, Address, SellerG, CouncilArea, Regionname do conjunto de dados [melbourne housing snapshot](https://www.kaggle.com/dansbecker/melbourne-housing-snapshot).

### Trabalho com dados textuais

Series e Index fornecem um conjunto de métodos de processamento de sequência de caracteres que facilitam a operação em cada elemento de uma instância.

Talvez o mais importante a salientar é que esses métodos excluem automaticamente os valores ausentes NA.

Eles são acessados através do atributo ```.str``` e geralmente possuem nomes que correspondem aos métodos em strings que já conhecemos.

In [1]:
import pandas as pd

# local
data_location = "../Data/melb_data.csv"

raw_data = pd.read_csv(data_location)

columns = ['Suburb', 'Address', 'SellerG', 'CouncilArea', 'Regionname']

data = raw_data[columns]

data.head(3)

Unnamed: 0,Suburb,Address,SellerG,CouncilArea,Regionname
0,Abbotsford,85 Turner St,Biggin,Yarra,Northern Metropolitan
1,Abbotsford,25 Bloomburg St,Biggin,Yarra,Northern Metropolitan
2,Abbotsford,5 Charles St,Biggin,Yarra,Northern Metropolitan


Vamos ver que todos os dados do tipo string de caracteres são representados como ```object```:

In [2]:
data.dtypes

Suburb         object
Address        object
SellerG        object
CouncilArea    object
Regionname     object
dtype: object

Para converter essas colunas para string podemos usar o método
```astype```.

In [3]:
data_text = data.astype("string")

In [4]:
data_text.dtypes

Suburb         string[python]
Address        string[python]
SellerG        string[python]
CouncilArea    string[python]
Regionname     string[python]
dtype: object

## Alguns métodos da classe string

Aqui estão alguns métodos em [string](https://docs.python.org/3/library/string.html) que são amplamente usados em data wrangling, aplicados em funções lambda.

### `split`

Retorna uma lista de palavras de uma string, [separada](https://docs.python.org/3/library/stdtypes.html#str.split) pelo delimitador passado como um parâmetro.

In [5]:
string = 'a,b,  guido, asjd, kle, askl'
separador = ','
string_em_partes = string.split(separador)
string_em_partes

['a', 'b', '  guido', ' asjd', ' kle', ' askl']

### `strip`

Retorna uma cópia de uma string, removendo os caracteres passados como parâmetros do início e do final da string. Se não especificarmos o valor do argumento, [remove](https://docs.python.org/3/library/stdtypes.html#str.strip) os espaços.

In [6]:
texto = "   Este é o primeiro exemplo....wow!!!   ";
texto_sem_espacos = texto.strip()
print(texto_sem_espacos)

texto1 = "0000000Este este é o segundo exemplo....wow!!!0000000";
texto1_sem_zeros = texto1.strip('0')
print(texto1_sem_zeros)

texto2 = "    0000000Este é o segundo exemplo....wow!!!0000000";
texto2_sem_zeros = texto2.strip('0')
print(texto2_sem_zeros)


Este é o primeiro exemplo....wow!!!
Este este é o segundo exemplo....wow!!!
    0000000Este é o segundo exemplo....wow!!!


Observe que em texto2 ele não removeu os espaços iniciais, apenas o conjunto de caracteres no argumento.

### `find`

Retorna o índice mínimo onde encontramos a substring passada como parâmetro.

Caso contrário, se não [encontrar](https://docs.python.org/3/library/stdtypes.html#str.find), retorna -1.

In [7]:
string

'a,b,  guido, asjd, kle, askl'

In [8]:
string.find(':')

-1

In [9]:
string.find('as')

13

In [10]:
string.find('asj')

13

In [11]:
string.find('asp')

-1

Vamos observar que ele retorna o índice do início da string pesquisada.

### `index`

É similar a função find, mas retorna uma exceção do tipo `ValueError` quando não encontra o valor para o [índice](https://docs.python.org/3/library/stdtypes.html#str.index) inserido.

In [12]:
string.index(',')

1

In [13]:
#string.index(':')

### `count`

Retorna a [contagem](https://docs.python.org/3/library/stdtypes.html#str.count) de ocorrências do valor passado como parâmetro.

In [14]:
string.count(',')

5

In [15]:
string.count('as')

2

### `replace`

Retorna uma cópia da string com todas as ocorrências do primeiro argumento [substituídas](https://docs.python.org/3/library/stdtypes.html#str.replace) pelo segundo argumento.

In [16]:
string_ponto_e_virgula = string.replace(',',';')
string_ponto_e_virgula

'a;b;  guido; asjd; kle; askl'

In [17]:
string_qw = string.replace('as', 'qw')
string_qw

'a,b,  guido, qwjd, kle, qwkl'

## Dados textuais com `pandas`

#### ```lower``` ```upper``` ```len```

* lower: converte strings em uma Series/Index para lowercase (minúsculas)

* upper: converte strings em uma Series/Index para uppercase

* len: retorna o tamanho da string

In [18]:
data.Suburb.str.lower()

0           abbotsford
1           abbotsford
2           abbotsford
3           abbotsford
4           abbotsford
             ...      
13575    wheelers hill
13576     williamstown
13577     williamstown
13578     williamstown
13579       yarraville
Name: Suburb, Length: 13580, dtype: object

In [19]:
data.Suburb.str.upper()

0           ABBOTSFORD
1           ABBOTSFORD
2           ABBOTSFORD
3           ABBOTSFORD
4           ABBOTSFORD
             ...      
13575    WHEELERS HILL
13576     WILLIAMSTOWN
13577     WILLIAMSTOWN
13578     WILLIAMSTOWN
13579       YARRAVILLE
Name: Suburb, Length: 13580, dtype: object

In [20]:
data.Suburb.str.len()

0        10
1        10
2        10
3        10
4        10
         ..
13575    13
13576    12
13577    12
13578    12
13579    10
Name: Suburb, Length: 13580, dtype: int64

**Observe que essas operações respeitam o tipo de dados original da coluna do DataFrame ou em uma Series.**

Então, 

* se Suburb é do tipo object, então a função str.upper() retorna um object

* se Suburb é do tipo string, então a função str.upper() retorna uma string



In [21]:
print(data_text.Suburb.str.lower().dtype)
data_text.Suburb.str.lower()

string


0           abbotsford
1           abbotsford
2           abbotsford
3           abbotsford
4           abbotsford
             ...      
13575    wheelers hill
13576     williamstown
13577     williamstown
13578     williamstown
13579       yarraville
Name: Suburb, Length: 13580, dtype: string

#### ```strip``` ```lstrip``` ```rstrip```

* strip: remove os espaços ao redor de uma string (cadeia de caracteres)

* lstrip: remove os espaços à esquerda de uma string

* rstrip: remove os espaços à direita de uma string

In [22]:
names = pd.Series([" jack", "jill ", " jesse ", "frank"])

In [23]:
names.str.strip()

0     jack
1     jill
2    jesse
3    frank
dtype: object

In [24]:
names.str.lstrip()

0      jack
1     jill 
2    jesse 
3     frank
dtype: object

In [25]:
names.str.rstrip()

0      jack
1      jill
2     jesse
3     frank
dtype: object

#### ```split``` ```replace```

* split: retorna um array onde cada elemento é uma substring do original, separada pelo caractere especificado.

* replace:  retorna uma sequência de caracteres em que o primeiro parâmetro é substituído pelo segundo. Aceita expressões regulares para definir o padrão a ser substituído.


In [26]:
data.Regionname

0             Northern Metropolitan
1             Northern Metropolitan
2             Northern Metropolitan
3             Northern Metropolitan
4             Northern Metropolitan
                    ...            
13575    South-Eastern Metropolitan
13576          Western Metropolitan
13577          Western Metropolitan
13578          Western Metropolitan
13579          Western Metropolitan
Name: Regionname, Length: 13580, dtype: object

In [27]:
data.Regionname.str.split(" ")

0             [Northern, Metropolitan]
1             [Northern, Metropolitan]
2             [Northern, Metropolitan]
3             [Northern, Metropolitan]
4             [Northern, Metropolitan]
                     ...              
13575    [South-Eastern, Metropolitan]
13576          [Western, Metropolitan]
13577          [Western, Metropolitan]
13578          [Western, Metropolitan]
13579          [Western, Metropolitan]
Name: Regionname, Length: 13580, dtype: object

In [28]:
data.Regionname.str.split(" ").str.get(0)

0             Northern
1             Northern
2             Northern
3             Northern
4             Northern
             ...      
13575    South-Eastern
13576          Western
13577          Western
13578          Western
13579          Western
Name: Regionname, Length: 13580, dtype: object

In [29]:
data.Regionname.str.split(" ").str.get(1)

0        Metropolitan
1        Metropolitan
2        Metropolitan
3        Metropolitan
4        Metropolitan
             ...     
13575    Metropolitan
13576    Metropolitan
13577    Metropolitan
13578    Metropolitan
13579    Metropolitan
Name: Regionname, Length: 13580, dtype: object

In [30]:
data.Regionname.str.replace("Northern", "N ", case=False, regex=False)

0                   N  Metropolitan
1                   N  Metropolitan
2                   N  Metropolitan
3                   N  Metropolitan
4                   N  Metropolitan
                    ...            
13575    South-Eastern Metropolitan
13576          Western Metropolitan
13577          Western Metropolitan
13578          Western Metropolitan
13579          Western Metropolitan
Name: Regionname, Length: 13580, dtype: object

In [31]:
data.Regionname.str.replace(".ern ", "... ", case=False, regex=True)

0             Nort... Metropolitan
1             Nort... Metropolitan
2             Nort... Metropolitan
3             Nort... Metropolitan
4             Nort... Metropolitan
                   ...            
13575    South-Eas... Metropolitan
13576          Wes... Metropolitan
13577          Wes... Metropolitan
13578          Wes... Metropolitan
13579          Wes... Metropolitan
Name: Regionname, Length: 13580, dtype: object

#### ```extract```

extract: retorna um DataFrame ou Series com substrings que correspondem ao padrão especificado.

Quando ```expand = True```, retorna um DataFrame

Quando ```expand = False```, retorna uma Series

In [32]:
data.Regionname.str.extract("(.*)ern ")

Unnamed: 0,0
0,North
1,North
2,North
3,North
4,North
...,...
13575,South-East
13576,West
13577,West
13578,West


In [33]:
type(data.Regionname.str.extract("(.*)ern ", expand = True))

pandas.core.frame.DataFrame

In [34]:
data.Regionname.str.extract("(.*)ern ", expand = True)

Unnamed: 0,0
0,North
1,North
2,North
3,North
4,North
...,...
13575,South-East
13576,West
13577,West
13578,West


In [35]:
type(data.Regionname.str.extract("(.*)ern ", expand = False))

pandas.core.series.Series

In [36]:
data.Regionname.str.extract("(.*)ern ", expand = False)

0             North
1             North
2             North
3             North
4             North
            ...    
13575    South-East
13576          West
13577          West
13578          West
13579          West
Name: Regionname, Length: 13580, dtype: object

## Referências

- [string — Common string operations](https://docs.python.org/3/library/string.html)

Text Data

- [Working with text data](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html)

Missing Data

- [Working with missing data](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html)