In [1]:
# initial setup
# %run "../../../common/0_notebooks_base_setup.py"


---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


# Operaciones en datos de texto con Pandas

<a id="section_intro"></a> 
## Intro

A continuación presentamos funciones que resultan útiles para trabajar con datos de tipo cadena de caracteres (string) en objetos de tipo DataFrame o Series
    
    

<a id="section_dataset"></a> 
## Dataset

Para mostrar ejemplos de uso de los métodos presentados usaremos las columnas Suburb, Address, SellerG, CouncilArea, Regionname del dataset "melbourne housing snapshot"
    
https://www.kaggle.com/dansbecker/melbourne-housing-snapshot

    

### Trabajando con datos de tipo texto

Series e Index proveen un conjunto de métodos de procesamiento de cadenas de caracteres que facilita la operación en cada elemento de una instancia. 

Tal vez lo más importante es que estos métodos excluyen automáticamente los valores faltantes NA. 

Se accede a ellos a través del atributo ```.str``` y generalmente tienen nombres que coinciden con los métodos sobre strings que ya conocemos.

In [2]:
import pandas as pd

# local
data_location = "../Data/melb_data.csv"

raw_data = pd.read_csv(data_location)

columns = ['Suburb', 'Address', 'SellerG', 'CouncilArea', 'Regionname']

data = raw_data[columns]

data.head(3)

Unnamed: 0,Suburb,Address,SellerG,CouncilArea,Regionname
0,Abbotsford,85 Turner St,Biggin,Yarra,Northern Metropolitan
1,Abbotsford,25 Bloomburg St,Biggin,Yarra,Northern Metropolitan
2,Abbotsford,5 Charles St,Biggin,Yarra,Northern Metropolitan


Veamos que todas los datos de tipo cadena de caracteres son representados como ```object```:

In [3]:
data.dtypes

Suburb         object
Address        object
SellerG        object
CouncilArea    object
Regionname     object
dtype: object

Si queremos convertir esas columnas al tipo string usamos el método ```astype```

In [4]:
data_text = data.astype("string")

In [5]:
data_text.dtypes

Suburb         string
Address        string
SellerG        string
CouncilArea    string
Regionname     string
dtype: object

<a id="section_string"></a> 

## Algunos métodos de la clase string

[volver a TOC](#section_toc)


https://docs.python.org/3/library/string.html

A continuación presentamos algunos métodos sobre string que son muy usados en data wrangling, aplicados en funciones lambda.


### `split`

Devuelve una lista de palabras en un string separadas por el delimitador pasado como parámetro

https://docs.python.org/3/library/stdtypes.html#str.split

In [6]:
cadena = 'a,b,  guido, asjd, kle, askl'
separador = ','
cadena_en_partes = cadena.split(separador)
cadena_en_partes 

['a', 'b', '  guido', ' asjd', ' kle', ' askl']

### `strip`

Devuelve una copia de un string, eliminando del comienzo y fin de la cadena los caracteres pasados como parámetro. Si no especificamos el valor del argumento, elimina espacios.

https://docs.python.org/3/library/stdtypes.html#str.strip

In [7]:
texto = "   Este es el primer ejemplo....wow!!!   ";
texto_sin_espacios = texto.strip()
print(texto_sin_espacios)

texto1 = "0000000Este es el segundo ejemplo....wow!!!0000000";
texto1_sin_ceros = texto1.strip('0')
print(texto1_sin_ceros)

texto2 = "    0000000Este es el segundo ejemplo....wow!!!0000000";
texto2_sin_ceros = texto2.strip('0')
print(texto2_sin_ceros)


Este es el primer ejemplo....wow!!!
Este es el segundo ejemplo....wow!!!
    0000000Este es el segundo ejemplo....wow!!!


Observemos que en texto2 no eliminó los espacios iniciales, sólo el caracter establecido en el argumento.

### `find`

Devuelve el mínimo índice donde encontramos como substring el valor pasado como parámetro.

Si no lo encuentra devuelve -1

https://docs.python.org/3/library/stdtypes.html#str.find

In [8]:
cadena

'a,b,  guido, asjd, kle, askl'

In [9]:
cadena.find(':')

-1

In [10]:
cadena.find('as')

13

In [11]:
cadena.find('asj')

13

In [12]:
cadena.find('asp')

-1

Observemos que devuelve el índice del comienzo del string buscado

### `index`

Es similar a find pero devuelve una excepción de tip `ValueError` cuando no encuentra el valor buscado

https://docs.python.org/3/library/stdtypes.html#str.index

In [13]:
cadena.index(',')

1

In [14]:
cadena.index(':')

ValueError: substring not found

### `count`

Devuelve la cantidad de apariciones del valor pasado como parámetro

https://docs.python.org/3/library/stdtypes.html#str.count

In [None]:
cadena.count(',')

5

In [None]:
cadena.count('as')

2

### `replace`

Devuelve una copia del string con todas las ocurrencias del primer argumento reemplazadas por el segundo argumento

https://docs.python.org/3/library/stdtypes.html#str.replace

In [None]:
cadena_punto_y_coma = cadena.replace(',', ';')
cadena_punto_y_coma

'a;b;  guido; asjd; kle; askl'

In [None]:
cadena_qw = cadena.replace('as', 'qw')
cadena_qw

'a,b,  guido, qwjd, kle, qwkl'

## Text Data con `pandas`

#### ```lower``` ```upper``` ```len```

* lower: pasa a minúsculas cada uno de los caracteres de una cadena

* upper: pasa a mayúsculas cada uno de los caracteres de una cadena

* len: devuelve la longitud de la cadena de caracteres

In [None]:
data.Suburb.str.lower()

0           abbotsford
1           abbotsford
2           abbotsford
3           abbotsford
4           abbotsford
             ...      
13575    wheelers hill
13576     williamstown
13577     williamstown
13578     williamstown
13579       yarraville
Name: Suburb, Length: 13580, dtype: object

In [None]:
data.Suburb.str.upper()

0           ABBOTSFORD
1           ABBOTSFORD
2           ABBOTSFORD
3           ABBOTSFORD
4           ABBOTSFORD
             ...      
13575    WHEELERS HILL
13576     WILLIAMSTOWN
13577     WILLIAMSTOWN
13578     WILLIAMSTOWN
13579       YARRAVILLE
Name: Suburb, Length: 13580, dtype: object

In [None]:
data.Suburb.str.len()

0        10
1        10
2        10
3        10
4        10
         ..
13575    13
13576    12
13577    12
13578    12
13579    10
Name: Suburb, Length: 13580, dtype: int64

**Observemos que estas operaciones respetan el tipo de datos original de la columna del DataFrame o Series.**

Entonces, 

* si Suburb es de tipo object, str.upper() devuelve object

* si Suburb es de tipo string, str.upper() devuelve string



In [None]:
print(data_text.Suburb.str.lower().dtype)
data_text.Suburb.str.lower()

string


0           abbotsford
1           abbotsford
2           abbotsford
3           abbotsford
4           abbotsford
             ...      
13575    wheelers hill
13576     williamstown
13577     williamstown
13578     williamstown
13579       yarraville
Name: Suburb, Length: 13580, dtype: string

#### ```strip``` ```lstrip``` ```rstrip```

* strip: borra los espacios que rodean a una cadena de caracteres

* lstrip: borra los espacios a izquierda en una cadena de caracteres

* rstrip: borra los espacios a derecha en una cadena de caracteres


In [None]:
names = pd.Series([" jack", "jill ", " jesse ", "frank"])

In [None]:
names.str.strip()

0     jack
1     jill
2    jesse
3    frank
dtype: object

In [None]:
names.str.lstrip()

0      jack
1     jill 
2    jesse 
3     frank
dtype: object

In [None]:
names.str.rstrip()

0      jack
1      jill
2     jesse
3     frank
dtype: object

#### ```split``` ```replace```

* split: devuelve un array donde cada elemento es una subcadena de la original, separada por el caracter especificado

* replace:  devuelve una cadena de caracteres donde el primer parámetro es reemplazado por el segundo. Acepta expresiones regulares para definir el patrón a reemplazar.


In [None]:
data.Regionname

0             Northern Metropolitan
1             Northern Metropolitan
2             Northern Metropolitan
3             Northern Metropolitan
4             Northern Metropolitan
                    ...            
13575    South-Eastern Metropolitan
13576          Western Metropolitan
13577          Western Metropolitan
13578          Western Metropolitan
13579          Western Metropolitan
Name: Regionname, Length: 13580, dtype: object

In [None]:
data.Regionname.str.split(" ")

0             [Northern, Metropolitan]
1             [Northern, Metropolitan]
2             [Northern, Metropolitan]
3             [Northern, Metropolitan]
4             [Northern, Metropolitan]
                     ...              
13575    [South-Eastern, Metropolitan]
13576          [Western, Metropolitan]
13577          [Western, Metropolitan]
13578          [Western, Metropolitan]
13579          [Western, Metropolitan]
Name: Regionname, Length: 13580, dtype: object

In [None]:
data.Regionname.str.split(" ").str.get(0)

0             Northern
1             Northern
2             Northern
3             Northern
4             Northern
             ...      
13575    South-Eastern
13576          Western
13577          Western
13578          Western
13579          Western
Name: Regionname, Length: 13580, dtype: object

In [None]:
data.Regionname.str.split(" ").str.get(1)

0        Metropolitan
1        Metropolitan
2        Metropolitan
3        Metropolitan
4        Metropolitan
             ...     
13575    Metropolitan
13576    Metropolitan
13577    Metropolitan
13578    Metropolitan
13579    Metropolitan
Name: Regionname, Length: 13580, dtype: object

In [None]:
data.Regionname.str.replace("Northern", "N ", case=False, regex=False)

0                   N  Metropolitan
1                   N  Metropolitan
2                   N  Metropolitan
3                   N  Metropolitan
4                   N  Metropolitan
                    ...            
13575    South-Eastern Metropolitan
13576          Western Metropolitan
13577          Western Metropolitan
13578          Western Metropolitan
13579          Western Metropolitan
Name: Regionname, Length: 13580, dtype: object

In [None]:
data.Regionname.str.replace(".ern ", "... ", case=False, regex=True)

0             Nort... Metropolitan
1             Nort... Metropolitan
2             Nort... Metropolitan
3             Nort... Metropolitan
4             Nort... Metropolitan
                   ...            
13575    South-Eas... Metropolitan
13576          Wes... Metropolitan
13577          Wes... Metropolitan
13578          Wes... Metropolitan
13579          Wes... Metropolitan
Name: Regionname, Length: 13580, dtype: object

#### ```extract```

extract: devuelve una DataFrame o una Series con las subcadenas que cumplen con el patón especificado. 

Cuando ```expand = True```, devuelve un DataFrame

Cuando ```expand = False```, devuelve una Series

In [None]:
data.Regionname.str.extract("(.*)ern ")

Unnamed: 0,0
0,North
1,North
2,North
3,North
4,North
...,...
13575,South-East
13576,West
13577,West
13578,West


In [None]:
type(data.Regionname.str.extract("(.*)ern ", expand = True))

pandas.core.frame.DataFrame

In [None]:
data.Regionname.str.extract("(.*)ern ", expand = True)

Unnamed: 0,0
0,North
1,North
2,North
3,North
4,North
...,...
13575,South-East
13576,West
13577,West
13578,West


In [None]:
type(data.Regionname.str.extract("(.*)ern ", expand = False))

pandas.core.series.Series

In [None]:
data.Regionname.str.extract("(.*)ern ", expand = False)

0             North
1             North
2             North
3             North
4             North
            ...    
13575    South-East
13576          West
13577          West
13578          West
13579          West
Name: Regionname, Length: 13580, dtype: object

## Referencias

Python for Data Analysis. Wes McKinney. Cap 12


https://docs.python.org/3/library/string.html

Text Data

https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html


Missing Data

https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html