# NLP1 - Python review and Strings

---

It will be important, as an introductory part of the course, to review some Python concepts and revisit functions that manipulate strings. The string data type will be the most frequently used in the course from now on.

---

## 1 - Create strings:


To create strings we can use either **single quotes** `'` or **double quotes** `"`.


In [2]:
# Try creating a string "Olá, Mundo!"
string1 = "Olá, Mundo!"
string2 = 'Bem-vindo ao Python!'

print(string1)
print(string2)

Olá, Mundo!
Bem-vindo ao Python!


We can use **triple quotes** `"""` to define a multi-line string (containing line breaks).


In [3]:
# Try creating a string with """ and put \n inside of it
string3 = """Isto é um texto
multi-linha."""
print(string3)

Isto é um texto
multi-linha.


## 2 - Accessing Characters in a String

Just like in a list, we use `[ ]` to access the characters at the specific address of a string.

In [5]:
# To access the third character of the string you created earlier
terceiro_caractere = string1[2]

print(f"Terceiro caractere: {terceiro_caractere}")


Terceiro caractere: á


We can also slice or make slices using `[start:end(exclusive):step]`.

In [6]:
#Create a slice and show the first 3 characters of your created string
fatiamento = string1[0:3]
print(f"Fatiamento (0:3): {fatiamento}")

# Test to Slice and Show the Last 3
fatiamento = string1[-3:]
print(f"Fatiamento (-3:0): {fatiamento}")

Fatiamento (0:3): Olá
Fatiamento (-3:0): do!


## 3 - Common String Methods


Obtain the length of the string

In [7]:
# Use len() to know the length of a created string
comprimento = len(string1)
print(f"Comprimento de '{string1}': {comprimento}")

Comprimento de 'Olá, Mundo!': 11


Convert a string to uppercase and lowercase

In [8]:
# User the methods upper() and lower() to obtain variations of a string
maiusculo = string1.upper()
minusculo = string1.lower()


print(f"Maiúsculas: {maiusculo}")
print(f"Minúsculas: {minusculo}")

Maiúsculas: OLÁ, MUNDO!
Minúsculas: olá, mundo!


Another commonly used method is `replace()`. It replaces a pattern contained within the string with another (or replaces it with nothing).


In [9]:
# Consider the string "Eu estudo matematicaXXX"
# Replace the substring "matematica" with "NLP" using the replace()

string1 = "Eu estudo matemáticaXXX"
substituicao = string1.replace("matemática", "NLP")
print(substituicao)

# Now using the replace() function to remove "XXX"
substituicao = string1.replace("XXX", "")
print(substituicao)

Eu estudo NLPXXX
Eu estudo matemática


## 4 - Operator in


We can use the `in` operator to check if a string is contained within another.

In [10]:
# Test the 'in' Operator
# What does it return?
contains = "Mundo" in string1
print(f"Contém 'Mundo': {contains}")

Contém 'Mundo': False


## 5 - Division and Joining of Strings


To split a string, we use `split()`.

In [11]:
# Split the string "eu|estou|aprendendo" using the separator "|"
# What type of data does split() return?

frase = "eu|estou|aprendendo"
palavras = frase.split("|")  # Divide a string em palavras
print(palavras)


['eu', 'estou', 'aprendendo']


To join, we use a `join()`.

In [12]:
# Join the separated sentence above and add a space between the separated items
nova_frase = " ".join(palavras)
print(nova_frase)

eu estou aprendendo


## 6 - Using f-strings


We use the format `f"any text {variable}"`


In [14]:
# Consider
nome = "Alice"
idade = 30

# Using f-strings, print "Meu nome é Alice e eu tenho 30 anos."

mensagem = f"Meu ome é {nome} e eu tenho {idade} anos."
print(mensagem)


Meu ome é Alice e eu tenho 30 anos.


## 7 - Strings are immutable


In [15]:
# Create a string "hello how are you"
# Using try and except, attempt to modify the character at index 3
try:
    string1[3] = 'o'
except:
    print(f"Erro ao tentar modificar a string")

Erro ao tentar modificar a string


## 8 - Special Characters

It is possible to insert [special characters](https://www.w3schools.com/python/gloss_python_escape_characters.asp) within a string.

In [16]:
# Put a \n inside a string and see what happens
string_com_especial = "Isto é uma string com uma nova linha:\nE aqui está."
print(string_com_especial)

Isto é uma string com uma nova linha:
E aqui está.


## 9 - Removing Whitespace

We can use the `strip` function to remove unwanted whitespace from a string.

In [None]:
# Consider the string "    Olá, Mundo!    "
# Remove the whitespace before and after the string

string_com_espacos = "    Olá, Mundo!    "
string_limpa = string_com_espacos.strip()
print(f"String limpa: '{string_limpa}'")

String limpa: 'Olá, Mundo!'


## 10 - Regular Expressions

We can accomplish various tasks through the use of regular expressions. First, we need to import the library.

In [17]:
# Import the re library
import re

Using `re.findall`, locate substrings.

In [18]:
# Consider the string "O céu é azul. O mar é azul."
# Locate the substring "azul" using findall
# What does it return?

texto = "O céu é azul. O mar é azul."
matches = re.findall(r'azul', texto)
print(f"Número de ocorrências de 'azul': {len(matches)}")

# What happens if the string is "O céu é azul. O mar é Azul."
texto = "O céu é azul. O mar é Azul."
matches = re.findall(r'azul', texto)
print(f"Número de ocorrências de 'azul': {len(matches)}")

Número de ocorrências de 'azul': 2
Número de ocorrências de 'azul': 1


Beyond the `replace()`, we can use `re.sub()` to replace a substring contained within a string.

In [19]:
#Consider "azul da cor do mar".
texto  = "azul da cor do mar"

#Replace "azul" with "verde" using re.sub()
texto_substituido = re.sub(r'azul', 'verde', texto)
print(f"Texto após substituição: {texto_substituido}")

Texto após substituição: verde da cor do mar


The `re.search()` function searches for a pattern in a string and returns the first occurrence of it.

In [25]:
# Consider the string
texto = "Aprender Python é divertido"

# Try to find the substring "Python" and access only the addresses
resultado = re.search(r'Python', texto)
print(resultado.span())



(9, 15)


And now, to prepare for our next class, let's take on a challenge.


In [26]:
# Consider the string
texto = "Hoje é dia 25/09/2024. O professor faz aniversário no dia 29/09/2024."

#Using re.compile(), what would a script that captures the two dates presented in the string?
# Compilando uma expressão regular para capturar datas no formato dd/mm/yyyy
padrao_data = re.compile(r'\b\d{2}/\d{2}/\d{4}\b')

# Encontrando todas as datas no texto
datas_encontradas = padrao_data.findall(texto)

# Imprimindo as datas encontradas
print(datas_encontradas)

['25/09/2024', '29/09/2024']
