# Desenvolvimento de Pacotes Científicos com Python

**por**: Rafael Pereira da Silva

# PARTE 1
# Seção 4: Manipulando textos e arquivos



## 4.1 - Operações com strings

<br/>

Algumas características das strings são:
- [x] Aceitam operações da matemática
- [x] São indexáveis (slicing)
- [x] São iteráveis
- [x] Aceitam formatações especiais
- [x] (\\) barras são utilizados em casos especiais

## 4.2 - Métodos para strings

<br/>

**Alguns métodos de manipulação de strings:**

<br/>

| Método | Descrição |
| :-- | :-- |
| upper() | Retorna letras maiúsculas |
| lower() | Retorna letras minúsculas |
| replace(arg_ant, arg_nov) | Substiuí arg_ant pelo arg_nov  |
| find(arg)| Retorna a posição da primeira ocorrencia. Olhe: rfind() |
| strip() | Retorna um string removendo caracteres em branco do início e do fim. Olhe: rstrip(), lstrip() |
| count() | Retorna o número de ocorrências de item. |
| split(arg) | Retorna uma lista onde os elementos são separados pelo argumento de entrada |
| isupper() | Checa se todas as letras são maiúsculas e retorna um booleano. Olhe: islower(), isalpha(), isnumeric() |
| startswith(arg) | Checa se a string começa com arg. Olhe: endswith() |


<br/>

**nota:**
<pre>É sempre importante checar como o método que você está utilizando age sobre o objeto. Neste caso os métodos não modificam o objetos, pois strings são imutáveis.</pre>


## 4.3 - Formatação para strings

<br/>

A partir do python 3.6, foram adicionados as *f-strings* que facilitam a formatação dos strings. Caso você esteja utilizando uma versão de python anterior, há outras maneiras de fazer a formatação de string como o método format() ou o %.

<br/>

#### Sintaxe do f'string

```python
>>> resultado = 10
>>> texto_resultado = f'resultado = {resultado}'
>>> pi = 3.14159
>>> valor_pi = f'O valor de pi é {pi: .2f}'
```

<br/>

**nota:**
<pre>Além do f'string, há outros prefixos que podem serem utilizados: r para raw (bruto), b para binários e u para unicode. </pre>

## 4.4 - Lendo e escrevendo arquivos

<br/>

Ler e escrever arquivos é uma ótima forma de automatizar tarefas na ciência e na engenharia. No entanto, devemos fazer isso da forma correta para não mantermos o arquivo aberto sem sabermos. Para não correr esse risco, use o statement **with**.

#### Sintaxe do f'string

```python
>>> path = 'C:/....'
>>> with open(path, 'r') as f:
>>>     conteudo = f.read()
>>> print(conteudo)
```

**notas:**

<pre>Parâmetros: 
- 'r': read (ou leitura)
- 'w': write (escrita)
- 'wb': write binary (escrita binária)</pre>

<pre>Métodos:
- read(): lê o conteúdo do arquivo e retorna uma string
- readlines(): lê o conteúdo do arquivo e retorna uma lista </pre>

In [30]:
path = 'D:/repositories/notebooks/\
1-Python para Engenheiros e Cientistas - Professional/auxiliary_files/'

with open(path + 'fileToRead.txt', 'r', encoding="utf-8") as f:
    #content = f.read()
    content_line_by_line = f.readlines()

In [28]:
print(content_line_by_line)

['Olá mundo\n', 'Eu sou Rafael\n', 'Sejam bem vindo ao Engenharia Refinada']


In [26]:
new_content = 'Este arquivo será escrito via Python \n\
Faremos em utf-8, pois contém acentos \n\
Grande abraço a todos!'

with open(path + 'fileToWrite', 'w', encoding="utf-8") as f:
    #content = f.read()
    f.write(new_content)

## 4.5 - Encoding

<br/>

De forma simples, o encoding, ou codigicação de caracteres, é uma tabela de conversão de formato binário em um formato de texto.

<br/>

#### Exemplos

| UTF-8 | ANSI | ASCII | character |
| -:- | -:- | -:- | -:- |
| 01000001 (41) | 01000001   | 01000001 | A |
| 01011010 (5A) | 01011010 | 01011010 | Z |
| 01100001 (61) | 01100001 | 01100001 | a |
| 01111010 (7A)| 01111010 | 01111010 | z |
| 11000011 10100001 (C3 A1) | 11100001 (E1)| -- | á | 
| 11000011 10000001 (C3 81)| 11000001 ( C1)| -- | Á |

<br/>

**nota:**
<pre>ASCII é formado com 1 byte (8 bits), sendo que o primeiro número não é utilizado, portanto a tabela possui 128 valores. Essa tabela não possui acentos </pre>
<pre>ANSI é formado com 1 byte (8 bits), ela possui 256 valores. Contém todos aqueles do ASCII e mais outros incluindo acentos </pre>
<pre>O UTF-8 utiliza um conceito multibytes. Os primeiros 128 caracteres são do ASCII. A medida que há demanda por caracteres especiais, mais bytes são incluídos. O consórcio do UTF-8 contém mais de um milhão de caracteres e alguns deles podem chegar a 3 bytes. </pre>

<br/>

**Referências:**

https://www.gaijin.at/en/infos/unicode-character-table-latin

https://www.gaijin.at/en/infos/ascii-ansi-character-table

https://www.ime.usp.br/~pf/algoritmos/apend/unicode.html

In [87]:
def binaryToDecimal(n):
    return int(n, 2)

In [99]:
hex(binaryToDecimal('10000001'))

'0x81'

In [96]:
a = 'á'

a.encode(encoding='UTF-8')

b'\xc3\xa1'

# Exercícios

## E4.1
Dado um email qualquer, ```exemplo@gmail.com```, retorne uma lista com o nome de usuário e o domínio.

Saída:

```
[exemplo, gmail]
```

In [1]:
email = 'rafael@gmail.com'
a, b = email.split('@')

In [2]:
def split_email(email):
    login, dominio = email.split('@')
    dominio, *_ = dominio.split('.')
    result = [login, dominio]
    return result

In [3]:
split_email(email)

['rafael', 'gmail']

## E4.2
Dado um arquivo com emails, retorne uma lista com os logins e com os domínios.

Formato de dados sugerido:
```python
lista_emails = [[login1, dominio1],
                [login2, dominio2],
                [loginn, dominion]
               ]
```

In [4]:
emails_path = 'D:/repositories/notebooks/1-Python para Engenheiros e Cientistas - Professional/auxiliary_files/'

with open(emails_path + 'emails.txt', 'r') as file:
    conteudo = file.readlines()

In [9]:
resposta = []

for i in conteudo:
    resposta.append(
        split_email(i)
    )

In [10]:
resposta

[['a3sign', 'pandora'],
 ['aaanika2', 'hotmail'],
 ['aaron2003s', 'bol'],
 ['aaron--21', 'hotmail'],
 ['abidoral', 'hotmail'],
 ['abk_333', 'hotmail'],
 ['abner_bim', 'hotmail'],
 ['abner_bim', 'hotmail'],
 ['acacio_divix', 'hotmail'],
 ['academia.boaforma', 'yahoo'],
 ['ac-ferian', 'bol'],
 ['acordarsono', 'hotmail'],
 ['acsa_lim', 'yahoo'],
 ['adamyth', 'gmail'],
 ['add_ae_jente', 'yahoo'],
 ['addgeral', 'gmail'],
 ['addyevusk', 'yahoo'],
 ['adeozemir', 'yahoo'],
 ['adhaha', 'gmail'],
 ['adhaha', 'gmail'],
 ['adidas__star', 'hotmail'],
 ['adidas__star', 'hotmail'],
 ['adilio-vidaloka', 'yahoo'],
 ['adilson.mariano5', 'terra'],
 ['admgerald1', 'yahoo'],
 ['adri_barboza', 'hotmail'],
 ['adri_barboza', 'hotmail'],
 ['adriaens', 'pandora'],
 ['adrian_boyzinhu', 'yahoo'],
 ['adriana_lemes_farias', 'hotmail'],
 ['adriana_lemes_farias', 'hotmail'],
 ['adrianacpx', 'yahoo'],
 ['adriane_do_prado', 'yahoo'],
 ['adrianinhaim', 'bol'],
 ['adrianinhaim', 'bol'],
 ['adrianinhaxp', 'yahoo'],
 ['adr

## E4.3
Dada a lista de emails do exercício anterior, crie uma tabela com o seguinte formato:

```
Login               Dominio
login1              dominio1
login2              domonio2
loginn              dominion
```



In [7]:
def pretty_print(login_dominio):
    login, dominio = login_dominio
    nLogin = 60 - len(login)
    print(login + nLogin * ' ' + dominio)
    

In [8]:
pretty_print(['LOGIN', 'DOMINIO'])

for i in resposta:
    pretty_print(i)

LOGIN                                                       DOMINIO
a3sign                                                      pandora
aaanika2                                                    hotmail
aaron2003s                                                  bol
aaron--21                                                   hotmail
abidoral                                                    hotmail
abk_333                                                     hotmail
abner_bim                                                   hotmail
abner_bim                                                   hotmail
acacio_divix                                                hotmail
academia.boaforma                                           yahoo
ac-ferian                                                   bol
acordarsono                                                 hotmail
acsa_lim                                                    yahoo
adamyth                                                     

mayara_leandro                                              hotmail
mayaradepaula15                                             hotmail
mayaragalindo2004                                           yahoo
mayarahyngridy                                              hotmail
mayaramoranguinho                                           hotmail
mayarapsalvador                                             hotmail
mayarapsalvador                                             hotmail
mayarapsalvador                                             hotmail
mayarasouzacastro                                           hotmail
mayarinha_docinho                                           hotmail
mayconskyline                                               hotmail
mayconvidaloka                                              terra
mayconvidaloka                                              terra
mayconvidaloka                                              buecker
mayquinha.sexy                                        

## E4.4
Dadas o arquivo de emails anterior, conte quantos emails de cada domínio há na lista de emails.

Dica: utilize os conceitos de estruturas de repetição e estruturas de dados dos capítulos anteriores.

In [13]:
dominios = []

for email in resposta:
    dominios.append(email[1])

In [19]:
tipos_de_dominio = list(set(dominios)) #eliminamos duplicatas
len(tipos_de_dominio)

131

In [23]:
# contar quantidade de dominios

for dominio in tipos_de_dominio:
    quantidadeDominios = dominios.count(dominio)

    if quantidadeDominios > 10: # filtro
        print(f'{dominio} = {quantidadeDominios}')

HOTMAIL = 24
uol = 28
pop = 15
bol = 410
msn = 36
hotmail = 3173
yahoo = 1895
zipmail = 12
ibest = 12
ig = 59
terra = 31
oi = 35
itelefonica = 11
walla = 11
jim = 16
YAHOO = 24
gmail = 879


# Projetos

## P4.1
Crie um script que importe o arquivo de emails e em seguida exporte um arquivo contendo um relatório dos domínios e também com todos os emails.

In [2]:
import moviepy

ModuleNotFoundError: No module named 'moviepy'