---
layout: page
title: Strings e Arrays
nav_order: 4
---
[<img src="https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/colab_favicon_small.png" style="float: right;">](https://colab.research.google.com/github/flaviovdf/fcd/blob/master/_lessons/04-Arrays.ipynb)

# T√≥pico 4 - Strings e Arrays
{: .no_toc .mb-2 }

Vetores (Arrays) representam um conjunto b√°sico de dados. Vamos aprender como usar os mesmos.
{: .fs-6 .fw-300 }

{: .no_toc .text-delta }
Resultados Esperados

1. Entender tipos em Python, em particular a String
1. Saber o que √© a biblioteca [numpy](https://numpy.org/)
1. Conhecimento b√°sico de manipula√ß√£o de arrays

{: .no_toc .text-delta }
Material Adaptador do [DSC10 (UCSD)](https://dsc10.com/)

### Recursos ü§ù

- Estamos cobrindo **muito** conte√∫do muito rapidamente. Se voc√™ est√° sobrecarregado, saiba que estamos aqui para apoi√°-lo!
- Os monitores foram definidos. Olhem a mensagem no moodle.
- Procurem o professor depois da aula!

### Agenda

- Strings
- Listas.
- Matrizes.
- Intervalos.

## Strings ou Texto

### Strings

- Uma string √© um trecho de texto de qualquer comprimento.
- Em Python, as strings s√£o colocadas entre aspas simples ou duplas.

In [1]:
'woof'

'woof'

In [2]:
type('woof')

str

In [3]:
"woof"

'woof'

In [4]:
# A string, not an int!
"1998"

'1998'

### Aritm√©tica de strings

Ao usar o s√≠mbolo `+` entre duas strings, a opera√ß√£o √© chamada de "concatena√ß√£o".

In [5]:
s1 = 'baby'
s2 = 'üêº'

In [6]:
s1 + s2

'babyüêº'

In [7]:
s1 + ' ' + s2

'baby üêº'

In [8]:
s2 * 3

'üêºüêºüêº'

### M√©todos de string
* Strings est√£o associadas a certas fun√ß√µes chamadas **m√©todos de string**.
* Acesse m√©todos de string com um `.` ap√≥s a string ("nota√ß√£o de ponto").
* Por exemplo, para usar o m√©todo `upper` na string `s`, escrevemos `s.upper()`.
* Exemplos incluem `upper`, `title` e `replace`.

In [9]:
my_cool_string = 'data science is super cool!'

In [10]:
my_cool_string.title()

'Data Science Is Super Cool!'

In [11]:
my_cool_string.upper()

'DATA SCIENCE IS SUPER COOL!'

In [12]:
my_cool_string.replace('super cool', 'üíØ' * 3)

'data science is üíØüíØüíØ!'

In [13]:
# len is not a method, since it doesn't use dot notation
len(my_cool_string)

27

### Caracteres especiais em strings

Aspas simples e aspas duplas geralmente s√£o intercambi√°veis, exceto quando a pr√≥pria string cont√©m aspas simples ou duplas.

In [14]:
# a linha abaixo gera um erro, descomente e teste
# 'my string's full of apostrophes!'

In [15]:
"my string's full of apostrophes!"

"my string's full of apostrophes!"

In [16]:
# escape the apostrophe with a backslash!
'my string\'s "full" of apostrophes!'

'my string\'s "full" of apostrophes!'

In [17]:
print('my string\'s "full" of apostrophes!')

my string's "full" of apostrophes!


### Al√©m: `print`
- Por padr√£o, os notebooks Jupyter exibem o valor "bruto" da express√£o da √∫ltima linha de uma c√©lula.
- A fun√ß√£o `print` exibe o valor em texto leg√≠vel quando √© avaliado.

In [18]:
12 # 12 won't be displayed, since Python only shows the value of the last expression
23

23

In [19]:
# Note, there is no Out[number] to the left! That only appears when displaying a non-printed value.
# But both 12 and 23 are displayed.
print(12)
print(23)

12
23


In [20]:
# '\n' inserts a new line
my_newline_str = 'here is a string with two lines.\nhere is the second line'  
my_newline_str

'here is a string with two lines.\nhere is the second line'

In [21]:
# The quotes disappeared and the newline is rendered!
print(my_newline_str)  

here is a string with two lines.
here is the second line


### Convers√£o de tipo de e para strings
* Qualquer valor pode ser convertido em uma string usando ```str```.
* Algumas strings podem ser convertidas para ```int``` e ```float```.

In [22]:
str(3)

'3'

In [23]:
float('3')

3.0

In [24]:
int('4')

4

In [25]:
int('baby panda')

ValueError: invalid literal for int() with base 10: 'baby panda'

### Verifica√ß√£o de conceito ‚úÖ

Suponha que voc√™ executou as seguintes instru√ß√µes:

```py
x = 3
y = '4'
z = '5.6'
```

Escolha a express√£o que ser√° avaliada **sem** erro.

R. `x + y`

B. `x + int(y + z)`

C.`str(x) + int(y)`

D. `str (x) + z`

E. Todos eles t√™m erros

## Listas

### Motiva√ß√£o

Como armazenar√≠amos as temperaturas de cada um dos primeiros 6 dias do m√™s de setembro?

Nossa melhor solu√ß√£o agora √© criar uma vari√°vel separada para cada dia.

In [26]:
temperature_on_sept_01 = 84
temperature_on_sept_02 = 78
temperature_on_sept_03 = 81
temperature_on_sept_04 = 75
temperature_on_sept_05 = 79
temperature_on_sept_06 = 75

Isso _tecnicamente_ nos permite fazer coisas como calcular a temperatura m√©dia durante os primeiros 6 dias:

```
avg_temperature = 1/6 * (
    temperature_on_sept_01
    + temperature_on_sept_02
    + temperature_on_sept_03
    + ...)
```

Imagine os dados de um m√™s inteiro ou os dados de um ano inteiro. Parece que precisamos de uma solu√ß√£o melhor.


### Listas em Python

Em Python, uma lista √© usada para armazenar v√°rios valores em um √∫nico valor/vari√°vel. Para criar uma nova lista do zero, usamos `[`colchetes`]`.


In [27]:
temperature_list = [84, 78, 81, 75, 79, 75]

In [28]:
len(temperature_list)

6

Observe que os elementos de uma lista n√£o precisam ser √∫nicos!

### As listas facilitam o trabalho com sequ√™ncias!

Para encontrar a temperatura m√©dia, basta dividir a **soma das temperaturas** pelo **n√∫mero de temperaturas registradas**:

In [29]:
temperature_list

[84, 78, 81, 75, 79, 75]

In [30]:
sum(temperature_list) / len(temperature_list)

78.66666666666667

### Tipos

O `tipo` de uma lista √©... `lista`.

In [31]:
temperature_list

[84, 78, 81, 75, 79, 75]

In [32]:
type(temperature_list)

list

Dentro de uma lista, voc√™ pode armazenar elementos de diferentes tipos.

In [33]:
mixed_list = [-2, 2.5, 'ucsd', [1, 3]]
mixed_list

[-2, 2.5, 'ucsd', [1, 3]]

### H√° um problema...

- As listas s√£o **muito lentas**.
- Isso n√£o √© grande coisa quando n√£o h√° muitas entradas, mas √© um grande problema quando h√° milh√µes ou bilh√µes de entradas.

## Matrizes

### NumPy

<center>
<img src='https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/04-Arrays/numpy.png' width=400>
</center>

- NumPy (pronuncia-se "num pie") √© uma biblioteca (m√≥dulo) Python que fornece suporte para **arrays** e opera√ß√µes neles.

- A biblioteca `babypandas`, sobre a qual voc√™ aprender√° no pr√≥ximo t√≥pico, anda de m√£os dadas com o NumPy.
- NumPy √© muito usado no mundo real.

- Para usar `numpy`, precisamos import√°-lo. Geralmente √© importado como `np` (mas n√£o precisa ser!)

In [34]:
import numpy as np

### Matrizes

Pense nos arrays NumPy (apenas "arrays" de agora em diante) como listas sofisticadas e mais r√°pidas.

<center><img src="https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/04-Arrays/squid.png" width=30%></center>

Para criar um array, passamos uma lista como entrada para a fun√ß√£o `np.array`.

In [35]:
np.array([4, 9, 1, 2])

array([4, 9, 1, 2])

<center>
<img src='https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/04-Arrays/brackets.png' width=50%>
</center>

In [36]:
temperature_array = np.array([84, 78, 81, 75, 79, 75])
temperature_array

array([84, 78, 81, 75, 79, 75])

In [37]:
temperature_list

[84, 78, 81, 75, 79, 75]

In [38]:
# No square brackets, because temperature_list is already a list!
np.array(temperature_list)

array([84, 78, 81, 75, 79, 75])

### Posi√ß√µes

Quando as pessoas ficam em fila, cada pessoa tem uma posi√ß√£o.

<center><img src="https://raw.githubusercontent.com/flaviovdf/fcd/master/assets/04-Arrays/position.png" width=50%></center>

Da mesma forma, cada elemento de um array (e lista) possui uma posi√ß√£o.

### Acessando elementos por posi√ß√£o

- Python, como a maioria das linguagens de programa√ß√£o, √© "indexado em 0".
- Isso significa que a posi√ß√£o do primeiro elemento em uma matriz √© 0, n√£o 1.
- Um motivo: a posi√ß√£o de um elemento representa o n√∫mero de elementos √† sua frente.
- Para acessar o elemento do array `arr_name` na posi√ß√£o `pos`, usamos a sintaxe `arr_name[pos]`.

In [39]:
temperature_array

array([84, 78, 81, 75, 79, 75])

In [40]:
temperature_array[0]

84

In [41]:
temperature_array[1]

78

In [42]:
temperature_array[3]

75

In [43]:
# Access last element
temperature_array[5]

75

In [44]:
temperature_array[6]

IndexError: index 6 is out of bounds for axis 0 with size 6

In [45]:
# If a position is negative, count from the end!
temperature_array[-1]

75

### Tipos

Anteriormente nesta palestra, vimos que as listas podem armazenar elementos de v√°rios tipos.

In [46]:
nums_and_strings_lst = ['uc', 'sd', 1961, 3.14]
nums_and_strings_lst

['uc', 'sd', 1961, 3.14]

**Isso n√£o √© verdade para arrays ‚Äì todos os elementos de um array devem ser do mesmo tipo.**

In [47]:
# All elements are converted to strings!
np.array(nums_and_strings_lst)

array(['uc', 'sd', '1961', '3.14'], dtype='<U32')

### Aritm√©tica de n√∫meros de array

As matrizes facilitam a execu√ß√£o da mesma opera√ß√£o em todos os elementos. Este comportamento √© formalmente conhecido como "transmiss√£o".

In [48]:
temperature_array

array([84, 78, 81, 75, 79, 75])

In [49]:
# Increase all temperatures by 3 degrees
temperature_array + 3

array([87, 81, 84, 78, 82, 78])

In [50]:
# Halve all temperatures
temperature_array / 2

array([42. , 39. , 40.5, 37.5, 39.5, 37.5])

In [51]:
# Convert all temperatures to Celsius
(5 / 9) * (temperature_array - 32)

array([28.88888889, 25.55555556, 27.22222222, 23.88888889, 26.11111111,
       23.88888889])

**Nota:** Em nenhuma das c√©lulas acima modificamos `temperature_array`! Cada uma dessas express√µes criou um novo array.

In [52]:
temperature_array

array([84, 78, 81, 75, 79, 75])

Para realmente alterar `temperature_array`, precisamos reatribu√≠-lo a um novo array.

In [53]:
temperature_array = (5 / 9) * (temperature_array - 32)

In [54]:
# Now in Celsius!
temperature_array

array([28.88888889, 25.55555556, 27.22222222, 23.88888889, 26.11111111,
       23.88888889])

### Aritm√©tica elemento a elemento

- Podemos aplicar opera√ß√µes aritm√©ticas a m√∫ltiplos arrays, desde que tenham o mesmo comprimento.
- O resultado √© calculado **por elemento**, o que significa que a opera√ß√£o aritm√©tica √© aplicada a um par de elementos de cada array por vez.
- Por exemplo, `a + b` √© um array cujo primeiro elemento √© a soma do primeiro elemento de `a` e do primeiro elemento de `b`.

In [55]:
a = np.array([1, 2, 3])
b = np.array([-4, 5, 9])

In [56]:
a + b

array([-3,  7, 12])

In [57]:
a / b

array([-0.25      ,  0.4       ,  0.33333333])

In [58]:
a ** 2 + b ** 2

array([17, 29, 90])

### Exemplo: visualiza√ß√µes do TikTok üé¨

Baby Panda fez uma s√©rie de cinco v√≠deos no TikTok chamada "Um dia na vida de um mascote da ci√™ncia de dados". O n√∫mero de visualiza√ß√µes que eles receberam nesses v√≠deos √© armazenado na matriz `views` abaixo.

In [59]:
views = np.array([158, 352, 195, 1423916, 46])

Algumas perguntas:

Qual foi a contagem m√©dia de visualiza√ß√µes?

In [60]:
views

array([    158,     352,     195, 1423916,      46])

In [61]:
sum(views) / len(views)

284933.4

In [62]:
# The mean method exists for arrays (but not for lists)
views.mean()

284933.4

Quantas visualiza√ß√µes seus v√≠deos mais e menos populares receberam?

In [63]:
views

array([    158,     352,     195, 1423916,      46])

In [64]:
views.max()

1423916

In [65]:
views.min()

46

Quantas visualiza√ß√µes **acima da m√©dia** cada um dos v√≠deos recebeu? Quantas visualiza√ß√µes acima da m√©dia o v√≠deo mais visto recebeu?

In [66]:
views

array([    158,     352,     195, 1423916,      46])

In [67]:
views - views.mean()

array([-284775.4, -284581.4, -284738.4, 1138982.6, -284887.4])

In [68]:
(views - views.mean()).max()

1138982.6

Foi [estimated](https://www.ngpf.org/blog/question-of-the-day/question-of-the-day-how-much-can-a-creator-on-tiktok-make-if-their-video-receives-1-million-views/) que o TikTok paga aos seus criadores \\$0,03 por 1000 visualiza√ß√µes. Se isso for verdade, quantos d√≥lares o Beb√™ Panda ganhou com seu v√≠deo mais visto? üí∏

In [69]:
views

array([    158,     352,     195, 1423916,      46])

In [70]:
views.max() * 0.03 / 1000

42.717479999999995

## Gamas

### Motiva√ß√£o

Muitas vezes precisamos criar arrays como este:

In [71]:
days_in_september = np.array([
    1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 
    13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 
    23, 24, 25, 26, 27, 28, 29, 30
])

Precisa haver uma maneira mais f√°cil de fazer isso!

### Intervalos
* Um **intervalo** √© uma matriz de n√∫meros espa√ßados uniformemente. Criamos intervalos usando `np.arange`.
* A maneira mais geral de criar um intervalo √© `np.arange(start, end, step)`. Isso retorna uma matriz tal que:
- O primeiro n√∫mero √© `start`. **Por padr√£o, `iniciar` √© 0.**
- Todos os n√∫meros subsequentes s√£o espa√ßados por `step`, at√© (mas excluindo) `end`. **Por padr√£o, `step` √© 1.**

In [72]:
# Start at 0, end before 8, step by 1
# This will be our most common use-case!
np.arange(8)

array([0, 1, 2, 3, 4, 5, 6, 7])

In [73]:
# Start at 5, end before 10, step by 1
np.arange(5, 10)

array([5, 6, 7, 8, 9])

In [74]:
# Start at 3, end before 32, step by 5
np.arange(3, 32, 5)

array([ 3,  8, 13, 18, 23, 28])

In [75]:
# Steps can be fractional!
np.arange(-3, 2, 0.5)

array([-3. , -2.5, -2. , -1.5, -1. , -0.5,  0. ,  0.5,  1. ,  1.5])

In [76]:
# If step is negative, we count backwards.
np.arange(1, -10, -3)

array([ 1, -2, -5, -8])

### Atividade

üéâ Parab√©ns! üéâ Voc√™ ganhou na loteria üí∞. Veja como funciona o seu pagamento: no primeiro dia de setembro, voc√™ receber√° 0,01. A cada dia seguinte, seu sal√°rio dobra, ent√£o no segundo dia voc√™ recebe 0,02, no terceiro dia voc√™ recebe 0,04, no quarto dia voc√™ recebe 0,08 e assim por diante.

Setembro tem 30 dias.

Escreva uma **express√£o de uma linha** que use os n√∫meros `2` e `30`, junto com a fun√ß√£o `np.arange` e o m√©todo `.sum()`, que calcula o valor total **em d√≥lares** voc√™ ser√° pago em setembro.

In [77]:
...

Ellipsis

## Resumo, da pr√≥xima vez

### Resumo

- Strings s√£o usadas para armazenar texto. Coloque-os entre aspas simples ou duplas.
- Listas e arrays s√£o usados ‚Äã‚Äãpara armazenar **sequ√™ncias**.
- Matrizes s√£o mais r√°pidas e convenientes para opera√ß√µes num√©ricas.
- Voc√™ pode executar facilmente opera√ß√µes num√©ricas em todos os elementos de um array e realizar opera√ß√µes em v√°rios arrays.
- Os intervalos s√£o matrizes de n√∫meros igualmente espa√ßados.
- Lembre-se de consultar os recursos desde o in√≠cio da palestra!

### Pr√≥xima vez

Aprenderemos como usar Python para trabalhar com dados tabulares do mundo real.