# Working with Text Data and Argument Specifiers

**Text Data (Dados de Texto)**: 
- √â a **informa√ß√£o** ou o conte√∫do.
- Refere-se a dados "n√£o estruturados" compostos por caracteres leg√≠veis (letras, n√∫meros, pontua√ß√£o).

**Text Files (Arquivos de Texto)**:
- √â o "recipiente" ou formato onde os dados s√£o salvos.
- S√£o arquivos que armazenam apenas caracteres simples (Plain Text), sem formata√ß√£o oculta (como negrito, tamanho de fonte ou imagens embutidas).
8 S√£o universais e podem ser abertos por qualquer editor simples (Bloco de Notas, VS Code).
- **Exemplos de extens√£o:** `.txt`, `.csv`, `.json`, `.py`.

In [6]:
product_category = 'A'
print(f'This item is from product category {product_category}')

This item is from product category A


In [7]:
quantities = [500,600]
print(f'This item is from product category {quantities[0]}')

This item is from product category 500


In [9]:
print(f'We currently have {quantities[0]} available units of this item')

We currently have 500 available units of this item


# String Accessors

In [10]:
import pandas as pd

In [11]:
operational_kpis = pd.Series(["employee satisfaction rating", "employee churn rate"])
operational_kpis

0    employee satisfaction rating
1             employee churn rate
dtype: object

In [12]:
operational_kpis.lstrip('employee')

AttributeError: 'Series' object has no attribute 'lstrip'

In [14]:
operational_kpis[0].lstrip('employee')

' satisfaction rating'

In [15]:
operational_kpis[1].lstrip('employee')

' churn rate'

In [16]:
pd.Series([operational_kpis[0].lstrip('employee'), operational_kpis[1].lstrip('employee')])

0     satisfaction rating
1              churn rate
dtype: object

In [None]:
operational_kpis.str

**String Accessors** s√£o uma forma especial do pandas permitir que voc√™ aplique **opera√ß√µes de string** em **Series ou colunas de DataFrames** usando o atributo **`.str`**.

Pensa assim:

> No pandas, voc√™ n√£o pode chamar m√©todos de string diretamente na coluna,
> ent√£o o `.str` funciona como um ‚Äúacessador‚Äù ‚Äî um **atalho** que libera m√©todos de string.

---

# ‚úÖ Em outras palavras:

**String Accessors = `.str` + m√©todos de string aplicados a cada elemento da coluna.**

Eles permitem fazer opera√ß√µes como:

* transformar para mai√∫scula/min√∫scula
* dividir texto
* substituir valores
* verificar padr√µes
* extrair partes da string

Tudo isso **vetorizado** (ou seja, de forma r√°pida para toda a coluna).

---

# üìå Exemplo simples

```python
import pandas as pd

s = pd.Series(['Python', 'Pandas', 'Data'])

s.str.upper()
```

Resultado:

```
0    PYTHON
1    PANDAS
2      DATA
```

Aqui, `.upper()` √© aplicado **em cada elemento**, gra√ßas ao `.str`.

---

# üî• Exemplos comuns de String Accessors

### ‚úîÔ∏è Transforma√ß√£o

```python
df['nome'].str.lower()
df['cidade'].str.capitalize()
```

### ‚úîÔ∏è Extra√ß√£o

```python
df['email'].str.split('@').str[1]
```

### ‚úîÔ∏è Verifica√ß√£o

```python
df['produto'].str.contains('Premium')
```

### ‚úîÔ∏è Substitui√ß√£o

```python
df['cpf'].str.replace('.', '').str.replace('-', '')
```

---

# üéØ Resumo curto

`str` √© um **acessador**:
üëâ Um ponto de entrada para usar m√©todos de string em colunas pandas.

Sem ele, voc√™ teria erros como:

```python
df['coluna'].upper()  # ‚ùå N√£o funciona
```

Com o acessador:

```python
df['coluna'].str.upper()  # ‚úîÔ∏è Funciona
```

---

Se quiser, posso te passar um **desafio de 5 exerc√≠cios** para treinar String Accessors. Quer?


# Using the .format() Method

In [19]:
time_horizon = 1, 3, 12
time_horizon

(1, 3, 12)

In [20]:
products = ['Product A', 'Product B']
products

['Product A', 'Product B']

In [21]:
'Expected sales for a period of {} month(s) for {}:'.format(time_horizon[2], products[1])

'Expected sales for a period of 12 month(s) for Product B:'

In [22]:
'Expected sales for a period of {1} month(s) for {0}:'.format(time_horizon[2], products[1])

'Expected sales for a period of Product B month(s) for 12:'

In [23]:
'Expected sales for a period of {t_hor} month(s) for {prod}:'.format(t_hor = 12, prod = 'Product B')

'Expected sales for a period of 12 month(s) for Product B:'