#  <span style="color:#0077b3">Relembrando onde estamos no ciclo CRISP</span>

**Questões de negócio**
1. Qual o melhor preço de venda para as calças?
2. Quantos tupos e suas cores para o produto inicial?
3. Quais as matérias primas necessárias para confeccionar as calças?

Neste momento, estamos na etapa de **limpeza de dados**. Antes de partirmos para esta estapa efetivamente, vamos ver algumas funções importantes. 

#  <span style="color:#e67300">Apply, Map, Lambda</span>

## 1.0. A função Lambda

- É uma maneira de escrever uma função, de forma mais simples. Essa função não necessariamente é usada de forma repetitiva no seu código. 
- Nunca usar Lambda quando é muito complexa ou quando se quer generalizar algo no código.
- Em geral, usada localmente. 

### Usando `def`

In [1]:
def calculation(a, b):
    c = a + b
    return c

In [2]:
calculation(10, 55)

65

### Usando Lambda

In [3]:
f_calc = lambda a, b: a + b

In [4]:
f_calc()

40

## 2.0. A função Map

- Aplica a função em todos os elementos da estrutura de dados: 
   + pode ser uma lista
   + dataframe

map(funcao, estrutura_de_dados)

- lista: [10, 330, 40, 50, 60]
- dataframe: por linha ou coluna

In [6]:
cols_old = ['Store', 'DayOfWeek', 'Date', 'Sales', 'Customers', 'Open',
            'Promo', 'StateHoliday', 'SchoolHoliday','StoreType', 'Assortment', 
            'CompetitionDistance','CompetitionOpenSinceMonth','CompetitionOpenSinceYear', 
            'Promo2', 'Promo2SinceWeek', 'Promo2SinceYear', 'PromoInterval']

# function
snakecase = lambda x: x.lower()

# map
list(map(snakecase, cols_old))

['store',
 'dayofweek',
 'date',
 'sales',
 'customers',
 'open',
 'promo',
 'stateholiday',
 'schoolholiday',
 'storetype',
 'assortment',
 'competitiondistance',
 'competitionopensincemonth',
 'competitionopensinceyear',
 'promo2',
 'promo2sinceweek',
 'promo2sinceyear',
 'promointerval']

In [14]:
# Para data frame
import pandas as pd

data = {'nome': ['Neide', 'Maria', 'Claudia', 'Ines'],
       'idade': [31, 41, 46, 65],
       'altura': [1.60, 1.55, 1.58, 1.65]}

data = pd.DataFrame(data)
data

Unnamed: 0,nome,idade,altura
0,Neide,31,1.6
1,Maria,41,1.55
2,Claudia,46,1.58
3,Ines,65,1.65


In [15]:
decimal = lambda x: x*100

list(map(decimal, data['altura']))

[160.0, 155.0, 158.0, 165.0]

## 3.0. Apply

- map: é genérica e está na library base do python
- apply: faz a mesma coisa, só que é do pandas

In [17]:
function_exp = lambda x: x*100

data['nova_altura'] = data['altura'].apply(function_exp)

data

Unnamed: 0,nome,idade,altura,nova_altura
0,Neide,31,1.6,160.0
1,Maria,41,1.55,155.0
2,Claudia,46,1.58,158.0
3,Ines,65,1.65,165.0


#  <span style="color:#e67300">Apply, Map, Lambda - Parte II</span>

In [53]:
import pandas as pd

df = pd.read_csv('products_hm.csv')

In [54]:
df.head()

Unnamed: 0.1,Unnamed: 0,product_id,product_category,product_name,product_price,scrapy_datetime,style_id,color_id,color_name,Fit,Composition
0,0,1008549001,men_jeans_regular,Regular Jeans,$ 19.99,2022-01-29 13:15:13,1008549,1,Denim blue,Regular fit,"Shell: Cotton 98%, Spandex 2%"
1,1,1008549001,men_jeans_regular,Regular Jeans,$ 19.99,2022-01-29 13:15:13,1008549,1,Denim blue,Regular fit,"Pocket lining: Polyester 65%, Cotton 35%"
2,2,1008549001,men_jeans_regular,Regular Jeans,$ 19.99,2022-01-29 13:15:13,1008549,1,Dark blue,Regular fit,"Shell: Cotton 98%, Spandex 2%"
3,3,1008549001,men_jeans_regular,Regular Jeans,$ 19.99,2022-01-29 13:15:13,1008549,1,Dark blue,Regular fit,"Pocket lining: Polyester 65%, Cotton 35%"
4,4,1008549001,men_jeans_regular,Regular Jeans,$ 19.99,2022-01-29 13:15:13,1008549,1,Black,Regular fit,"Shell: Cotton 98%, Spandex 2%"


In [55]:
df.shape

(1965, 11)

In [56]:
# Remove price - $
df['product_price_new'] = df['product_price'].apply(lambda x: x.replace('$', ''))

In [57]:
df['product_price_new'].head()

0     19.99
1     19.99
2     19.99
3     19.99
4     19.99
Name: product_price_new, dtype: object

In [58]:
df['product_price'].isna().sum()

0

- No caso de termos NA, faríamos um condicional:

`df['prodcut_price'] = df['product_price'].apply(lambda x: x.replace('$', '') if pd.notnull(x) else x)`

In [64]:
# Duas condicionais
df['product_price'] = df[['product_price', 'color_name']].apply(lambda x: x['product_price'].replace('$', '') 
                                          if (pd.notnull(x['product_price'])) & (x['color_name']=='Black')
                                          else x, axis = 1)['product_price']


df.head()

Unnamed: 0.1,Unnamed: 0,product_id,product_category,product_name,product_price,scrapy_datetime,style_id,color_id,color_name,Fit,Composition,product_price_new
0,0,1008549001,men_jeans_regular,Regular Jeans,$ 19.99,2022-01-29 13:15:13,1008549,1,Denim blue,Regular fit,"Shell: Cotton 98%, Spandex 2%",19.99
1,1,1008549001,men_jeans_regular,Regular Jeans,$ 19.99,2022-01-29 13:15:13,1008549,1,Denim blue,Regular fit,"Pocket lining: Polyester 65%, Cotton 35%",19.99
2,2,1008549001,men_jeans_regular,Regular Jeans,$ 19.99,2022-01-29 13:15:13,1008549,1,Dark blue,Regular fit,"Shell: Cotton 98%, Spandex 2%",19.99
3,3,1008549001,men_jeans_regular,Regular Jeans,$ 19.99,2022-01-29 13:15:13,1008549,1,Dark blue,Regular fit,"Pocket lining: Polyester 65%, Cotton 35%",19.99
4,4,1008549001,men_jeans_regular,Regular Jeans,19.99,2022-01-29 13:15:13,1008549,1,Black,Regular fit,"Shell: Cotton 98%, Spandex 2%",19.99


#  <span style="color:#e67300">Introdução ao Regex (Expressões regulares) - Parte I</span>

- Máscaras para acomodar strings dentro de um texto (maneira mais genérica)

In [10]:
import re

In [11]:
text00 = '134.745.735-89'
text01 = '134.745.735-859'

#texto00 = 'numero ponto numero ponto traço numero' # "fôrma" esperada dos dados

regex = '^\d{3}\.\d{3}\.\d{3}\-\d{2}$'

In [12]:
bool(re.match(regex, text00))

True

In [13]:
bool(re.match(regex, text01)) # Não obedece o padrão determinado pela regex

False

### Utilização
- Governança de dados
- Detecção de padrão
- Extrair informação de textos

## Máscaras do Regex

Créditos: https://blog.geekhunter.com.br/python-regex/

### Marcadores de início e fim de linha


**^Python** - Encontra qualquer string que esteja em início de linha e contenha os caracteres "Python"

**Python$** - Encontra qualquer string que esteja em fim de linha e contenha os caracteres "Python"

### Marcadores de quantidade 

**Pyt*** - Encontra strings com sequência de caracteres "Py", seguida de zero ou mais ocorrências do caracter "t".

**Pyt+** - Encontra strings com sequência de caracteres "Py", seguida de uma ou mais ocorrências do caracter "t".

**Pyt?** - Encontra strings com sequência de caracteres "Py", seguida de zero ou uma ocorrência do caracter "t".

**Pyt{3}** - Encontra strings com sequência de caracteres "Py", seguida de exatamente 3 ocorrências do caracter "t".

**Pyt{2,4}** - Encontra strings com sequência de caracteres "Py", seguida de 2 a 4 ocorrências do caracter "t".

**Pyt{3,}** - Encontra strings com sequência de caracteres "Py", seguida de 3 ou mais ocorrências do caracter "t".

**Py(th)*** - Encontra strings com sequência de caracteres "Py", seguida de zero ou mais ocorrências da sequência "th"

### Marcadores de alternativa ou operador OR 


**Pyt|hon** - Encontra strings com a sequência de caracteres "Pyt" ou strings com a sequência de caracteres "hon"

**Py(t|h)** - Encontra strings com a sequência de caracteres "Py", seguida do caracter "t" ou caracter "h".

**Py(t|h|o)** - Encontra strings com a sequência de caracteres "Py", seguida do caracter "t" ou caracter "h" ou do caracter "o".

### Marcadores de definição de conjuntos ( [] )


**Py[tho]** - Encontra strings com a sequência de caracteres "Py", seguida de um caracter pertencente ao conjunto ( t, h, o )


**Py[0-9]** - Encontra strings com a sequência de caracteres "Py", seguida do caracter pertencente ao conjunto de dígitos de 0 a 9.

**Py[a-z]** - Encontra strings com a sequência de caracteres "Py", seguida do caracter pertencente ao conjunto de caracteres alfabéticos de "a" a "z"

### Marcadores de classe de caracteres 

**\w** - Representa um caractere alfanumérico, incluindo ocorrências maiúsculas e minúsculas das letras e o caractere "_".

**\d** - Representa um caractere numérico e equivale a definição do conjunto [0-9]

**\s** - Representa um espaço em branco, incluindo tabulações e quebras de linha

**.** - Este caracter é utilizado como coringa e representa qualquer caractere

## Exercícios com Regex

Site: https://regex101.com/

In [14]:
import re

In [36]:
text00 = '234.567.890-25'
text01 = 'Rua Armando Shibata, 97 - Vila Leopoldina, São Paulo'
text02 = 'Av. dos Trabalhadores, 403 - Centro, Mogi Guaçu'
text03 = 'Al. Moraes, 405 - Vila Gomes, Recife'

text = [text01, text02, text03]
# Nome da rua
# Número da residência
# Bairro
# Nome da Cidade

### Função Match

- Validar se uma string contém determinado padrão, porém o "match" encontra somente o início da string.

In [16]:
# Nome da rua
regex = '(.+?),'

bool(re.match(regex, text01))

True

In [20]:
re.match(regex, text01).group(1) # Recuperando informação

'Rua Armando Shibata'

In [25]:
text

['Rua Armando Shibata, 97 - Vila Leopoldina, São Paulo',
 'Av. dos Trabalhadores, 403 - Centro, Mogi Guaçu',
 'Al. Moraes, 403 - Vila Gomes, Pernambuco']

In [28]:
for t in text:
    print(re.match(regex, t).group(1))

Rua Armando Shibata
Av. dos Trabalhadores
Al. Moraes


In [34]:
# Número da residência
regex = '\d+'

for t in text:
    print(re.search(regex, t).group(0))

97
403
405


In [35]:
# Nome do Bairro
regex = '-(.+),'

for t in text:
    print(re.search(regex, t).group(1))

 Vila Leopoldina
 Centro
 Vila Gomes


In [37]:
#Cidade
regex = ',.([a-zA-Z].+)'

for t in text:
    print(re.search(regex, t).group(1))

São Paulo
Mogi Guaçu
Recife


curso online de Regex: https://regexone.com/lesson/introduction_abcs