In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [2]:
np.random.seed(10)
n = 50_000

escolaridade = ['Ensino Fundamental', 'Ensino Médio', 'Ensino Superior']

data = {
    'Id': np.arange(1, n+1),
    'Idade': np.random.randint(18, 70, size = n),
    'Renda': np.random.randint(1_500, 10_000, size = n),
    'Sexo': np.random.choice(['Masculino', 'Feminino'], size = n),
    'Escolaridade': np.random.choice(escolaridade, size = n)
}

df = pd.DataFrame(data)

In [3]:
np.random.seed(7)
ativos = pd.Series(np.random.normal(3_000, 1000, size = n)).round(2)

In [4]:
# cria coluna de ativos
df['ativo'] = ativos

In [5]:
# cria coluna de renda total
df['renda_total'] = df['Renda']+df['ativo']

In [6]:
# renda média (ativos e renda)
renda_media = df.loc[:, ['Renda', 'ativo']].mean(axis = 1)

In [7]:
# posição da coluna 'ativo'
posicao = df.columns.to_list().index('ativo')

In [8]:
# insere a coluna renda_media na posição da coluna 'ativo'
df.insert(posicao, 'renda_média', renda_media )

In [None]:
df

### Apply e map

***

**Revisão de funções**

Vamos ver antes o que é um função no Python. Funções são úteis para:
* Encapsular código;
* Automatizar etapas;
* Obter um código mais limpo e performático;
* Escalar o código.

In [None]:
def mensagem(nome):
    print(f'Olá {nome} !')

In [None]:
mensagem("Lucas")

In [None]:
lista_users = ['Lucas', 'Paulo', 'Tales', 'Rafael', 'Gabriel']

for user in lista_users:
    mensagem(user)

Sintaxe funções sem parâmetros e sem retorno:
    
<code>
def function_name():
    code
</code>

**Exemplo 1:**

In [None]:
def saudar():
    print('Olá !')

In [None]:
# executa a função
saudar()

Sintaxe função com parâmetros e sem retorno:
    
<code>
def function_name(arg1, arg2, arg3):
    code
</code>

**Exemplo 2:**

In [None]:
def somar(num_1, num_2):
    print(num_1+num_2)

In [None]:
somar(10, 10)

Podemos nomear os argumentos:

In [None]:
somar(num_1 = 15,
      num_2 = 5
     )

In [None]:
somar(
    num_2 = 10,
    num_1 = 10
)

In [None]:
# o que signifca aquele None?
print(somar(10,10))

In [None]:
# somar(
#    num_1 = 1,
#    10
#)

# SyntaxError: positional argument follows keyword argument

Sintaxe de função com parâmetros e retorno:
    
<code>
def function_name(arg1, arg2, arg3):
    code
    return code
</code>

**Exemplo 3:**

In [None]:
def somar(num_1, num_2):
    """
    Recebe dois números e retorna a soma e a diferença entre eles.
    """
    # soma
    soma = num_1+num_2
    # diferença
    diff = num_1-num_2
    return soma, diff

In [None]:
soma, diff = somar(10, 10)

In [None]:
type(somar(10,10))

In [None]:
soma

In [None]:
diff

In [None]:
print(somar(10,10))

Funções nativas (built-in) importantes:

In [None]:
# retorna o tipo do objeto (str, int, float, list, tuple, dict)
type('ABC')

In [None]:
type([1,2,3])

In [None]:
# retorna a soma de array
sum([7, 8, 9, 10])

In [None]:
# retorna o tamanho de um array ou cadeia de caracteres
len('AAAA')

In [None]:
len([1, 2, 3])

In [None]:
max([90, 10, 193])

In [None]:
# retorna valor mínimo em um array ou cadeia de caracteres
min([0, 11, 95])

Para saber mais de funções veja:
* https://www.w3schools.com/python/python_functions.asp
* https://docs.python.org/3/library/functions.html

***

In [9]:
df.head()

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade,renda_média,ativo,renda_total
0,1,27,2554,Feminino,Ensino Fundamental,3622.265,4690.53,7244.53
1,2,54,2475,Feminino,Ensino Superior,2504.53,2534.06,5009.06
2,3,33,6820,Masculino,Ensino Superior,4926.41,3032.82,9852.82
3,4,18,2141,Masculino,Ensino Médio,2774.26,3407.52,5548.52
4,5,67,7381,Masculino,Ensino Fundamental,4796.04,2211.08,9592.08


**map()**
* percorre item por item e aplica uma função desejada.

Neste exemplo, vamos percorrer cada valor de renda e aplicar a função np.log().


In [10]:
df.Renda.map(np.log)

0        7.845416
1        7.813996
2        8.827615
3        7.669028
4        8.906664
           ...   
49995    8.039802
49996    8.270269
49997    7.841100
49998    8.444838
49999    7.664347
Name: Renda, Length: 50000, dtype: float64

In [12]:
df.Sexo

0         Feminino
1         Feminino
2        Masculino
3        Masculino
4        Masculino
           ...    
49995     Feminino
49996     Feminino
49997    Masculino
49998     Feminino
49999     Feminino
Name: Sexo, Length: 50000, dtype: object

In [11]:
df.Sexo.map({
    'Feminino':0,
    'Masculino':1
})

0        0
1        0
2        1
3        1
4        1
        ..
49995    0
49996    0
49997    1
49998    0
49999    0
Name: Sexo, Length: 50000, dtype: int64

In [13]:
def mapear_sexo(sexo):
    if sexo == 'Masculino':
        return 'M'
    return 'F'

In [14]:
# mapeia os valores da coluna Sexo a partir da função construída
df.Sexo.map(mapear_sexo)

0        F
1        F
2        M
3        M
4        M
        ..
49995    F
49996    F
49997    M
49998    F
49999    F
Name: Sexo, Length: 50000, dtype: object

In [16]:
df.Sexo.replace({'Feminino': 0, 'Masculino':1})

0        0
1        0
2        1
3        1
4        1
        ..
49995    0
49996    0
49997    1
49998    0
49999    0
Name: Sexo, Length: 50000, dtype: int64

**apply()**
* podemos aplicar uma função em todas as linhas ou em todas as colunas (ou seja, aplica uma função em um determinado eixo).

In [17]:
def classifica_cliente(renda):
    if renda<=5_000:
        return 'Low'
    else:
        return 'High'

In [18]:
# mapeia os valores da coluna Renda
df.Renda.apply(classifica_cliente)

0         Low
1         Low
2        High
3         Low
4        High
         ... 
49995     Low
49996     Low
49997     Low
49998     Low
49999     Low
Name: Renda, Length: 50000, dtype: object

In [21]:
df.Escolaridade.unique()

array(['Ensino Fundamental', 'Ensino Superior', 'Ensino Médio'],
      dtype=object)

In [22]:
def mapear_escolaridade(escolaridade):
    if escolaridade == 'Ensino Fundamental':
        return 1
    elif escolaridade == 'Ensino Médio':
        return 2
    else:
        return 3

In [23]:
df.Escolaridade.apply(mapear_escolaridade)

0        1
1        3
2        3
3        2
4        1
        ..
49995    3
49996    3
49997    3
49998    3
49999    3
Name: Escolaridade, Length: 50000, dtype: int64

In [None]:
# lambda input:ouput

In [27]:
df.Sexo.value_counts(normalize = True)

Masculino    0.5004
Feminino     0.4996
Name: Sexo, dtype: float64

In [28]:
df.Sexo.apply(lambda sexo: 1 if sexo == 'Masculino' else 0)\
.value_counts(normalize = True)

1    0.5004
0    0.4996
Name: Sexo, dtype: float64

In [30]:
data = df.copy()

In [33]:
data['Sexo'] = data['Sexo'].apply(lambda sexo: 1 if sexo == 'Masculino' else 0)
data['Escolaridade'] = data.Escolaridade.apply(mapear_escolaridade)

In [47]:
data['target'] = data['renda_média'].apply(lambda x:0 if x <= 5000 else 1)

In [48]:
data

Unnamed: 0,Id,Idade,Renda,Sexo,Escolaridade,renda_média,ativo,renda_total,target
0,1,27,2554,0,1,3622.265,4690.53,7244.53,0
1,2,54,2475,0,3,2504.530,2534.06,5009.06,0
2,3,33,6820,1,3,4926.410,3032.82,9852.82,0
3,4,18,2141,1,2,2774.260,3407.52,5548.52,0
4,5,67,7381,1,1,4796.040,2211.08,9592.08,0
...,...,...,...,...,...,...,...,...,...
49995,49996,41,3102,0,3,2232.080,1362.16,4464.16,0
49996,49997,33,3906,0,3,3629.200,3352.40,7258.40,0
49997,49998,41,2543,1,3,2894.955,3246.91,5789.91,0
49998,49999,22,4651,0,3,3972.110,3293.22,7944.22,0
