**Importando bibliotecas**

In [62]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

**Criando um dataset para treino**

In [42]:
df = pd.DataFrame({
    'Nome': ['Lucas', 'Guilherme', 'Joao', 'Junior', 'Mind'],
    'Idade': [29, 28, 27, 28, 30],
    'Profissao': ['Banker', 'AI ENGINEERING', 'Gate kEEPer', 'MKT digital', 'Bolsista Familia']
})

In [44]:
# Tipos de dados
df.dtypes

Nome         object
Idade         int64
Profissao    object
dtype: object

In [45]:
# Verificando se há algo nulo
df.isnull().sum()

Nome         0
Idade        0
Profissao    0
dtype: int64

In [46]:
print(f'O dataset possui {df.shape[0]} linhas e {df.shape[1]} colunas.')

O dataset possui 5 linhas e 3 colunas.


In [47]:
# Estatísicas iniciais do Dataset

df.describe()

Unnamed: 0,Idade
count,5.0
mean,28.4
std,1.140175
min,27.0
25%,28.0
50%,28.0
75%,29.0
max,30.0


In [48]:
# Acrescentando uma coluna
df['Salario'] = [6000, 15000, 1500, 35000, 600]

In [49]:
# Criando uma coluna para o salário anual
df['Salario_Anus'] = df['Salario']*12   # VETORIZAÇÃO

In [50]:
# Renomeando um das colunas
df = df.rename(columns={'Salario_Anus': 'Salario_Anual'})

In [51]:
# Filtro ou condicional
df[(df['Idade'] >= 28) & (df['Salario_Anual'] > 50000)] # Condicional dupla
df[df['Idade'] > 30] # Ninguém acima de 30 anos


Unnamed: 0,Nome,Idade,Profissao,Salario,Salario_Anual


In [52]:
# Testando loc e iloc
df.loc[:, ['Nome', 'Idade', 'Salario']]
df.iloc[:, [0, 2]]
df.iloc[[0, 1, 2], [0, 2, 3]]

Unnamed: 0,Nome,Profissao,Salario
0,Lucas,Banker,6000
1,Guilherme,AI ENGINEERING,15000
2,Joao,Gate kEEPer,1500


In [53]:
# Corrigindo formatação dos dados de uma coluna
## df['Profissao'] = df['Profissao'].str.strip().capitalize()
df['Profissao'] = df['Profissao'].str.capitalize()
df

Unnamed: 0,Nome,Idade,Profissao,Salario,Salario_Anual
0,Lucas,29,Banker,6000,72000
1,Guilherme,28,Ai engineering,15000,180000
2,Joao,27,Gate keeper,1500,18000
3,Junior,28,Mkt digital,35000,420000
4,Mind,30,Bolsista familia,600,7200


In [54]:
# Verificar se há um determinado item
df['Nome'].str.contains('Gui')
df['Nome'] = df['Nome'].replace('Mind', 'Gonzales')

In [55]:
df.sample()
df

Unnamed: 0,Nome,Idade,Profissao,Salario,Salario_Anual
0,Lucas,29,Banker,6000,72000
1,Guilherme,28,Ai engineering,15000,180000
2,Joao,27,Gate keeper,1500,18000
3,Junior,28,Mkt digital,35000,420000
4,Gonzales,30,Bolsista familia,600,7200


In [59]:
# Vetorização - Mais um exemplo
df['Dinheiro_em_10'] = df['Salario_Anual']* 10

In [61]:
df

Unnamed: 0,Nome,Idade,Profissao,Salario,Salario_Anual,Dinheiro_em_10
0,Lucas,29,Banker,6000,72000,720000
1,Guilherme,28,Ai engineering,15000,180000,1800000
2,Joao,27,Gate keeper,1500,18000,180000
3,Junior,28,Mkt digital,35000,420000,4200000
4,Gonzales,30,Bolsista familia,600,7200,72000


In [67]:
# Utilização do Apply corretamente:
df['Faixa_Etaria'] = np.where(
    df['Idade'] >= 28, 
    'Jovem',
    'Adulto')
df

Unnamed: 0,Nome,Idade,Profissao,Salario,Salario_Anual,Dinheiro_em_10,Faixa_Etaria
0,Lucas,29,Banker,6000,72000,720000,Jovem
1,Guilherme,28,Ai engineering,15000,180000,1800000,Jovem
2,Joao,27,Gate keeper,1500,18000,180000,Adulto
3,Junior,28,Mkt digital,35000,420000,4200000,Jovem
4,Gonzales,30,Bolsista familia,600,7200,72000,Jovem


In [78]:
condicoes = [
    df['Salario'] < 5000,
    df['Salario'].between(5000, 15000),
    df['Salario'] > 15000
]

resultados = [
    'Baixa renda',
    'Média renda',
    'Alta renda'
]

df['Classe_Salarial'] = np.select(condicoes, resultados,
                                 default='Nao classificado')
df

Unnamed: 0,Nome,Idade,Profissao,Salario,Salario_Anual,Dinheiro_em_10,Faixa_Etaria,Classe_Salarial
0,Lucas,29,Banker,6000,72000,720000,Jovem,Média renda
1,Guilherme,28,Ai engineering,15000,180000,1800000,Jovem,Média renda
2,Joao,27,Gate keeper,1500,18000,180000,Adulto,Baixa renda
3,Junior,28,Mkt digital,35000,420000,4200000,Jovem,Alta renda
4,Gonzales,30,Bolsista familia,600,7200,72000,Jovem,Baixa renda
