## limpeza do DataFrame

In [10]:
import pandas as pd

In [11]:
def geraDF():
    return pd.DataFrame([['Apartamento', None, 970, 68], 
                        ['Apartamento', 2000, 878, 112], 
                        ['Casa', 5000, None, 500], 
                        ['Apartamento', None, 1010, 170], 
                        ['Apartamento', 1500, 850, None], 
                        ['Casa', None, None, None], 
                        ['Apartamento', 2000, 878, None], 
                        ['Apartamento', 1550, None, 228], 
                        ['Apartamento', 2500, 880, 195]], 
                        columns = ['Tipo', 'Valor', 'Condominio', 'IPTU'])
imoveis = geraDF()

In [12]:
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
0,Apartamento,,970.0,68.0
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
3,Apartamento,,1010.0,170.0
4,Apartamento,1500.0,850.0,
5,Casa,,,
6,Apartamento,2000.0,878.0,
7,Apartamento,1550.0,,228.0
8,Apartamento,2500.0,880.0,195.0


In [13]:
# 1) Elimina os registros que não apresentam a variável Valor:

imoveis.dropna(subset = ['Valor'], inplace = True)
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
4,Apartamento,1500.0,850.0,
6,Apartamento,2000.0,878.0,
7,Apartamento,1550.0,,228.0
8,Apartamento,2500.0,880.0,195.0


In [14]:
# 2) Elimina os imóveis do tipo Apartamento que não apresentam valor Condominio:
selecao = (imoveis['Tipo'] == 'Apartamento') & (imoveis['Condominio'].isnull())
imoveis = imoveis[~selecao]
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
4,Apartamento,1500.0,850.0,
6,Apartamento,2000.0,878.0,
8,Apartamento,2500.0,880.0,195.0


In [15]:
# 3) Substitui os valores faltantes que restam nas variáveis Condominio e IPTU por zero:
imoveis = imoveis.fillna({'Condominio': 0, 'IPTU': 0})
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,0.0,500.0
4,Apartamento,1500.0,850.0,0.0
6,Apartamento,2000.0,878.0,0.0
8,Apartamento,2500.0,880.0,195.0


In [16]:
# 4) Reconstrói o índice do DataFrame resultante:

imoveis.index = range(imoveis.shape[0])
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
0,Apartamento,2000.0,878.0,112.0
1,Casa,5000.0,0.0,500.0
2,Apartamento,1500.0,850.0,0.0
3,Apartamento,2000.0,878.0,0.0
4,Apartamento,2500.0,880.0,195.0


## Preenchendo dados faltantes


In [17]:
atletas = pd.DataFrame([['Marcos', 9.62], ['Pedro', None], ['João', 9.69], 
                        ['Beto', 9.72], ['Sandro', None], ['Denis', 9.69], 
                        ['Ary', None], ['Carlos', 9.74]], 
                        columns = ['Corredor', 'Melhor Tempo'])
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,
2,João,9.69
3,Beto,9.72
4,Sandro,
5,Denis,9.69
6,Ary,
7,Carlos,9.74


In [18]:
#preenche com valor medio
atletas.fillna(atletas["Melhor Tempo"].mean(), inplace = True)
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,9.692
2,João,9.69
3,Beto,9.72
4,Sandro,9.692
5,Denis,9.69
6,Ary,9.692
7,Carlos,9.74


In [25]:
atletas = pd.DataFrame([['Marcos', 9.62], ['Pedro', None], ['João', 9.69], 
                        ['Beto', 9.72], ['Sandro', None], ['Denis', 9.69], 
                        ['Ary', None], ['Carlos', 9.74]], 
                        columns = ['Corredor', 'Melhor Tempo'])
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,
2,João,9.69
3,Beto,9.72
4,Sandro,
5,Denis,9.69
6,Ary,
7,Carlos,9.74


In [28]:
#preenche com menor valor
atletas = atletas.fillna(atletas.iloc[:,1].min())
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,9.62
2,João,9.69
3,Beto,9.72
4,Sandro,9.62
5,Denis,9.69
6,Ary,9.62
7,Carlos,9.74


## Criação de variáveis

In [29]:
import pandas as pd
alunos = pd.DataFrame({'Nome': ['Ary', 'Cátia', 'Denis', 'Beto', 'Bruna', 'Dara', 'Carlos', 'Alice'], 
                        'Sexo': ['M', 'F', 'M', 'M', 'F', 'F', 'M', 'F'], 
                        'Idade': [15, 27, 56, 32, 42, 21, 19, 35], 
                        'Notas': [7.5, 2.5, 5.0, 10, 8.2, 7, 6, 5.6]}, 
                        columns = ['Nome', 'Idade', 'Sexo', 'Notas'])

In [30]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas
0,Ary,15,M,7.5
1,Cátia,27,F,2.5
2,Denis,56,M,5.0
3,Beto,32,M,10.0
4,Bruna,42,F,8.2
5,Dara,21,F,7.0
6,Carlos,19,M,6.0
7,Alice,35,F,5.6


In [34]:
alunos['Notas'].mean()

6.475

In [32]:
alunos['Notas-Média(Notas)'] = alunos['Notas'].apply(lambda x: x - alunos['Notas'].mean())

In [33]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Notas-Média(Notas)
0,Ary,15,M,7.5,1.025
1,Cátia,27,F,2.5,-3.975
2,Denis,56,M,5.0,-1.475
3,Beto,32,M,10.0,3.525
4,Bruna,42,F,8.2,1.725
5,Dara,21,F,7.0,0.525
6,Carlos,19,M,6.0,-0.475
7,Alice,35,F,5.6,-0.875


In [39]:
alunos['Notas-Média(Notas)'] = \
    alunos.Notas - alunos.Notas.mean()
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Notas-Média(Notas),Faixa Etária
0,Ary,15,M,7.5,1.025,Menor que 20 anos
1,Cátia,27,F,2.5,-3.975,Entre 20 e 40 anos
2,Denis,56,M,5.0,-1.475,Maior que 40 anos
3,Beto,32,M,10.0,3.525,Entre 20 e 40 anos
4,Bruna,42,F,8.2,1.725,Maior que 40 anos
5,Dara,21,F,7.0,0.525,Entre 20 e 40 anos
6,Carlos,19,M,6.0,-0.475,Menor que 20 anos
7,Alice,35,F,5.6,-0.875,Entre 20 e 40 anos


In [35]:
alunos['Faixa Etária'] = alunos['Idade'] \
    .apply(lambda x: 'Menor que 20 anos' if x < 20 
        else ('Entre 20 e 40 anos' if (x >= 20 and x <= 40) 
            else 'Maior que 40 anos'))

In [36]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Notas-Média(Notas),Faixa Etária
0,Ary,15,M,7.5,1.025,Menor que 20 anos
1,Cátia,27,F,2.5,-3.975,Entre 20 e 40 anos
2,Denis,56,M,5.0,-1.475,Maior que 40 anos
3,Beto,32,M,10.0,3.525,Entre 20 e 40 anos
4,Bruna,42,F,8.2,1.725,Maior que 40 anos
5,Dara,21,F,7.0,0.525,Entre 20 e 40 anos
6,Carlos,19,M,6.0,-0.475,Menor que 20 anos
7,Alice,35,F,5.6,-0.875,Entre 20 e 40 anos
