## limpeza do DataFrame

In [1]:
import pandas as pd

In [2]:
def geraDF():
    return pd.DataFrame([['Apartamento', None, 970, 68], 
                        ['Apartamento', 2000, 878, 112], 
                        ['Casa', 5000, None, 500], 
                        ['Apartamento', None, 1010, 170], 
                        ['Apartamento', 1500, 850, None], 
                        ['Casa', None, None, None], 
                        ['Apartamento', 2000, 878, None], 
                        ['Apartamento', 1550, None, 228], 
                        ['Apartamento', 2500, 880, 195]], 
                        columns = ['Tipo', 'Valor', 'Condominio', 'IPTU'])
imoveis = geraDF()

In [3]:
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
0,Apartamento,,970.0,68.0
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
3,Apartamento,,1010.0,170.0
4,Apartamento,1500.0,850.0,
5,Casa,,,
6,Apartamento,2000.0,878.0,
7,Apartamento,1550.0,,228.0
8,Apartamento,2500.0,880.0,195.0


In [4]:
# 1) Elimina os registros que não apresentam a variável Valor:

imoveis.dropna(subset = ['Valor'], inplace = True)
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
4,Apartamento,1500.0,850.0,
6,Apartamento,2000.0,878.0,
7,Apartamento,1550.0,,228.0
8,Apartamento,2500.0,880.0,195.0


In [5]:
# 2) Elimina os imóveis do tipo Apartamento que não apresentam valor Condominio:
selecao = (imoveis['Tipo'] == 'Apartamento') & (imoveis['Condominio'].isnull())
imoveis = imoveis[~selecao]
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
4,Apartamento,1500.0,850.0,
6,Apartamento,2000.0,878.0,
8,Apartamento,2500.0,880.0,195.0


In [6]:
# 3) Substitui os valores faltantes que restam nas variáveis Condominio e IPTU por zero:
imoveis = imoveis.fillna({'Condominio': 0, 'IPTU': 0})
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,0.0,500.0
4,Apartamento,1500.0,850.0,0.0
6,Apartamento,2000.0,878.0,0.0
8,Apartamento,2500.0,880.0,195.0


In [7]:
# 4) Reconstrói o índice do DataFrame resultante:

imoveis.index = range(imoveis.shape[0])
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
0,Apartamento,2000.0,878.0,112.0
1,Casa,5000.0,0.0,500.0
2,Apartamento,1500.0,850.0,0.0
3,Apartamento,2000.0,878.0,0.0
4,Apartamento,2500.0,880.0,195.0


## Preenchendo dados faltantes


In [8]:
atletas = pd.DataFrame([['Marcos', 9.62], ['Pedro', None], ['João', 9.69], 
                        ['Beto', 9.72], ['Sandro', None], ['Denis', 9.69], 
                        ['Ary', None], ['Carlos', 9.74]], 
                        columns = ['Corredor', 'Melhor Tempo'])
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,
2,João,9.69
3,Beto,9.72
4,Sandro,
5,Denis,9.69
6,Ary,
7,Carlos,9.74


In [9]:
#preenche com valor medio
atletas.fillna(atletas["Melhor Tempo"].mean(), inplace = True)
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,9.692
2,João,9.69
3,Beto,9.72
4,Sandro,9.692
5,Denis,9.69
6,Ary,9.692
7,Carlos,9.74


In [10]:
atletas = pd.DataFrame([['Marcos', 9.62], ['Pedro', None], ['João', 9.69], 
                        ['Beto', 9.72], ['Sandro', None], ['Denis', 9.69], 
                        ['Ary', None], ['Carlos', 9.74]], 
                        columns = ['Corredor', 'Melhor Tempo'])
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,
2,João,9.69
3,Beto,9.72
4,Sandro,
5,Denis,9.69
6,Ary,
7,Carlos,9.74


In [11]:
#preenche com menor valor
atletas = atletas.fillna(atletas.iloc[:,1].min())
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,9.62
2,João,9.69
3,Beto,9.72
4,Sandro,9.62
5,Denis,9.69
6,Ary,9.62
7,Carlos,9.74


## Criação de variáveis

In [12]:
import pandas as pd
alunos = pd.DataFrame({'Nome': ['Ary', 'Cátia', 'Denis', 'Beto', 'Bruna', 'Dara', 'Carlos', 'Alice'], 
                        'Sexo': ['M', 'F', 'M', 'M', 'F', 'F', 'M', 'F'], 
                        'Idade': [15, 27, 56, 32, 42, 21, 19, 35], 
                        'Notas': [7.5, 2.5, 5.0, 10, 8.2, 7, 6, 5.6]}, 
                        columns = ['Nome', 'Idade', 'Sexo', 'Notas'])

In [13]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas
0,Ary,15,M,7.5
1,Cátia,27,F,2.5
2,Denis,56,M,5.0
3,Beto,32,M,10.0
4,Bruna,42,F,8.2
5,Dara,21,F,7.0
6,Carlos,19,M,6.0
7,Alice,35,F,5.6


In [14]:
alunos['Notas'].mean()

6.475

In [15]:
alunos['Notas-Média(Notas)'] = alunos['Notas'].apply(lambda x: x - alunos['Notas'].mean())

In [16]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Notas-Média(Notas)
0,Ary,15,M,7.5,1.025
1,Cátia,27,F,2.5,-3.975
2,Denis,56,M,5.0,-1.475
3,Beto,32,M,10.0,3.525
4,Bruna,42,F,8.2,1.725
5,Dara,21,F,7.0,0.525
6,Carlos,19,M,6.0,-0.475
7,Alice,35,F,5.6,-0.875


In [17]:
alunos['Notas-Média(Notas)'] = \
    alunos.Notas - alunos.Notas.mean()
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Notas-Média(Notas)
0,Ary,15,M,7.5,1.025
1,Cátia,27,F,2.5,-3.975
2,Denis,56,M,5.0,-1.475
3,Beto,32,M,10.0,3.525
4,Bruna,42,F,8.2,1.725
5,Dara,21,F,7.0,0.525
6,Carlos,19,M,6.0,-0.475
7,Alice,35,F,5.6,-0.875


In [18]:
alunos['Faixa Etária'] = alunos['Idade'] \
    .apply(lambda x: 'Menor que 20 anos' if x < 20 
        else ('Entre 20 e 40 anos' if (x >= 20 and x <= 40) 
            else 'Maior que 40 anos'))

In [19]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Notas-Média(Notas),Faixa Etária
0,Ary,15,M,7.5,1.025,Menor que 20 anos
1,Cátia,27,F,2.5,-3.975,Entre 20 e 40 anos
2,Denis,56,M,5.0,-1.475,Maior que 40 anos
3,Beto,32,M,10.0,3.525,Entre 20 e 40 anos
4,Bruna,42,F,8.2,1.725,Maior que 40 anos
5,Dara,21,F,7.0,0.525,Entre 20 e 40 anos
6,Carlos,19,M,6.0,-0.475,Menor que 20 anos
7,Alice,35,F,5.6,-0.875,Entre 20 e 40 anos


## Contadores

In [20]:
m1 = 'CCcCCccCCCccCcCccCcCcCCCcCCcccCCcCcCcCcccCCcCcccCc'
m2 = 'CCCCCccCccCcCCCCccCccccCccCccCCcCccCcCcCCcCccCccCc'
m3 = 'CccCCccCcCCCCCCCCCCcccCccCCCCCCccCCCcccCCCcCCcccCC'
m4 = 'cCCccCCccCCccCCccccCcCcCcCcCcCcCCCCccccCCCcCCcCCCC'
m5 = 'CCCcCcCcCcCCCcCCcCcCCccCcCCcccCccCCcCcCcCcCcccccCc'

In [None]:
eventos = {'m1': list(m1), 
            'm2': list(m2), 
            'm3': list(m3), 
            'm4': list(m4), 
            'm5': list(m5)}
moedas = pd.DataFrame(eventos)
df = pd.DataFrame(data = ['Cara', 'Coroa'], 
                    index = ['c', 'C'], 
                    columns = ['Faces'])
for item in moedas:
    df = pd.concat([df, moedas[item].value_counts()], 
                    axis = 1)
df

Unnamed: 0,Faces,m1,m2,m3,m4,m5
c,Cara,25,26,19,23,25
C,Coroa,25,24,31,27,25


## Agrupamentos 

In [1]:
import pandas as pd
alunos = pd.DataFrame({'Nome': ['Ary', 'Cátia', 'Denis', 'Beto', 'Bruna', 'Dara', 'Carlos', 'Alice'], 
                        'Sexo': ['M', 'F', 'M', 'M', 'F', 'F', 'M', 'F'], 
                        'Idade': [15, 27, 56, 32, 42, 21, 19, 35], 
                        'Notas': [7.5, 2.5, 5.0, 10, 8.2, 7, 6, 5.6], 
                        'Aprovado': [True, False, False, True, True, True, False, False]}, 
                        columns = ['Nome', 'Idade', 'Sexo', 'Notas', 'Aprovado'])

In [2]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
1,Cátia,27,F,2.5,False
2,Denis,56,M,5.0,False
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True
6,Carlos,19,M,6.0,False
7,Alice,35,F,5.6,False


In [6]:
grupo_sexo = alunos.groupby('Sexo')
sexo = pd.DataFrame(grupo_sexo['Notas'].mean().round(2))
sexo.columns = ['Notas Médias']
sexo

Unnamed: 0_level_0,Notas Médias
Sexo,Unnamed: 1_level_1
F,5.82
M,7.12


In [9]:
grupo_sexo.groups

{'F': [1, 4, 5, 7], 'M': [0, 2, 3, 6]}

## Selecionando as estatísticas descritivas

In [11]:
precos = pd.DataFrame([['Feira', 'Cebola', 2.5], 
                        ['Mercado', 'Cebola', 1.99], 
                        ['Supermercado', 'Cebola', 1.69], 
                        ['Feira', 'Tomate', 4], 
                        ['Mercado', 'Tomate', 3.29], 
                        ['Supermercado', 'Tomate', 2.99], 
                        ['Feira', 'Batata', 4.2], 
                        ['Mercado', 'Batata', 3.99], 
                        ['Supermercado', 'Batata', 3.69]], 
                        columns = ['Local', 'Produto', 'Preço'])
precos

Unnamed: 0,Local,Produto,Preço
0,Feira,Cebola,2.5
1,Mercado,Cebola,1.99
2,Supermercado,Cebola,1.69
3,Feira,Tomate,4.0
4,Mercado,Tomate,3.29
5,Supermercado,Tomate,2.99
6,Feira,Batata,4.2
7,Mercado,Batata,3.99
8,Supermercado,Batata,3.69


In [12]:
produtos = precos.groupby('Produto', sort = False)
produtos.describe().round(2)

Unnamed: 0_level_0,Preço,Preço,Preço,Preço,Preço,Preço,Preço,Preço
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Produto,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Cebola,3.0,2.06,0.41,1.69,1.84,1.99,2.24,2.5
Tomate,3.0,3.43,0.52,2.99,3.14,3.29,3.64,4.0
Batata,3.0,3.96,0.26,3.69,3.84,3.99,4.1,4.2


In [15]:
estatisticas = ['mean', 'std', 'min', 'max']
nomes = {'mean': 'Média', 'std': 'Desvio Padrão', 
    'min': 'Mínimo', 'max': 'Máximo'}
produtos['Preço'].aggregate(estatisticas).rename(columns = nomes).round(2)

Unnamed: 0_level_0,Média,Desvio Padrão,Mínimo,Máximo
Produto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Cebola,2.06,0.41,1.69,2.5
Tomate,3.43,0.52,2.99,4.0
Batata,3.96,0.26,3.69,4.2


In [18]:
produtos['Preço'].agg(['mean', 'std']).round(3)

Unnamed: 0_level_0,mean,std
Produto,Unnamed: 1_level_1,Unnamed: 2_level_1
Cebola,2.06,0.41
Tomate,3.427,0.519
Batata,3.96,0.256
