# Imformações de um DataFrame

In [56]:
import pandas as pd
data = [['Fulano', 12, 7.0, True],
        ['Sicrano', 15, 3.5, False],
        ['Beltrano', 18, 9.3, True]]
dados = pd.DataFrame(data, columns=['Aluno', 'Idade', 'Nota', 'Aprovado'])
dados


Unnamed: 0,Aluno,Idade,Nota,Aprovado
0,Fulano,12,7.0,True
1,Sicrano,15,3.5,False
2,Beltrano,18,9.3,True


In [57]:
tipos_de_dados = pd.DataFrame(dados.dtypes, columns = ['Tipos de Dados'])

In [58]:
tipos_de_dados.columns.name = 'Variáveis'

In [59]:
tipos_de_dados

Variáveis,Tipos de Dados
Aluno,object
Idade,int64
Nota,float64
Aprovado,bool


# Determinando Seleções

In [60]:
import pandas as pd

numeros = [i for i in range(11)]
letras = [chr(i + 65) for i in range(11)]
nome_coluna = ['N']

df = pd.DataFrame(data=numeros, index=letras, columns=nome_coluna)


In [61]:
selecao = df['N'].isin([i for i in range(11) if i % 2 == 0])
df = df[selecao]
df


Unnamed: 0,N
A,0
C,2
E,4
G,6
I,8
K,10


# Frequências de imóveis

In [62]:
import pandas as pd
alunos = pd.DataFrame({'Nome': ['Ary', 'Cátia', 'Denis', 'Beto', 'Bruna', 'Dara', 'Carlos', 'Alice'],
                       'Sexo': ['M', 'F', 'M', 'M', 'F', 'F', 'M', 'F'],
                       'Idade': [15, 27, 56, 32, 42, 21, 19, 35],
                       'Notas': [7.5, 2.5, 5.0, 10, 8.2, 7, 6, 5.6],
                       'Aprovado': [True, False, False, True, True, True, False, False]},
                      columns=['Nome', 'Idade', 'Sexo', 'Notas', 'Aprovado'])


In [63]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
1,Cátia,27,F,2.5,False
2,Denis,56,M,5.0,False
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True
6,Carlos,19,M,6.0,False
7,Alice,35,F,5.6,False


In [64]:
selecao = alunos['Aprovado'] == True
aprovados = alunos[selecao]
aprovados


Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True


In [65]:
selecao = (alunos.Aprovado == True) & (alunos.Sexo == 'F')
aprovadas = alunos[selecao]
aprovadas


Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True


In [66]:

selecao = (alunos.Idade > 10) & (alunos.Idade < 20) | (alunos.Idade >= 40)
alunos[selecao]


Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
2,Denis,56,M,5.0,False
4,Bruna,42,F,8.2,True
6,Carlos,19,M,6.0,False


In [67]:
selecao = alunos['Aprovado'] == False
aprovados = alunos[selecao]
aprovados


Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
1,Cátia,27,F,2.5,False
2,Denis,56,M,5.0,False
6,Carlos,19,M,6.0,False
7,Alice,35,F,5.6,False


In [68]:
selecao = alunos['Aprovado'] == False
reprovados = alunos[['Nome', 'Sexo', 'Idade']][selecao]
reprovados


Unnamed: 0,Nome,Sexo,Idade
1,Cátia,F,27
2,Denis,M,56
6,Carlos,M,19
7,Alice,F,35


In [69]:
selecao = alunos['Aprovado'] == False
reprovados = alunos.loc[selecao, ['Nome', 'Sexo', 'Idade']]
reprovados


Unnamed: 0,Nome,Sexo,Idade
1,Cátia,F,27
2,Denis,M,56
6,Carlos,M,19
7,Alice,F,35


In [70]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
1,Cátia,27,F,2.5,False
2,Denis,56,M,5.0,False
3,Beto,32,M,10.0,True
4,Bruna,42,F,8.2,True
5,Dara,21,F,7.0,True
6,Carlos,19,M,6.0,False
7,Alice,35,F,5.6,False


In [71]:
alunos.sort_values(by=['Idade'], inplace=True) # ordena por idade


In [72]:
alunos

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
6,Carlos,19,M,6.0,False
5,Dara,21,F,7.0,True
1,Cátia,27,F,2.5,False
3,Beto,32,M,10.0,True
7,Alice,35,F,5.6,False
4,Bruna,42,F,8.2,True
2,Denis,56,M,5.0,False


In [73]:
alunos.iloc[:3]

Unnamed: 0,Nome,Idade,Sexo,Notas,Aprovado
0,Ary,15,M,7.5,True
6,Carlos,19,M,6.0,False
5,Dara,21,F,7.0,True


# Revisando o processo - Dados faltantes

In [74]:
import pandas as pd

In [75]:
imoveis = pd.DataFrame([['Apartamento', None, 970, 68],
                        ['Apartamento', 2000, 878, 112],
                        ['Casa', 5000, None, 500],
                        ['Apartamento', None, 1010, 170],
                        ['Apartamento', 1500, 850, None],
                        ['Casa', None, None, None],
                        ['Apartamento', 2000, 878, None],
                        ['Apartamento', 1550, None, 228],
                        ['Apartamento', 2500, 880, 195]],
                       columns=['Tipo', 'Valor', 'Condominio', 'IPTU'])


In [76]:
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
0,Apartamento,,970.0,68.0
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
3,Apartamento,,1010.0,170.0
4,Apartamento,1500.0,850.0,
5,Casa,,,
6,Apartamento,2000.0,878.0,
7,Apartamento,1550.0,,228.0
8,Apartamento,2500.0,880.0,195.0


In [77]:
imoveis.dropna(subset=['Valor'], inplace=True)
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
4,Apartamento,1500.0,850.0,
6,Apartamento,2000.0,878.0,
7,Apartamento,1550.0,,228.0
8,Apartamento,2500.0,880.0,195.0


In [78]:
selecao = (imoveis['Tipo'] == 'Apartamento') & (imoveis['Condominio'].isnull())
imoveis = imoveis[~selecao]
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,,500.0
4,Apartamento,1500.0,850.0,
6,Apartamento,2000.0,878.0,
8,Apartamento,2500.0,880.0,195.0


In [79]:
imoveis = imoveis.fillna({'Condominio': 0, 'IPTU': 0})
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
1,Apartamento,2000.0,878.0,112.0
2,Casa,5000.0,0.0,500.0
4,Apartamento,1500.0,850.0,0.0
6,Apartamento,2000.0,878.0,0.0
8,Apartamento,2500.0,880.0,195.0


In [80]:
imoveis.index = range(imoveis.shape[0])
imoveis

Unnamed: 0,Tipo,Valor,Condominio,IPTU
0,Apartamento,2000.0,878.0,112.0
1,Casa,5000.0,0.0,500.0
2,Apartamento,1500.0,850.0,0.0
3,Apartamento,2000.0,878.0,0.0
4,Apartamento,2500.0,880.0,195.0


## Dados faltantes

In [81]:
atletas = pd.DataFrame([['Marcos', 9.62], ['Pedro', None], ['João', 9.69],
                        ['Beto', 9.72], ['Sandro', None], ['Denis', 9.69],
                        ['Ary', None], ['Carlos', 9.74]],
                       columns=['Corredor', 'Melhor Tempo'])
atletas


Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,
2,João,9.69
3,Beto,9.72
4,Sandro,
5,Denis,9.69
6,Ary,
7,Carlos,9.74


In [82]:
atletas.fillna(atletas.mean(), inplace=True)


In [83]:
atletas

Unnamed: 0,Corredor,Melhor Tempo
0,Marcos,9.62
1,Pedro,9.692
2,João,9.69
3,Beto,9.72
4,Sandro,9.692
5,Denis,9.69
6,Ary,9.692
7,Carlos,9.74
