# Base de dados 

Fomos contratados por uma seguradora que nos forneceu uma base de dados para executarmos um trabalho de inteligência. A base contém milhares de imóveis disponíveis para locação no Rio de Janeiro.

In [15]:
import pandas as pd

Vamos importar a nossa base de dados.

In [16]:
url = 'data/aluguel.csv'

dados = pd.read_csv(url, sep=';')

dados

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m2,Tipo Agregado
0,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
1,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
2,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.00,Apartamento
3,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,21.43,Apartamento
4,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,16.67,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...
19826,Quitinete,Glória,1,0,0,10,400.0,107.0,10.0,40.00,Apartamento
19827,Quitinete,Flamengo,1,0,0,23,900.0,605.0,0.0,39.13,Apartamento
19828,Quitinete,Centro,1,0,0,24,1100.0,323.0,0.0,45.83,Apartamento
19829,Quitinete,Copacabana,1,0,0,22,1500.0,286.0,200.0,68.18,Apartamento


Para termos um breve resumo das informações do nosso DataFrame usamos a função **info()**.

In [17]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19831 entries, 0 to 19830
Data columns (total 11 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Tipo           19831 non-null  object 
 1   Bairro         19831 non-null  object 
 2   Quartos        19831 non-null  int64  
 3   Vagas          19831 non-null  int64  
 4   Suites         19831 non-null  int64  
 5   Area           19831 non-null  int64  
 6   Valor          19831 non-null  float64
 7   Condominio     19831 non-null  float64
 8   IPTU           19831 non-null  float64
 9   Valor m2       19831 non-null  float64
 10  Tipo Agregado  19831 non-null  object 
dtypes: float64(4), int64(4), object(3)
memory usage: 1.7+ MB


# Informações Gerais sobre a Base de Dados

Para sabermos quantos dados há no nosso DataFrame usamos a função **shape**.

In [18]:
dados.shape

(19831, 11)

Ela retornará uma tupla, onde o primeiro dado é a quantidade de linha e o segundo é a quantidade de colunas.

## Tipos de Imóveis

In [19]:
dados

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU,Valor m2,Tipo Agregado
0,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0,53.33,Apartamento
1,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,0.0,16.67,Apartamento
2,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0,26.00,Apartamento
3,Apartamento,Grajaú,2,1,0,70,1500.0,642.0,74.0,21.43,Apartamento
4,Apartamento,Lins de Vasconcelos,3,1,1,90,1500.0,455.0,14.0,16.67,Apartamento
...,...,...,...,...,...,...,...,...,...,...,...
19826,Quitinete,Glória,1,0,0,10,400.0,107.0,10.0,40.00,Apartamento
19827,Quitinete,Flamengo,1,0,0,23,900.0,605.0,0.0,39.13,Apartamento
19828,Quitinete,Centro,1,0,0,24,1100.0,323.0,0.0,45.83,Apartamento
19829,Quitinete,Copacabana,1,0,0,22,1500.0,286.0,200.0,68.18,Apartamento


Conseguimos trabalhar apenas com uma coluna, da seguinte forma:

In [20]:
tipo_imoveis = dados['Tipo']

Para que possamos visualizar apenas quais tipos de dados estão presentes nessa tabela, sem duplicatas, usamos o método **drop_duplicates()**.

In [21]:
tipo_imoveis.drop_duplicates(inplace=True)

tipo_imoveis

0               Apartamento
16923                  Casa
17821    Casa de Condomínio
18785          Casa de Vila
19018             Quitinete
Name: Tipo, dtype: object

## Organizando a Visualização

In [23]:
tipo_imoveis = pd.DataFrame(tipo_imoveis)
tipo_imoveis

Unnamed: 0,Tipo
0,Apartamento
16923,Casa
17821,Casa de Condomínio
18785,Casa de Vila
19018,Quitinete


Iremos organizar os índices.

Primeiro iremos pegar o tamanho do nosso DataFrame utilizando a função **shape[]**

In [24]:
tipo_imoveis.shape[0]

5

Agora iremos criar um for para podermos visualizar os novos índices.

In [25]:
for i in range(tipo_imoveis.shape[0]):
    print(i)

0
1
2
3
4


Agora iremos colocar esses novos index no nosso DataFrame, da seguinte maneira:

In [27]:
tipo_imoveis.index = range(tipo_imoveis.shape[0])

tipo_imoveis

Unnamed: 0,Tipo
0,Apartamento
1,Casa
2,Casa de Condomínio
3,Casa de Vila
4,Quitinete


Agora iremos mudar o nome da coluna, para ficar mais intuitivo.

In [28]:
tipo_imoveis.columns.name = 'Id'

tipo_imoveis

Id,Tipo
0,Apartamento
1,Casa
2,Casa de Condomínio
3,Casa de Vila
4,Quitinete
