## Conhecendo a base dados

In [25]:
import pandas as pd

In [26]:
# A função read_csv() considera, por padrão, que o arquivo lido tem a vírgula como separador. 
# Quando este não é o caso, é necessário especificar, na função, que o arquivo possui um separador diferente para que as
# informações sejam retornadas de forma mais organizada (em colunas).
pd.read_csv('aluguel.csv')

Unnamed: 0,Tipo;Bairro;Quartos;Vagas;Suites;Area;Valor;Condominio;IPTU
0,Quitinete;Copacabana;1;0;0;40;1700;500;60
1,Casa;Jardim Botânico;2;0;1;100;7000;;
2,Conjunto Comercial/Sala;Barra da Tijuca;0;4;0;...
3,Apartamento;Centro;1;0;0;15;800;390;20
4,Apartamento;Higienópolis;1;0;0;48;800;230;
...,...
32955,Quitinete;Centro;0;0;0;27;800;350;25
32956,Apartamento;Jacarepaguá;3;1;2;78;1800;800;40
32957,Apartamento;São Francisco Xavier;2;1;0;48;1400...
32958,Apartamento;Leblon;2;0;0;70;3000;760;


In [27]:
# Após informar o tipo de separador, foram retornados os dados em colunas separadas.
dados = pd.read_csv('aluguel.csv', sep=';')
dados

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [34]:
# Esse método retorna as 5 primeiras linhas. Caso queira retornar um número específico, 
# basta inserir o valor como parâmetro
dados.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000.0,19193.0,3030.0


In [29]:
# Funciona de forma semelhante ao .head(), porém este método retorna as 5 últimas linhas do dataframe ou a quantidade
# que for específicada entre parenteses. 
dados.tail()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,
32959,Conjunto Comercial/Sala,Centro,0,0,0,250,6500.0,4206.0,1109.0


In [30]:
type(dados)

pandas.core.frame.DataFrame

## Características gerais da base de dados

In [33]:
# Começaremos explorando a quantidade de linhas e colunas que nossa base possui
# Foi retornado uma tupla, com dois elementos, sendo o primeiro correspondente à quantidade de linhas e o segundo à colunas.
dados.shape

(32960, 9)

In [36]:
# Nos retornou o nome das 9 colunas:
dados.columns

Index(['Tipo', 'Bairro', 'Quartos', 'Vagas', 'Suites', 'Area', 'Valor',
       'Condominio', 'IPTU'],
      dtype='object')

In [37]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [39]:
dados['Tipo']

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

In [40]:
dados[['Quartos','Tipo']]

Unnamed: 0,Quartos,Tipo
0,1,Quitinete
1,2,Casa
2,0,Conjunto Comercial/Sala
3,1,Apartamento
4,1,Apartamento
...,...,...
32955,0,Quitinete
32956,3,Apartamento
32957,2,Apartamento
32958,2,Apartamento


In [44]:
dados.describe()

Unnamed: 0,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
count,32960.0,32960.0,32960.0,32960.0,32943.0,28867.0,22723.0
mean,1.77139,1.749059,0.665777,231.901547,12952.66,2388.062,2364.41
std,1.717869,20.380402,1.176525,1135.254152,667522.0,39184.96,179564.1
min,0.0,0.0,0.0,0.0,75.0,1.0,1.0
25%,0.0,0.0,0.0,55.0,1500.0,590.0,110.0
50%,2.0,1.0,0.0,87.0,2800.0,990.0,250.0
75%,3.0,2.0,1.0,170.0,6500.0,1800.0,697.0
max,100.0,1966.0,70.0,90000.0,120000000.0,6552570.0,27053070.0
