# Relatório de Análise I

Imagine que faremos um trabalho para uma empresa fictícia que deseja vender seguros para imóveis residenciais e que esta empresa tenha disponibilizado uma base de dados para analisarmos.

Embora o cenário que estaremos lidando seja fictício, ele retratará bastante os procedimentos inciais adotados por um Cientista de Dados profissional.

Neste primeiro relatório, nosso objetivo consite em conhecer a base de dados com a qual faremos análises posteriores. O arquivo com o qual estaremos lidando é o **aluguel.csv** que está na pasta dados.

## Importações

Na célula abaixo, encontram-se as instruções para importar as bibliotecas necessárias para nosso projeto.

In [1]:
# Importa o pandas com o apelido usado pela comunidade
import pandas as pd

# Importa o módulo os
import os

A seguir, vamos mudar o diretório atual para ser o diretório da pasta dados, na qual se encontra a base de dados que vamos explorar:

In [2]:
# Muda para o diretório especificado
os.chdir('dados')

# Exibe o diretório atual
print(os.getcwd())

/home/diego/Ciência de Dados/02 - Pandas/dados


## Conhecendo os Dados

In [3]:
# Lê o arquivo CSV com os dados dos imóveis
imoveis = pd.read_csv('aluguel.csv')

# Exibe as cinco primeiras linhas do dataframe
imoveis.head()

Unnamed: 0,Tipo;Bairro;Quartos;Vagas;Suites;Area;Valor;Condominio;IPTU
0,Quitinete;Copacabana;1;0;0;40;1700;500;60
1,Casa;Jardim Botânico;2;0;1;100;7000;;
2,Conjunto Comercial/Sala;Barra da Tijuca;0;4;0;...
3,Apartamento;Centro;1;0;0;15;800;390;20
4,Apartamento;Higienópolis;1;0;0;48;800;230;


Notamos que o separador dos dados neste CSV é o ponto-e-vírgula. Vamos especificá-lo na importação dos dados:

In [4]:
# Lê o arquivo CSV com os dados dos imóveis, especificando o ponto-e-vírgula como separador
imoveis = pd.read_csv('aluguel.csv', sep=';')

In [5]:
imoveis.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


## Obtendo Informações sobre a Base

In [6]:
# Exibe um resumo sobre a base
imoveis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


Neste dataframe há 32.960 registros distribuídos ao longo de 9 colunas, sendo que as colunas **Valor**, **Condomínio** e **IPTU** apresentam valores nulos.

In [7]:
# Exibe as dimensões da base
imoveis.shape

(32960, 9)

In [8]:
linhas, colunas = imoveis.shape

In [9]:
# Exibe um resumo simplificado do dataframe
print(f'A base apresenta {linhas} registros com {colunas} campos.')

A base apresenta 32960 registros com 9 campos.


In [10]:
# Exibe os tipos de cada coluna
imoveis.dtypes

Tipo           object
Bairro         object
Quartos         int64
Vagas           int64
Suites          int64
Area            int64
Valor         float64
Condominio    float64
IPTU          float64
dtype: object

Desejamos criar um dataframe para armazenar o tipo de cada uma das variáveis de nosso dataframe `imoveis`:

In [11]:
# Cria um dataframe, resetando seus índices
tipos_dos_campos = pd.DataFrame(data=imoveis.dtypes).reset_index()

# Renomeia as colunas do dataframe
tipos_dos_campos.columns = ['Campo', 'Tipo de Dado']

# Exibe o dataframe
tipos_dos_campos

Unnamed: 0,Campo,Tipo de Dado
0,Tipo,object
1,Bairro,object
2,Quartos,int64
3,Vagas,int64
4,Suites,int64
5,Area,int64
6,Valor,float64
7,Condominio,float64
8,IPTU,float64
