### Semana de Ciência de Dados com Python - Python/IA - SENAI-DF - 15/07/2024
#### Importação e exploração do dataset aluguel.csv

##### Marcelo Pereira Avelino

#### Tarefa 1 - Importar e conhecer a base de dados

- Instalar a biblioteca Pandas: 
- Verificar as bibliotecas instaladas.
- Criar uma variavel para receber o dataset (Importando dados)

In [None]:
# Instalando a biblioteca Pandas

# Execute o comando abaixo no terminal para instalar a biblioteca Pandas.
# Este comando irá baixar e instalar a Pandas e suas dependências no seu ambiente Python.
# Não execute este comando diretamente no seu script Python ou Jupyter Notebook.

pip install pandas  # no terminal

In [None]:
# Listar todas as bibliotecas instaladas com suas versões exatas
!pip freeze

# Listar todas as bibliotecas instaladas de forma legível
!pip list

# Como esses comandos são normalmente executados no terminal, você pode executá-los diretamente em um Jupyter Notebook usando o comando ! antes do comando.

In [40]:
# Importa a biblioteca pandas e define o alias 'pd'

import pandas as pd

In [41]:
# Importando os dados

# Definindo a URL do dataset url = "dataset/aluguel.csv" 
# A URL é o caminho relativo para o arquivo CSV dentro do diretório do projeto.
# Um caminho relativo indica a localização de um arquivo em relação ao diretório atual do script.
# No exemplo acima, 'dataset' é a pasta onde o arquivo 'aluguel.csv' está localizado.
# Control + barra de espaço pode ser usado como atalho para autocompletar o caminho do arquivo no editor.
# A função pd.read_csv(url) lê o arquivo CSV e carrega os dados em um DataFrame do pandas.

url = "dataset/aluguel.csv"
pd.read_csv(url)

Unnamed: 0,Tipo;Bairro;Quartos;Vagas;Suites;Area;Valor;Condominio;IPTU
0,Quitinete;Copacabana;1;0;0;40;1700;500;60
1,Casa;Jardim Botânico;2;0;1;100;7000;;
2,Conjunto Comercial/Sala;Barra da Tijuca;0;4;0;...
3,Apartamento;Centro;1;0;0;15;800;390;20
4,Apartamento;Higienópolis;1;0;0;48;800;230;
...,...
32955,Quitinete;Centro;0;0;0;27;800;350;25
32956,Apartamento;Jacarepaguá;3;1;2;78;1800;800;40
32957,Apartamento;São Francisco Xavier;2;1;0;48;1400...
32958,Apartamento;Leblon;2;0;0;70;3000;760;


In [42]:
# Verificando o tipo de dado da variável 'url'
tipo_url = type(url)  # A função type() retorna o tipo de dado da variável 'url'

# Imprimindo o tipo de dado da variável 'url'
print(f'O tipo de dado da variável url é "{tipo_url}".')

O tipo de dado da variável url é "<class 'str'>".


In [43]:
# Criação da variável 'dados' para guardar o dataset
# A função pd.read_csv(url) lê o arquivo CSV e transforma-o em um DataFrame

dados = pd.read_csv(url)

# Exibindo o conteúdo do DataFrame 'dados'

dados

Unnamed: 0,Tipo;Bairro;Quartos;Vagas;Suites;Area;Valor;Condominio;IPTU
0,Quitinete;Copacabana;1;0;0;40;1700;500;60
1,Casa;Jardim Botânico;2;0;1;100;7000;;
2,Conjunto Comercial/Sala;Barra da Tijuca;0;4;0;...
3,Apartamento;Centro;1;0;0;15;800;390;20
4,Apartamento;Higienópolis;1;0;0;48;800;230;
...,...
32955,Quitinete;Centro;0;0;0;27;800;350;25
32956,Apartamento;Jacarepaguá;3;1;2;78;1800;800;40
32957,Apartamento;São Francisco Xavier;2;1;0;48;1400...
32958,Apartamento;Leblon;2;0;0;70;3000;760;


In [None]:
# Lendo o Arquivo CSV com o Separador Correto
# O resultado esperado é que os dados sejam separados por vírgulas (','), 
# pois CSV (Comma Separated Values) indica que os valores são separados por vírgulas.
# Se os valores estiverem separados por ponto e vírgula (';'), 
# isso deve ser corrigido ajustando o parâmetro 'sep' no comando pd.read_csv(url, sep=';').

dados = pd.read_csv(url, sep=';')
print(dados)

# O comando pd.read_csv(url, sep=';') lê o arquivo CSV e o carrega em um DataFrame.
# DataFrame é uma estrutura de dados do Pandas, similar a uma tabela em uma base de dados ou uma planilha.
# Ele possui linhas e colunas, onde as colunas são os campos e as linhas são os registros de dados.
# A primeira coluna do DataFrame, conhecida como índice, começa com 0 por padrão.
# Isso significa que a contagem de linhas começa do 0.

In [None]:
# Métodos de visualização de dados do DataFrame

# O método head() é usado para visualizar as primeiras linhas do DataFrame.
# Por padrão, head() retorna as primeiras 5 linhas, mas você pode especificar um número diferente como argumento.
# Por exemplo, dados.head(10) retornaria as primeiras 10 linhas.

primeiras_linhas = dados.head() 
print(primeiras_linhas)

# Armazenamento: O resultado das primeiras 5 linhas do DataFrame é armazenado na variável primeiras_linhas.
# Uso Posterior: Você pode reutilizar a variável primeiras_linhas em outros pontos do código sem precisar chamar dados.head() novamente.
# Exibição: O conteúdo da variável primeiras_linhas é exibido usando print.

# ou simplesmente dados.head(), caso não queria atribuir uma variável, que nesse caso foi atribuida para ser visualizada posteriormente em alguma parte do código ao ser consultada.


# Chamada Direta: O método head() é chamado diretamente no DataFrame dados.
# Uso Único: O resultado não é armazenado, apenas exibido no momento da chamada.
# Exibição: Dependendo do ambiente, os resultados podem ser exibidos automaticamente (por exemplo, em um Jupyter Notebook) sem a necessidade de um comando print.

dados.head()

In [None]:
# Métodos de visualização de dados do DataFrame

# O método tail(n) é usado para visualizar as últimas 'n' linhas do DataFrame.
# Neste caso, estamos visualizando as últimas 5 linhas.
# Isso é útil para verificar os dados finais contidos no DataFrame e garantir a consistência.

ultimas_5_linhas = dados.tail(5)
print(ultimas_5_linhas)

# ou

dados.tail()

In [49]:
# Verificação de valores nulos na coluna 'IPTU'
print(dados['IPTU'].isnull().sum())
# Na coluna 'IPTU', alguns valores podem estar vazios ou nulos.
# NaN (Not a Number) é a representação para valores nulos ou ausentes em um DataFrame.
# O método isnull() verifica quais valores são nulos e sum() conta quantos valores nulos existem na coluna.
# df['IPTU'].isnull().sum() irá mostrar a quantidade total de valores nulos na coluna 'IPTU'.

10237


In [50]:
# Visualização dos valores nulos contidos na coluna 'IPTU'
valores_nulos = dados[dados['IPTU'].isnull()]
print(valores_nulos)
# Aqui, filtramos o DataFrame para mostrar apenas as linhas onde a coluna 'IPTU' possui valores nulos.
# df['IPTU'].isnull() cria uma série booleana onde True indica valores nulos.
# df[df['IPTU'].isnull()] utiliza essa série booleana para filtrar o DataFrame, retornando apenas as linhas com valores nulos na coluna 'IPTU'.
# A variável 'valores_nulos' contém essas linhas e print(valores_nulos) exibe essas linhas.

                          Tipo                    Bairro  Quartos  Vagas  \
1                         Casa           Jardim Botânico        2      0   
4                  Apartamento              Higienópolis        1      0   
5                  Apartamento              Vista Alegre        3      1   
7           Casa de Condomínio           Barra da Tijuca        5      4   
8           Casa de Condomínio                     Ramos        2      2   
...                        ...                       ...      ...    ...   
32942  Conjunto Comercial/Sala           Barra da Tijuca        0      1   
32944              Apartamento  Recreio dos Bandeirantes        3      2   
32951              Apartamento            Vila Valqueire        2      0   
32954              Box/Garagem                    Centro        0      0   
32958              Apartamento                    Leblon        2      0   

       Suites  Area    Valor  Condominio  IPTU  
1           1   100   7000.0         N

In [16]:
# Mostrar o tipo de dados
# DataFrame é uma matriz bidimensional com linhas e colunas
# Series são vetores que representam uma única coluna do DataFrame

tipo_dados = type(dados)
print(f'O tipo do objeto dados é {tipo_dados}.')  # Imprime o tipo do objeto 'dados' no console

# O comando type(dados) retorna o tipo de objeto da variável 'dados'.
# Quando 'dados' é um DataFrame, o tipo será 'pandas.core.frame.DataFrame'.
# Imprimir o tipo ajuda a confirmar que 'dados' é realmente um DataFrame.

O tipo do objeto dados é <class 'pandas.core.frame.DataFrame'>.


#### Tarefa 2 - Verificar algumas características gerais, como:

- Quantidade de linhas e colunas;
- Quais as colunas da base de dados;
- Explorar as diferentes colunas existentes;
- Verificar os tipos dos dados.

In [28]:
# Obtendo a quantidade de linhas e colunas

# Chamada direta sem armazenamento do valor em variável. Uso único.
(dados.shape)  # Exibe a tupla (n_linhas, n_colunas) diretamente

# Armazenamento do valor em uma variável. 'shape' retorna uma tupla (n_linhas, n_colunas)
quantidade_linhas_colunas = dados.shape  

# Imprimindo a quantidade de linhas e colunas armazenadas na variável
print(quantidade_linhas_colunas)  # Exibe a tupla com a quantidade de linhas e colunas do DataFrame

(32960, 9)


In [31]:
# Explorar as diferentes colunas existentes
dados.columns

# Explorando as diferentes colunas existentes no DataFrame
# O atributo 'columns' do DataFrame retorna uma lista com os nomes das colunas.
# Isso é útil para verificar quais colunas estão disponíveis no DataFrame.

colunas = dados.columns

# Imprimindo os nomes das colunas
print(colunas)

Index(['Tipo', 'Bairro', 'Quartos', 'Vagas', 'Suites', 'Area', 'Valor',
       'Condominio', 'IPTU'],
      dtype='object')


In [32]:
# Explorando as diferentes colunas existentes e suas informações

# O método 'info()' do DataFrame fornece um resumo conciso do DataFrame.
# Inclui o número de colunas, os nomes das colunas, o número de valores não nulos e os tipos de dados de cada coluna.

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [38]:
# Verificando o tipo do objeto 'dados'

# O comando 'type()' é usado para verificar o tipo de um objeto em Python.
# Aqui, ele é utilizado para determinar o tipo do objeto 'dados'.

type(dados)

pandas.core.frame.DataFrame

In [39]:
# Filtrar e visualizar as colunas 'Tipo' e 'Valor' do DataFrame

# Utilizando a notação de colchetes duplos para selecionar múltiplas colunas
# 'dados[['Tipo', 'Valor']]' seleciona apenas as colunas 'Tipo' e 'Valor' do DataFrame 'dados'

dados[['Tipo', 'Valor']] # Exibe o DataFrame resultante com apenas as colunas 'Tipo' e 'Valor'

Unnamed: 0,Tipo,Valor
0,Quitinete,1700.0
1,Casa,7000.0
2,Conjunto Comercial/Sala,5200.0
3,Apartamento,800.0
4,Apartamento,800.0
...,...,...
32955,Quitinete,800.0
32956,Apartamento,1800.0
32957,Apartamento,1400.0
32958,Apartamento,3000.0
