# **Python Pandas: tratando e analisando dados**

## ***Aula 0 - Criando um ambiente virtual***

In [38]:
import pandas as pd

In [39]:
pd.__version__

'1.3.5'

In [40]:
# A criação de ambientes virtuais é de suma importância para o trabalho do cientista de DS.
# Suponhamos que fora escrito um código há 1 ano atrás, cuja produção utilizou um conjunto de bibliotecas, pacotes e bases de dados.
# Este código foi desenvolvido para a realização de um projeto e sua extensão/tamanho era enorme.
# Passados 2 anos da conclusão deste projeto, o responsável pelo setor lembra de sua existência e solicita sua alteração,
# exigindo agora a análise de dados tomando como base novas bases.
# Desavisado, o cientista de DS simplesmente altera as bases de dados velhas pelas novas. Será que esta ação gerará frutos?
# O que usualmente ocorre é que, devido as atualizações dos sistemas, as linhas de código antigas podem não mais funcionar.
# Por isso, é essencial para o trabalho de Data Science a criação de Ambientes Virtuais, cujas variáveis, versões e bibliotecas
# não são alteradas automaticamente.

In [41]:
# Em suma, devemos usar o ambiente virtual para garantir que um projeto use uma determinada versão de uma biblioteca.
# É importante que cada projeto defina a sua versão da biblioteca em uso para evitar conflitos e incompatibilidades.
# Além disso, o ambiente virtual garante que um projeto use uma determinada versão do Python.
# Há diferenças entre as versões, e o projeto deve definir isso através do ambiente virtual.

## ***Aula 1 - Importando Dados***

In [42]:
# Relatório de Análise I

In [43]:
import pandas as pd

In [44]:
data1 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Formação Data Science/Python Pandas - Tratando e analisando dados/aluguel.csv", sep = ";")
data1

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [45]:
# Preciso descobrir qual é o tipo de variável que foi criada.
type(data1)

pandas.core.frame.DataFrame

In [46]:
# A variável criada foi do tipo DataFrame.
# Agora necessito de mais informações deste DataFrame:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [47]:
# Como estou elaborando um relatório para meu superior, preciso polir a visualização destes dados.
# Iniciarei o tratamento mostrando as dez primeiras informações do DataFrame:
data1.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000.0,19193.0,3030.0


In [48]:
# Obs. Caso esta base de dados seja trabalhada no Jupyter, tenho algumas dicas importantes:
# a) Para acessarmos a documentação de uma biblioteca a partir do Jupyter, utilizamos as teclas SHIFT + TAB;
# b) Para modificarmos uma célula do notebook para o tipo Code, basta pressionar as teclas ESC + Y;
# c) Uma das formas de se executar o código de uma célula do notebook é pressionando as teclas SHIFT + ENTER.

# Para conhecer mais teclas de atalho do Jupyter vá na barra de menus e clique em Help -> Keyboard Shortcuts, 
# ou pressione as teclas ESC + H.

# Lembre-se de posicionar o cursor do mouse sobre o item do qual gostaria de visualizar a documentação antes
# de pressionar as teclas SHIFT + TAB.

***Informações Gerais sobre a Base de Dados***

In [49]:
data1.dtypes

Tipo           object
Bairro         object
Quartos         int64
Vagas           int64
Suites          int64
Area            int64
Valor         float64
Condominio    float64
IPTU          float64
dtype: object

In [51]:
# Vou criar agora um DataFrame para facilitar a visualização desta informação:
pd.DataFrame(data1.dtypes)

Unnamed: 0,0
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [52]:
# O título do DataFrame consta como O. Vou alterá-lo:
pd.DataFrame(data1.dtypes, columns = ["Tipos de Dados"])

Unnamed: 0,Tipos de Dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [55]:
# Vamos inserir estes dados em uma variável:
tipos_de_dados = pd.DataFrame(data1.dtypes, columns = ["Tipos de Dados"])
tipos_de_dados.columns.name = "Variáveis"
tipos_de_dados

Variáveis,Tipos de Dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [57]:
# Agora desejo saber a quantidade de observações e de variáveis presentes no banco de dados:
data1.shape

(32960, 9)

In [58]:
# Esta função retorna uma tupla: o primeiro registro é o número de linhas e o segundo registro é número de variáveis.
# O que é uma tupla?
# Tupla é um tipo de estrutura de dados utilizada em Python que funciona de modo semelhante a uma lista, entretanto,
# com a característica principal de ser imutável. Isso significa que quando uma tupla é criada não é possível adicionar, 
# alterar ou remover seus elementos. Geralmente, ela é utilizada para adicionar tipos diferentes de informações, porém, 
# com a quantidade de elementos definidos.

# Podemos utilizar uma tupla de dois elementos, por exemplo, para indicar a sigla do estado em uma posição e o nome dele em outra. 
# Portanto, ela é uma boa opção quando queremos trabalhar com informações diferentes em uma mesma variável e quando queremos que
# esses dados não sofram alterações.

# Sua característica de imutabilidade oferece segurança nas informações armazenadas. 
# Por isso, uma das finalidades da tupla é armazenar uma sequência de dados que não será modificada em outras partes do código.

# Saiba mais em: <https://blog.betrybe.com/tecnologia/tuplas-em-python/>

In [64]:
# Temos então 32960 linhas e 9 variáveis.
# Como faço para ler individualmente os registros?
data1.shape[0]

32960

In [65]:
data1.shape[1]

9

In [67]:
print("A base de dados apresenta {} registros (imóveis) e {} variáveis.".format(data1.shape[0],data1.shape[1]))

A base de dados apresenta 32960 registros (imóveis) e 9 variáveis.
