# **Python Pandas: tratando e analisando dados**

## ***Aula 0 - Criando um ambiente virtual***

In [10]:
import pandas as pd

In [11]:
pd.__version__

'1.3.5'

In [12]:
# A criação de ambientes virtuais é de suma importância para o trabalho do cientista de DS.
# Suponhamos que fora escrito um código há 1 ano atrás, cuja produção utilizou um conjunto de bibliotecas, pacotes e bases de dados.
# Este código foi desenvolvido para a realização de um projeto e sua extensão/tamanho era enorme.
# Passados 2 anos da conclusão deste projeto, o responsável pelo setor lembra de sua existência e solicita sua alteração,
# exigindo agora a análise de dados tomando como base novas bases.
# Desavisado, o cientista de DS simplesmente altera as bases de dados velhas pelas novas. Será que esta ação gerará frutos?
# O que usualmente ocorre é que, devido as atualizações dos sistemas, as linhas de código antigas podem não mais funcionar.
# Por isso, é essencial para o trabalho de Data Science a criação de Ambientes Virtuais, cujas variáveis, versões e bibliotecas
# não são alteradas automaticamente.

In [13]:
# Em suma, devemos usar o ambiente virtual para garantir que um projeto use uma determinada versão de uma biblioteca.
# É importante que cada projeto defina a sua versão da biblioteca em uso para evitar conflitos e incompatibilidades.
# Além disso, o ambiente virtual garante que um projeto use uma determinada versão do Python.
# Há diferenças entre as versões, e o projeto deve definir isso através do ambiente virtual.

## ***Aula 1 - Importando Dados***

In [14]:
# Relatório de Análise I

In [15]:
import pandas as pd

In [16]:
data1 = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Formação Data Science/Python Pandas - Tratando e analisando dados/aluguel.csv", sep = ";")
data1

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [17]:
# Preciso descobrir qual é o tipo de variável que foi criada.
type(data1)

pandas.core.frame.DataFrame

In [18]:
# A variável criada foi do tipo DataFrame.
# Agora necessito de mais informações deste DataFrame:
data1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [19]:
# Como estou elaborando um relatório para meu superior, preciso polir a visualização destes dados.
# Iniciarei o tratamento mostrando as dez primeiras informações do DataFrame:
data1.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000.0,19193.0,3030.0


In [20]:
# Obs. Caso esta base de dados seja trabalhada no Jupyter, tenho algumas dicas importantes:
# a) Para acessarmos a documentação de uma biblioteca a partir do Jupyter, utilizamos as teclas SHIFT + TAB;
# b) Para modificarmos uma célula do notebook para o tipo Code, basta pressionar as teclas ESC + Y;
# c) Uma das formas de se executar o código de uma célula do notebook é pressionando as teclas SHIFT + ENTER.

# Para conhecer mais teclas de atalho do Jupyter vá na barra de menus e clique em Help -> Keyboard Shortcuts, 
# ou pressione as teclas ESC + H.

# Lembre-se de posicionar o cursor do mouse sobre o item do qual gostaria de visualizar a documentação antes
# de pressionar as teclas SHIFT + TAB.

***Informações Gerais sobre a Base de Dados***

In [21]:
data1.dtypes

Tipo           object
Bairro         object
Quartos         int64
Vagas           int64
Suites          int64
Area            int64
Valor         float64
Condominio    float64
IPTU          float64
dtype: object

In [22]:
# Vou criar agora um DataFrame para facilitar a visualização desta informação:
pd.DataFrame(data1.dtypes)

Unnamed: 0,0
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [23]:
# O título do DataFrame consta como O. Vou alterá-lo:
pd.DataFrame(data1.dtypes, columns = ["Tipos de Dados"])

Unnamed: 0,Tipos de Dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [24]:
# Vamos inserir estes dados em uma variável:
tipos_de_dados = pd.DataFrame(data1.dtypes, columns = ["Tipos de Dados"])
tipos_de_dados.columns.name = "Variáveis"
tipos_de_dados

Variáveis,Tipos de Dados
Tipo,object
Bairro,object
Quartos,int64
Vagas,int64
Suites,int64
Area,int64
Valor,float64
Condominio,float64
IPTU,float64


In [25]:
# Agora desejo saber a quantidade de observações e de variáveis presentes no banco de dados:
data1.shape

(32960, 9)

In [26]:
# Esta função retorna uma tupla: o primeiro registro é o número de linhas e o segundo registro é número de variáveis.
# O que é uma tupla?
# Tupla é um tipo de estrutura de dados utilizada em Python que funciona de modo semelhante a uma lista, entretanto,
# com a característica principal de ser imutável. Isso significa que quando uma tupla é criada não é possível adicionar, 
# alterar ou remover seus elementos. Geralmente, ela é utilizada para adicionar tipos diferentes de informações, porém, 
# com a quantidade de elementos definidos.

# Podemos utilizar uma tupla de dois elementos, por exemplo, para indicar a sigla do estado em uma posição e o nome dele em outra. 
# Portanto, ela é uma boa opção quando queremos trabalhar com informações diferentes em uma mesma variável e quando queremos que
# esses dados não sofram alterações.

# Sua característica de imutabilidade oferece segurança nas informações armazenadas. 
# Por isso, uma das finalidades da tupla é armazenar uma sequência de dados que não será modificada em outras partes do código.

# Saiba mais em: <https://blog.betrybe.com/tecnologia/tuplas-em-python/>

In [27]:
# Temos então 32960 linhas e 9 variáveis.
# Como faço para ler individualmente os registros?
data1.shape[0]

32960

In [28]:
data1.shape[1]

9

In [29]:
print("A base de dados apresenta {} registros (imóveis) e {} variáveis.".format(data1.shape[0],data1.shape[1]))

A base de dados apresenta 32960 registros (imóveis) e 9 variáveis.


## ***Aula 2 - Series e Index***

In [30]:
# Relatório de Análise II - Tipos de Imóveis

In [30]:
# O chefe do departamento, após visualizar as variáveis do DataFrame, percebeu que determinados imóveis não
# interessam para a Seguradora. A empresa deseja somente trabalhar com imóveis residenciais.
# Na base de dados, há imóveis comerciais, terrenos, lotes etc.

# Como identificamos todos os tipos de imóveis nesta base de dados?

In [33]:
data1 = pd.read_csv ("/content/drive/MyDrive/Colab Notebooks/Formação Data Science/Python Pandas - Tratando e analisando dados/aluguel.csv",sep =";")
data1.head(10)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
8,Casa de Condomínio,Ramos,2,2,0,65,1000.0,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000.0,19193.0,3030.0


In [34]:
data1["Tipo"]

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

In [35]:
# Como estou trabalhando com a variável Tipo, vamos inserí-la em uma variável
tipo_de_imovel = data1["Tipo"]

In [36]:
type(tipo_de_imovel)

pandas.core.series.Series

In [38]:
# A variável criada, portanto, é uma Series.
# O que é uma Series?
# Series são matrizes unidimensionais rotuladas capazes de armazenar dados de qualquer tipo (inteiro, string, float, objetos python, etc.).
# Os rótulos dos eixos são chamados coletivamente de índices. Fazendo um paralelo com uma planilha MS-EXCEL uma série representa 
# uma coluna em uma planilha do Excel. Uma Serie suporta tanto a indexação inteira, quanto a baseada em rótulo e 
# fornece uma série de métodos para executar operações envolvendo o índice.

In [None]:
# Preciso agora de uma ferramenta que nos auxilie a analisar cada imóvel. Para nos auxiliar nesta tarefa, 
# temos o método "drop_duplicates()". Este método agrupará todos os tipos de imóveis existentes na série.

In [39]:
tipo_de_imovel.drop_duplicates()

0                          Quitinete
1                               Casa
2            Conjunto Comercial/Sala
3                        Apartamento
7                 Casa de Condomínio
16                    Prédio Inteiro
17                              Flat
29                        Loja/Salão
80           Galpão/Depósito/Armazém
83                    Casa Comercial
117                     Casa de Vila
159                   Terreno Padrão
207                      Box/Garagem
347                             Loft
589      Loja Shopping/ Ct Comercial
2157                         Chácara
3354           Loteamento/Condomínio
4379                           Sítio
4721                   Pousada/Chalé
6983                          Studio
9687                           Hotel
23614                      Indústria
Name: Tipo, dtype: object

In [44]:
# Esse seleção foi realizada da seguinte maneira: o método "drop_duplicates()"" coleta apenas o 
# primeiro item de cada tipo, e elimina os outros.

# Alguns métodos do Pandas possuem argumentos que devemos conhecer. No caso do "drop_duplicates()", ao pressionarmos "Shift + Tab"
# (no Jupyter Notebook), poderemos analisar estes argumentos:

In [40]:
Signature: tipo_de_imovel.drop_duplicates(keep='first', inplace=False)

In [None]:
# Quando temos o "keep" configurado como first, todas as duplicatas são eliminadas. 
# Temos, ainda, o "inplace". Quando seu dafault esta marcado como *true*, ele modifica a variável a partir da 
# execução do método, não precisamos criar uma variável e atribuir a execução à ela. Para isso, escrevemos:

In [42]:
tipo_de_imovel.drop_duplicates(inplace = True)
tipo_de_imovel

0                          Quitinete
1                               Casa
2            Conjunto Comercial/Sala
3                        Apartamento
7                 Casa de Condomínio
16                    Prédio Inteiro
17                              Flat
29                        Loja/Salão
80           Galpão/Depósito/Armazém
83                    Casa Comercial
117                     Casa de Vila
159                   Terreno Padrão
207                      Box/Garagem
347                             Loft
589      Loja Shopping/ Ct Comercial
2157                         Chácara
3354           Loteamento/Condomínio
4379                           Sítio
4721                   Pousada/Chalé
6983                          Studio
9687                           Hotel
23614                      Indústria
Name: Tipo, dtype: object

In [45]:
# Em resumo, configurando o parâmetro inplace como True, a modificação é realizada a partir da aplicação do próprio 
# método, sem necessidade de criar um DataFrame para armazenar o resultado.

In [46]:
# Agora preciso melhorar a visualização dos relatórios gerados.
# Para tanto, ainda neste notebook, criarei um novo markdown para marcar a etapa de elaboração do relatório:

In [49]:
tipo_de_imovel = pd.DataFrame(tipo_de_imovel)
tipo_de_imovel

Unnamed: 0,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
7,Casa de Condomínio
16,Prédio Inteiro
17,Flat
29,Loja/Salão
80,Galpão/Depósito/Armazém
83,Casa Comercial


In [None]:
# Contudo, preciso modificar o índice. Como foi coletado os primeiros itens de cada tipo, também temos a linha em que
# esses itens foram encontrados pela primeira vez durante a varredura. Modificaremos a visualização adicionando o 
# termo indice à variável tipo_de_imovel.

In [50]:
tipo_de_imovel.index

Int64Index([    0,     1,     2,     3,     7,    16,    17,    29,    80,
               83,   117,   159,   207,   347,   589,  2157,  3354,  4379,
             4721,  6983,  9687, 23614],
           dtype='int64')

In [51]:
# Como temos um índice numerado, resta aplicá-lo. Para isso, podemos utilizar o método "range()"", um iterador. 
# Todavia, esse método precisa receber como parâmetro o tamanho do dataframe. Para descobrirmos essa informação, 
# basta utilizar "shape[0]".

In [52]:
tipo_de_imovel.shape[0]

22

In [54]:
# Vamos inserir esta informação dentro do "range":

range(tipo_de_imovel.shape[0])

range(0, 22)

In [55]:
# Agora iremos iterar o conteúdo adicionando o termo for:

for i in range(tipo_de_imovel.shape[0]):
    print(i)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21


In [57]:
# Será exibida uma escala numérica do 0 ao 21. Para efetivamente adicionar esse índice ao nosso dataframe, escreverei:

tipo_de_imovel.index = range(tipo_de_imovel.shape[0])
tipo_de_imovel

Unnamed: 0,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


In [60]:
# Bem mais organizado, não? Ainda pode ficar melhor.
# Para melhorar ainda mais a organização, nomearemos a primeira coluna de "identificador".

tipo_de_imovel.columns.name = 'identificador'
tipo_de_imovel

identificador,Tipo
0,Quitinete
1,Casa
2,Conjunto Comercial/Sala
3,Apartamento
4,Casa de Condomínio
5,Prédio Inteiro
6,Flat
7,Loja/Salão
8,Galpão/Depósito/Armazém
9,Casa Comercial


In [62]:
# Agora o relatório está mais bonito visualmente.

In [63]:
# Obs. Nem sempre é indicado, mas existem várias formas de se modificar o index de uma estrutura de dados no pandas.
# A fórmula "df.index = range(df.shape[0])" nos possibilita esta alteração.
# Também é possível usar o método len() do Python para retornar o número de registros de um DataFrame.
# O código ficaria assim: "df.index = range(len(df))".