
# Data Science - Introdução a Biblioteca Pandas 

![Pandas](https://raw.githubusercontent.com/aluipio/introducao-pandas/main/pandas-python-interface.png.webp)

___
# 1 - Introdução ao Pandas

Biblioteca em linguagem python comumente utilizada para Analise de Dados e Ciências de Dados. Idealizada para auxiliar no processo de tratamento e análise de dados com uso da linguagem Python. Sendo uma ferramenta de manipulação de dados de alto nível, construída com base no pacote Numpy.

## 1.1 - Introdução Python

Python é uma linguagem de programação de alto nível com suporte a múltiplos paradigmas de programação. É um projeto open source e desde seu surgimento, em 1991, vem se tornando uma das linguagens de programação interpretadas mais populares.

Nos últimos anos Python desenvolveu uma comunidade ativa de processamento científico e análise de dados e vem se destacando como uma das linguagens mais relevantes quando o assundo é ciência de dados e machine learning, tanto no ambiente acadêmico como também no mercado

## 1.2 - Instalação e Ambientes de desenvolvimento 

Ambiente Local - Instalação:
- Python: https://www.python.org/downloads/
- Anaconda: https://www.anaconda.com/distribution/

Ambiente On-Line:
- Google COLAB: https://colab.research.google.com/

## 1.3 - Carregando

In [None]:
# Importando a biblioteca Pandas - 
import pandas as pd

### Estruturas de dados 

#### Series

Series são arrays unidimensionais rotulados capazes de armazenar qualquer tipo de dado. Os rótulos das linhas são chamados de index. A forma básica de criação de uma Series é a seguinte:

    s = pd.Series(dados, index = index)
O argumento dados pode ser um dicionário, uma lista, um array Numpy ou uma constante.

#### DataFrame

DataFrame é uma estrutura de dados tabular bidimensional com rótulos nas linha e colunas. Como a Series, os DataFrames são capazes de armazenar qualquer tipo de dados.

    df = pd.DataFrame(dados, index = index, columns = columns)
O argumento dados pode ser um dicionário, uma lista, um array Numpy, uma Series e outro DataFrame.

Documentação: https://pandas.pydata.org/pandas-docs/version/0.25/

In [None]:
# Carregando dataset - param sep identifica o separador
dataset = "https://raw.githubusercontent.com/aluipio/introducao-pandas/main/dataset-aluguel.csv"
df = pd.read_csv(dataset , sep = ";")
df.head(1)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0


In [None]:
# Carregamento de dataset - index_col = 0 -> remove a contagem das colunas 
df2 = pd.read_csv(dataset , sep = ";" ,index_col = 0)
df2.head(1)

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0


___
# 2 - Conhecendo os dados

## 2.1 - Visualização de Dados

In [None]:
# Retorna o tipo da variável df
type(df)

pandas.core.frame.DataFrame

In [None]:
# Conhecendo as variáveis e os tipos de dados
df.dtypes

Tipo           object
Bairro         object
Quartos         int64
Vagas           int64
Suites          int64
Area            int64
Valor         float64
Condominio    float64
IPTU          float64
dtype: object

In [None]:
# Detalha as variáveis do DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [None]:
# Detalha as variáveis estatísticas do tipo inteiras
df.describe()

Unnamed: 0,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
count,32960.0,32960.0,32960.0,32960.0,32943.0,28867.0,22723.0
mean,1.77139,1.749059,0.665777,231.901547,12952.66,2388.062,2364.41
std,1.717869,20.380402,1.176525,1135.254152,667522.0,39184.96,179564.1
min,0.0,0.0,0.0,0.0,75.0,1.0,1.0
25%,0.0,0.0,0.0,55.0,1500.0,590.0,110.0
50%,2.0,1.0,0.0,87.0,2800.0,990.0,250.0
75%,3.0,2.0,1.0,170.0,6500.0,1800.0,697.0
max,100.0,1966.0,70.0,90000.0,120000000.0,6552570.0,27053070.0


In [None]:
# Param include="all" -> retorna descrição de todas as variáveis
df.describe(include="all")

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
count,32960,32960,32960.0,32960.0,32960.0,32960.0,32943.0,28867.0,22723.0
unique,22,162,,,,,,,
top,Apartamento,Barra da Tijuca,,,,,,,
freq,19532,6259,,,,,,,
mean,,,1.77139,1.749059,0.665777,231.901547,12952.66,2388.062,2364.41
std,,,1.717869,20.380402,1.176525,1135.254152,667522.0,39184.96,179564.1
min,,,0.0,0.0,0.0,0.0,75.0,1.0,1.0
25%,,,0.0,0.0,0.0,55.0,1500.0,590.0,110.0
50%,,,2.0,1.0,0.0,87.0,2800.0,990.0,250.0
75%,,,3.0,2.0,1.0,170.0,6500.0,1800.0,697.0


In [None]:
# Retorna dimensão do DataFrame
df.shape

(32960, 9)

In [None]:
# Retorna quantidade de linhas validas por coluna
df.count()

Tipo          32960
Bairro        32960
Quartos       32960
Vagas         32960
Suites        32960
Area          32960
Valor         32943
Condominio    28867
IPTU          22723
dtype: int64

In [None]:
# Lista os nomes das colunas
df.columns

Index(['Tipo', 'Bairro', 'Quartos', 'Vagas', 'Suites', 'Area', 'Valor',
       'Condominio', 'IPTU'],
      dtype='object')

In [None]:
# Lista os indexs
df.index

RangeIndex(start=0, stop=32960, step=1)

In [None]:
# Retorno semelhante ao head()
display(df)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
...,...,...,...,...,...,...,...,...,...
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,


In [None]:
# Retorna toda a tabela do DataFrame
df_style = df.head(7)
df_style.style

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,
5,Apartamento,Vista Alegre,3,1,0,70,1200.0,,
6,Apartamento,Cachambi,2,0,0,50,1300.0,301.0,17.0


In [None]:
# Retorna os primeiros elementos / df.head(n) -> default: n = 5
df.head()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0
4,Apartamento,Higienópolis,1,0,0,48,800.0,230.0,


In [None]:
df.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,


In [None]:
# Retorna os últimos elementos / df.tail(n) -> default: n = 5
df.tail()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
32955,Quitinete,Centro,0,0,0,27,800.0,350.0,25.0
32956,Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
32957,Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,
32959,Conjunto Comercial/Sala,Centro,0,0,0,250,6500.0,4206.0,1109.0


In [None]:
df.tail(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
32958,Apartamento,Leblon,2,0,0,70,3000.0,760.0,
32959,Conjunto Comercial/Sala,Centro,0,0,0,250,6500.0,4206.0,1109.0


In [None]:
# Retorna elementos aleatórios / df.sample(n) -> default: n = 1
df.sample()

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
20209,Apartamento,Ipanema,1,0,0,54,2300.0,444.0,


In [None]:
df.sample(5)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
31167,Apartamento,Flamengo,4,0,0,430,13000.0,3100.0,835.0
9198,Apartamento,Leblon,4,3,4,220,11900.0,3100.0,1000.0
17305,Casa de Condomínio,Cachambi,1,1,0,70,1000.0,150.0,13.0
6014,Apartamento,Ipanema,2,2,1,170,9500.0,1400.0,355.0
29459,Galpão/Depósito/Armazém,Rocha Miranda,0,0,0,100,6000.0,,


In [None]:
# Retorna coluna (Serie)
df["Tipo"]
# ou -> df.Tipo

0                      Quitinete
1                           Casa
2        Conjunto Comercial/Sala
3                    Apartamento
4                    Apartamento
                  ...           
32955                  Quitinete
32956                Apartamento
32957                Apartamento
32958                Apartamento
32959    Conjunto Comercial/Sala
Name: Tipo, Length: 32960, dtype: object

In [None]:
# Identifica tipo de retorno
type(df['Bairro'])

pandas.core.series.Series

In [None]:
df[["Tipo","Bairro"]]

Unnamed: 0,Tipo,Bairro
0,Quitinete,Copacabana
1,Casa,Jardim Botânico
2,Conjunto Comercial/Sala,Barra da Tijuca
3,Apartamento,Centro
4,Apartamento,Higienópolis
...,...,...
32955,Quitinete,Centro
32956,Apartamento,Jacarepaguá
32957,Apartamento,São Francisco Xavier
32958,Apartamento,Leblon


In [None]:
# Retorna um array de valores existentes em uma dada coluna
df["Tipo"].unique()

array(['Quitinete', 'Casa', 'Conjunto Comercial/Sala', 'Apartamento',
       'Casa de Condomínio', 'Prédio Inteiro', 'Flat', 'Loja/Salão',
       'Galpão/Depósito/Armazém', 'Casa Comercial', 'Casa de Vila',
       'Terreno Padrão', 'Box/Garagem', 'Loft',
       'Loja Shopping/ Ct Comercial', 'Chácara', 'Loteamento/Condomínio',
       'Sítio', 'Pousada/Chalé', 'Studio', 'Hotel', 'Indústria'],
      dtype=object)

In [None]:
# outra forma -> df.Tipo.unique()
df.Tipo.unique()

array(['Quitinete', 'Casa', 'Conjunto Comercial/Sala', 'Apartamento',
       'Casa de Condomínio', 'Prédio Inteiro', 'Flat', 'Loja/Salão',
       'Galpão/Depósito/Armazém', 'Casa Comercial', 'Casa de Vila',
       'Terreno Padrão', 'Box/Garagem', 'Loft',
       'Loja Shopping/ Ct Comercial', 'Chácara', 'Loteamento/Condomínio',
       'Sítio', 'Pousada/Chalé', 'Studio', 'Hotel', 'Indústria'],
      dtype=object)

In [None]:
# Retorna uma Serie de quantidade por valor existente em uma dada coluna
df["Tipo"].value_counts()

Apartamento                    19532
Conjunto Comercial/Sala         6815
Loja/Salão                      1426
Casa de Condomínio               996
Casa                             967
Quitinete                        836
Galpão/Depósito/Armazém          623
Flat                             476
Prédio Inteiro                   301
Casa Comercial                   265
Casa de Vila                     249
Loja Shopping/ Ct Comercial      247
Box/Garagem                       82
Terreno Padrão                    70
Loft                              51
Sítio                             10
Loteamento/Condomínio              5
Studio                             4
Hotel                              2
Chácara                            1
Pousada/Chalé                      1
Indústria                          1
Name: Tipo, dtype: int64

In [None]:
# Retorna Serie com o maximo de cada Coluna
df.max()

Tipo          Terreno Padrão
Bairro            Água Santa
Quartos                  100
Vagas                   1966
Suites                    70
Area                   90000
Valor            120000000.0
Condominio         6552570.0
IPTU              27053070.0
dtype: object

In [None]:
# Retorna Serie com o valor maximo de cada linha
df.max(axis=1)

  


0        1700.0
1        7000.0
2        5200.0
3         800.0
4         800.0
          ...  
32955     800.0
32956    1800.0
32957    1400.0
32958    3000.0
32959    6500.0
Length: 32960, dtype: float64

## 2.2 - Selecionando linhas

### 2.2.1 - Utilizando indices

Indices de i a j-1 de linhas

    df[ i : j ]

In [None]:
# Retorna os indices de 0 a (3-1)
df[0:3]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0


### 2.2.2 - Utilizando .loc

**Observação:** Seleciona um grupo de linhas e colunas segundo os rótulos ou uma matriz booleana.

    df.loc[ lista_indices , lista_colunas ]

In [None]:
# DataFrame com index Categorico
df2.index

Index(['Quitinete', 'Casa', 'Conjunto Comercial/Sala', 'Apartamento',
       'Apartamento', 'Apartamento', 'Apartamento', 'Casa de Condomínio',
       'Casa de Condomínio', 'Conjunto Comercial/Sala',
       ...
       'Apartamento', 'Apartamento', 'Casa de Condomínio', 'Apartamento',
       'Box/Garagem', 'Quitinete', 'Apartamento', 'Apartamento', 'Apartamento',
       'Conjunto Comercial/Sala'],
      dtype='object', name='Tipo', length=32960)

In [None]:
# Retorna conforme indice/index
df2.loc['Casa']

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Casa,Jardim Botânico,2,0,1,100,7000.0,,
Casa,Campo Grande,4,1,2,400,12000.0,,
Casa,Méier,2,0,0,51,1500.0,50.0,
Casa,São Conrado,4,2,4,730,28000.0,2000.0,12000.0
Casa,Maracanã,8,3,5,259,7000.0,,
...,...,...,...,...,...,...,...,...
Casa,Vila da Penha,2,1,0,80,1500.0,,
Casa,Campo Grande,1,0,0,50,600.0,,
Casa,Recreio dos Bandeirantes,4,2,2,352,6500.0,,
Casa,Bento Ribeiro,2,1,0,60,1400.0,,


In [None]:
# Retorna conforme indices/indexs -> [indices , colunas]
df2.loc[['Casa','Apartamento']]

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Casa,Jardim Botânico,2,0,1,100,7000.0,,
Casa,Campo Grande,4,1,2,400,12000.0,,
Casa,Méier,2,0,0,51,1500.0,50.0,
Casa,São Conrado,4,2,4,730,28000.0,2000.0,12000.0
Casa,Maracanã,8,3,5,259,7000.0,,
...,...,...,...,...,...,...,...,...
Apartamento,Vila Valqueire,2,0,0,52,1000.0,550.0,
Apartamento,Méier,2,0,0,70,900.0,490.0,48.0
Apartamento,Jacarepaguá,3,1,2,78,1800.0,800.0,40.0
Apartamento,São Francisco Xavier,2,1,0,48,1400.0,509.0,37.0


In [None]:
# Retorna colunas conforme indices/indexs -> [indices , colunas]
df2.loc[['Casa','Apartamento'],['Vagas','Suites']]

Unnamed: 0_level_0,Vagas,Suites
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1
Casa,0,1
Casa,1,2
Casa,0,0
Casa,2,4
Casa,3,5
...,...,...
Apartamento,0,0
Apartamento,0,0
Apartamento,1,2
Apartamento,1,0


In [None]:
# Retorna tudo de duas colunas -> [indices , colunas]
df2.loc[:,['Vagas','Suites']]

Unnamed: 0_level_0,Vagas,Suites
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1
Quitinete,0,0
Casa,0,1
Conjunto Comercial/Sala,4,0
Apartamento,0,0
Apartamento,0,0
...,...,...
Quitinete,0,0
Apartamento,1,2
Apartamento,1,0
Apartamento,0,0


### 2.2.3 - Utilizando .iloc

**Observação:** Seleciona um grupo de linhas e colunas com base nos índices/index, ou seja, se baseia na posição das informações.


    df.iloc[ lista_indices_linhas , lista_indices_colunas ]

ou, de x a y semelhante uma lista:

    df.iloc[ x : y ]

In [None]:
df.head(2)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,


In [None]:
# Retorna Serie conforme indice(s) da linha 0 -> df 
df.iloc[0]

Tipo           Quitinete
Bairro        Copacabana
Quartos                1
Vagas                  0
Suites                 0
Area                  40
Valor             1700.0
Condominio         500.0
IPTU                60.0
Name: 0, dtype: object

In [None]:
# Retorna Serie conforme indice(s) da linha 1 e 2 -> df2
df2.iloc[[1,2]]

Unnamed: 0_level_0,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Casa,Jardim Botânico,2,0,1,100,7000.0,,
Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0


In [None]:
# Retorna Serie conforme indice(s) da linhas de 0 e 4 -> df
df.iloc[0:4]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
1,Casa,Jardim Botânico,2,0,1,100,7000.0,,
2,Conjunto Comercial/Sala,Barra da Tijuca,0,4,0,150,5200.0,4020.0,1111.0
3,Apartamento,Centro,1,0,0,15,800.0,390.0,20.0


In [None]:
# Retorna Serie conforme indice(s) da linhas de 0 e 4 e colunas 0,5,2, nesta ordem -> df
df.iloc[0:4,[0,5,2]]

Unnamed: 0,Tipo,Area,Quartos
0,Quitinete,40,1
1,Casa,100,2
2,Conjunto Comercial/Sala,150,0
3,Apartamento,15,1


In [None]:
# Retorna Serie conforme indice(s) da linhas 1,23,42 e colunas 0,5,2, nesta ordem -> df2
df2.iloc[[1,23,42],[0,5,2]]


Unnamed: 0_level_0,Bairro,Valor,Vagas
Tipo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Casa,Jardim Botânico,7000.0,0
Apartamento,Olaria,1000.0,1
Conjunto Comercial/Sala,Recreio dos Bandeirantes,1500.0,1


### 2.2.4 - Utilizando condições em lista no DataFrame

    df[ (condição) ]


In [None]:
# Retorna as linhas onde coluna igual a valor -> (df.coluna == valor)
df[ (df["Bairro"] == "Copacabana") ].head(5)

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
13,Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0
14,Quitinete,Copacabana,1,0,0,27,1800.0,501.0,
15,Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0
33,Apartamento,Copacabana,3,1,2,378,10000.0,2150.0,700.0


In [None]:
# ou Serie df[ (df.Bairro == "Copacabana") ]

In [None]:
# Retorna uma Serie boolean informando quais linhas atendem a condição
df.Bairro=='Copacabana'

0         True
1        False
2        False
3        False
4        False
         ...  
32955    False
32956    False
32957    False
32958    False
32959    False
Name: Bairro, Length: 32960, dtype: bool

In [None]:
# Mais de uma condição: & -> and ; | -> or
# vazio pois (df['Bairro'] == True) não tem conrrespondência 
df[ (df.Bairro == 'Copacabana') & (df['Bairro'] == True) ]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU


### 2.2.5 - Utilizando condições no método query

    df.query( condição )

In [None]:
# Retorna um DataFrame conforme a query -> (coluna == valor)
df.query('Bairro == "Copacabana"')

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
0,Quitinete,Copacabana,1,0,0,40,1700.0,500.0,60.0
13,Apartamento,Copacabana,1,0,1,40,2000.0,561.0,50.0
14,Quitinete,Copacabana,1,0,0,27,1800.0,501.0,
15,Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0
33,Apartamento,Copacabana,3,1,2,378,10000.0,2150.0,700.0
...,...,...,...,...,...,...,...,...,...
32900,Apartamento,Copacabana,1,0,0,60,2400.0,530.0,78.0
32916,Apartamento,Copacabana,2,0,0,67,2450.0,679.0,80.0
32936,Apartamento,Copacabana,2,0,1,70,4100.0,700.0,90.0
32938,Apartamento,Copacabana,1,0,0,50,1950.0,450.0,70.0


In [None]:
# Retorna um DataFrame conforme a query em mais de uma condição -> (coluna == valor)
df.query('Bairro == "Copacabana" and Area > 600')

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
8447,Apartamento,Copacabana,4,3,4,700,35000.0,1850.0,140.0
9565,Prédio Inteiro,Copacabana,0,0,0,1400,32000.0,,1700.0
9658,Apartamento,Copacabana,5,2,1,650,32000.0,5200.0,2000.0
9687,Hotel,Copacabana,24,0,24,1100,38000.0,,7504.0
26088,Prédio Inteiro,Copacabana,0,0,0,1000,22300.0,,
29094,Conjunto Comercial/Sala,Copacabana,0,10,0,1800,198000.0,50400.0,
31308,Conjunto Comercial/Sala,Copacabana,0,5,0,900,99000.0,25200.0,


In [None]:
# Retorna onde valor da coluna atende a condição -> 3 < df['Quartos'] < 7
df[ df['Quartos'].between(3,7) ].shape

(10633, 9)

In [None]:
# Retorna onde valor da coluna atende a condição -> ~( 3 < df['Quartos'] < 7 )
# (~) NEGAÇÃO
df[ ~df['Quartos'].between(3,7) ].shape

(22327, 9)

In [None]:
# Retorna conforme a condição - Axis=1 = Linhas
# Valor máximo de cada linha é superior a 7000
df[ df.max(axis=1) > 7000 ]  

  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
7,Casa de Condomínio,Barra da Tijuca,5,4,5,750,22000.0,,
9,Conjunto Comercial/Sala,Centro,0,3,0,695,35000.0,19193.0,3030.0
15,Apartamento,Copacabana,4,3,1,243,13000.0,2000.0,803.0
16,Prédio Inteiro,Botafogo,0,0,0,536,28000.0,,3563.0
22,Casa de Condomínio,Barra da Tijuca,4,3,2,466,7500.0,2695.0,
...,...,...,...,...,...,...,...,...,...
32928,Loja/Salão,Leblon,0,0,0,68,25000.0,,1113.0
32937,Conjunto Comercial/Sala,Centro,0,0,0,150,10000.0,2680.0,800.0
32949,Apartamento,Ipanema,3,1,2,150,15000.0,1400.0,600.0
32952,Casa de Condomínio,Barra da Tijuca,5,3,4,450,15000.0,1711.0,2332.0


In [None]:
# Retorna onde tem valor 7 -> IS IN
df[ df['Quartos'].isin([7]) ].shape

(30, 9)

In [None]:
# Retorna a quantidade por tipo em Coluna (x)
df.groupby('Tipo').size()

Tipo
Apartamento                    19532
Box/Garagem                       82
Casa                             967
Casa Comercial                   265
Casa de Condomínio               996
Casa de Vila                     249
Chácara                            1
Conjunto Comercial/Sala         6815
Flat                             476
Galpão/Depósito/Armazém          623
Hotel                              2
Indústria                          1
Loft                              51
Loja Shopping/ Ct Comercial      247
Loja/Salão                      1426
Loteamento/Condomínio              5
Pousada/Chalé                      1
Prédio Inteiro                   301
Quitinete                        836
Studio                             4
Sítio                             10
Terreno Padrão                    70
dtype: int64

___
# 3 - Manipulando Estruturas

## 3.1 - Tratamento de dados

In [None]:
# Informações de DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32960 entries, 0 to 32959
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Tipo        32960 non-null  object 
 1   Bairro      32960 non-null  object 
 2   Quartos     32960 non-null  int64  
 3   Vagas       32960 non-null  int64  
 4   Suites      32960 non-null  int64  
 5   Area        32960 non-null  int64  
 6   Valor       32943 non-null  float64
 7   Condominio  28867 non-null  float64
 8   IPTU        22723 non-null  float64
dtypes: float64(3), int64(4), object(2)
memory usage: 2.3+ MB


In [None]:
# Retorna Serie boolean com indices que a condição é Na
# ou -> df.Valor.isna()
rol = df["Valor"].isna()
rol

0        False
1        False
2        False
3        False
4        False
         ...  
32955    False
32956    False
32957    False
32958    False
32959    False
Name: Valor, Length: 32960, dtype: bool

In [None]:
rol.value_counts()

False    32943
True        17
Name: Valor, dtype: int64

In [None]:
# Retorna DataFrame onde condição é Na
df[ df['Valor'].isna() ]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU
76,Apartamento,Barra da Tijuca,2,1,1,70,,970.0,68.0
2186,Apartamento,Leme,2,0,0,75,,878.0,
2456,Casa,Campo Grande,3,4,3,363,,,
2646,Loja/Salão,Barra da Tijuca,0,2,0,80,,,
2941,Apartamento,Botafogo,2,0,0,95,,1010.0,170.0
2973,Apartamento,Copacabana,2,0,0,72,,850.0,
6598,Loja/Salão,Andaraí,0,0,0,326,,,1140.0
7302,Casa,Campo Grande,3,2,1,100,,,
12683,Apartamento,Leme,2,0,1,75,,878.0,
13229,Apartamento,Glória,3,0,1,135,,910.0,228.0


In [None]:
# Altera todos os valor NaN para 0
rol2 = df.fillna(0)
rol2[ rol2['Valor'].isna() ]

Unnamed: 0,Tipo,Bairro,Quartos,Vagas,Suites,Area,Valor,Condominio,IPTU


___
# 4 - Data Visualização