[SOFTEX] Residência em TIC - MCTI Futuro - IFMA 

# 3. - Ciência de Dados com Python
## 3.2 - Manipulação de Dados com Pandas

Este notebook é parte do material do Curso de Treinamento em IA criado pelo IFMA/DComp e financiado pelo SOFTEX, 2023.

Elaborado por Prof. Josenildo Silva (jcsilva@ifma.edu.br)

**Nota:** Esta aula se baseia no cap.5 do livro "Python for Data Analysis" de Wes McKINNEY. Outras referências no final desta aula. 

In [1]:
# versão deve ser maior que 3.5
!python -V # versão do python (no win10) 

Python 3.11.2


## Introdução

Pandas é uma biblioteca para análise de dados em python criado por Wes McKINNEY e tornado open source em 2010. 

Suas principais estruturas de dados são **Series**, **DataFrame** e **Index**. 

Uso

In [2]:
import pandas as pd

In [3]:
pd.__version__

'2.0.3'

In [4]:
import numpy as np

## O Objetos `Series`

Atributos básicos

In [5]:
s = pd.Series([1.3,0.2,-3,0.9,-0.5],name='crescimento')
s

0    1.3
1    0.2
2   -3.0
3    0.9
4   -0.5
Name: crescimento, dtype: float64

In [6]:
s.name

'crescimento'

In [7]:
s.dtype

dtype('float64')

In [8]:
s.values # retorna um ndarray do numpy

array([ 1.3,  0.2, -3. ,  0.9, -0.5])

Indexação de séries

In [9]:
s.index

RangeIndex(start=0, stop=5, step=1)

In [10]:
s[2]

-3.0

In [11]:
s[1:3]

1    0.2
2   -3.0
Name: crescimento, dtype: float64

Uma Series pode ter indices não numericos e em qualquer ordem. 

In [12]:
s = pd.Series([1.3,0.2,-3,0.9,-0.5], index=['a','b','c','d','e'])
s

a    1.3
b    0.2
c   -3.0
d    0.9
e   -0.5
dtype: float64

In [13]:
s['b']

0.2

Os indices podem seguir qualquer ordem desejada pelo programador.

In [14]:
s = pd.Series([1.3,0.2,-3,0.9,-0.5], index=[2,734567,10,11,3])
s

2         1.3
734567    0.2
10       -3.0
11        0.9
3        -0.5
dtype: float64

In [15]:
s[2]

1.3

Uma série pode ser iniciada com um `dict`. Neste caso, as chaves são utilizadas como indice.

In [16]:
pop_br_dict = {'Sudeste':88371433,'Nordeste':57071654, 
               'Sul':29975984, 'Norte':18430980, 
               'Centro-Oeste':16297074}

In [17]:
pop_br = pd.Series(pop_br_dict)
pop_br

Sudeste         88371433
Nordeste        57071654
Sul             29975984
Norte           18430980
Centro-Oeste    16297074
dtype: int64

In [18]:
pop_br['Nordeste']

57071654

Ao contrário de um dicionário, uma série suporta fatiamento

In [19]:
pop_br['Nordeste':'Sul'] # "sul" é inclusive

Nordeste    57071654
Sul         29975984
dtype: int64


Uma fonte de confusão é o fatiamento com indices explícitos e implícitos. 

> "Notice that when you
are slicing with an explicit index (i.e., data['a':'c']), the final index is included in
the slice, while when you’re slicing with an implicit index (i.e., data[0:2]), the final
index is excluded from the slice." 

(VANDERPLAS, "Python Data Science Handbook", 2016)

In [20]:
pop_br[1:3] # para incluir o "sul" fatiar até 3, pois é indice implícito. 

Nordeste    57071654
Sul         29975984
dtype: int64

O indice de uma série pode ser modificado 

In [21]:
pop_br.index=['SE','NE','S','N','CO']

In [22]:
#pop_br['Nordeste'] # apos a modificação, geraria um key error

In [23]:
pop_br['NE']

57071654

Um escalar pode ser utilizado para criar uma Serie com um único elemento.

In [24]:
pd.Series(5)

0    5
dtype: int64

Se for especificado um índice, o escalar sofrerá broadcast. 

In [25]:
pd.Series(5,index=[1,2,3,4])

1    5
2    5
3    5
4    5
dtype: int64

Funções de ndarrays são disponíveis para Series.

In [26]:
pop_br.sum()

210147125

In [27]:
pop_br.mean()

42029425.0

## Objeto DataFrame

Um DataFrame é uma estrutura que representa uma tabela. 
> you can think of a DataFrame as a
sequence of aligned Series objects <p>
(VANDERPLAS, J. in "Python Data Science Handbook")

Há várias maneiras de criar um `DataFrame`. 

1. A partir de uma Serie
1. A partir de um dicionário de Séries
1. A partir de uma lista de dicionários
1. A partir de um ndarray de duas dimensões

Veja a Tabela 5.1 no McKINNEY para uma lista completa das formas de criar um DataFrame. 

Para criar um DataFrame a partir de **uma Serie** basta passar a série para o construtor.

In [28]:
s = pd.Series([3.4,9.7,21.0,10.5,-2.1,4.9])

In [29]:
pd.DataFrame(s) # a partir de uma Serie

Unnamed: 0,0
0,3.4
1,9.7
2,21.0
3,10.5
4,-2.1
5,4.9


O nome da coluna pode ser definido com o parâmetro `columns`

In [30]:
pd.DataFrame(s,columns=['Coluna 1'])

Unnamed: 0,Coluna 1
0,3.4
1,9.7
2,21.0
3,10.5
4,-2.1
5,4.9


Podemos criar um DataFrame a partir de um **dicionário de séries**.

In [31]:
s1 = pd.Series(np.random.randint(15,45,15))           # 15 números aleatorios de 15 a 45
s2 = pd.Series(np.random.normal(170,5,15))            # 15 números com média 170 e desv 5
s3 = pd.Series(np.random.binomial(n=1,p=0.5,size=15)) # processo binomial, n=1, p=0.5
s3= s3.apply(lambda x: 'F' if x==0 else 'M')          # substituir 0 por 'F' e 1 por 'M'

In [32]:
s1

0     44
1     17
2     44
3     36
4     43
5     29
6     20
7     18
8     44
9     37
10    35
11    23
12    38
13    44
14    16
dtype: int32

In [33]:
s2

0     172.529177
1     175.392037
2     177.293073
3     169.814222
4     173.883808
5     160.085443
6     168.524500
7     168.751549
8     174.949394
9     171.922214
10    170.009711
11    170.459704
12    167.240566
13    165.767487
14    171.618239
dtype: float64

In [34]:
s3

0     M
1     F
2     M
3     F
4     F
5     F
6     M
7     F
8     F
9     M
10    F
11    M
12    F
13    F
14    F
dtype: object

In [35]:
amostra = np.random.binomial(n=1,p=0.5,size=5) # n: tentativas, p: probabilidade, size: tamanho 
amostra

array([1, 1, 0, 1, 1])

In [36]:
df=pd.DataFrame({'idade':s1, 'altura':s2, 'sexo':s3}) # a partir de um dicionário de séries
df.head()

Unnamed: 0,idade,altura,sexo
0,44,172.529177,M
1,17,175.392037,F
2,44,177.293073,M
3,36,169.814222,F
4,43,173.883808,F


Note que as chaves do dicionário tornam-se os nomes das colunas

Os nomes das colunas podem ser modificadas após a criação. 

In [37]:
df.columns=['c1','c2','c3']
df.head()

Unnamed: 0,c1,c2,c3
0,44,172.529177,M
1,17,175.392037,F
2,44,177.293073,M
3,36,169.814222,F
4,43,173.883808,F


Um DataFrame pode ser criado a partir de uma **lista de dicionarios**. 

In [38]:
p1 = {'nome': 'Ana', 'idade':23, 'altura':1.82, 'CPF':1234}
p2 = {'nome': 'Bia', 'idade':27, 'altura':1.65, 'CPF':5678}
p3 = {'nome': 'Carlos', 'idade': 21, 'altura':1.73, 'CPF': 9012}
p4 = {'nome':'Davi', 'idade':33, 'altura': 1.68, 'CPF':3456}

In [39]:
pd.DataFrame([p1,p2,p3,p4]) # a partir de uma lista de dicionários

Unnamed: 0,nome,idade,altura,CPF
0,Ana,23,1.82,1234
1,Bia,27,1.65,5678
2,Carlos,21,1.73,9012
3,Davi,33,1.68,3456


Use o parâmetro `columns` para definir uma ordem às colunas ou até mesmo incluir ou excluir chaves do dicionário

In [40]:
pd.DataFrame([p1,p2,p3,p4], 
             columns=['nome','idade','altura','CPF']) # define uma ordem para as colunas

Unnamed: 0,nome,idade,altura,CPF
0,Ana,23,1.82,1234
1,Bia,27,1.65,5678
2,Carlos,21,1.73,9012
3,Davi,33,1.68,3456


In [41]:
pd.DataFrame([p1,p2,p3,p4], columns=['nome','idade']) # não utiliza a chave 'altura' 

Unnamed: 0,nome,idade
0,Ana,23
1,Bia,27
2,Carlos,21
3,Davi,33


In [42]:
df=pd.DataFrame([p1,p2,p3,p4], 
                columns=['CPF','nome','idade','altura','profissao']) # inclui um novo atributo 'profissão' 

In [43]:
df

Unnamed: 0,CPF,nome,idade,altura,profissao
0,1234,Ana,23,1.82,
1,5678,Bia,27,1.65,
2,9012,Carlos,21,1.73,
3,3456,Davi,33,1.68,


Também é possível criar um DataFrame a partir de um array bi dimensional

In [44]:
a = np.random.rand(4,3)
print(a)

[[0.47635566 0.6220664  0.92422252]
 [0.23976635 0.57868793 0.34585241]
 [0.31093976 0.06970089 0.93368632]
 [0.50345687 0.13228707 0.5457271 ]]


In [45]:
pd.DataFrame(a) # de um ndarray 2D

Unnamed: 0,0,1,2
0,0.476356,0.622066,0.924223
1,0.239766,0.578688,0.345852
2,0.31094,0.069701,0.933686
3,0.503457,0.132287,0.545727


Uma **nova coluna** pode ser acrescentada ao dataframe a partir de um ndarray ou Serie

In [46]:
peso = np.random.normal(75,10,4)
peso

array([80.67091385, 67.13571199, 84.35921585, 72.57904958])

In [47]:
type(peso)

numpy.ndarray

In [48]:
df['peso']=peso                          # acrescenta a coluna peso
df.head()

Unnamed: 0,CPF,nome,idade,altura,profissao,peso
0,1234,Ana,23,1.82,,80.670914
1,5678,Bia,27,1.65,,67.135712
2,9012,Carlos,21,1.73,,84.359216
3,3456,Davi,33,1.68,,72.57905


In [49]:
imc = (df['peso'])/((df['altura'])**2)
type(imc)

pandas.core.series.Series

In [50]:
df['imc']=imc # nova coluna a apartir de uma Serie

In [51]:
df.head()

Unnamed: 0,CPF,nome,idade,altura,profissao,peso,imc
0,1234,Ana,23,1.82,,80.670914,24.354219
1,5678,Bia,27,1.65,,67.135712,24.659582
2,9012,Carlos,21,1.73,,84.359216,28.186447
3,3456,Davi,33,1.68,,72.57905,25.715366


## Indexação

Indexação **implícita** quando utilizamos o indice implícito de python iniciado em 0. 

Indexação **explícita** quando utilizamos rótulos definidos na criação da série ou dataframe. 

Para tornar claro qual forma de indexação está sendo utilizada, DataFrame possui dois atributos de localização: **loc** e **iloc**

O atributo **loc** faz localização com indexação explícita. Já o **iloc** faz localização com indexação implícita.  

**`loc`** localiza linhas ou colunas utilizando rótulos. 

In [52]:
df.loc[:,'nome':'idade'] # explícita para as colunas (inclusivo)

Unnamed: 0,nome,idade
0,Ana,23
1,Bia,27
2,Carlos,21
3,Davi,33


In [53]:
df.loc[2:4,['CPF','nome','idade']] # explicita, utilizando lista de indices (neste caso, nomes de colunas)

Unnamed: 0,CPF,nome,idade
2,9012,Carlos,21
3,3456,Davi,33


In [54]:
print(df) # caso a saida em HMTL não seja desejada use to_string implicito na chamada de print

    CPF    nome  idade  altura  profissao       peso        imc
0  1234     Ana     23    1.82        NaN  80.670914  24.354219
1  5678     Bia     27    1.65        NaN  67.135712  24.659582
2  9012  Carlos     21    1.73        NaN  84.359216  28.186447
3  3456    Davi     33    1.68        NaN  72.579050  25.715366


**`iloc`** localiza linhas ou colunas utilizando inteiros (indexação implícita)

In [55]:
df.iloc[1:4,:3]          # indexação implícita, não inclusiva

Unnamed: 0,CPF,nome,idade
1,5678,Bia,27
2,9012,Carlos,21
3,3456,Davi,33


In [56]:
df.iloc[[2,0],:2] # indexaçã implicita nas colunas (não inclusiva)

Unnamed: 0,CPF,nome
2,9012,Carlos
0,1234,Ana


Também é possivel utilizar uma notação simplificada, sem os atributos loc ou iloc

In [57]:
df[:3] # somente algumas linhas com todas as colunas

Unnamed: 0,CPF,nome,idade,altura,profissao,peso,imc
0,1234,Ana,23,1.82,,80.670914,24.354219
1,5678,Bia,27,1.65,,67.135712,24.659582
2,9012,Carlos,21,1.73,,84.359216,28.186447


In [58]:
df[['nome','idade']] # todas as linhas, somente algumas colunas

Unnamed: 0,nome,idade
0,Ana,23
1,Bia,27
2,Carlos,21
3,Davi,33


A notação simplificada é equivalente a utilizar o `loc` como mostrado a seguir

In [59]:
df.loc[:,['nome','idade']]

Unnamed: 0,nome,idade
0,Ana,23
1,Bia,27
2,Carlos,21
3,Davi,33


## Consulta

Ao consultar uma coluna do DataFrame, obtemos uma Serie

In [60]:
df['nome']

0       Ana
1       Bia
2    Carlos
3      Davi
Name: nome, dtype: object

In [61]:
type(df['nome'])

pandas.core.series.Series

O acesso aos dados de um DataFrame segue as mesmas ideias de acesso a ndarrays

In [62]:
df['idade']

0    23
1    27
2    21
3    33
Name: idade, dtype: int64

## Filtro

In [63]:
print(df['idade']>25)

0    False
1     True
2    False
3     True
Name: idade, dtype: bool


In [64]:
df[df['idade']>25]   # indexação booleana (lógica)

Unnamed: 0,CPF,nome,idade,altura,profissao,peso,imc
1,5678,Bia,27,1.65,,67.135712,24.659582
3,3456,Davi,33,1.68,,72.57905,25.715366


In [65]:
df[~(df['idade']>25) | (df['altura']<1.80)] # filtro com várias condições

Unnamed: 0,CPF,nome,idade,altura,profissao,peso,imc
0,1234,Ana,23,1.82,,80.670914,24.354219
1,5678,Bia,27,1.65,,67.135712,24.659582
2,9012,Carlos,21,1.73,,84.359216,28.186447
3,3456,Davi,33,1.68,,72.57905,25.715366


## O que mais se pode fazer com o DataFrame?

### Agregação e Estatística 

In [66]:
df[['idade','altura','peso','imc']]

Unnamed: 0,idade,altura,peso,imc
0,23,1.82,80.670914,24.354219
1,27,1.65,67.135712,24.659582
2,21,1.73,84.359216,28.186447
3,33,1.68,72.57905,25.715366


As funções mais comuns de estatística podem ser utilizadas diretamente com uma simples chamada de método. 

In [67]:
df.var(numeric_only=True)

CPF          1.100881e+07
idade        2.800000e+01
altura       5.533333e-03
profissao             NaN
peso         6.061124e+01
imc          3.024303e+00
dtype: float64

O método **agg** permite passar o nome de uma função, lista de funções ou até dicionários com colunas e funções. 

In [68]:
df.agg('mean',numeric_only=True)

CPF          4845.000000
idade          26.000000
altura          1.720000
profissao            NaN
peso           76.186223
imc            25.728903
dtype: float64

In [69]:
df.agg(['mean','std','var'],numeric_only=True) #Bug 49352

TypeError: Series.mean does not allow numeric_only=True with non-numeric dtypes.

Funções de Agregação no `pandas`:
- **count()**, contagem do total de items
- **first()**, **last()**, primeiro e o ultimo item
- **mean()**, **median()**, a média e a mediana
- **min()**, **max()**, minimo e maximo
- **std()**, **var()**, desvio padrão e a variância
- **mad()**, desvio absoluto médio
- **prod()**, product de todos os itens
- **sum()**, soma do itens

O método **`describe()`** aplica várias funções pré-definidas ao dataframe: count, mean, std, min, max, e percentil. 

In [None]:
df.describe()

Unnamed: 0,CPF,idade,altura,profissao,peso,imc
count,4.0,4.0,4.0,0.0,4.0,4.0
mean,4845.0,26.0,1.72,,70.917457,24.063715
std,3317.95218,5.291503,0.074386,,9.907212,3.770216
min,1234.0,21.0,1.65,,63.604149,19.755315
25%,2900.5,22.5,1.6725,,64.979165,21.840441
50%,4567.0,25.0,1.705,,67.358483,23.991242
75%,6511.5,28.5,1.7525,,73.296774,26.214516
max,9012.0,33.0,1.82,,85.348713,28.517061


Podemos calcular variança e correlação de todos os atributos. 

In [None]:
df.var(numeric_only=True) 

CPF          1.100881e+07
idade        2.800000e+01
altura       5.533333e-03
profissao             NaN
peso         9.815285e+01
imc          1.421453e+01
dtype: float64

In [None]:
df[['idade','altura','peso','imc']].var()

idade     28.000000
altura     0.005533
peso      98.152850
imc       14.214527
dtype: float64

In [None]:
df[['idade','altura','peso','imc']].corr()

Unnamed: 0,idade,altura,peso,imc
idade,1.0,-0.592795,-0.69019,-0.311709
altura,-0.592795,1.0,0.001587,-0.501579
peso,-0.69019,0.001587,1.0,0.863738
imc,-0.311709,-0.501579,0.863738,1.0


Podemos calcular a correlação de um dado atributo em relação aos demais

In [None]:
df[['idade','altura','peso','imc']].corrwith(df['imc'])

idade    -0.311709
altura   -0.501579
peso      0.863738
imc       1.000000
dtype: float64

### O método apply()

Para funções definidas pelo usuário, o método **`apply()`** aplica uma função à cada Serie do DataFrame. A função pode ser lambda. 

In [None]:
f=lambda x: max(x)-min(x)

In [None]:
df[['idade','altura','peso','imc']].apply(f)

idade     12.000000
altura     0.170000
peso      21.744565
imc        8.761747
dtype: float64

In [None]:
df[['idade','altura','peso','imc']].agg(f)

idade     12.000000
altura     0.170000
peso      21.744565
imc        8.761747
dtype: float64

In [None]:
df[['idade','altura','peso','imc']].apply

<bound method DataFrame.apply of    idade  altura       peso        imc
0     23    1.82  65.437504  19.755315
1     27    1.65  69.279461  25.447001
2     21    1.73  85.348713  28.517061
3     33    1.68  63.604149  22.535484>

### Ordenação (sort)

O **indice** (ou rotulo de linhas) pode ser utilizado para **ordenar** o dataframe.

In [None]:
df.sort_index(ascending=True)

Unnamed: 0,CPF,nome,idade,altura,profissao,peso,imc
0,1234,Ana,23,1.82,,61.213722,18.480172
1,5678,Bia,27,1.65,,90.465032,33.228662
2,9012,Carlos,21,1.73,,61.450045,20.531941
3,3456,Davi,33,1.68,,65.440306,23.18605


In [None]:
df.sort_index(axis=1)

Unnamed: 0,CPF,altura,idade,imc,nome,peso,profissao
0,1234,1.82,23,18.480172,Ana,61.213722,
1,5678,1.65,27,33.228662,Bia,90.465032,
2,9012,1.73,21,20.531941,Carlos,61.450045,
3,3456,1.68,33,23.18605,Davi,65.440306,


``sort_values()``

Também é possível ordenar pelos valores utilizando o `sort_values`, para o qual é possivel indicar várias colunas com parâmetro `by`. 

In [None]:
df.sort_values(by=['peso'])

Unnamed: 0,CPF,nome,idade,altura,profissao,peso,imc
1,5678,Bia,27,1.65,,90.465032,33.228662
3,3456,Davi,33,1.68,,65.440306,23.18605
2,9012,Carlos,21,1.73,,61.450045,20.531941
0,1234,Ana,23,1.82,,61.213722,18.480172


In [None]:
df.sort_values(by=['nome','idade'])

Unnamed: 0,CPF,nome,idade,altura,profissao,peso,imc
0,1234,Ana,23,1.82,,65.437504,19.755315
1,5678,Bia,27,1.65,,69.279461,25.447001
2,9012,Carlos,21,1.73,,85.348713,28.517061
3,3456,Davi,33,1.68,,63.604149,22.535484


**`is_unique`** é um atributo que informa se uma coluna do dataframe possui duplicatas. 

In [None]:
df['CPF'].is_unique

True

## Leitura e Gravação (em arquivo)

O pandas possui vários métodos para leitura de dados em vários formatos de arquivos

- CSV
- HTML
- JSON
- XLSX
- pickle

In [None]:
df_imoveis=pd.read_csv('casa_e_ap_venda_slz-2017.csv')


In [None]:
df_imoveis.to_html('casas.html',index=False)

In [None]:
df_imoveis.to_json("casas.json",orient='records')

Arquivos do excel podem exigir a instalação do módulo `openpyxl`. Se necessário instale esse módulo antes de ler ou escrever arquivos do formato `.xlsx`

```
pip install openpyxl 
```

In [None]:
df_imoveis.to_excel("casas.xlsx")

Pickle é um formato binário de serialização de objetos. 

**Atenção**: só é compatível com python. 

In [None]:
df_imoveis.to_pickle("casas.pkl")

## Agrupamentos

### O Objeto `GroupBy`: separar, aplicar, combinar

Três passos do groupby:
- **split** reordena e agrupa as tuplas de acordo com os valores de uma determinada chave.
- **apply** aplica uma função de agregação ou transformação ou filtro em cada grupo.
- **combine** combina os resultados no formato final.

<img src="./split-apply-combine.png">

In [None]:
df_imoveis17=pd.read_csv('casa_e_ap_venda_slz-2017.csv')
df_imoveis17['data_scrapped']='06/10/2017'
df_imoveis17['ano']='2017'
df_imoveis19=pd.read_csv('casa_e_ap_venda_slz-2019.csv')
df_imoveis19['ano']='2019'

In [None]:
df_imoveis17.sample(n=10)

Unnamed: 0,id,tipo,acao,cidade,bairro,dorm,suite,vaga,preco,imobiliaria,data_scrapped,ano
350,350,Casa,Venda,São Luís/MA,Olho D Água,1,0,0,450000,Pereira Feitosa,06/10/2017,2017
95,95,Casa,Venda,São Luís/MA,Jardim Eldorado,3,0,2,500000,Pereira Feitosa,06/10/2017,2017
67,67,Casa,Venda,São Luís/MA,Turu,3,1,2,160000,Pereira Feitosa,06/10/2017,2017
147,147,Casa,Venda,São Luís/MA,Turu,3,1,0,450000,Pereira Feitosa,06/10/2017,2017
143,143,Apartamento,Venda,São Luís/MA,Centro,4,0,2,700000,Pereira Feitosa,06/10/2017,2017
175,175,Casa,Venda,São Luís/MA,Parque Timbiras,2,1,0,390000,Pereira Feitosa,06/10/2017,2017
317,317,Casa,Venda,São Luís/MA,Cohatrac IV,2,1,1,300000,Pereira Feitosa,06/10/2017,2017
189,189,Apartamento,Venda,São Luís/MA,Calhau,2,1,1,260000,Pereira Feitosa,06/10/2017,2017
194,194,Apartamento,Venda,São Luís/MA,Calhau,2,1,2,295000,Pereira Feitosa,06/10/2017,2017
286,286,Casa,Venda,São Luís/MA,Parque Shalon,3,1,3,700000,Pereira Feitosa,06/10/2017,2017


In [None]:
pd.options.display.float_format = "{:,.2f}".format

In [None]:
gby_imo17 = df_imoveis17.groupby('cidade') # cria um objeto DataFrameGroupBy

In [None]:
#gby_imo17.groups
for (cidade, group) in gby_imo17:
    print(f"{cidade} shape: {group.shape}") # mesmas colunas do DataFrame

Paço do Lumiar/MA shape: (3, 12)
São José de Ribamar/MA shape: (35, 12)
São Luís/MA shape: (357, 12)


In [None]:
gby_imo17['preco'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Paço do Lumiar/MA,3.0,283333.33,90737.72,180000.0,250000.0,320000.0,335000.0,350000.0
São José de Ribamar/MA,35.0,429428.57,390935.48,105000.0,185000.0,280000.0,475000.0,1750000.0
São Luís/MA,357.0,596561.9,877266.0,700.0,260000.0,400000.0,650000.0,14000000.0


In [None]:
df_imoveis17.groupby('cidade')['preco'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Paço do Lumiar/MA,3.0,283333.33,90737.72,180000.0,250000.0,320000.0,335000.0,350000.0
São José de Ribamar/MA,35.0,429428.57,390935.48,105000.0,185000.0,280000.0,475000.0,1750000.0
São Luís/MA,357.0,596561.9,877266.0,700.0,260000.0,400000.0,650000.0,14000000.0


In [None]:
df_imoveis17.groupby('cidade').sum(numeric_only=True)

Unnamed: 0_level_0,id,dorm,suite,vaga,preco
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Paço do Lumiar/MA,803,8,5,6,850000
São José de Ribamar/MA,5352,58,33,53,15030000
São Luís/MA,71660,964,488,618,212972600


In [None]:
gby_imo17.sum(numeric_only=True) # se você já possui o objeto instanciado ...

Unnamed: 0_level_0,id,dorm,suite,vaga,preco
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Paço do Lumiar/MA,803,8,5,6,850000
São José de Ribamar/MA,5352,58,33,53,15030000
São Luís/MA,71660,964,488,618,212972600


In [None]:
df_imoveis17.groupby(['cidade']).median().drop(columns=['id']) # remove coluna não utilizada

  df_imoveis17.groupby(['cidade']).median().drop(columns=['id']) # remove coluna não utilizada


Unnamed: 0_level_0,dorm,suite,vaga,preco
cidade,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Paço do Lumiar/MA,3.0,2.0,2.0,320000.0
São José de Ribamar/MA,1.0,1.0,1.0,280000.0
São Luís/MA,3.0,1.0,1.0,400000.0


In [None]:
df_imoveis17[df_imoveis17['cidade']=='São José de Ribamar/MA'].sort_values(by='preco').head(10)

Unnamed: 0,id,tipo,acao,cidade,bairro,dorm,suite,vaga,preco,imobiliaria,data_scrapped,ano
8,8,Casa,Venda,São José de Ribamar/MA,Maiobão,2,0,0,105000,Pereira Feitosa,06/10/2017,2017
292,292,Casa,Venda,São José de Ribamar/MA,Parque Vitória,3,0,1,150000,Pereira Feitosa,06/10/2017,2017
160,160,Apartamento,Venda,São José de Ribamar/MA,Renascer,1,1,0,155000,Pereira Feitosa,06/10/2017,2017
158,158,Apartamento,Venda,São José de Ribamar/MA,Araçagy,1,1,1,170000,Pereira Feitosa,06/10/2017,2017
19,19,Apartamento,Venda,São José de Ribamar/MA,Renascer,1,1,1,185000,Pereira Feitosa,06/10/2017,2017
20,20,Apartamento,Venda,São José de Ribamar/MA,Maiobinha,1,1,1,185000,Pereira Feitosa,06/10/2017,2017
21,21,Apartamento,Venda,São José de Ribamar/MA,Maiobinha,1,1,0,185000,Pereira Feitosa,06/10/2017,2017
23,23,Apartamento,Venda,São José de Ribamar/MA,Renascer,1,1,1,185000,Pereira Feitosa,06/10/2017,2017
24,24,Apartamento,Venda,São José de Ribamar/MA,Maiobinha,1,1,0,185000,Pereira Feitosa,06/10/2017,2017
16,16,Apartamento,Venda,São José de Ribamar/MA,Maiobinha,1,1,0,185000,Pereira Feitosa,06/10/2017,2017


In [None]:
df_imo = df_imoveis17.append(df_imoveis19)
df_imo.drop(columns='id').groupby(['cidade','ano']).median()


  df_imo = df_imoveis17.append(df_imoveis19)
  df_imo.drop(columns='id').groupby(['cidade','ano']).median()


Unnamed: 0_level_0,Unnamed: 1_level_0,dorm,suite,vaga,preco
cidade,ano,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Paço do Lumiar/MA,2017,3.0,2.0,2.0,320000.0
Paço do Lumiar/MA,2019,2.5,1.0,2.0,310000.0
São José de Ribamar/MA,2017,1.0,1.0,1.0,280000.0
São José de Ribamar/MA,2019,3.0,1.0,2.0,450000.0
São Luís/MA,2017,3.0,1.0,1.0,400000.0
São Luís/MA,2019,3.0,1.0,1.0,400000.0


In [None]:
df_imoveis19[df_imoveis19['cidade']=='Paço do Lumiar/MA'].median(numeric_only=True)

id          176.50
dorm          2.50
suite         1.00
vaga          2.00
preco   310,000.00
dtype: float64

## Refêrencias

1. MaKINNEY, Wes. "Pandas for Data Analysis". O'Reilly, 2017.
1. VANDERPLAS, Jake. "Python Data Analysis Handbook". O'Reilly, 2016.
1. https://pandas.pydata.org/