# <font color=#797D7F> Introdução ao pandas - 01
---

# <font color=#797D7F> Importando as bibliotecas e algumas configurações iniciais
---

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

**Algumas configurações para exibir mais linhas e colunas**

>  pd.set_option('display.max_rows', 10) -> número maximo de linhas exibidas

>  pd.set_option('display.max_columns', 1000) -> número máximo de colunas exibidas


![image.png](attachment:image.png)

* Ótima ferramenta para trabalhar com dados heterogêneos;
* Ferramenta principal na manipulação de dados;

# <font color=#797D7F> Introdução às estruturas de dados do pandas
---
O pandas trabalha com dois tipos de estruturas:

* _Series_: são vetores coluna, isto é, estrutura que contém apenas uma coluna e várias linhas;
* _DataFrame_: É um conjunto de Series;

# <font color=#797D7F> Series
---

* Uma [Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html) é um objeto do tipo array unidimensional contendo uma sequência de valores (de tipos semelhantes) e um array associado de rótulos (labels) de dados, chamado de índice (**INDEX**).

![image.png](attachment:image.png)

## <font color=#797D7F> Criando nossa primeira Series
---

In [3]:
obj = pd.Series([4,7,-5,3])

In [4]:
obj # por padrão cria-se uma lista de 0 até n-1 para o número de indices

0    4
1    7
2   -5
3    3
dtype: int64

In [5]:
obj.values # atributo values

array([ 4,  7, -5,  3], dtype=int64)

In [6]:
obj.index  # atributo index

RangeIndex(start=0, stop=4, step=1)

In [7]:
obj_ = pd.Series([4,7,-5,'Pedro']) # cria-se uma Serie com dados heterogêneos

In [8]:
obj_ # o tipo da Serie é object

0        4
1        7
2       -5
3    Pedro
dtype: object

## <font color=#797D7F> Criando nossa Serie identificando o rótulo
---

In [9]:
obj2 = pd.Series([4,7,-5,3], index = ['d','b','a','c'])

In [10]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [11]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [12]:
obj2['a'] # encontra um valor pelo label

-5

In [13]:
obj2['d'] = 6 # fazendo uma alteração na nossa Series

In [14]:
obj2

d    6
b    7
a   -5
c    3
dtype: int64

* Usar função NumPy ou operação do tipo NumPY, como filtragem com um array booleano, multiplicação escalar ou aplicação de funções matemáticas, preservará a ligação entre o índice e valor:  

In [15]:
obj2[obj2>0]

d    6
b    7
c    3
dtype: int64

In [16]:
obj2*2

d    12
b    14
a   -10
c     6
dtype: int64

In [17]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

* Outra forma de pensar em Series é como um dicionário ordenado de tamanho fixo, como se fosse um mapeamento entre valores de índices e valores de dados:

In [18]:
'b' in obj2

True

In [19]:
'e' in obj2

False

## <font color=#797D7F> Criando uma Series a partir de um dicionário Python:
---

In [20]:
sdata = {'Ohio':35000, 'Texas':71000, 'Oregon':16000, 'Utah':5000}

In [21]:
obj3 = pd.Series(sdata)

In [22]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

* Sobrescrevendo e ordenando indicando  o index

In [23]:
states = ['California','Ohio','Oregon','Texas'] # cria-se uma listas na ordem desejada dos estados

In [24]:
obj4 = pd.Series(sdata, index=states) 

In [25]:
obj4 # cria-se a Series e ordena-a de acordo com a lista indicada, porém como não há a Serie California, cria-se com o valor NaN

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

* Deve-se usar as funções abaixo para encontrar valores ausentes:

> [isnull()](https://pandas.pydata.org/docs/reference/api/pandas.isnull.html) - retorna Serie/DF booleanos True se for nulo;<br>
> [notnull()](https://pandas.pydata.org/docs/reference/api/pandas.notnull.html) - retorna Serie/DF boolenas True se não for nulo <br>


In [26]:
pd.isnull(obj4) 

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [27]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

* **Observação: <font color=#BB8FCE> ~ </font> serve de negação**

In [28]:
~pd.isnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

* Uma Series também tem esses métodos como instância:

In [29]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [30]:
~obj4.isnull()

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

* Um recurso útil de Series é o alinhamento automático pelo rótulo de índice pe feito nas operações aritméticas:

In [31]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [32]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [33]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

* **ATRIBUTO: name**

In [34]:
obj4.name = 'population'

In [35]:
obj4.index.name = 'state'

In [36]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

* Um índice de Series pode ser alterado in-place por atribuição:

In [37]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [38]:
obj.index = ['Bob','Steve','Jeff','Ryan']

In [39]:
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

# <font color=#797D7F> DataFrame
---
* O DataFrame é um conjunto de Series compartilhando o mesmo índice;
* O DataFrame representa uma tabela de dados retangular e contém uma coleção ordenada de colunas, em que cada uma pode ter um tipo de valor diferente (numérico, string, booleano,etc..);
* O DataFrame tem índice tanto para a linha quanto para coluna;

![image.png](attachment:image.png)

## <font color=#797D7F> Criando o primeiro DataFrame
---

- O dataframe pode ser criado a partir de um dicionário;
- [Criando DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

In [40]:
data = {'state': ['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year': [2000,2001,2002,2001,2002,2003],
        'pop': [1.5,1.7,3.6,2.4,2.9,3.2]}

In [41]:
frame = pd.DataFrame(data)

In [42]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [43]:
frame.head() # seleciona os 5 primeiro valores por padrão

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [44]:
frame.tail() # seleciona os 5 últimos valores por padrão

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [45]:
frame.dtypes # resumo dos tipos das colunas

state     object
year       int64
pop      float64
dtype: object

In [46]:
frame.shape # retorna uma tupla com as dimensões de linhas  x colunas

(6, 3)

In [47]:
frame.shape[0]

6

* Se você especificar uma sequência de colunas, as colunas do DataFrame serão organizadas nesta ordem:

In [48]:
frame = pd.DataFrame(data, columns = ['year','state','pop'])

In [49]:
frame

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


* Passando um coluna que não esteja contida no dicionário, ela aparecerá com valores ausentes no resultado.

In [50]:
frame2 = pd.DataFrame(data, columns = ['year','state','pop','debt'], index = ['one','two','three','four','five','six'])

In [51]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


* ATRIBUTO: **columns**

In [52]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

* Uma coluna pode ser obtidade como uma Series, seja usando uma notação do tipo dicionário ou por meio de atributo:

In [53]:
frame2['state'] # por meio de dicionário

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [54]:
frame2.state # por meio de atributo

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

* Uma linha pode ser obtida pelo atributo especial **loc[]**

In [55]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

* As colunas podem ser modificadas por atribuição

In [56]:
frame2['debt'] = 16.5

In [57]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [58]:
frame2['debt'] = np.arange(6.)

In [59]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


* Quando atribui-se listas ou arrays para uma coluna, o tamanho o valor deve conincidir com o tamanho do DataFrame. Se você atribuir uma Series, seus rótulos serão realinhados exatamente com o índice do DataFrame, e valores indicando ausência serão inseridos em quaisquer lacunas.

In [60]:
val = pd.Series([-1.2,-1.5,-1.7], index =  ['two','four','five'])

In [61]:
frame2['debt'] = val

In [62]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


* Para apagar uma coluna deve-se utilizar o comando **del**

In [63]:
frame2['eastern'] = frame2.state == 'Ohio'

In [64]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [65]:
del frame2['eastern']

In [66]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

* Dicionários aninhados:

> Dicionário mais externo como colunas **chave**

> Dicionário mais interno como linhas **chave**

In [67]:
pop = {
    'Nevada': {2001: 2.4, 2002: 2.9},
    'Ohio'  : {2000: 1.5, 2001: 1.7, 2002: 3.6}
}

In [68]:
frame3 = pd.DataFrame(pop)

In [69]:
frame3

Unnamed: 0,Nevada,Ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [70]:
frame3.T

Unnamed: 0,2001,2002,2000
Nevada,2.4,2.9,
Ohio,1.7,3.6,1.5


* Se **index** e **columns** tiverem seus atributos **name** definidos, esses também serão exibidos:

In [71]:
frame3.index.name = 'year'; frame3.columns.name = ' state'

In [72]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


* **Atributo**: **values**

In [73]:
frame3.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [74]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

## <font color=#797D7F> Objetos Index
---
* Os objetos Index do pandas são responsáveis por aramazar os rótulos dos eixos e outro metadados (como o onome ou os nomes dos eixos);
* São imutáveis;

In [75]:
obj = pd.Series(range(3), index=['a','b','c'])

In [76]:
obj

a    0
b    1
c    2
dtype: int64

In [77]:
index = obj.index

In [78]:
index

Index(['a', 'b', 'c'], dtype='object')

In [79]:
index[1:]

Index(['b', 'c'], dtype='object')

## <font color=#797D7F> Reindexação
---
* Um método importante dos objetos do pandas é reindex, que implica criar um novo objeto com os dados de acordo com um novo índice;

In [80]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d','b','a','c'])

In [81]:
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

* Chamar **reindex** nessa Series reorganiza os dados de acordo com o novo índice, introduzindo valores indicativos de ausência se algum valor de índice não estava presente antes:

In [82]:
obj2 = obj.reindex(['a','b','c','d','e'])

In [83]:
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

* Para dados ordenados, como as séries temporais, talvez seja desejável fazer alguma interpolação ou preenchimento de valores na reindexação. A opção method nos permite fazer isso, usando um método como ffill, que faz um preenchimento para a frente (forwardfill) dos valores:

In [84]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

In [85]:
obj3

0      blue
2    purple
4    yellow
dtype: object

In [86]:
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

## <font color=#797D7F> Descartando entradas de um eixo
---

* Pode-se realizar essa operação com o método [drop()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html);
* **<font color=green> axis = 0 </font>** -> linhas (default)
* **<font color=green> axis = 1 </font>** -> colunas
* inplace = **<font color=red> False </font>**(default)

In [87]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [88]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [89]:
new_obj = obj.drop('c')

In [90]:
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

* Com DataFrame, os valores dos índices podem ser apagados de qualquer eixo. Para demonstrar isso, inicialmente criaremos um DataFrame de exemplo:

In [91]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index = ['Ohio','Colorado','Utah','New York'],
                    columns = ['one','two','three','four'])

In [92]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [93]:
data.drop(['Colorado','Ohio'])

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [94]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [95]:
data.drop('two',axis=1)

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [96]:
data.drop(['two','four'],axis='columns')

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


* Muitas funções, como drop, que modificam o tamanho ou o formato de uma Series ou de um DataFrame, são capazes de manipular um objeto in-place, sem devolver um novo objeto

In [97]:
obj.drop('c', inplace=True)

In [98]:
obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

## <font color=#797D7F> Indexação, seleção e filtragem

<hr>

* **Indexação**: A indexação de séries (obj[...]) funciona de modo análogo à indexação de arrays NumPy, exceto que você pode usar os valores de índice da Series em vez de utilizar somente inteiros.

In [99]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])

In [100]:
obj

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [101]:
obj['b']

1.0

In [102]:
obj[1]

1.0

In [103]:
obj[2:4]

c    2.0
d    3.0
dtype: float64

In [104]:
obj[['b','a','d']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [105]:
obj[[1,3]]

b    1.0
d    3.0
dtype: float64

In [106]:
obj[obj < 2]

a    0.0
b    1.0
dtype: float64

<hr>

* **Fatiamento**: O fatiamento com rótulos comporta-se de modo diferente do fatiamento usual de Python, pois o ponto final estará incluído

In [107]:
obj['b':'c']

b    1.0
c    2.0
dtype: float64

* Uma definição usando eses métodos modificará a seção correspondete da Series:

In [108]:
obj['b':'c'] = 5

In [109]:
obj

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

* A indexação em um DataFrame serve para obter uma ou mais colunas, seja com um único valor ou com uma sequência:

In [110]:
data = pd.DataFrame(np.arange(16).reshape((4,4)),
                    index = ['Ohio','Colorado','Utah','New York'],
                    columns = ['one','two','three','four'])

In [111]:
data

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [112]:
data['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [113]:
data[['one','three']]

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


In [114]:
data[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [115]:
data[data['three']>5]

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [116]:
data < 5

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [117]:
data[data<5] = 0

In [118]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


## <font color=#797D7F> Seleção com loc e iloc
---

* Para indexação nas linhas do DataFrame com rótulos, apresentarei os operadores especiais de indexação **loc** e **iloc**. Eles permitem selecionar um subconjunto de linhas e colunas de um DataFrame com uma notação semelhante àquela do NumPy, usando rótulos de eixo (loc) ou inteiros(iloc).

### Loc

Indexação pelo método especial [loc ](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) - indexa a partir dos labels;

In [119]:
data

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [120]:
data.loc['Ohio']

one      0
two      0
three    0
four     0
Name: Ohio, dtype: int32

In [121]:
data.loc['Ohio':'Utah']

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11


In [122]:
data.loc[['Ohio','New York']]

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
New York,12,13,14,15


In [123]:
data.loc['Utah':'New York',['one','two']]

Unnamed: 0,one,two
Utah,8,9
New York,12,13


In [124]:
data.loc[:,:]

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [125]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
     index=['cobra', 'viper', 'sidewinder'],
     columns=['max_speed', 'shield'])

In [126]:
df

Unnamed: 0,max_speed,shield
cobra,1,2
viper,4,5
sidewinder,7,8


In [127]:
df.loc[df['shield'] > 6, ['max_speed']]

Unnamed: 0,max_speed
sidewinder,7


* Criando lógica com **loc**:

In [128]:
df.loc[df['max_speed'] > 3, ['Velocidade maior 3']] = 'Maior q três'

In [129]:
df

Unnamed: 0,max_speed,shield,Velocidade maior 3
cobra,1,2,
viper,4,5,Maior q três
sidewinder,7,8,Maior q três


* Vamos importar um dataset para utilizar algumas lógicas nos métodos de seleção

**<font color=red> OBS:</font>** Sobre a importação de arquivos, veremos em um tópico mais a frente;

In [130]:
carros_df =  pd.read_csv('db.csv', sep=';')

In [131]:
carros_df.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


In [132]:
carros_df.loc[carros_df['Ano'] > 2000, ['depos21']] = 'depois' # cria-se a coluna 'depois21'

In [133]:
carros_df.head() # a coluna depos21 foi criada e onde o ano é maior que 2000 foi-se inserido a string 'depois' e onde não foi maior inseriu-se o NaN

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor,depos21
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64,depois
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94,
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16,
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07,depois
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1,depois


### iloc

Indexação pelo método especial [iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html#pandas.DataFrame.iloc) - indexa a partir dos índices;

In [134]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
     index=['cobra', 'viper', 'sidewinder'],
     columns=['max_speed', 'shield'])
carros_df =  pd.read_csv('db.csv', sep=';')

In [135]:
df

Unnamed: 0,max_speed,shield
cobra,1,2
viper,4,5
sidewinder,7,8


In [136]:
df.iloc[0]

max_speed    1
shield       2
Name: cobra, dtype: int64

In [137]:
df.iloc[[0,1]]

Unnamed: 0,max_speed,shield
cobra,1,2
viper,4,5


In [138]:
df.iloc[0,1]

2

In [139]:
df.iloc[0:2, 0]

cobra    1
viper    4
Name: max_speed, dtype: int64

In [140]:
df.iloc[0:3,0]

cobra         1
viper         4
sidewinder    7
Name: max_speed, dtype: int64

In [141]:
df.iloc[:,[0,1]]

Unnamed: 0,max_speed,shield
cobra,1,2
viper,4,5
sidewinder,7,8


In [142]:
carros_df.iloc[50:51]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
50,Versa,Motor 3.0 32v,2009,85554.0,False,"['Bancos de couro', 'Ar condicionado', 'Rodas ...",148152.89


In [143]:
carros_df.iloc[0:6, [0,2,4]]

Unnamed: 0,Nome,Ano,Zero_km
0,Jetta Variant,2003,False
1,Passat,1991,False
2,Crossfox,1990,False
3,DS5,2019,True
4,Aston Martin DB4,2006,False
5,Palio Weekend,2012,False


### Seleção de linhas

* Além disso, para selecionar linhas - [ i : j ]: A indexação tem origem no zero e nos fatiamentos (*slices*) a linha com índice i é **incluída** e a linha com índice j **não é incluída** no resultado.

In [144]:
carros_df[0:1]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64


In [145]:
carros_df[0:2]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94


In [146]:
carros_df[5:8]

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
5,Palio Weekend,Motor 1.8 16v,2012,10728.0,False,"['Sensor de estacionamento', 'Teto panorâmico'...",97497.73
6,A5,Motor 4.0 Turbo,2019,,True,"['Câmbio automático', 'Câmera de estacionament...",56445.2
7,Série 3 Cabrio,Motor 1.0 8v,2009,77599.0,False,"['Controle de estabilidade', 'Sensor crepuscul...",112310.44


In [147]:
carros_df.head()

Unnamed: 0,Nome,Motor,Ano,Quilometragem,Zero_km,Acessórios,Valor
0,Jetta Variant,Motor 4.0 Turbo,2003,44410.0,False,"['Rodas de liga', 'Travas elétricas', 'Piloto ...",88078.64
1,Passat,Motor Diesel,1991,5712.0,False,"['Central multimídia', 'Teto panorâmico', 'Fre...",106161.94
2,Crossfox,Motor Diesel V8,1990,37123.0,False,"['Piloto automático', 'Controle de estabilidad...",72832.16
3,DS5,Motor 2.4 Turbo,2019,,True,"['Travas elétricas', '4 X 4', 'Vidros elétrico...",124549.07
4,Aston Martin DB4,Motor 2.4 Turbo,2006,25757.0,False,"['Rodas de liga', '4 X 4', 'Central multimídia...",92612.1


### Aritmética e alinhamento de dados

Um recurso importante do pandas para alguams palicações é o comportamento da aritmética entre objetos com índices diferentes. Quando objetos estiverem sendo somados, se algum par de índices não for igual, o respectivo índice no resultado será a união dos pares de índices. Para usuários com experiência em banco de dados, isso é semelhante a uma outer join automática dos rótulos.

In [160]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [161]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])

In [162]:
s1

a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

In [163]:
s2

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

In [164]:
s1+s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

* No caso do DataFrame, o alinhamento é feito tanto nas linhas quanto nas colunas.

In [168]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
... index=['Ohio', 'Texas', 'Colorado'])

In [169]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
... index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [170]:
df1

Unnamed: 0,b,c,d
Ohio,0.0,1.0,2.0
Texas,3.0,4.0,5.0
Colorado,6.0,7.0,8.0


In [171]:
df2

Unnamed: 0,b,d,e
Utah,0.0,1.0,2.0
Ohio,3.0,4.0,5.0
Texas,6.0,7.0,8.0
Oregon,9.0,10.0,11.0


In [172]:
df1 + df2

Unnamed: 0,b,c,d,e
Colorado,,,,
Ohio,3.0,,6.0,
Oregon,,,,
Texas,9.0,,12.0,
Utah,,,,


* Se você somar objetos DataFrame sem rótulos para colunas ou linhas em comum, o resultado conterá somente nulos.

In [173]:
df1 = pd.DataFrame({'A': [1, 2]})

In [174]:
df2 = pd.DataFrame({'B': [3, 4]})

In [175]:
df1 -  df2

Unnamed: 0,A,B
0,,
1,,


In [176]:
df1 + df2

Unnamed: 0,A,B
0,,
1,,


### Aplicação de funções e mapeamento

In [178]:
frame = pd.DataFrame(np.random.randn(4, 3),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon']
                    )

In [179]:
frame

Unnamed: 0,b,d,e
Utah,-0.202039,-0.158654,-0.871165
Ohio,1.090579,-0.007985,0.102925
Texas,0.352868,-2.255132,-0.569231
Oregon,-0.465344,-0.512983,0.675012


In [180]:
np.abs(frame)

Unnamed: 0,b,d,e
Utah,0.202039,0.158654,0.871165
Ohio,1.090579,0.007985,0.102925
Texas,0.352868,2.255132,0.569231
Oregon,0.465344,0.512983,0.675012


In [181]:
np.power(frame,2)

Unnamed: 0,b,d,e
Utah,0.04082,0.025171,0.758928
Ohio,1.189364,6.4e-05,0.010594
Texas,0.124516,5.085622,0.324024
Oregon,0.216545,0.263152,0.455642


* Outra operação frequente consiste em aplicar uma função em arrays unidimensionais para cada coluna ou linha. O método [apply](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html) de DataFrame faz exatamente isso:

In [182]:
f = lambda x: x.max() - x.min()

In [188]:
frame

Unnamed: 0,b,d,e
Utah,-0.202039,-0.158654,-0.871165
Ohio,1.090579,-0.007985,0.102925
Texas,0.352868,-2.255132,-0.569231
Oregon,-0.465344,-0.512983,0.675012


In [189]:
frame.apply(f)

b    1.555923
d    2.247147
e    1.546177
dtype: float64

* Nesse caso, a função f, que calcula a diferença entre o máximo e o mínimo de uma Series, é chamada uma vez em cada coluna de frame. O resultado é uma Series com as colunas de frame como seu índice.

In [191]:
frame.apply(f,axis='columns')

Utah      0.712511
Ohio      1.098565
Texas     2.608000
Oregon    1.187996
dtype: float64

* A função passada para apply não precisa devolver um valor escalar, ela também pode devolver uma Series com múltiplos valores:

In [192]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [193]:
frame.apply(f)

Unnamed: 0,b,d,e
min,-0.465344,-2.255132,-0.871165
max,1.090579,-0.007985,0.675012


* Funções Python para todos os elementos também podem ser usadas. Suponha que você quisesse calcular uma string formatada para cada valor de ponto flutuante em frame. Isso poderia ser feito com [applymap](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.applymap.html#pandas.DataFrame.applymap):

In [197]:
formata = lambda x: '%.2f' % x

In [198]:
frame.applymap(formata)

Unnamed: 0,b,d,e
Utah,-0.2,-0.16,-0.87
Ohio,1.09,-0.01,0.1
Texas,0.35,-2.26,-0.57
Oregon,-0.47,-0.51,0.68


In [200]:
frame.round(2) # o método round() formata o número de casas decimais

Unnamed: 0,b,d,e
Utah,-0.2,-0.16,-0.87
Ohio,1.09,-0.01,0.1
Texas,0.35,-2.26,-0.57
Oregon,-0.47,-0.51,0.68


In [202]:
is_pos_or_neg = lambda x: True if x >=0 else False

In [203]:
frame.applymap(is_pos_or_neg)

Unnamed: 0,b,d,e
Utah,False,False,False
Ohio,True,False,True
Texas,True,False,False
Oregon,False,False,True


* O motivo para o nome applymap está no fato de Series ter um método [map](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html) para aplicar uma função em todos os elementos:

In [205]:
frame['e'].map(formata)

Utah      -0.87
Ohio       0.10
Texas     -0.57
Oregon     0.68
Name: e, dtype: object

### Ordenação e classificação

Ordenar um conjunto de dados de acordo com algum critério é outra
operação embutida importante. Para ordenar de modo lexicográfico
pelo índice da linha ou da coluna, utilize o método sort_index, que
devolve um novo objeto ordenado:

In [208]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

In [209]:
obj

d    0
a    1
b    2
c    3
dtype: int64

In [210]:
obj.sort_index()

a    1
b    2
c    3
d    0
dtype: int64

In [211]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
.....: index=['three', 'one'],
.....: columns=['d', 'a', 'b', 'c'])

In [212]:
frame

Unnamed: 0,d,a,b,c
three,0,1,2,3
one,4,5,6,7


In [213]:
frame.sort_index()

Unnamed: 0,d,a,b,c
one,4,5,6,7
three,0,1,2,3


In [214]:
frame.sort_index(axis=1)

Unnamed: 0,a,b,c,d
three,1,2,3,0
one,5,6,7,4


In [215]:
frame.sort_index(axis=1, ascending=False)

Unnamed: 0,d,c,b,a
three,0,3,2,1
one,4,7,6,5


In [216]:
obj = pd.Series([4, 7, -3, 2])

* Para ordenar uma Series de acordo com seus valores, utilize o seu método sort_values:

In [218]:
obj

0    4
1    7
2   -3
3    2
dtype: int64

In [217]:
obj.sort_values()

2   -3
3    2
0    4
1    7
dtype: int64

* Qualquer valor indicativo de ausência será ordenado no final da Series, por padrão:

In [219]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [220]:
obj

0    4.0
1    NaN
2    7.0
3    NaN
4   -3.0
5    2.0
dtype: float64

In [221]:
obj.sort_values()

4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

* Quando ordenar um DataFrame, você poderá usar os dados de uma ou mais colunas como chaves de ordenação. Para isso, passe um ou mais nomes de coluna para a opção by de sort_values:

In [222]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [223]:
frame

Unnamed: 0,b,a
0,4,0
1,7,1
2,-3,0
3,2,1


In [224]:
frame.sort_values(by='b')

Unnamed: 0,b,a
2,-3,0
3,2,1
0,4,0
1,7,1


* Documentação [sort_values](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) e [sort_index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html#pandas.DataFrame.sort_index)

* A classificação (ranking) atribui posições de um até o número de pontos de dados válidos em um array. Os métodos rank de Series e de DataFrame são aqueles a serem observados; por padrão, [rank](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rank.html) resolve empates atribuindo a cada grupo a classificação média:

In [225]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

In [226]:
obj

0    7
1   -5
2    7
3    4
4    2
5    0
6    4
dtype: int64

In [227]:
obj.rank()

0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

In [228]:
obj.rank(method='first')

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

In [229]:
obj.rank(ascending=False, method='max')

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64



![image.png](attachment:c8b318c4-fa38-4d37-847e-9f3d2798ccb2.png)

### Índices de eixos com rótulos duplicados

Até agora, todos os exemplos que vimos tinham rótulos (valores de
índice) únicos nos eixos. Embora muitas funções do pandas (como
reindex) exijam que os rótulos sejam únicos, isso não é obrigatório.
Vamos considerar uma pequena Series com índices duplicados:


In [230]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

In [231]:
obj

a    0
a    1
b    2
b    3
c    4
dtype: int64

In [232]:
obj.index

Index(['a', 'a', 'b', 'b', 'c'], dtype='object')

In [233]:
obj.index.is_unique

False

* A seleção de dados é uma das principais tarefas que se comporta de modo diferente com duplicatas. Indexar um rótulo com várias entradas devolve uma Series, enquanto entradas únicas devolvem um valor escalar:

In [234]:
obj.a

a    0
a    1
dtype: int64

## Resumindo e calculando estatísticas descritivas

Os objetos do pandas estão equipados com um `conjunto de métodos matemáticos e estatísticos comuns`. A maior parte deles se enquadra na categoria de reduções ou de estatísticas de resumo: são métodos que extraem um único valor (como a soma ou a média) de uma Series ou uma Series de valores das linhas ou colunas de um DataFrame. Em comparação com métodos similares que se encontram em arrays NumPy, eles têm tratamento embutido para dados ausentes. Considere um pequeno DataFrame:

In [238]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
... [np.nan, np.nan], [0.75, -1.3]],
... index=['a', 'b', 'c', 'd'],
... columns=['one', 'two'])

In [239]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [240]:
df.sum() # soma das linhas

one    9.25
two   -5.80
dtype: float64

In [242]:
df.sum(axis='columns') # soma das colunas

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

* Valores NA são excluídos, a menos que a fatia inteira (linha ou
coluna, nesse caso) seja NA. Isso pode ser desativado com a opção
skipna:

In [244]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [243]:
df.mean(axis='columns', skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

![image.png](attachment:62724010-6983-4a19-9a10-cad7deea6ffb.png)

* O método [describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)

In [246]:
df

Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


In [245]:
df.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


In [248]:
df.describe(percentiles=[0,.1,.2,.3,.4,.5,.6,.7,.8,.9])

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
0%,0.75,-4.5
10%,0.88,-4.18
20%,1.01,-3.86
30%,1.14,-3.54
40%,1.27,-3.22
50%,1.4,-2.9


![image.png](attachment:c33f36f2-5a79-4ca5-9025-cfc02fb9aa96.png)

![image.png](attachment:1e569fa5-5fd5-47b2-99d5-deb2189e075c.png)

In [247]:
df.count()

one    3
two    2
dtype: int64

### Correlação e covariância

Algumas estatísticas de resumo, como correlação e covariância, são
calculadas a partir de pares de argumentos. Vamos considerar
alguns DataFrames de preços e volumes de ações obtidos do
Yahoo! Finance usando o pacote add-on pandas-datareader. Caso não
o tenha instalado, ele poderá ser obtido usando o conda ou o pip:

In [258]:
!pip install pandas_datareader

Collecting pandas_datareader
  Downloading pandas_datareader-0.10.0-py3-none-any.whl (109 kB)
Installing collected packages: pandas-datareader
Successfully installed pandas-datareader-0.10.0


In [259]:
import pandas_datareader.data as web

In [260]:
all_data = {ticker: web.get_data_yahoo(ticker)
for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

In [261]:
price = pd.DataFrame({ticker: data['Adj Close']
for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
for ticker, data in all_data.items()})

In [267]:
returns = price.pct_change()

In [273]:
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2021-11-16,0.006667,-0.003449,0.010236,-0.002089
2021-11-17,0.01649,-0.003377,0.000679,-9.4e-05
2021-11-18,0.028536,-0.011858,0.00634,0.011049
2021-11-19,0.016976,-0.005229,0.005392,-0.00502
2021-11-22,0.019371,0.013701,-0.000357,-0.015125


* O método [corr](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html) de Series calcula a correlação entre os valores
diferentes de NA de duas Series, alinhados pelo índice e que se
sobrepõem. De forma relacionada, [cov](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cov.html) calcula a covariância:

In [274]:
returns['MSFT'].corr(returns['IBM'])

0.5038963467200847

In [275]:
returns['MSFT'].cov(returns['IBM'])

0.000143766413716895

In [276]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.435954,0.735457,0.658752
IBM,0.435954,1.0,0.503896,0.472226
MSFT,0.735457,0.503896,1.0,0.777448
GOOG,0.658752,0.472226,0.777448,1.0


In [277]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000362,0.000138,0.000241,0.000212
IBM,0.000138,0.000275,0.000144,0.000133
MSFT,0.000241,0.000144,0.000296,0.000227
GOOG,0.000212,0.000133,0.000227,0.000287


### Valores únicos, contadores de valores e pertinência

Outra classe de métodos relacionados extrai informações sobre os
valores contidos em uma Series unidimensional. Para ilustrar isso,
considere o exemplo a seguir:


In [278]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

A primeira função é [unique](https://pandas.pydata.org/docs/reference/api/pandas.unique.html), que devolve um array de valores únicos
em uma Series:

In [287]:
unicos = obj.unique()
unicos

array(['c', 'a', 'd', 'b'], dtype=object)

De modo relacionado, [value_counts](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) calcula uma Series
contendo as frequências dos valores.

In [283]:
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

[isin](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html) executa uma verificação vetorizada de pertinência a conjuntos, e
pode ser útil para filtrar um conjunto de dados e obter um
subconjunto de valores em uma Series ou coluna de um DataFrame:

In [300]:
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [301]:
obj.isin(['b','c'])

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [303]:
obj[obj.isin(['b','c'])]

0    c
5    b
6    b
7    c
8    c
dtype: object

![image.png](attachment:760bb5c9-610a-4797-a6e4-f0a8a38ef7e3.png)

Em alguns casos, talvez você queira calcular um histograma de
várias colunas relacionadas em um DataFrame. Veja um exemplo:

In [304]:
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
... 'Qu2': [2, 3, 1, 2, 3],
... 'Qu3': [1, 5, 2, 4, 4]})

In [310]:
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


Passar pandas.value_counts para a função apply desse DataFrame
resulta em:

In [312]:
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


* Exemplo utilizados os métodos estatísticos

In [292]:
copacabana = pd.read_csv(filepath_or_buffer = "copacabana.csv",sep=';')

In [293]:
copacabana.head()

Unnamed: 0,Posicao,Quartos,Vagas,DistIpanema,DistPraia,DistFavela,RendaMedia,RendaMovel,RendaMovelRua,Vu2009,Mes,Idade,Tipologia,AreaConstruida,VAL_UNIT,X,Y
0,1,3.0,0.01,1144,311,146,969501,1028834,999168,1750,509,37.0,1,95,4379,685365.07,7457802.68
1,0,2.0,0.01,2456,502,254,1472861,1137759,1305310,2300,484,30.0,1,71,6479,685941.55,7459001.32
2,0,2.0,0.01,2448,772,229,1803724,1512475,1658100,2350,920,44.0,1,58,12414,685627.39,7459080.52
3,0,2.0,0.01,1615,428,310,1124331,1370600,1247466,2200,930,43.0,1,88,11250,685438.2001,7458268.28
4,0,2.0,1.0,2358,586,287,1165764,1177933,1171849,2150,918,42.0,1,68,13382,685764.384,7458954.513


Analisando alguma colunas

In [295]:
copacabana.Posicao.unique()

array([1, 0], dtype=int64)

In [320]:
quartos = copacabana.Quartos.unique()

In [324]:
listagem_quartos = np.sort(quartos)
listagem_quartos

array([0.01, 1.  , 2.  , 3.  , 4.  , 5.  , 6.  ])

In [326]:
copacabana.AreaConstruida.describe()

count    1675.000000
mean       78.880597
std        59.504466
min        15.000000
25%        38.000000
50%        63.000000
75%        98.500000
max       668.000000
Name: AreaConstruida, dtype: float64

In [330]:
maior_que_50 = copacabana.AreaConstruida > 50
maior_que_50.sum()

1017