<a href="https://colab.research.google.com/github/Joaogalescky/Ciencia-de-Dados---2024/blob/main/Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

Pandas é uma **biblioteca** para **análise e manipulação de dados** amplamente utilizada. Com ela, é possível operar sobre dados de maneira organizada.

Na API da biblioteca é possível acessar todas as operações disponíveis.  
[API](https://pandas.pydata.org/pandas-docs/stable/reference/index.html)


Para importar a biblioteca:

```python
import pandas as pd
```

In [5]:
import pandas as pd

A bibioteca Pandas é composta por **dois tipos de dados principais**, as **Series** e os **Dataframes**.

## Series

Uma Series opera da **mesma maneira** que um *array* unidimensional. Cada elemento presente na Series possui um *index* (índice), que funciona como um rótulo para cada elemento.

**Exemplo**

Utilizaremos como exemplo uma Series para armazenar as alturas de um determinado grupo de pessoas.

```python
alturas = pd.Series([175,182,160,156])
```

In [None]:
alturas = pd.Series([175, 182, 160, 156])

Observe também o tipo de dado utilizado, utilizando a função `type()`
```python
type(alturas)
```

In [None]:
type(alturas)

Observe os valores armazenados na Series, com a função `print()`
```python
print(alturas)
```

In [None]:
print(alturas)

0    175
1    182
2    160
3    156
dtype: int64


Repare na saída do comando que a **primeira coluna** apresenta o ***index***, e a **segunda coluna** os **valores inseridos.**

Na Series `alturas`, não foi especificado qual seria o *index* utilizado. Por padrão, é utilizado uma sequência de números inteiros positivos crescente, iniciada pelo valor `0`.

Podemos obter essas informações de maneira separada. Para acessar os **valores**, pode-se utilizar o atributo `values`.

**Exemplo**

```python
alturas.values
```

In [None]:
alturas.values

array([175, 182, 160, 156])

E para obter os **índices**, pode-se utilizar o atributo `index`.

**Exemplo**

```python
alturas.index
```

In [None]:
alturas.index

RangeIndex(start=0, stop=4, step=1)

Supondo que gostaríamos de adicionar como índice o nome das pessoas a que cada altura corresponde, pode ser utilizado o parâmetro `index` na criação da Series.

```python
alturas = pd.Series([175, 182,160,156], index=["Maria", "José", "Eduarda", "Sergio"])
```

In [None]:
alturas = pd.Series([175, 182, 160, 156], index=["Maria", "José", "Eduarda", "Sergio"])

Agora, observe os **valores** da Series `altura` e os **índices** utilizados.

In [None]:
alturas.index

Index(['Maria', 'José', 'Eduarda', 'Sergio'], dtype='object')

In [None]:
alturas.values

array([175, 182, 160, 156])

In [None]:
print(alturas)

Maria      175
José       182
Eduarda    160
Sergio     156
dtype: int64


Utilizando as Series, é possível que os dados sejam acessados a partir de seu índice.

```python
alturas["Eduarda"]
```

In [None]:
alturas["Eduarda"]

160

In [None]:
alturas["José"]

182

Uma Series possibilita que dados estatísticos básicos sejam calculados a partir de seus dados, diretamente com a chamada de métodos.

**Exemplo**

Para mostrar o número de elementos
```python
alturas.count()
```

Alguns métodos que também podem ser utilizados:
- `.count()` - número de elementos
- `.mean()` - média
- `.std()` - desvio padrão
- `.min()` - valor mínimo
- `.max()` - valor máximo
- `.value_counts()` - mostra quantas vezes aparece cada um dos elementos
- `.unique()` - mostra os elementos existentes, sem repetições


**Atividade**

- Qual é a altura média das pessoas?

In [None]:
print("count(): ", alturas.count())
print("mean(): ", alturas.mean())
print("std(): ", alturas.std())
print("min(): ", alturas.min())
print("max(): ", alturas.max())
print("unique(): ", alturas.unique())
print("----------------------")
print("value_count(): ", alturas.value_counts())

count():  4
mean():  168.25
std():  12.284814474246922
min():  156
max():  182
unique():  [175 182 160 156]
----------------------
value_count():  175    1
182    1
160    1
156    1
dtype: int64


É possível observar todos esses valores de uma única vez, utilizando o método `.describe()`

In [None]:
alturas.describe()

count      4.000000
mean     168.250000
std       12.284814
min      156.000000
25%      159.000000
50%      167.500000
75%      176.750000
max      182.000000
dtype: float64

## Operações sobre todos os valores
Em uma Series, é possível aplicar operações matemáticas sobre todos os valores de uma única vez.

**Exemplo**

Para converter a altura de centímetros para metros, basta dividir os valores por 100.
```python
alturas/100
```


In [None]:
alturas / 100

Maria      1.75
José       1.82
Eduarda    1.60
Sergio     1.56
dtype: float64

A series não é afetada. Para tornar o resultado permamente, é necessário salvar o valor.  

**Exemplo**  

```python
alturasMetros = alturas/100

print('Alturas em metros:')
print(alturasMetros)
print('\nAlturas em centímetros:')
print(alturas)
```

In [None]:
alturasMetros = alturas/100

print('Alturas em metros:')
print(alturasMetros)
print('\nAlturas em centímetros:')
print(alturas)

Alturas em metros:
Maria      1.75
José       1.82
Eduarda    1.60
Sergio     1.56
dtype: float64

Alturas em centímetros:
Maria      175
José       182
Eduarda    160
Sergio     156
dtype: int64


**Atividade**

Crie a Series apresentada abaixo:
```python
conceitos = pd.Series(
    ['A','B','B','A','C','D','A','B','B','C','C','A'],
    index=
    ['Maria', 'José', 'Eduarda', 'Sofia', 'Sergio', 'Baltazar', 'Oswaldo', 'Joana', 'Felisberto', 'Brigite', 'Filomena', 'Natalicio'])
```

In [None]:
conceitos = pd.Series(
    ['A','B','B','A','C','D','A','B','B','C','C','A'],
    index=
    ['Maria', 'José', 'Eduarda', 'Sofia', 'Sergio', 'Baltazar', 'Oswaldo', 'Joana', 'Felisberto', 'Brigite', 'Filomena', 'Natalicio'])

Sobre a Series `conceitos`, responda:
- Quantos conceitos existem?

In [None]:
print(conceitos.count)

<bound method Series.count of Maria         A
José          B
Eduarda       B
Sofia         A
Sergio        C
Baltazar      D
Oswaldo       A
Joana         B
Felisberto    B
Brigite       C
Filomena      C
Natalicio     A
dtype: object>


- Quais são os conceitos diferentes que estão armazenados?

In [None]:
print(conceitos.unique())

['A' 'B' 'C' 'D']


- Quantos valores existem de cada conceito?

In [None]:
print(conceitos.value_counts())

A    4
B    4
C    3
D    1
dtype: int64


- Qual é o conceito da aluna 'Sofia'?

In [None]:
conceitos["Sofia"]

'A'

## DataFrame

O DataFrame é uma das principais estruturas do Pandas. É composto por uma estrutura bidimensional, que em sua apresentação se assemelha a uma planilha. Um Dataframe é **formado por diversas Series**, que **compartilham um mesmo índice**.

**Exemplo**

```python
pessoas = pd.DataFrame({'Nome': ["Maria", "José", "Eduarda", "Sergio", "Julia", 'Baltazar', 'Sofia'],
                        'Altura': [175, 182,160,156, 180, 158, 175],
                        'Idade': [21, 40, 41, 30, 25, 23, 29],
                        'Sexo': ['f', 'm', 'f', 'm', 'f', 'm', 'f']
                        })
```


In [None]:
pessoas = pd.DataFrame({'Nome': ["Maria", "José", "Eduarda", "Sergio", "Julia", 'Baltazar', 'Sofia'],
                        'Altura': [175, 182,160,156, 180, 158, 175],
                        'Idade': [21, 40, 41, 30, 25, 23, 29],
                        'Sexo': ['f', 'm', 'f', 'm', 'f', 'm', 'f']
                        })

Para observar o dataframe:
```python
pessoas
```

In [None]:
pessoas

Unnamed: 0,Nome,Altura,Idade,Sexo
0,Maria,175,21,f
1,José,182,40,m
2,Eduarda,160,41,f
3,Sergio,156,30,m
4,Julia,180,25,f
5,Baltazar,158,23,m
6,Sofia,175,29,f


É possível observar diversas informações sobre o DataFrame, utilizando o método `.info()`. O número de colunas, número de linhas, quantidades de valores não-nulos presentes em cada coluna e a quantidade de memória utilizada pelo DataFrame podem ser observados com esse método.  

**Exemplo**  

```python
pessoas.info()
```

In [None]:
pessoas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    7 non-null      object
 1   Altura  7 non-null      int64 
 2   Idade   7 non-null      int64 
 3   Sexo    7 non-null      object
dtypes: int64(2), object(2)
memory usage: 352.0+ bytes


Cada coluna pode possuir seu tipo de dado, que pode ser visto acessando o atributo `.dtypes`, acrônimo de *data types*.  

**Exemplo**  

```python
pessoas.dtypes
```

In [None]:
pessoas.dtypes

Nome      object
Altura     int64
Idade      int64
Sexo      object
dtype: object

As estatísticas de cada coluna, assim como na Series, podem ser obtidas com o método `.describe()`.  

**Exemplo**  

```python
pessoas.describe()
```

In [None]:
pessoas.describe()

Unnamed: 0,Altura,Idade
count,7.0,7.0
mean,169.428571,29.857143
std,11.043205,7.925246
min,156.0,21.0
25%,159.0,24.0
50%,175.0,29.0
75%,177.5,35.0
max,182.0,41.0


**Atividade**

- Para pensar:
    - Por que não aparecem as colunas com os dados de *Nome* e *Sexo* na saída do método `describe()`?

In [None]:
#Pois o método describe() apenas retorna descrições de data em DataFrame, que consta apenas dados númericos
#https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html
#Com

pessoas.describe(include = 'all')

Unnamed: 0,Nome,Altura,Idade,Sexo
count,7,7.0,7.0,7
unique,7,,,2
top,Maria,,,f
freq,1,,,4
mean,,169.428571,29.857143,
std,,11.043205,7.925246,
min,,156.0,21.0,
25%,,159.0,24.0,
50%,,175.0,29.0,
75%,,177.5,35.0,


## Seleção de colunas

A identificação de cada coluna pode ser utilizada para acessar os dados de colunas específicas, como se fosse uma 'posição'.

**Exemplo**

```python
pessoas['Nome']
```

In [None]:
pessoas['Nome']

0       Maria
5    Baltazar
4       Julia
6       Sofia
3      Sergio
1        José
2     Eduarda
Name: Nome, dtype: object

Observe o tipo dado que é retornado:
```python
type(pessoas['Nome'])
```
Perceba que selecionar uma única coluna retorna uma **Series**.

In [None]:
type(pessoas['Nome'])

Também é possível observar mais de uma coluna de um dataframe, mostrando apenas as colunas desejadas.  

**Exemplo**  

```python
pessoas[['Nome', 'Altura']]
```
Observe que passar obter mais de uma coluna, como índice para o Dataframe é passado uma **lista** de valores.

In [None]:
pessoas[['Nome', 'Altura']]

Unnamed: 0,Nome,Altura
0,Maria,175
5,Baltazar,158
4,Julia,180
6,Sofia,175
3,Sergio,156
1,José,182
2,Eduarda,160


Observe o tipo dado que é retornado:
```python
type(pessoas[['Nome', 'Altura']])
```
Perceba que observar várias colunas retorna um **DataFrame**.

In [None]:
type(pessoas[['Nome', 'Altura']])

**Atividade**

Execute os códigos 1 e 2 abaixo, compare-os e explique as diferenças, respondendo:
    - os dados são os mesmos?
    - as estruturas retornadas possuem o mesmo tipo de dado?
    - Por quê?
    - Qual é a diferença na escolha de colunas a serem mostradas?

Código 1:
```python
pessoas['Nome']
```

In [None]:
pessoas['Nome']

0       Maria
5    Baltazar
4       Julia
6       Sofia
3      Sergio
1        José
2     Eduarda
Name: Nome, dtype: object

Código 2:
```python
pessoas[['Nome']]
```

In [None]:
pessoas[['Nome']]

Unnamed: 0,Nome
0,Maria
5,Baltazar
4,Julia
6,Sofia
3,Sergio
1,José
2,Eduarda


## Colunas de DataFrames como Series
Ao selecionar uma única coluna temos uma Series, e seus atributos podem ser aplicados.

**Exemplo**  

Para observar a quantidade de pessoas de cada sexo
```python
pessoas['Sexo'].value_counts()
```

In [None]:
pessoas['Sexo'].value_counts()

f    4
m    3
Name: Sexo, dtype: int64

## Seleção de linhas

Uma outra forma de selecionar elementos é utilizando os índices (linhas) como referência, utilizando o método `.loc[]`

**Exemplo**

```python
pessoas.loc[[2]]
pessoas.loc[[2,4]]
pessoas.loc[2:4]
```
Neste caso, utilizou o **conteúdo** do índice como referência.

In [None]:
pessoas.loc[[2]] # apenas 2

Unnamed: 0,Nome,Altura,Idade,Sexo
2,Eduarda,160,41,f


In [None]:
pessoas.loc[[2, 4]] # de 2 e 4

Unnamed: 0,Nome,Altura,Idade,Sexo
2,Eduarda,160,41,f
4,Julia,180,25,f


In [None]:
pessoas.loc[2 : 4] # de 2 até 4

Unnamed: 0,Nome,Altura,Idade,Sexo
2,Eduarda,160,41,f
3,Sergio,156,30,m
4,Julia,180,25,f


Pode-se também obter a partir o índice da posição, com o método `.iloc[]`.

**Exemplo**


```python
pessoas.iloc[[2]]
pessoas.iloc[[2,4]]
pessoas.iloc[2:4]
```

Para este exemplo, como os índices são numéricos, não há diferença nos resultados.

In [None]:
pessoas.iloc[[2]]

Unnamed: 0,Nome,Altura,Idade,Sexo
2,Eduarda,160,41,f


In [None]:
pessoas.iloc[[2, 4]]

Unnamed: 0,Nome,Altura,Idade,Sexo
2,Eduarda,160,41,f
4,Julia,180,25,f


In [None]:
pessoas.iloc[2 : 4]

Unnamed: 0,Nome,Altura,Idade,Sexo
2,Eduarda,160,41,f
3,Sergio,156,30,m


**Atividade**

- Explique cada parâmetro passado no método `.iloc[]` nos exemplos abaixo, em relação com a saída obtida. Compare as diferenças entre eles.  

```python
pessoas.iloc[2]
```

In [None]:
pessoas.iloc[2]
#Exibe os dados do índice selecionado sem formatação

Nome      Eduarda
Altura        160
Idade          41
Sexo            f
Name: 2, dtype: object

```python
pessoas.iloc[[2]]
```

In [None]:
pessoas.iloc[[2]]
#Exibe os dados do índice selecionado com formatação

Unnamed: 0,Nome,Altura,Idade,Sexo
2,Eduarda,160,41,f


```python
pessoas.iloc[[2,4]]
```

In [None]:
pessoas.iloc[[2,4]]
#Exibe os dados de um índice e outro índice com formatação

Unnamed: 0,Nome,Altura,Idade,Sexo
2,Eduarda,160,41,f
4,Julia,180,25,f


```python
pessoas.iloc[2:4]
```

In [None]:
pessoas.iloc[2 : 4]
#Exibe os dados de um índice até outro índice com formatação, não incluindo ele

Unnamed: 0,Nome,Altura,Idade,Sexo
2,Eduarda,160,41,f
3,Sergio,156,30,m


## Amostras das linhas do Dataframe
Os métodos `.head()` e `.tail()` servem para obter as linhas iniciais ou finais de um DataFrame. Tais métodos são úteis para observar amostras dos dados, principalmente quando tratamos de DataFrames com muitas linhas.

**Exemplo**

```python
pessoas.head(2)
```

In [None]:
pessoas.head(2)

Unnamed: 0,Nome,Altura,Idade,Sexo
0,Maria,175,21,f
1,José,182,40,m


In [None]:
pessoas.tail(2)

Unnamed: 0,Nome,Altura,Idade,Sexo
5,Baltazar,158,23,m
6,Sofia,175,29,f


**Atividade**

- Qual é o valor padrão de linhas para o método `.head()`, caso o parâmetro seja omitido?

In [None]:
pessoas.head()

Unnamed: 0,Nome,Altura,Idade,Sexo
0,Maria,175,21,f
1,José,182,40,m
2,Eduarda,160,41,f
3,Sergio,156,30,m
4,Julia,180,25,f


## Ordenação
É possível ordenar os dados por uma coluna específica, utilizando o método `.sort_values()`.

**Exemplo**

```python
pessoas.sort_values('Idade')
```

In [None]:
pessoas.sort_values('Idade')

Unnamed: 0,Nome,Altura,Idade,Sexo
0,Maria,175,21,f
5,Baltazar,158,23,m
4,Julia,180,25,f
6,Sofia,175,29,f
3,Sergio,156,30,m
1,José,182,40,m
2,Eduarda,160,41,f


In [None]:
pessoas.sort_values('Nome')

Unnamed: 0,Nome,Altura,Idade,Sexo
5,Baltazar,158,23,m
2,Eduarda,160,41,f
1,José,182,40,m
4,Julia,180,25,f
0,Maria,175,21,f
3,Sergio,156,30,m
6,Sofia,175,29,f


Observe novamente o Dataframe `pessoas`, e verifique que se os dados continuam ordenados pelo nome.

Para que a alteração seja permanente, é necessário sobrescrever o Datraframe.  

**Exemplo**  

```python
pessoas = pessoas.sort_values('Idade')
pessoas
```

In [None]:
pessoas = pessoas.sort_values('Idade')
pessoas

Unnamed: 0,Nome,Altura,Idade,Sexo
0,Maria,175,21,f
5,Baltazar,158,23,m
4,Julia,180,25,f
6,Sofia,175,29,f
3,Sergio,156,30,m
1,José,182,40,m
2,Eduarda,160,41,f


## Utilizando Series como índices

É possível utilizar Series como índices em Dataframes.

**Exemplo**

Observe a saída:
```python
pessoas['Sexo'] == 'm'
```

Nesta saída o resultado é uma Series composta por valores do tipo *boolean*. Esta Series pode ser utilizada como índice, em que determinada operação será aplicada apenas aos elementos nas posições em que o índice possua valor `True`.


In [None]:
pessoas['Sexo'] == 'm'

0    False
1     True
2    False
3     True
4    False
5     True
6    False
Name: Sexo, dtype: bool

In [None]:
pessoas[pessoas['Sexo'] == 'm']

Unnamed: 0,Nome,Altura,Idade,Sexo
1,José,182,40,m
3,Sergio,156,30,m
5,Baltazar,158,23,m


In [None]:
pessoas[pessoas['Altura'] <= 160]['Nome'].values

array(['Eduarda', 'Sergio', 'Baltazar'], dtype=object)

In [None]:
pessoas[pessoas['Altura'] <= 160][['Nome']]

Unnamed: 0,Nome
2,Eduarda
3,Sergio
5,Baltazar


**Exemplo**

```python
idx=pessoas['Sexo'] == 'm' # A Series pessoas['Sexo'] == 'm' é armazenada em idx
homens=pessoas[idx]        # A Series idx é utilizada como índice, e o DataFrame resultante é salvo como homens
homens                     # Mostra o DataFrame Homens
```

Para estas operações, diversos operadores relacionais como `<`, `<=`, `>`, `>=` ou `==` podem utilizados. Desta forma, estas operações acabam funcionando como um filtro ou máscara, para as opearações aplicadas.

In [None]:
idx=pessoas['Sexo'] == 'm' # A Series pessoas['Sexo'] == 'm' é armazenada em idx
homens=pessoas[idx]        # A Series idx é utilizada como índice, e o DataFrame resultante é salvo como homens
homens                     # Mostra o DataFrame Homens

Unnamed: 0,Nome,Altura,Idade,Sexo
1,José,182,40,m
3,Sergio,156,30,m
5,Baltazar,158,23,m


**Atividade**

- Filtre o DataFrame pessoas, mostrando apenas as mulheres.

In [None]:
idx = pessoas['Sexo'] == 'f'
mulheres = pessoas[idx]
mulheres

Unnamed: 0,Nome,Altura,Idade,Sexo
0,Maria,175,21,f
2,Eduarda,160,41,f
4,Julia,180,25,f
6,Sofia,175,29,f


**Atividade**

- Qual a altura média dos homens?
- Qual a altura média das mulheres?
- Quem são as pessoas que possuem altura acima da média (do conjunto de dados)?

In [None]:
pessoas[pessoas['Sexo'] == 'm']['Altura'].mean()

165.33333333333334

In [None]:
pessoas[pessoas['Sexo'] == 'f']['Altura'].mean()

172.5

In [None]:
alturaMedia = pessoas['Altura'].mean()
pessoas[pessoas['Altura'] > alturaMedia]

Unnamed: 0,Nome,Altura,Idade,Sexo
0,Maria,175,21,f
1,José,182,40,m
4,Julia,180,25,f
6,Sofia,175,29,f


## Carregando e salvando bases de dados

A biblioteca Pandas possibilita que um DataFrame pode ser carregado a partir de bases já existentes, em diversos formatos, como:
- **csv**
    - *Comma Separated Values*
    - formato em que os dados estão organizados em linha, e cada campo é separado por vírgula
    - método para carregar
        - `.read_csv()`
            - Parâmetro de entrada pode ser um caminho para arquivo csv local ou uma URL para um arquivo csv, disponível online.
    - Exemplo
```python
#Carrega um arquivo csv local
pd.read_csv('bases/alunos.csv')
```
    - [Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/io.html#flat-file)
- **xls**:
    - planilha do Microsoft Excel
    - método:
        - `.read_excel()`
    - Exemplo
```python
#Carrega um arquivo xls local
pd.read_csv('bases/alunos.xls')
```
    - [Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/io.html#excel)
- **sql**
    - tabelas e resultados de consultas a bancos de dados
    - método para carregar:
        - `.read_sql_table()`
        - `.read_sql_query()`
    - [Documentação](https://pandas.pydata.org/pandas-docs/stable/reference/io.html#sql)
    

Para salvar um DataFrame em arquivo para ser carregado posteriormente:
- **csv**
    - `.to_csv()`
        - Método do DataFrame
    - Exemplo
```python
#salvando o DataFrame pessoas no diretório local
pessoas.to_csv('pessoas.csv')
```

## Exercício

Carregue o DataFrame **rioAptos** com informações sobre apartamentos na cidade do Rio de Janeiro. Para carregar, execute:

```python
rioAptos = pd.read_csv('https://raw.githubusercontent.com/mvinoba/notebooks-for-binder/master/dados.csv')
```

In [6]:
rioAptos = pd.read_csv('https://raw.githubusercontent.com/mvinoba/notebooks-for-binder/master/dados.csv')

Observe quais são as colunas presentes na base de dados:

In [7]:
print(rioAptos)

      condominio  quartos  suites  vagas  area    bairro    preco       pm2
0            350        1     0.0    1.0    21  Botafogo   340000  16190.48
1            800        1     0.0    1.0    64  Botafogo   770000  12031.25
2            674        1     0.0    1.0    61  Botafogo   600000   9836.07
3            700        1     1.0    1.0    70  Botafogo   700000  10000.00
4            440        1     0.0    1.0    44  Botafogo   515000  11704.55
...          ...      ...     ...    ...   ...       ...      ...       ...
1992        1080        3     1.0    1.0    80    Tijuca   680000   8500.00
1993         750        3     0.0    1.0    82    Tijuca   650000   7926.83
1994         700        3     1.0    1.0   100    Tijuca   629900   6299.00
1995        1850        3     1.0    2.0   166    Tijuca  1600000   9638.55
1996         800        3     1.0    1.0   107    Tijuca   540000   5046.73

[1997 rows x 8 columns]


Observe os dados presentes nas primeiras linhas:

- Qual é o valor do apartamento mais barato?

In [None]:
aptoValorMedia = rioAptos['preco'].min()
rioAptos[rioAptos['preco'] >= aptoValorMedia]

Unnamed: 0,condominio,quartos,suites,vagas,area,bairro,preco,pm2
0,350,1,0.0,1.0,21,Botafogo,340000,16190.48
1,800,1,0.0,1.0,64,Botafogo,770000,12031.25
2,674,1,0.0,1.0,61,Botafogo,600000,9836.07
3,700,1,1.0,1.0,70,Botafogo,700000,10000.00
4,440,1,0.0,1.0,44,Botafogo,515000,11704.55
...,...,...,...,...,...,...,...,...
1992,1080,3,1.0,1.0,80,Tijuca,680000,8500.00
1993,750,3,0.0,1.0,82,Tijuca,650000,7926.83
1994,700,3,1.0,1.0,100,Tijuca,629900,6299.00
1995,1850,3,1.0,2.0,166,Tijuca,1600000,9638.55


- Qual é o valor do apartamento mais caro?

In [8]:
aptoValorMax = rioAptos['preco'].max()
print(aptoValorMax)

13600000


- Qual é o valor do metro quadrado mais barato?

In [11]:
valorMetroQuadrado = rioAptos['preco'] / rioAptos['pm2']
valorMetroQuadradoMinimo = valorMetroQuadrado.min()
print(valorMetroQuadradoMinimo)

19.0000027142861


- Qual é o valor do metro quadrado mais caro?

In [13]:
valorMetroQuadrado = rioAptos['preco'] / rioAptos['pm2']
valorMetroQuadradoMax = valorMetroQuadrado.max()
print(valorMetroQuadradoMax)

475.0000533707925


- Em qual bairro está o apartamento mais barato?

In [None]:
menorPreco = rioAptos['preco'].min()
rioAptos[rioAptos['preco'] == menorPreco]

Unnamed: 0,condominio,quartos,suites,vagas,area,bairro,preco,pm2
25,150,1,0.0,1.0,40,Botafogo,130000,3250.0
1345,130,1,1.0,1.0,50,Botafogo,130000,2600.0


- Em qual bairro está o apartamento mais caro?

In [None]:
maiorPreco = rioAptos['preco'].max()
rioAptos[rioAptos['preco'] == maiorPreco]

Unnamed: 0,condominio,quartos,suites,vagas,area,bairro,preco,pm2
436,4600,3,1.0,2.0,350,Ipanema,13600000,38857.14


- Na base de dados, quantos apartamentos há em cada bairro?

In [None]:
rioAptos['bairro'].value_counts()

Copacabana    346
Tijuca        341
Botafogo      307
Ipanema       281
Leblon        280
Grajaú        237
Gávea         205
Name: bairro, dtype: int64

- Qual é o tamanho médio dos apartamentos nos seguintes bairros:
    - Copacabana
    - Botafogo
    - Tijuca

In [9]:
bairro = 'Copabacana'
rioAptos[rioAptos['bairro'] == bairro]['preco'].mean()

nan

- Quais são os apartamentos com preços acima da média?

In [14]:
mediaPreco = rioAptos['preco'].mean()
aptosAcimaMedia = rioAptos[rioAptos['preco'] > mediaPreco]
print(aptosAcimaMedia)

      condominio  quartos  suites  vagas  area    bairro    preco       pm2
47           750        2     1.0    1.0    90  Botafogo  1250000  13888.89
51          1400        2     1.0    1.0    75  Botafogo  1300000  17333.33
63          1942        3     1.0    2.0   129  Botafogo  1659000  12860.47
67          1580        3     1.0    1.0   215  Botafogo  1890000   8790.70
68          1670        3     1.0    2.0   114  Botafogo  1900000  16666.67
...          ...      ...     ...    ...   ...       ...      ...       ...
1874         951        3     1.0    1.0   100    Leblon  1800000  18000.00
1875        1500        3     1.0    2.0   120    Leblon  2900000  24166.67
1876        1127        3     1.0    1.0   100    Leblon  1950000  19500.00
1958        1100        3     1.0    2.0   132    Tijuca  1300000   9848.48
1995        1850        3     1.0    2.0   166    Tijuca  1600000   9638.55

[703 rows x 8 columns]


Qual a porcentagem de apartamentos em Copacabana que possuem valores acima da média dos demais bairros?

In [15]:
# Calcula a média de preços dos apartamentos em todos os bairros
mediaGeral = rioAptos['preco'].mean()

# Filtra os apartamentos em Copacabana
aptosCopacabana = rioAptos[rioAptos['bairro'] == 'Copacabana']

# Calcula a média de preços dos apartamentos em Copacabana
mediaCopacabana = aptosCopacabana['preco'].mean()

# Calcula a porcentagem de apartamentos em Copacabana com preços acima da média geral
porcentagem = (aptosCopacabana[aptosCopacabana['preco'] > mediaGeral].count()['preco'] / aptosCopacabana.count()['preco']) * 100

# Imprime a porcentagem
print(porcentagem)

30.924855491329478


## Referências

[MCKINNEY, Wes et al. Data structures for statistical computing in python. In: Proceedings of the 9th Python in Science Conference. 2010. p. 51-56.](http://conference.scipy.org/proceedings/scipy2010/pdfs/mckinney.pdf)  


### Outros materiais
- [Data Hackers: Seus primeiros passos como Data Scientist: Introdução ao Pandas](https://medium.com/data-hackers/uma-introdução-simples-ao-pandas-1e15eea37fa1)  
- [Pandas API Reference](https://pandas.pydata.org/pandas-docs/stable/reference/index.html)