
<hr style="margin-bottom: 40px;">

<img src="https://user-images.githubusercontent.com/7065401/75165824-badf4680-5701-11ea-9c5b-5475b0a33abf.png"
    style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>

# Pandas - DataFrame



![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## Hands on! 

In [1]:
import numpy as np
import pandas as pd

Vamos manter nossa análise nos países do G7 . Um DataFrame se parece muito com uma tabela (como a que você pode apreciar [here](https://docs.google.com/spreadsheets/d/1IlorV2-Oh9Da1JAZ7weVw86PQrQydSMp-ydVMH135iI/edit?usp=sharing)):

<img width="700" src="https://user-images.githubusercontent.com/872296/38153492-72c032ca-3443-11e8-80f4-9de9060a5127.png" />

Criar `DataFrames` manualmente pode ser tedioso. 99% do tempo você estará puxando os dados de um banco de dados, um arquivo csv ou da web. Ainda assim, você pode criar um DataFrame especificando as colunas e os valores:

In [2]:
df = pd.DataFrame({
    'Population': [35.467, 63.951, 80.94 , 60.665, 127.061, 64.511, 318.523],
    'GDP': [
        1785387,
        2833687,
        3874437,
        2167744,
        4602367,
        2950039,
        17348075
    ],
    'Surface Area': [
        9984670,
        640679,
        357114,
        301336,
        377930,
        242495,
        9525067
    ],
    'HDI': [
        0.913,
        0.888,
        0.916,
        0.873,
        0.891,
        0.907,
        0.915
    ],
    'Continent': [
        'America',
        'Europe',
        'Europe',
        'Europe',
        'Asia',
        'Europe',
        'America'
    ]
}, columns=['Population', 'GDP', 'Surface Area', 'HDI', 'Continent'])

_(O atributo `columns` é opcional. Estou usando somente para manter a mesma ordem da imagem)_

`DataFrames` também têm índices. Como você pode ver na "tabela" acima, o pandas atribuiu um índice numérico autoincremental automaticamente a cada "linha" em nosso DataFrame. No nosso caso, sabemos que cada linha representa um país, então vamos apenas reatribuir o índice:

nome_do_dataframa.iloc[li: lj , Ci:cj]

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Indexing, Selection and Slicing

Colunas individuais no DataFrame podem ser selecionadas com indexação regular. Cada coluna é representada como uma `Série`:

Observe que o `index` da Series retornada é o mesmo do DataFrame. E seu `name` é o nome da coluna. Se você estiver trabalhando em um notebook e quiser ver um formato mais parecido com DataFrame, você pode usar o método `to_frame`:

Várias colunas também podem ser selecionadas de forma semelhante a `numpy` e `Series`:

Neste caso, o resultado é outro `DataFrame`. O fatiamento funciona de maneira diferente, ele age no "nível da linha" e pode ser contra-intuitivo:

A seleção de nível de linha funciona melhor com `loc` e `iloc` **que são recomendados** em vez do "corte direto" regular (`df[:]`).

`loc` seleciona linhas que correspondem ao índice dado:

Como segundo "argumento", você pode passar a(s) coluna(s) que deseja selecionar:

`iloc` funciona com a "posição" (numérica) do índice:

> **RECOMENDADO: Sempre use `loc` e `iloc` para reduzir a ambigüidade, especialmente com `DataFrame`s com índices numéricos.**

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Conditional selection (boolean arrays)

Vimos a seleção condicional aplicada a `Series` e funcionará da mesma forma para `DataFrame`s. Afinal, um `DataFrame` é uma coleção de `Series`:

A correspondência booleana é feita no nível do índice, para que você possa filtrar por qualquer linha, desde que contenha os índices corretos. A seleção de colunas ainda funciona como esperado:

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Dropping stuff

Em oposição ao conceito de seleção, temos o de `dropping`. Em vez de apontar quais valores você gostaria de _selecionar_, você pode apontar quais você gostaria de `drop`:

In [3]:
#axis = 1 (columns)
#axis = 0 (rows)

Todos esses métodos `drop` retornam um novo `DataFrame`. Se você quiser modificá-lo "no local", você pode usar o atributo `inplace` (há um exemplo abaixo).

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Operations

In [4]:
df["Pop/Area"] = df["Population"]/(df["Surface Area"]*1000)
df

Unnamed: 0,Population,GDP,Surface Area,HDI,Continent,Pop/Area
0,35.467,1785387,9984670,0.913,America,3.552145e-09
1,63.951,2833687,640679,0.888,Europe,9.981754e-08
2,80.94,3874437,357114,0.916,Europe,2.266503e-07
3,60.665,2167744,301336,0.873,Europe,2.013201e-07
4,127.061,4602367,377930,0.891,Asia,3.362025e-07
5,64.511,2950039,242495,0.907,Europe,2.660302e-07
6,318.523,17348075,9525067,0.915,America,3.34405e-08


**Operações com séries** funcionam no nível da coluna, transmitindo as linhas (o que pode ser contra-intuitivo).

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Modifying DataFrames

É simples e intuitivo, você pode adicionar colunas ou substituir valores por colunas sem problemas:

### Adicionar uma nova coluna

In [5]:
df = pd.DataFrame({
    'Population': [35.467, 63.951, 80.94 , 60.665, 127.061, 64.511, 318.523],
    'GDP': [
        1785387,
        2833687,
        3874437,
        2167744,
        4602367,
        2950039,
        17348075
    ],
    'Surface Area': [
        9984670,
        640679,
        357114,
        301336,
        377930,
        242495,
        9525067
    ],
    'HDI': [
        0.913,
        0.888,
        0.916,
        0.873,
        0.891,
        0.907,
        0.915
    ],
    'Continent': [
        'America',
        'Europe',
        'Europe',
        'Europe',
        'Asia',
        'Europe',
        'America'
    ]
}, columns=['Population', 'GDP', 'Surface Area', 'HDI', 'Continent'])

In [6]:
langs = pd.Series(
    ['French', 'German', 'Italian'],
    index=['France', 'Germany', 'Italy'],
    name='Language'
)

---
### Modificar valores de coluna

---
### Renomear colunas


---
### Dropping columns

---
### Adding values

Adiciona e retorna um novo `DataFrame`:

Você pode definir diretamente o novo índice e os valores para o `DataFrame`:

Podemos usar `drop` para apenas remover uma linha por índice:

---
### Mudanças de índice mais radicais

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Creating columns from other columns

A alteração de um DataFrame geralmente envolve a combinação de diferentes colunas em outra. Por exemplo, em nossa análise de países, poderíamos tentar calcular o "PIB per capita", que é apenas `PIB / População`.

A maneira regular dos pandas de expressar isso é apenas dividir cada série:

O resultado dessa operação é apenas mais uma série que você pode adicionar ao `DataFrame` original:

![green-divider](https://user-images.githubusercontent.com/7065401/52071924-c003ad80-2562-11e9-8297-1c6595f8a7ff.png)

## Statistical info

Você já viu o método `describe`, que lhe dá um bom "resumo" do `DataFrame`. Vamos explorar outros métodos com mais detalhes:

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)
