## Introdução ao Pandas

O comando abaixo permite instalar bibliotecas de terceiros do Python diretamente do notebook, sem a necessidade de abrir o terminal/CMD do sistema operacional.

O uso da exclamação (`!`) no começo do comando informa ao juputer notebook para executar o comando no sistema operacional.

In [None]:
#!pip install pandas

### Carregando o conjunto de dados

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('dados.tsv', sep='\t')

In [None]:
print(type(df))

Podemos obter o número de linhas e de colunas.


In [None]:
df.shape

Podemos utilizar o atributo columns para recuperar o nome de todas as colunas.

In [None]:
print(df.columns)

Podemos visualizar os tipos (dtypes) de cada coluna.

In [None]:
print(df.dtypes)

Por fim, podemos obter mais informações sobre nossos dados.

In [None]:
print(df.info())

### Observando as colunas, linhas e células

In [None]:
# Mostrar as 5 primeiras linhas
df.head()

In [None]:
# Mostrar as 5 últimas linhas
df.tail()

Podemos selecionar várias colunas pelo nome. Para isso temos que passar uma lista. Ou seja, terá dois conjuntos de colchetes.

In [None]:
sub_conj = df[['pais', 'continente', 'ano']]

In [None]:
sub_conj.head()

#### iloc

Podemos usar o método ```.iloc``` do DataFrame para obter um subconjunto de linhas com base nos índices (número das linhas).

In [None]:
df.iloc[0]

In [None]:
df.iloc[[0, 99, 999]]

In [None]:
df.iloc[-1]

#### loc

Podemos usar o método ```.loc``` do DataFrame para obter um subconjunto de linhas com base no rótulo dos índices.

In [None]:
df.loc[0]

Para selecionar mais de uma linha, podemos passar uma lista Python com os rótulos (nomes) das linhas.

In [None]:
df.loc[[0, 99, 999]]

In [None]:
# Esse comando irá gerar um erro!
df.loc[-1]

Como vimos anteriormente, utilizar o -1 para recuperar o último elemento funciona apenas com o método iloc, uma vez que estamos indexando. Quando acessamos pelo nome, ele irá procurar o nome -1 e não o índice. Para recuperar o último elemento podemos utilizar um pequeno código Python para identificar o último índice.

In [None]:
qtde_linhas = df.shape[0]

ultimo_idx = qtde_linhas - 1

In [None]:
print(ultimo_idx)

In [None]:
df.loc[ultimo_idx]

Podemos confirmar com o método tail.

In [None]:
df.tail(n=1)

**<span style="color:RED">ATENÇÃO</span>**

Em nosso conjunto de dados, tanto o índice explicito (nome) e o índice implicito (número) são os mesmos, mas temos que ter atenção que eles podem ser diferentes.

Considere o seguinte exemplo:

In [None]:
s1 = pd.Series(['a', 'b', 'c'], index=[1,3,5])
s1

Note que quando utilizamos o loc e o iloc o resultado é diferente para ambos. Veja:

In [None]:
s1.loc[1]

In [None]:
s1.iloc[1]

O mesmo acontece quando estamos fatiando (recuperando um subconjunto):

In [None]:
# Nesse caso o intervalo fim faz parte!
s1.loc[1:3]

In [None]:
s1.iloc[1:3]

### Combinando colunas e linhas

Para obter um subconjunto de colunas com loc podemos utilizar a posição dois pontos ```:``` que é utilizado para selecionar todas as linhas.

In [None]:
df_aux = df.loc[:, ['ano', 'populacao']]

In [None]:
df_aux.head()

No caso do .iloc, para a seleção da coluna, é necessário utilizar inteiros como valor (sendo o indice da coluna). Nesse caso, o -1 funciona para recuperar a última coluna.

In [None]:
df_aux = df.iloc[:, [2, 4, -1]]
df_aux.head()

Também podemos utilizar a função range para gerar os intervalos para recuperar as colunas pelo indice.

In [None]:
df_aux = df.iloc[:, list(range(0, 3))]
df_aux.head()

**<span style="color:blue">RESPONDA:</span>** O que acontecerá se especificar um intervalo (0, 100) que estiver além do número de colunas existentes?

**<span style="color:green">RESPOSTA:</span>** Clique **duas vezes** nessa cédula e adicione a sua resposta aqui:

    Um erro de Index será gerado. Uma vez que só existem 6 colunas.

**<span style="color:red">EXERCÍCIO:</span>** Teste para os seguintes cenários:

    df.iloc[:, ::]
    df.iloc[:, :2]
    df.iloc[:4, :4]

In [None]:
df.iloc[:, ::]

In [None]:
df.iloc[:, :2]

In [None]:
df.iloc[:4, :4]

### Obtendo subconjuntos de linhas e de colunas

In [None]:
df.loc[42, 'pais']

In [None]:
df.iloc[42, 0]

Também, podemos acessar diversas linhas e colunas ao mesmo tempo

In [None]:
df.loc[[42, 111, 0], ['ano', 'pib', 'pais']]

In [None]:
df.iloc[[42, 111, 0], [0, 1 , 2]]

### Cálculos estatísticos básicos

Podemos realizar diversos cálculos estatísticos básicos para realizar algumas análises iniciais.

In [None]:
df.head(n=10)

Com base nos dados, podemos pensar em algumas perguntas:

    - Para cada ano, qual era a expectativa de vida média? 
    - Qual é a expectativa de vida média, a população e o PIB?
    -  E se agruparmos por ano e continente qual é expectativa de vida média, a população média e o PIB médio?
    - Quantos paises estão listados em cada continente?
    
Para responder essas perguntas podemos utilizar o método ```groupby``` nos DataFrames.

In [None]:
# Para cada ano, qual era a expectativa de vida média?
df_ex1 = df.groupby('ano').mean()
df_ex1 = df_ex1['expectativa vida']
df_ex1

In [None]:
# Essa opção do pandas format os tipos floats com quatro casas decimais.
pd.options.display.float_format = "{:.6f}".format

In [None]:
# Qual é a expectativa de vida média, a população média e o PIB médio?
df_ex2 = df.groupby('ano').mean()
df_ex2

In [None]:
# E se agruparmos por ano e continente qual é expectativa de vida média, a população média e o PIB médio?
df_ex3 = df.groupby(['ano', 'continente']).mean()
df_ex3

In [None]:
df_achatado = df_ex3.reset_index()
df_achatado

**<span style="color:blue">RESPONDA:</span>** A ordem da lista que utilizamos para agrupar os dados importa?

**<span style="color:green">RESPOSTA:</span>** Clique **duas vezes** nessa cédula e adicione a sua resposta aqui:

    Nenhum erro será gerado. A ordem impacta na análise que estamos fazendo. Pois podemos observar a evolução de cada ano em cada continente, mas também podemos observar a evolução de cada continente durante os anos analisados.

In [None]:
# Quantos paises estão listados em cada continente?
df.groupby('continente').nunique()['pais']

In [None]:
df.groupby('continente')

In [None]:
df.groupby('continente')['pais']

In [None]:
df.groupby('continente')['pais'].unique()

Além disso, podemos utilizar o método describe para recuperar as estatísticas básicas das variáveis numéricas.

In [None]:
df.describe()