# Aula 03 - Manipulação dos dados

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import matplotlib.pylab as plt
%matplotlib inline
plt.style.use('seaborn-whitegrid')
plt.rc('text', usetex=True)
plt.rc('font', family='times')
plt.rc('xtick', labelsize=10)
plt.rc('ytick', labelsize=10)
plt.rc('font', size=12)

In [None]:
!pip install latex

## Leitura de dados tabulares



In [None]:
!cat files/educ_figdp_1_Data.csv

In [2]:
edu = pd.read_csv('educ_figdp_1_Data.csv',
                  na_values=':', usecols=['TIME', 'GEO', 'Value'])
edu

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.00
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
...,...,...,...
379,2007,Finland,5.90
380,2008,Finland,6.10
381,2009,Finland,6.81
382,2010,Finland,6.85


## Visualização dos dados

In [3]:
edu.head()

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95


In [None]:
edu.tail()

In [None]:
edu.columns 

In [4]:
edu.index

RangeIndex(start=0, stop=384, step=1)

In [5]:
edu.values

array([[2000, 'European Union (28 countries)', nan],
       [2001, 'European Union (28 countries)', nan],
       [2002, 'European Union (28 countries)', 5.0],
       ...,
       [2009, 'Finland', 6.81],
       [2010, 'Finland', 6.85],
       [2011, 'Finland', 6.76]], dtype=object)

In [6]:
edu.describe()

Unnamed: 0,TIME,Value
count,384.0,361.0
mean,2005.5,5.203989
std,3.456556,1.021694
min,2000.0,2.88
25%,2002.75,4.62
50%,2005.5,5.06
75%,2008.25,5.66
max,2011.0,8.81


## Seleção


In [7]:
edu['Value']

0       NaN
1       NaN
2      5.00
3      5.03
4      4.95
       ... 
379    5.90
380    6.10
381    6.81
382    6.85
383    6.76
Name: Value, Length: 384, dtype: float64

In [8]:
edu[10:14]

Unnamed: 0,TIME,GEO,Value
10,2010,European Union (28 countries),5.41
11,2011,European Union (28 countries),5.25
12,2000,European Union (27 countries),4.91
13,2001,European Union (27 countries),4.99


In [9]:
edu.loc[300]

TIME        2000
GEO      Austria
Value       5.66
Name: 300, dtype: object

## Filtragem

In [None]:
edu['Value'] > 7.0

In [None]:
edu[edu['Value'] > 7.0].tail()

## Filtrar valores faltantes

In [None]:
edu[edu['Value'].isnull()].tail()

## Manipulando dados

Uma vez que sabemos como selecionar os dados desejados, a próxima coisa que precisamos saber é como manipular os dados. Uma das coisas mais simples que podemos fazer é operar com colunas ou linhas usando funções de agregação. A lista a seguir mostra as funções de agregação mais comuns.

| Function  | Description | 
|-----------|-------------|
| count()   |Número de observações não nulas|  
| sum()     |Soma dos valores|
| mean()    |Média dos valores            | 
| median()  |Mediana dos valores             |
| min()     |valo mínimo|
| max()     |Valor máximo|
| prod()    |Produto dos valores|
| std()     |Desvio padrão|
| var()     |Variância|

O resultado de todas essas funções aplicadas a uma linha ou coluna é sempre um número. Enquanto isso, se uma função for aplicada a um DataFrame ou a uma seleção de linhas e colunas, você pode especificar se a função deve ser aplicada às linhas de cada coluna (colocando a palavra-chave **axis = 0** na chamada função), ou deve ser aplicado nas colunas de cada linha (colocando a palavra-chave **axis = 1** na chamada da função).

In [None]:
edu.max(axis=0)

In [None]:
print('Pandas max function:', edu['Value'].max())

In [None]:
s = edu['Value'] / 100
s.head()

Podemos aplicar qualquer função a um DataFrame ou Series apenas colocando seu nome como argumento do método *apply*. Por exemplo, no código a seguir, aplicamos a função *sqrt* da biblioteca numpy para calcular a raiz quadrada de cada valor na coluna 'Value'.

In [None]:
s = edu['Value'].apply(np.sqrt)
s.head()

Se precisarmos aplicar uma função específica, podemos escrever uma função *in-line*, comumente conhecida como função-𝜆. Uma função-𝜆 é uma função sem nome. É necessário apenas especificar os parâmetros que ela recebe e usar a palavra-chave lambda. No próximo exemplo, apenas um parâmetro é necessário, que será o valor de cada elemento na coluna 'Value'. O valor que a função retorna será o quadrado desse valor

In [None]:
s = edu['Value'].apply(lambda d: d**2)
s.head()

### Normalização

Outra operação básica de manipulação é definir novos valores em nosso DataFrame. Isso pode ser feito diretamente usando o operador de atribuição = em um DataFrame. Isso produzirá uma nova coluna no DataFrame após todas as outras. Você deve estar ciente de que se já existir uma coluna com o mesmo nome, os valores anteriores serão substituídos. No exemplo a seguir, criamos uma nova colun que resulta da divisão da coluna 'Value' pelo valor máximo da mesma, criando uma nova coluna chamada 'ValueNorm'.

In [None]:
edu['ValueNorm'] = edu['Value'] / edu['Value'].max()
edu.tail()

In [None]:
edu.drop('ValueNorm', axis=1, inplace=True)
edu.head()

### Concatenação de linhas

In [None]:
edu = edu.append({'TIME': 2000, 'Value': 5.00, 'GEO': 'abc'}, ignore_index=True)
edu.tail()

### Remoção de linhas

In [None]:
edu.drop(max(edu.index), axis=0, inplace=True)
edu.tail()

In [None]:
eduDrop = edu.dropna(how='any', subset=['Value'], axis=0)
eduDrop.head()

In [None]:
eduFilled = edu.fillna(value={'Value': 0})
eduFilled.head()

## Ordenação

In [None]:
edu.sort_values(by='Value', ascending=False, inplace=True)
edu.head()

In [None]:
edu.sort_index(axis=0, ascending=True, inplace=True)
edu.head()

## Agrupamento de dados

In [None]:
group = edu[['GEO', 'Value']].groupby('GEO').mean()
group.head()

## Reorganizando dados


Até agora, nossos índices eram apenas uma numeração de linhas sem muito significado. Podemos transformar a disposição de nossos dados, redistribuindo os índices e colunas para uma melhor manipulação dos dados, o que normalmente leva a um melhor desempenho. Podemos reorganizar os dados usando a função pivot_table. Aqui, podemos especificar quais colunas serão os novos índices, os novos valores e as novas colunas.

Por exemplo, imagine que queremos transformar nosso DataFrame em uma estrutura semelhante a uma planilha com os nomes dos países como o índice, enquanto as colunas serão os anos começando em 2006 e os valores serão a coluna 'Valor' anterior. Para fazer isso, primeiro precisamos filtrar os dados e, em seguida, dinamizá-los desta forma:

In [None]:
edu

In [None]:
filtered_data = edu[edu['TIME'] > 2005]
pivedu = pd.pivot_table(filtered_data, values='Value',
                        index=['GEO'], columns=['TIME'])
pivedu.head()

Agora nós podemos usar o novo índice para selecionar linhas específicas pelo rótulo, usando o operador **loc**.

In [None]:
pivedu.loc[['Spain', 'Portugal'], [2007, 2008, 2009]]

## Ranqueamento

Outro recurso de visualização útil é classificar (ranquear) os dados. Por exemplo, gostaríamos de saber como cada país é classificado por ano. Para ver isso, usaremos a função de ranqueamento do pandas. Mas, primeiro, precisamos limpar um pouco nossa tabela para que ela só tenha países reais com dados reais. Para fazer isso, primeiro eliminamos as entradas da área do Euro e encurtamos a entrada do nome Alemanha, usando a função renomear e, em seguida, eliminamos todas as linhas contendo qualquer valor nulo, usando a função dropna.

Agora podemos fazer o ranqueamento. Observe que o parâmetro **ascending = False** faz a classificação ir dos valores mais altos para os valores mais baixos. A função de ranqueamento suporta diferentes métodos de desempate, especificados com o parâmetro **method**. No nosso caso, utilizamos o primeiro método, no qual as classificações são atribuídas na ordem em que aparecem no array, evitando lacunas entre as classificações.

In [None]:
pivedu = pivedu.drop(['Euro area (13 countries)',
                      'Euro area (15 countries)',
                      'Euro area (17 countries)',
                      'Euro area (18 countries)',
                      'European Union (25 countries)',
                      'European Union (27 countries)',
                      'European Union (28 countries)'
                      ], axis=0)
pivedu = pivedu.rename(
    index={'Germany (until 1990 former territory of the FRG)': 'Germany'})
pivedu = pivedu.dropna()
pivedu.rank(ascending=False, method='first').head()

Se quisermos fazer um ranking global levando em consideração todos os anos, podemos somar todas as colunas e classificar o resultado. Em seguida, podemos classificar os valores resultantes para recuperar os 5 principais países dos últimos 6 anos, desta forma:

In [None]:
totalSum = pivedu.sum(axis=1)
totalSum.rank(ascending=False, method='dense').sort_values()

## Geração de gráficos

DataFrames e Series podem ser plotados usando a função plot, que usa a biblioteca Matplotlib.

Por exemplo, se quisermos plotar os valores acumulados para cada país nos últimos 6 anos, podemos pegar a Série obtida no exemplo anterior e plotar diretamente chamando a função plot.

Observe que se quisermos que as barras sejam ordenadas do valor mais alto ao mais baixo, precisamos primeiro classificar os valores na Série. O parâmetro **kind** usado na função de plot define que tipo de gráfico será usado. No nosso caso, um gráfico de barras. O parâmetro **style** se refere às propriedades de estilo do gráfico, em nosso caso, a cor das barras é definida como b (azul). O parâmetro **alfa** pode ser incluído por meio de um parâmetro que define uma porcentagem, produzindo um gráfico mais translúcido. Finalmente, usando a palavra-chave **title**, o nome do gráfico é definido.

In [None]:
fig = plt.figure(figsize=(12, 5))
totalSum = pivedu.sum(axis=1).sort_values(ascending=False)
totalSum.plot(kind='bar', style='b', alpha=0.4,
              title='Valores totais por pais')
plt.savefig('plots/Totalvalue_Country.png', dpi=300, bbox_inches='tight')

Também é possível plotar um DataFrame diretamente. Nesse caso, cada coluna é tratada como uma série separada. Por exemplo, em vez de imprimir o valor acumulado ao longo dos anos, podemos representar graficamente o valor de cada ano.

Neste caso, usamos um gráfico de barras horizontal **(kind = 'barh')** empilhando todos os anos na mesma barra do país. Isso pode ser feito definindo o parâmetro **stacked** como True. O número de cores padrão em um gráfico é apenas 5, portanto, se você tiver mais de 5 séries para mostrar, será necessário especificar mais cores ou, caso contrário, o mesmo conjunto de cores será usado novamente. Podemos definir um novo conjunto de cores usando a palavra-chave **color** com uma lista de cores. As cores básicas têm um código de um único caractere atribuído a cada uma delas, por exemplo, 'b' para azul, 'r' para vermelho, 'g' para verde, 'y' para amarelo, 'm' para magenta e 'c' para ciano. Quando várias séries são mostradas em um gráfico, uma legenda é criada para identificar cada uma. O nome de cada série é o nome da coluna no DataFrame. Por padrão, a legenda fica dentro da área de plotagem. Se quisermos alterar, podemos usar a função de legenda do objeto de eixo (esse é o objeto retornado quando a função de gráfico é chamada). Usando a palavra-chave **loc**, podemos definir a posição relativa da legenda em relação ao gráfico. Pode ser uma combinação de direita ou esquerda e superior, inferior ou central. Com bbox_to_anchor podemos definir uma posição absoluta em relação ao gráfico, o que nos permite colocar a legenda fora do gráfico.

In [None]:
my_colors = ['b', 'r', 'g', 'y', 'm', 'c']
ax = pivedu.plot(kind='barh', stacked=True, color=my_colors, figsize=(12, 6))
ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))
plt.savefig('plots/Value_Time_Country.png', dpi=300, bbox_inches='tight')