# Manipulação de Dados com Pandas P2

In [221]:
# Importamos as bibliotecas necessárias
import pandas as pd
import numpy as np
import numba
# Carregando os dados
weather = pd.read_csv('https://raw.githubusercontent.com/chendaniely/scipy-2019-pandas/master/data/weather.csv')

In [187]:
# Imprimindo as 10 primeiras linhas
weather.head(10)

Unnamed: 0,id,year,month,element,d1,d2,d3,d4,d5,d6,...,d22,d23,d24,d25,d26,d27,d28,d29,d30,d31
0,MX17004,2010,1,tmax,,,,,,,...,,,,,,,,,27.8,
1,MX17004,2010,1,tmin,,,,,,,...,,,,,,,,,14.5,
2,MX17004,2010,2,tmax,,27.3,24.1,,,,...,,29.9,,,,,,,,
3,MX17004,2010,2,tmin,,14.4,14.4,,,,...,,10.7,,,,,,,,
4,MX17004,2010,3,tmax,,,,,32.1,,...,,,,,,,,,,
5,MX17004,2010,3,tmin,,,,,14.2,,...,,,,,,,,,,
6,MX17004,2010,4,tmax,,,,,,,...,,,,,,36.3,,,,
7,MX17004,2010,4,tmin,,,,,,,...,,,,,,16.7,,,,
8,MX17004,2010,5,tmax,,,,,,,...,,,,,,33.2,,,,
9,MX17004,2010,5,tmin,,,,,,,...,,,,,,18.2,,,,


In [188]:
# Vejamos a dimensão de nosso DataFrame em (linhas, colunas)
weather.shape

(22, 35)

In [189]:
# Vamos utilizar a função melt para transformar cada variável dn em uma observação
# Observe que o número de linhas de nosso DataFrame irá aumentar consideravelmente
weather_long = weather.melt(id_vars=['id','year','month','element'], var_name='day', value_name='temp')

In [190]:
weather_long.head(10)

Unnamed: 0,id,year,month,element,day,temp
0,MX17004,2010,1,tmax,d1,
1,MX17004,2010,1,tmin,d1,
2,MX17004,2010,2,tmax,d1,
3,MX17004,2010,2,tmin,d1,
4,MX17004,2010,3,tmax,d1,
5,MX17004,2010,3,tmin,d1,
6,MX17004,2010,4,tmax,d1,
7,MX17004,2010,4,tmin,d1,
8,MX17004,2010,5,tmax,d1,
9,MX17004,2010,5,tmin,d1,


In [191]:
weather_long.shape # Agora temos 682 linhas

(682, 6)

Uma **pivot table** é uma tabela de estatísticas que resume os dados de uma tabela mais extensa (como de um banco de dados, planilha ou programa de inteligência de negócios). Este resumo pode incluir somas, médias ou outras estatísticas, que a tabela dinâmica agrupa de maneira significativa.

As tabelas dinâmicas são uma técnica no processamento de dados. Eles permitem que uma pessoa organize e reorganize (ou "gire") as estatísticas para chamar a atenção para informações úteis.

Embora a tabela dinâmica seja um termo genérico, a Microsoft registrou a Tabela Dinâmica nos Estados Unidos em 1994

A função `pivot_table()` nos permitirá preservar os índices 'id','year','month','day'

Vamos transformar os elementos da coluna **element** em duas colunas, respectivamente **tmax** e **tmin** e eliminaremos os valores nulos

In [192]:
pivot = (weather_long.pivot_table(index=['id','year','month','day'], columns='element', values='temp').reset_index())

In [193]:
pivot.head()

element,id,year,month,day,tmax,tmin
0,MX17004,2010,1,d30,27.8,14.5
1,MX17004,2010,2,d11,29.7,13.4
2,MX17004,2010,2,d2,27.3,14.4
3,MX17004,2010,2,d23,29.9,10.7
4,MX17004,2010,2,d3,24.1,14.4


# Exercícios

Carregando três tabelas para praticarmos

In [194]:
tabela1 = pd.read_csv('https://raw.githubusercontent.com/chendaniely/scipy-2019-pandas/master/data/table1.csv')
tabela2 = pd.read_csv('https://raw.githubusercontent.com/chendaniely/scipy-2019-pandas/master/data/table2.csv')
tabela3 = pd.read_csv('https://raw.githubusercontent.com/chendaniely/scipy-2019-pandas/master/data/table3.csv')

### Observando os Dados

In [195]:
tabela1.head()

Unnamed: 0,country,year,cases,population
0,Afghanistan,1999,745,19987071
1,Afghanistan,2000,2666,20595360
2,Brazil,1999,37737,172006362
3,Brazil,2000,80488,174504898
4,China,1999,212258,1272915272


In [196]:
tabela2

Unnamed: 0,country,year,type,count
0,Afghanistan,1999,cases,745
1,Afghanistan,1999,population,19987071
2,Afghanistan,2000,cases,2666
3,Afghanistan,2000,population,20595360
4,Brazil,1999,cases,37737
5,Brazil,1999,population,172006362
6,Brazil,2000,cases,80488
7,Brazil,2000,population,174504898
8,China,1999,cases,212258
9,China,1999,population,1272915272


Novamente utlizamos a função `pivot_table()` preservando os índices **country** e **year** e transformando as entradas da coluna **type** em duas colunas: respectivamente **cases** e **population**

In [151]:
tabela2.pivot_table(index=['country','year'], columns='type', values='count').reset_index()

type,country,year,cases,population
0,Afghanistan,1999,745,19987071
1,Afghanistan,2000,2666,20595360
2,Brazil,1999,37737,172006362
3,Brazil,2000,80488,174504898
4,China,1999,212258,1272915272
5,China,2000,213766,1280428583


In [152]:
tabela3

Unnamed: 0,country,year,rate,population,pop2
0,Afghanistan,1999,745/19987071,19987071,19987071
1,Afghanistan,2000,2666/20595360,20595360,20595360
2,Brazil,1999,37737/172006362,172006362,172006362
3,Brazil,2000,80488/174504898,174504898,174504898
4,China,1999,212258/1272915272,1272915272,1272915272
5,China,2000,213766/1280428583,1280428583,1280428583


Vamos utilizar o método `split()` nos elementos da coluna **rate** de forma a extrairmos somente o valor da população, para isso o usar o separador `/` e selecionar apenas o segundo valor, que representa a **population**, atribuiremos esse valor à coluna de nome **population**

In [153]:
tabela3['population'] = tbl3['rate'].str.split('/').str.get(1)

In [154]:
tabela3

Unnamed: 0,country,year,rate,population,pop2
0,Afghanistan,1999,745/19987071,19987071,19987071
1,Afghanistan,2000,2666/20595360,20595360,20595360
2,Brazil,1999,37737/172006362,172006362,172006362
3,Brazil,2000,80488/174504898,174504898,174504898
4,China,1999,212258/1272915272,1272915272,1272915272
5,China,2000,213766/1280428583,1280428583,1280428583


In [155]:
# Vejamos os tipos de dados
tabela3.dtypes

country       object
year           int64
rate          object
population    object
pop2          object
dtype: object

Vamos definir uma função capaz de extrair a população

In [156]:
def extract_population(rate):
    pop = rate.split('/')[1]
    return pop

In [159]:
# Testamos nossa função
assert extract_population('123/456') == '456'

In [160]:
# Aplicamos a nossa função na coluna rate
tabela3['rate'].apply(extract_population)

0      19987071
1      20595360
2     172006362
3     174504898
4    1272915272
5    1280428583
Name: rate, dtype: object

In [161]:
# Podemos criar uma nova coluna chamada pop2 que receberá os valores da population
tabela3['pop2'] = tbl3['rate'].apply(extract_population)

In [162]:
tabela3

Unnamed: 0,country,year,rate,population,pop2
0,Afghanistan,1999,745/19987071,19987071,19987071
1,Afghanistan,2000,2666/20595360,20595360,20595360
2,Brazil,1999,37737/172006362,172006362,172006362
3,Brazil,2000,80488/174504898,174504898,174504898
4,China,1999,212258/1272915272,1272915272,1272915272
5,China,2000,213766/1280428583,1280428583,1280428583


# Funções

Definindo funções para experimentos

In [239]:
# Define uma função cubo
def cubo(x):
    return x ** 3

In [240]:
# Calcula o cubo do número 2
cubo(2)

8

In [169]:
# Testando a função
assert cubo(2) == 8

In [173]:
# Função que calcula media de dois números
def media_dois(x, y):
    return (x + y) / 2

In [172]:
media_dois(10, 20)

15.0

In [174]:
# Definindo um simples DataFrame
df = pd.DataFrame({
    'a': [10, 20, 30],
    'b': [20, 30, 40]
})

In [175]:
df

Unnamed: 0,a,b
0,10,20
1,20,30
2,30,40


In [176]:
# Elevando cada valor ao quadrado
df['a'] ** 2

0    100
1    400
2    900
Name: a, dtype: int64

In [178]:
# Aplicando a função cubo para cada valor
df['a'].apply(cubo)

0     1000
1     8000
2    27000
Name: a, dtype: int64

In [180]:
# Definindo uma simples função exponencial
def exp(x, e):
    return x ** e

In [181]:
exp(2,10)

1024

In [184]:
# Aplicamos a função exp em nossa coluna a
# Veja que passamos o valor 2 para e
df['a'].apply(exp, e=2)

0    100
1    400
2    900
Name: a, dtype: int64

Vamos agora definir uma função que será capaz de calcular a média de cada coluna do DataFrame

In [199]:
def media_calculo(d):
    return np.mean(d)

In [200]:
df.apply(media_calculo)

a    20.0
b    30.0
dtype: float64

Podemos ainda definir da seguinte forma

In [201]:
def media(col):
    x = col[0]
    y = col[1]
    z = col[2]
    return (x + y + z) / 3

In [202]:
df.apply(media)

a    20.0
b    30.0
dtype: float64

Podemos também calcular através do método `mean()` que Pandas nos fornece

In [72]:
df['a'].mean()

20.0

Somando colunas

In [73]:
df['a'] + df['b']

0    30
1    50
2    70
dtype: int64

Vejamos novamente o nosso DataFrame

In [209]:
df

Unnamed: 0,a,b
0,10,20
1,20,30
2,30,40


Vamos novamente definir uma função chamada `media_mod()` que retornará nan caso o valor de x seja 10 e para quaisquer outros valores irá executar o cálculo da média entre ambos

In [210]:
def media_mod(x, y):
    if(x == 10):
        return np.NaN
    else:
        return(x + y) / 2

In [214]:
# Vetorizamos a função media_mod()
media_mod_vec = np.vectorize(media_mod)

In [213]:
media_mod_vec(df['a'], df['b'])

array([nan, 25., 35.])

Podemos também utilizar o decorador **np.vectorize** para modificarmos nossa função

In [225]:
@np.vectorize
def media_mod_np(x, y):
    if(x == 10):
        return np.NaN
    else:
        return(x + y) / 2

Observe que nos produz o mesmo resultado

In [226]:
media_mod_np(df['a'], df['b'])

array([nan, 25., 35.])

Ou até mesmo o decorador **numba.vectorize** da biblioteca numba

In [222]:
@numba.vectorize
def media_mod_numba(x, y):
    if(x == 10):
        return np.NaN
    else:
        return(x + y) / 2

In [224]:
media_mod_numba(df['a'].values, df['b'].values)

array([nan, 25., 35.])

Medindo o desempenho de cada função, observe que conseguimos obter valores similares

In [236]:
%%timeit
media_mod_vec(df['a'], df['b'])

73.9 µs ± 6.25 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [237]:
%%timeit
media_mod_np(df['a'], df['b'])

70.3 µs ± 1.75 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [238]:
%%timeit
media_mod_numba(df['a'], df['b'])

84.6 µs ± 3.42 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
