# <font color="blue"> MBA em Ciência de Dados</font>
# <font color="blue">Programação para Ciência de Dados</font>

## <font color="blue">Pandas Parte III</font>
**Material Produzido por Luis Gustavo Nonato e Bruno Coelho**<br>
**Cemeai - ICMC/USP São Carlos**
---


__Conteúdo:__
- GroupBy
    - Agregação
    - Filtragem
    - Transformação

__Referências__ <br>
- [Pandas: powerful Python data analysis toolkit: Wes McKinney & PyData Devel. Team](https://pandas.pydata.org/pandas-docs/stable/pandas.pdf)
- [http://pandas.pydata.org/pandas-docs/stable/index.html](http://pandas.pydata.org/pandas-docs/stable/index.html)


## Introdução

Frequentemente queremos aplicar transformações e filtragens  em um conjunto de dados a fim de extrair informações relevantes e padrões contidos nos dados. Por exemplo, analisar o salário médio de um grupo de profissionais considerando o sexo e a faixa etária dos profissionais.
Muitas destas transformações podem ser realizadas por meio de uma operação denominada _MapReduce_.

_MapReduce_ é implementada no pacote <font color='blue'>Pandas</font> por meio do método <font color='blue'>groupby</font>.

Em geral, o método <font color='blue'>groupby</font> envolve 3 tarefas:
- __Split__: Divide os dados em subgrupos. Por exemplo, divide os profissionais em subgrupos de acordo com a faixa etária dos profissionais.
- __Apply__: Aplica alguma transformação, agregação ou filtragem para extrair informações de cada subgrupo. Por exemplo, pode-se calcular a média salarial em cada faixa etária dos profissionais.
- __Combine__: Combina os resultados das transformações em um DataFrame ou Série.


$$
\begin{array}{ccccc}
DataFrame & & Split & Apply & Combine\\
\begin{array}{c|c}
C1 & C2 \\ \hline
A & 0 \\ \hline
B & 5 \\ \hline
C & 10 \\ \hline
A & 5 \\ \hline
B & 5 \\ \hline
C & 10 \\ \hline
A & 10 \\ \hline
B & 5 \\ \hline
C & 10 
\end{array} &
\begin{array}{c}
\nearrow \\ \\
\rightarrow \\ \\
\searrow
\end{array} &
\begin{array}{c|c}
A & 0 \\ \hline
A & 5 \\ \hline
A & 10 \\ \\
B & 5 \\ \hline
B & 5 \\ \hline
B & 5 \\ \\
C & 10 \\ \hline
C & 10 \\ \hline
C & 10 
\end{array} &
\begin{array}{c}
\searrow\\ \\
\rightarrow \\ \\
\nearrow
\end{array} & 
\begin{array}{c|c}
A & 15 \\ \hline
B & 15 \\ \hline
C & 30 
\end{array}
\end{array}
$$

A etapa de "split" divide um conjunto de dados de acordo com algum critério, que pode ser valores das colunas do DataFrame, lista de valores externos ou até mesmo o resultado de uma função. 

Na verdade, o  <font color='blue'>pandas</font> não divide o DataFrame, mas cria uma estrutura que permite operar como se os dados estivessem divididos, evitando o uso excessivo de memória.

Portanto, é importante estar atento, pois o resultado de aplicar o método <font color='blue'>groupby</font> não é um novo DataFrame (ou Serie), mas sim um objeto do tipo `groupby`.
Para visualizar ou acessar os grupos criados pode-se realizar uma redução (que é o resultado do "apply" e "combine") ou utilizar algum método do objeto `groupby`, como por exemplo:
- <font color='blue'>first()</font>: apresenta a primeira linha de cada grupo formado
- <font color='blue'>get_group()</font>: retorna um DataFrame com o conteúdo de um grupo
- <font color='blue'>groups()</font>: retorna um dicionário onde as chaves são os rótulos dos grupos e os valores os índices das linhas onde elementos do grupo ocorrem



In [1]:
# Importando o pacote 'pandas' e 'numpy'
import pandas as pd
import numpy as np

# O comando abaixo carrega o arquivo 'tips.csv' disponível no moodle
df = pd.read_csv("tips.csv")
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [2]:
# Agrupando os dados de acordo com os valores da coluna "sex"

dfgb_sex = df.groupby("sex")

# Perceba que a variável 'df_sex' não é um DataFrame, mas sim 
# um 'DataFrameGroupBy'
print(type(dfgb_sex))

<class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [3]:
# visualizando a primeira linha de cada grupo
print(type(dfgb_sex.first()))  # note que ao invocar o método first() obtemos um DataFrame
print('\n primeira linha cada grupo:\n',dfgb_sex.first())  # note que os rótulos das linhas são
                                                           # os grupos obtidos

<class 'pandas.core.frame.DataFrame'>

 primeira linha cada grupo:
         total_bill   tip smoker  day    time  size
sex                                               
Female       16.99  1.01     No  Sun  Dinner     2
Male         10.34  1.66     No  Sun  Dinner     3


In [4]:
# visualizando as primeiras linhas do grupo 'Male'
print('\n',type(dfgb_sex.get_group('Male')))  # o resultado do get_group é um DataFrame
print('\n primeiras linhas do grupo "Male":\n',
      dfgb_sex.get_group('Male').head())


 <class 'pandas.core.frame.DataFrame'>

 primeiras linhas do grupo "Male":
    total_bill   tip smoker  day    time  size
1       10.34  1.66     No  Sun  Dinner     3
2       21.01  3.50     No  Sun  Dinner     3
3       23.68  3.31     No  Sun  Dinner     2
5       25.29  4.71     No  Sun  Dinner     4
6        8.77  2.00     No  Sun  Dinner     2


In [5]:
# o método 'groups' retorna um dicionário onde as chaves 
# são os rótulos dos grupos formados e os valores são os índices das linhas
# onde os elementos do grupo estão
print('\n',type(dfgb_sex.groups))  # o resutlado de groups é um dicionário
print('\n rótulos dos grupos:\n',dfgb_sex.groups.keys())  # as chaves são os rótulos dos grupos
print('\n indices de alguns elementos do grupo "Female":\n',
      dfgb_sex.groups['Female'][0:5])


 <class 'dict'>

 rótulos dos grupos:
 dict_keys(['Female', 'Male'])

 indices de alguns elementos do grupo "Female":
 Int64Index([0, 4, 11, 14, 16], dtype='int64')


#### Agrupando de acordo com uma lista externa
O método <font color='blue'>groupby</font> pode agrupar um DataFrame de acordo com uma lista externa (que não é parte do DataFrame). Para isso, a lista deve possuir um número de elementos igual ao número de linhas do DataFrame.

In [8]:
# Construindo DataFrame a partir de um dicionário
df = pd.DataFrame({'key1': ['a','a','b','b','a'],
                  'key2': ['one','two','one','two','one'], 
                  'data1': np.random.uniform(low=0,high=1,size=5),
                  'data2': np.random.uniform(low=0,high=1,size=5)})
print(df)

# criando uma lista de 0 e 1 com o mesmo número de linhas do DataFrame
ls = [i for i in np.random.randint(0,2,df.shape[0])]

#lista criada
print(ls) 

  key1 key2     data1     data2
0    a  one  0.627007  0.646393
1    a  two  0.154049  0.584975
2    b  one  0.781773  0.516191
3    b  two  0.702103  0.595320
4    a  one  0.535557  0.114555
[0, 0, 1, 0, 1]


In [9]:
# Agrupando o DataFrame de acordo com a lista 'ls'
gbylist = df.groupby(ls)

print(gbylist.get_group(0))  # linhas onde o valor 0 aparece na lista
print(gbylist.get_group(1))  # linhas onde o valor 1 aparece na lista

  key1 key2     data1     data2
0    a  one  0.627007  0.646393
1    a  two  0.154049  0.584975
3    b  two  0.702103  0.595320
  key1 key2     data1     data2
2    b  one  0.781773  0.516191
4    a  one  0.535557  0.114555


#### Agrupando com múltiplos critérios (indexação hierárquica)
Quando mais que um conjunto de valores é enviado como parâmetro para o <font color='blue'>groupby</font>, o resultado é um agrupamento com índices organizados de forma hierárquica.

In [10]:
# Construindo DataFrame a partir de um dicionário
df = pd.DataFrame({'key1': ['a','a','b','b','a','a','b','a'],
                  'key2': ['one','two','one','two','one','two','two','one'], 
                  'data1': np.random.uniform(low=0,high=1,size=8),
                  'data2': np.random.uniform(low=0,high=1,size=8)})

df

Unnamed: 0,key1,key2,data1,data2
0,a,one,0.91129,0.808003
1,a,two,0.349344,0.941401
2,b,one,0.764063,0.148236
3,b,two,0.75534,0.743198
4,a,one,0.899274,0.863887
5,a,two,0.533657,0.819069
6,b,two,0.987113,0.223732
7,a,one,0.712036,0.960838


In [11]:
# agrupando com base nos valores das colunas 'key1' e 'key2'
dfh = df.groupby(['key1','key2'])

# imprimindo o conteúdo de cada grupo com um laço for
# 'groupname' corresponde ao índice do grupo, uma tupla neste caso
# 'group' corresponde ao grupo\ própriamente dito
for groupname,group in dfh:
    print('Rotulo do Grupo: ',groupname)
    print(group,'\n')

Rotulo do Grupo:  ('a', 'one')
  key1 key2     data1     data2
0    a  one  0.911290  0.808003
4    a  one  0.899274  0.863887
7    a  one  0.712036  0.960838 

Rotulo do Grupo:  ('a', 'two')
  key1 key2     data1     data2
1    a  two  0.349344  0.941401
5    a  two  0.533657  0.819069 

Rotulo do Grupo:  ('b', 'one')
  key1 key2     data1     data2
2    b  one  0.764063  0.148236 

Rotulo do Grupo:  ('b', 'two')
  key1 key2     data1     data2
3    b  two  0.755340  0.743198
6    b  two  0.987113  0.223732 



#### Agrupando com funções
Uma função pode ser enviada como parâmetro de agrupamento para o <font color='blue'>groupby</font>. Neste caso, a função é aplicada aos rótulos das linhas do DataFrame e o resultado é utilizado como rótulo do grupo.

In [12]:
# constuindo DataFrame com rótulos de linhas e colunas
dfp = pd.DataFrame(data=np.random.randint(low=0, high=10, size=(6,5)),
               columns=['a','b','c','d','e'], 
               index=['Joe','Michel','Steve','Wes','Jim','Travis'])
dfp

Unnamed: 0,a,b,c,d,e
Joe,4,6,7,7,7
Michel,4,9,3,4,8
Steve,5,2,2,7,3
Wes,6,4,2,8,6
Jim,5,1,1,8,3
Travis,8,1,4,8,4


In [13]:
# agrupando de acordo com o número de caracteres nos rótulos das linhas
gbf = dfp.groupby(lambda x: len(x))

for name, group in gbf:
    print('Grupo: ',name)
    print(group,'\n')

Grupo:  3
     a  b  c  d  e
Joe  4  6  7  7  7
Wes  6  4  2  8  6
Jim  5  1  1  8  3 

Grupo:  5
       a  b  c  d  e
Steve  5  2  2  7  3 

Grupo:  6
        a  b  c  d  e
Michel  4  9  3  4  8
Travis  8  1  4  8  4 



# Transformações e Agregações

Em geral, temos 5 tipos de operações que podem ser aplicadas aos grupos gerados pelo <font color='blue'>groupby</font>:


- __Métodos de agregação__: Combinam várias linhas em um único valor. Exemplos incluem a média, soma e mediana de cada coluna em cada grupo.

- __Métodos de filtragem__: Retornam apenas um subconjunto dos dados originais. 

- __Métodos de tranformação__: Retornam um DataFrame com o mesmo tamanho e índices dos dados originais, mas com valores transformados com base nos grupos.

## Métodos de agregação

Pandas fornece [diversas funções](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#aggregation) estatísticas de agregação, como <font color='blue'>sum, mean, std, max, min </font>. Pode-se ainda calcular várias agregações simultaneamente com o método <font color='blue'>agg</font> (de "aggregate")

In [14]:
# Importando o pacote 'pandas'
import pandas as pd

# Carregando o arquivo 'tips.csv'
df = pd.read_csv("tips.csv")
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [15]:
# Obtendo a maior gorjeta dos grupos 'Male' e 'Female'
print("Gorjeta máxima")

# Agrupamos por sexo, depois selecionamos a coluna "tip" (gorjeta)
# e pegamos o máximo dela.
print(df.groupby(["sex"])["tip"].max())


Gorjeta máxima
sex
Female     6.5
Male      10.0
Name: tip, dtype: float64


In [16]:
# Pode-se calcular várias agregações simultaneamente via método "agg"
print("Média e Desvio Padrão das gorjetas em cada grupo:")
df.groupby(["sex"])["tip"].agg([ "mean", "std"])

Média e Desvio Padrão das gorjetas em cada grupo:


Unnamed: 0_level_0,mean,std
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,2.833448,1.159495
Male,3.089618,1.489102


**Importante**: O resultado de uma agregação, transformação ou filtragem  é um novo DataFrame onde os rótulos das linhas são os valores utilizados para realizar o agrupamento. 
Caso queiramos um DataFrame com linhas indexadas com valores $0,1,...$, devemos empregar o método <font color='blue'>reset_index</font>.

In [17]:
# Usando as colunas de agregação como índices
result = df.groupby(["sex"])["tip"].agg(["mean", "std"])
print(result,'\n')
print("Rotulos dos grupos:\n", result.index)
print("\nRotulos das colunas:\n", result.columns)

            mean       std
sex                       
Female  2.833448  1.159495
Male    3.089618  1.489102 

Rotulos dos grupos:
 Index(['Female', 'Male'], dtype='object', name='sex')

Rotulos das colunas:
 Index(['mean', 'std'], dtype='object')


In [18]:
# Reindexando com reset_index(), os rótulos se tornam uma nova coluna
result = df.groupby(["sex"])["tip"].agg(["mean", "std"]).reset_index()
print(result,'\n')
print("Rotulos dos grupos:\n", result.index)
print("\nRotulos das colunas:\n", result.columns)

      sex      mean       std
0  Female  2.833448  1.159495
1    Male  3.089618  1.489102 

Rotulos dos grupos:
 RangeIndex(start=0, stop=2, step=1)

Rotulos das colunas:
 Index(['sex', 'mean', 'std'], dtype='object')


Pode-se aplicar agregações diferentes para cada coluna com o uso de dicionário.

In [19]:
print(df.head())
# calculando a média das gorjetas, 
# o valor máximo das refeições 
# e o dia da semana mais frequente (moda) de cada grupo 'Male' e 'Female'
dfm = df.groupby(["sex"]).agg({"tip": "mean", 
                         "total_bill": "max",
                         "day": lambda x: x.mode()})


print('\n',dfm.head())

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

              tip  total_bill   day
sex                               
Female  2.833448       44.30  Thur
Male    3.089618       50.81   Sat


In [20]:
# Pode-se renomear as colunas do DataFrame gerado durante a agregação
# renomeando colunas com agg
print(df.groupby(["sex"]).agg(mean_tip=("tip", "mean"),
                              max_bill=("total_bill", "max"),
                              most_freq_day=("day", lambda x: x.mode())))

        mean_tip  max_bill most_freq_day
sex                                     
Female  2.833448     44.30          Thur
Male    3.089618     50.81           Sat


## Métodos de filtragem

O método mais comum de filtragem é o <font color='blue'>filter </font>que retorna os elementos do grupo que satisfaz uma condição dada. 

In [21]:
# Construindo DataFrame a partir de um dicionário
df = pd.DataFrame({'key1': ['a','c','b','c','a','a','b','a','c','b'],
                  'data0': np.random.uniform(low=0,high=1,size=10),
                  'data1': np.random.uniform(low=0,high=1,size=10),
                  'data2': np.random.uniform(low=0,high=1,size=10)})

df

Unnamed: 0,key1,data0,data1,data2
0,a,0.517975,0.373045,0.34902
1,c,0.237638,0.713401,0.603547
2,b,0.088928,0.219194,0.326275
3,c,0.999469,0.391202,0.048776
4,a,0.450734,0.112753,0.907612
5,a,0.038905,0.662078,0.187187
6,b,0.133389,0.726761,0.30273
7,a,0.244712,0.9384,0.010653
8,c,0.557584,0.759729,0.511679
9,b,0.910497,0.184807,0.663712


In [22]:
# média geral da coluna 'data1'
data1_mean = df['data1'].mean()
print('media da coluna "data1"\n',data1_mean)

# calculando a média de cada coluna em cada grupo dado pela coluna 'key1'
print('\nmedia de cada grupo\n',df.groupby('key1').mean())

# filtrando os grupos cuja média da coluna 'data1' é maior que a média 
# geral da coluna 'data1'
print('\n grupos cuja média da coluna "data1" é maior que a média geral de "data1"\n')
print(df.groupby('key1').filter(lambda x : x['data1'].mean() > data1_mean))

media da coluna "data1"
 0.5081371604468143

media de cada grupo
          data0     data1     data2
key1                              
a     0.313081  0.521569  0.363618
b     0.377605  0.376921  0.430906
c     0.598230  0.621444  0.388001

 grupos cuja média da coluna "data1" é maior que a média geral de "data1"

  key1     data0     data1     data2
0    a  0.517975  0.373045  0.349020
1    c  0.237638  0.713401  0.603547
3    c  0.999469  0.391202  0.048776
4    a  0.450734  0.112753  0.907612
5    a  0.038905  0.662078  0.187187
7    a  0.244712  0.938400  0.010653
8    c  0.557584  0.759729  0.511679


## Métodos de transformação

O método <font color='blue'>transform</font> retorna um DataFrame com o **mesmo número de linhas** que o DataFrame original. A transformação é realizada em cada elemento de cada grupo.

In [23]:
# Construindo DataFrame a partir de um dicionário
df = pd.DataFrame({'key1': ['a','c','b','c','a','a','b','a','c','b'],
                  'data0': np.random.uniform(low=0,high=1,size=10),
                  'data1': np.random.uniform(low=0,high=1,size=10),
                  'data2': np.random.uniform(low=0,high=1,size=10)})

df

Unnamed: 0,key1,data0,data1,data2
0,a,0.967494,0.081787,0.962882
1,c,0.052489,0.88509,0.416153
2,b,0.202805,0.181397,0.578419
3,c,0.692162,0.356558,0.285763
4,a,0.726301,0.884525,0.714415
5,a,0.802088,0.265947,0.817542
6,b,0.403259,0.609231,0.544172
7,a,0.862732,0.98854,0.678309
8,c,0.77912,0.838887,0.925892
9,b,0.664307,0.760139,0.47484


In [24]:
# Calcula a diferença entre a média do grupo e 
# o elemento do grupo (em cada coluna)
print('média de cada grupo\n',df.groupby("key1").mean())

df[['d1','d2','d3']] = df.groupby("key1").transform(lambda x: x-x.mean())
print('\n',df)

média de cada grupo
          data0     data1     data2
key1                              
a     0.839654  0.555200  0.793287
b     0.423457  0.516922  0.532477
c     0.507924  0.693512  0.542603

   key1     data0     data1     data2        d1        d2        d3
0    a  0.967494  0.081787  0.962882  0.127840 -0.473413  0.169595
1    c  0.052489  0.885090  0.416153 -0.455434  0.191578 -0.126450
2    b  0.202805  0.181397  0.578419 -0.220652 -0.335525  0.045942
3    c  0.692162  0.356558  0.285763  0.184238 -0.336954 -0.256839
4    a  0.726301  0.884525  0.714415 -0.113353  0.329325 -0.078872
5    a  0.802088  0.265947  0.817542 -0.037566 -0.289253  0.024255
6    b  0.403259  0.609231  0.544172 -0.020198  0.092309  0.011695
7    a  0.862732  0.988540  0.678309  0.023078  0.433341 -0.114978
8    c  0.779120  0.838887  0.925892  0.271196  0.145376  0.383289
9    b  0.664307  0.760139  0.474840  0.240850  0.243217 -0.057637


O método <font color='blue'>apply</font> aplica uma função em cada grupo e retorna um DataFrame com o resultado da função em cada grupo. Os rótulos das linhas do DataFrame gerado são os identificadores dos grupos. O método <font color='blue'>apply</font> é o mais versátil dos métodos de transformação.

In [25]:
# Construindo DataFrame a partir de um dicionário
df = pd.DataFrame({'key1': ['a','c','b','c','a','a','b','a','c','b'],
                  'data0': np.random.uniform(low=0,high=1,size=10),
                  'data1': np.random.uniform(low=0,high=1,size=10),
                  'data2': np.random.uniform(low=0,high=1,size=10)})

df

Unnamed: 0,key1,data0,data1,data2
0,a,0.403303,0.043622,0.284941
1,c,0.653404,0.922799,0.575053
2,b,0.971298,0.479373,0.66379
3,c,0.620196,0.710511,0.092224
4,a,0.807427,0.205944,0.052277
5,a,0.40362,0.135689,0.50322
6,b,0.144151,0.690531,0.533616
7,a,0.027389,0.113383,0.149311
8,c,0.546205,0.225984,0.381562
9,b,0.207067,0.357203,0.738705


In [26]:
# agrupando pela coluna 'key1' e calculando a 
# diferença entre o maior e o menor valor de cada coluna em cada grupo
# e retornando a menor diferença

# diferença entre o maior e menor valor em cada coluna em cada grupo
print(df.groupby('key1').apply(lambda x: (x.max()-x.min())))

# menor diferença em cada grupo
max_min = df.groupby('key1').apply(lambda x: (x.max()-x.min()).sort_values()[0])
print(max_min)

         data0     data1     data2
key1                              
a     0.780038  0.162322  0.450943
b     0.827147  0.333328  0.205089
c     0.107199  0.696814  0.482829
key1
a    0.162322
b    0.205089
c    0.107199
dtype: float64


**Comentário: MapReduce**

Embora frequentemente chamamos qualquer operação split-apply-combine de _MapReduce_, originalmente esse nome foi dado ao modelo de programação desenvolvido pela Apache.

Sua funcionalidade é a mesma do _GroupBy_ do Pandas, porém foi implementado para operar em grandes volumes de dados utilizando algoritmos distribuidos em uma arquitetura de computação paralela (cluster de computadores), garantindo que cada máquina opere sobre um subconjunto específico dos dados, sendo o padrão para tecnologias de Big Data como [Hadoop](https://hadoop.apache.org/)
