In [1]:
import pandas as pd

# Utilizando Group By
- Vamos começar a abordar um dos métodos mais poderosos de um DataFrame: o `groupBy()`
    - Como o nome sugere, ele vai agrupar por
- O Começo pode ser um pouco confuso, mas quando entendermos a ideia principal, o uso dele vai ficar justificado
- Como de praxe, vamos carregar nossos dados para essa etapa:

In [2]:
fortune = pd.read_csv("../data/fortune1000.csv", index_col="Rank")
fortune.head()

Unnamed: 0_level_0,Company,Sector,Industry,Location,Revenue,Profits,Employees
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,Walmart,Retailing,General Merchandisers,"Bentonville, AR",482130,14694,2300000
2,Exxon Mobil,Energy,Petroleum Refining,"Irving, TX",246204,16150,75600
3,Apple,Technology,"Computers, Office Equipment","Cupertino, CA",233715,53394,110000
4,Berkshire Hathaway,Financials,Insurance: Property and Casualty (Stock),"Omaha, NE",210821,24083,331000
5,McKesson,Health Care,Wholesalers: Health Care,"San Francisco, CA",181241,1476,70400


- O método `groupBy()` é chamado direto de um DF
- Existem diversos parametros, mas o principal é o `by` que pode receber uma ou mais colunas que vai indicar como queremos agrupar os dados
    - A decisão da coluna para agrupar, obviamente, depende muito dos dados
    - Normalmente, temos que escolher dados que fazem sentido agrupar
- O resultado do método pode ser interpretado como um container de dataframes com os agrupamentos desejados
    - E aqui é um ponto de confusão que precisamos ter atenção, porque o método retorna um objeto
    - Nao obtemos nada visual, temos que trabalhar no objeto de retorno


1. Vamos agrupar o nosso dataframe usando a coluna `Sector`:

In [3]:
sectors = fortune.groupby(by="Sector")
sectors

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x70bf4af8bf80>

- Observe que o resultado **não é um DataFrame**!
- É um novo objeto que temos que trabalhar nele, pois como dissemos, é como se fosse um container/grupo de dataframes

## Primeiras operações com o objeto do GroupBy
- Agora podemos começar as usar operações no container/grupo de DataFrame criado (daqui a diante vamos usar apenas grupos)
- Podemos obter a quantidade de grupos criados:

In [4]:
len(sectors)

21

- São 21 porque temos 21 diferentes sectors nessa coluna.
- Podemos averiguar da seguinte forma:

In [5]:
fortune["Sector"].nunique()

21

- Basicamente, foi criado um dataframe para cada um desses grupos

### Alguns métodos e atributos que podemos usar:

#### - `size()`: retorna a quantidade de linha de cada um dos grupos

In [6]:
sectors.size()

Sector
Aerospace & Defense              20
Apparel                          15
Business Services                51
Chemicals                        30
Energy                          122
Engineering & Construction       26
Financials                      139
Food and Drug Stores             15
Food, Beverages & Tobacco        43
Health Care                      75
Hotels, Resturants & Leisure     25
Household Products               28
Industrials                      46
Materials                        43
Media                            25
Motor Vehicles & Parts           24
Retailing                        80
Technology                      102
Telecommunications               15
Transportation                   36
Wholesalers                      40
dtype: int64

- Esse resultado é o mesmo de obter o `value_counts()` dessa coluna

In [7]:
fortune["Sector"].value_counts()

Sector
Financials                      139
Energy                          122
Technology                      102
Retailing                        80
Health Care                      75
Business Services                51
Industrials                      46
Materials                        43
Food, Beverages & Tobacco        43
Wholesalers                      40
Transportation                   36
Chemicals                        30
Household Products               28
Engineering & Construction       26
Media                            25
Hotels, Resturants & Leisure     25
Motor Vehicles & Parts           24
Aerospace & Defense              20
Telecommunications               15
Food and Drug Stores             15
Apparel                          15
Name: count, dtype: int64

#### - `first()`: retorna a primeira linha de cada um dos grupos criados:
- O Método serve para ter uma noção geral de como está organizado os grupos de dataframes

In [8]:
sectors.first()

Unnamed: 0_level_0,Company,Industry,Location,Revenue,Profits,Employees
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Aerospace & Defense,Boeing,Aerospace and Defense,"Chicago, IL",96114,5176,161400
Apparel,Nike,Apparel,"Beaverton, OR",30601,3273,62600
Business Services,ManpowerGroup,Temporary Help,"Milwaukee, WI",19330,419,27000
Chemicals,Dow Chemical,Chemicals,"Midland, MI",48778,7685,49495
Energy,Exxon Mobil,Petroleum Refining,"Irving, TX",246204,16150,75600
Engineering & Construction,Fluor,"Engineering, Construction","Irving, TX",18114,413,38758
Financials,Berkshire Hathaway,Insurance: Property and Casualty (Stock),"Omaha, NE",210821,24083,331000
Food and Drug Stores,CVS Health,Food and Drug Stores,"Woonsocket, RI",153290,5237,199000
"Food, Beverages & Tobacco",Archer Daniels Midland,Food Production,"Chicago, IL",67702,1849,32300
Health Care,McKesson,Wholesalers: Health Care,"San Francisco, CA",181241,1476,70400


#### - `last()`: retorna a última linha de cada um dos grupos criados:

In [9]:
sectors.last()

Unnamed: 0_level_0,Company,Industry,Location,Revenue,Profits,Employees
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Aerospace & Defense,Delta Tucker Holdings,Aerospace and Defense,"McLean, VA",1923,-133,12000
Apparel,Guess,Apparel,"Los Angeles, CA",2204,82,13500
Business Services,DeVry Education Group,Education,"Downers Grove, IL",1910,140,11770
Chemicals,H.B. Fuller,Chemicals,"St. Paul, MN",2084,87,4425
Energy,Portland General Electric,Utilities: Gas and Electric,"Portland, OR",1898,172,2646
Engineering & Construction,MDC Holdings,Homebuilders,"Denver, CO",1909,66,1225
Financials,New York Community Bancorp,Commercial Banks,"Westbury, NY",1902,-47,3448
Food and Drug Stores,Fred’s,Food and Drug Stores,"Memphis, TN",2151,-7,7103
"Food, Beverages & Tobacco",Alliance One International,Tobacco,"Morrisville, NC",2066,-15,6835
Health Care,Providence Service,Health Care: Pharmacy and Other Services,"Tucson, AZ",1987,84,9072


#### - `groups`: atributo que contém um dicionario em que cada grupo é uma `key` com os indices de todos as linhas que estão no DataFrame

In [10]:
sectors.groups.keys()

dict_keys(['Aerospace & Defense', 'Apparel', 'Business Services', 'Chemicals', 'Energy', 'Engineering & Construction', 'Financials', 'Food and Drug Stores', 'Food, Beverages & Tobacco', 'Health Care', 'Hotels, Resturants & Leisure', 'Household Products', 'Industrials', 'Materials', 'Media', 'Motor Vehicles & Parts', 'Retailing', 'Technology', 'Telecommunications', 'Transportation', 'Wholesalers'])

In [11]:
sectors.groups["Aerospace & Defense"]

Index([ 24,  45,  60,  88, 118, 120, 209, 245, 282, 378, 389, 490, 560, 605,
       785, 788, 836, 903, 958, 987],
      dtype='int64', name='Rank')

- Como já deve ter percebido, podemos acessar esses valores usando um `loc[]`

In [12]:
fortune.loc[sectors.groups["Aerospace & Defense"]].head()

Unnamed: 0_level_0,Company,Sector,Industry,Location,Revenue,Profits,Employees
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
24,Boeing,Aerospace & Defense,Aerospace and Defense,"Chicago, IL",96114,5176,161400
45,United Technologies,Aerospace & Defense,Aerospace and Defense,"Farmington, CT",61047,7608,197200
60,Lockheed Martin,Aerospace & Defense,Aerospace and Defense,"Bethesda, MD",46132,3605,126000
88,General Dynamics,Aerospace & Defense,Aerospace and Defense,"Falls Church, VA",31469,2965,99900
118,Northrop Grumman,Aerospace & Defense,Aerospace and Defense,"Falls Church, VA",23526,1990,65000


#### - `get_group()`: retorna o grupo desejado
- É como se fosse um único passo para obter o DataFrame da celula acima

In [13]:
sectors.get_group("Aerospace & Defense").head()

Unnamed: 0_level_0,Company,Sector,Industry,Location,Revenue,Profits,Employees
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
24,Boeing,Aerospace & Defense,Aerospace and Defense,"Chicago, IL",96114,5176,161400
45,United Technologies,Aerospace & Defense,Aerospace and Defense,"Farmington, CT",61047,7608,197200
60,Lockheed Martin,Aerospace & Defense,Aerospace and Defense,"Bethesda, MD",46132,3605,126000
88,General Dynamics,Aerospace & Defense,Aerospace and Defense,"Falls Church, VA",31469,2965,99900
118,Northrop Grumman,Aerospace & Defense,Aerospace and Defense,"Falls Church, VA",23526,1990,65000


#### - Summarizing methods: podemos usar métodos que resumem valores como `mean()`, `max()`, `sum()` etc
- Quando o método exige valores numéricos (ex: `sum()`) ele só é aplicado para colunas que possuem valores numericos
- Quando nao tem exigência, o padrão é executar o comando baseado na coluna mais a esquerda
     -Ex: se aplicarmos o `max()` ele vai retornar os maiores baseados em `Company`

In [14]:
sectors.max().head()

Unnamed: 0_level_0,Company,Industry,Location,Revenue,Profits,Employees
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Aerospace & Defense,Woodward,Aerospace and Defense,"Wichita, KS",96114,7608,197200
Apparel,Wolverine World Wide,Apparel,"Winston-Salem, NC",30601,3273,65300
Business Services,Western Union,Waste Management,"Troy, MI",19330,6328,216500
Chemicals,Westlake Chemical,Chemicals,"Wilmington, DE",48778,7685,52000
Energy,Xcel Energy,Utilities: Gas and Electric,"Washington, DC",246204,16150,75600


In [15]:
sectors.mean().head()

TypeError: agg function failed [how->mean,dtype->object]

- Também podemos usar um dos métodos citados usando uma coluna específica dos grupos, por exemplo: vamos calcular a média da coluna `Revenue` para todos os setores:

In [16]:
sectors["Revenue"].mean()

Sector
Aerospace & Defense             17897.000000
Apparel                          6397.866667
Business Services                5337.156863
Chemicals                        8129.900000
Energy                          12441.057377
Engineering & Construction       5922.423077
Financials                      15950.784173
Food and Drug Stores            32251.266667
Food, Beverages & Tobacco       12929.465116
Health Care                     21529.426667
Hotels, Resturants & Leisure     6781.840000
Household Products               8383.464286
Industrials                     10816.978261
Materials                        6026.627907
Media                            8830.560000
Motor Vehicles & Parts          20105.833333
Retailing                       18313.450000
Technology                      13505.882353
Telecommunications              30788.933333
Transportation                  11347.444444
Wholesalers                     11120.000000
Name: Revenue, dtype: float64

- Obviamente, podemos passar uma lista de colunas e obter o resultado para cada uma delas:

In [17]:
sectors[["Revenue", "Profits"]].mean()

Unnamed: 0_level_0,Revenue,Profits
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1
Aerospace & Defense,17897.0,1437.1
Apparel,6397.866667,549.066667
Business Services,5337.156863,553.470588
Chemicals,8129.9,754.266667
Energy,12441.057377,-602.02459
Engineering & Construction,5922.423077,204.0
Financials,15950.784173,1872.007194
Food and Drug Stores,32251.266667,1117.266667
"Food, Beverages & Tobacco",12929.465116,1195.744186
Health Care,21529.426667,1414.853333


#### - `agg()`: método de agregação mais geral
- Esse método é basicamente uma maneira de usar qualquer um dos agregadores anteriores com qualquer coluna
- Ele recebe um dicionário especificando as operações e os onde operar

In [18]:
op = {
    "Revenue": "mean",
    "Profits": "min",
    "Employees": "sum",
}
sectors.agg(op).head()

Unnamed: 0_level_0,Revenue,Profits,Employees
Sector,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Aerospace & Defense,17897.0,-240,968057
Apparel,6397.866667,82,346397
Business Services,5337.156863,-1481,1361050
Chemicals,8129.9,-816,463651
Energy,12441.057377,-23119,1188927


- Também podemos aplicar multiplas operações para a mesma coluna:

In [19]:
sectors.agg(["sum", "mean", "min"]).head()

TypeError: agg function failed [how->mean,dtype->object]

In [20]:
op = {
    "Revenue": ["mean", "max", "min"],
    "Profits": "min",
    "Employees": "sum"
}
sectors.agg(op).head()

Unnamed: 0_level_0,Revenue,Revenue,Revenue,Profits,Employees
Unnamed: 0_level_1,mean,max,min,min,sum
Sector,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Aerospace & Defense,17897.0,96114,1923,-240,968057
Apparel,6397.866667,30601,2204,82,346397
Business Services,5337.156863,19330,1910,-1481,1361050
Chemicals,8129.9,48778,2084,-816,463651
Energy,12441.057377,246204,1898,-23119,1188927


## Agrupando usando multiplas colunas
- Mesma ideia, porém usando mais de uma coluna
- O resultado é similar, vamos receber um grupo de dataframes
- Porém, cada grupo é regido por MultiIndex (como vimos na jupyter 10)
    - Obviamente, estamos criando mais uma camada de complexidade

In [21]:
sec_and_ind = fortune.groupby(by=["Sector", "Industry"])
sec_and_ind.size()

Sector               Industry                                     
Aerospace & Defense  Aerospace and Defense                            20
Apparel              Apparel                                          15
Business Services    Advertising, marketing                            2
                     Diversified Outsourcing Services                 14
                     Education                                         3
                                                                      ..
Transportation       Trucking, Truck Leasing                           9
Wholesalers          Miscellaneous                                     1
                     Wholesalers: Diversified                         25
                     Wholesalers: Electronics and Office Equipment     8
                     Wholesalers: Food and Grocery                     6
Length: 79, dtype: int64

In [22]:
sec_and_ind[["Revenue", "Profits"]].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Revenue,Profits
Sector,Industry,Unnamed: 2_level_1,Unnamed: 3_level_1
Aerospace & Defense,Aerospace and Defense,357940,28742
Apparel,Apparel,95968,8236
Business Services,"Advertising, marketing",22748,1549
Business Services,Diversified Outsourcing Services,64829,4305
Business Services,Education,7485,69
...,...,...,...
Transportation,"Trucking, Truck Leasing",35950,1910
Wholesalers,Miscellaneous,8982,17
Wholesalers,Wholesalers: Diversified,176138,5193
Wholesalers,Wholesalers: Electronics and Office Equipment,147906,1857


## Iterando através dos grupos
- O objeto que retorna os grupos é um iterable, então é possíve iterar nele usando um loop
- Ele retorna o nome do grupo e o dataframe referente a ele

#### Vamos supor que desejamos pegar a linha com maior receita de todos os grupos. Podemos fazer:

In [23]:
df = pd.DataFrame(columns=fortune.columns)
for sector, data in sectors:
    highest_revenue = data.nlargest(1, "Revenue")
    df = df.append(highest_revenue)
    
df

AttributeError: 'DataFrame' object has no attribute 'append'

- Como exercicio, voce pode tentar fazer o mesmo, mas para as cidades