###### *Adaptação de artigo publicado em* https://www.shanelynn.ie/summarising-aggregation-and-grouping-data-in-python-pandas/

In [1]:
import pandas as pd
import numpy as np
import matplotlib as plt
import dateutil as dt

### **Load DataSet**

### 1 - Load File GitHub

In [2]:
url = 'https://raw.githubusercontent.com/EngenhariaDeComputacaoReinaldo/miniCursoPandas/master/phone_data.csv'
dfCall = pd.read_csv(url, index_col=0)

### 2 - Load File Google *Drive*

In [None]:
# Install the PyDrive wrapper & import libraries.
# This only needs to be done once per notebook.

# !pip install -U -q PyDrive
# from pydrive.auth import GoogleAuth
# from pydrive.drive import GoogleDrive
# from google.colab import auth
# from oauth2client.client import GoogleCredentials

# Authenticate and create the PyDrive client.
# This only needs to be done once per notebook.

# auth.authenticate_user()
# gauth = GoogleAuth()
# gauth.credentials = GoogleCredentials.get_application_default()
# drive = GoogleDrive(gauth)

In [None]:
# link = 'https://drive.google.com/open?id=1jpnV2qFACCsbUuF_7PhzcwJ2QOEG6rV5'
# fluff, id = link.split ('=')
# print (id) # Verifique se você tem tudo depois de '='

In [None]:
# download = drive.CreateFile ({'id': id})
# download.GetContentFile ('phone_data.csv')
# dfCall = pd.read_csv ('phone_data.csv')
# # Dataset agora é armazenado em um Dataframe do Pandas

### 3 -  Load File Google *Drive*

In [None]:
# from google.colab import drive
# drive.mount('/gdrive')
# %cd /gdrive

In [None]:
# dfCall = pd.read_csv('/gdrive/My Drive/miniCurso_Pandas_e_SistemasDeRecomendacao/phone_data.csv')

### 4 - Load File Local Drive

In [None]:
# from google.colab import files

# uploaded = files.upload()

# for fn in uploaded.keys():
#   print('User uploaded file "{name}" with length {length} bytes'.format(
#       name=fn, length=len(uploaded[fn])))

In [None]:
#dfCall = pd.read_csv("phone_data.csv")

### **Conhecendo o DataSet**

In [26]:
dfCall.head(20)

### **Convertendo a Data de String para DateTime**

In [4]:
dfCall['date'] = dfCall['date'].apply(dt.parser.parse, dayfirst=True)

In [28]:
dfCall.head(5)

### **Quantidade de Linhas no DataSet**

In [29]:
dfCall.count()

### **Qual foi o maior tempo ligação**

In [30]:
dfCall['duration'].max()

### **Quantos segundos de serviços do tipo Calls (chamadas) foram realizadas no total?**

In [31]:
dfCall['duration'][dfCall['item'] == 'call'].sum()

### **Quantidades de chamadas em por mês**

In [32]:
dfCall['month'].value_counts()

## **Agrupamento**
GroupBy essencialmente divide o dado dentro de diferentes grupos, dependendo da variável de sua escolha. Por exemplo a expressão dfCall.groupby('month') ira dividir nosso DataFrame atual em meses.

A função groupby() retorna um objeto groupby que descreve como as linhas de um dataSet original podem ser divididas.

Seus Grupos se tornam índices de subgrupos de dados

### **retornar os indices dos agrupamentos**

In [33]:
dfCall.groupby(['month']).groups.keys()

### **retorna  a primeira entrada para cada mês**

In [34]:
dfCall.groupby('month').first()

### **Soma do tempo de ligações por mês**

In [35]:
dfCall.groupby('month')['duration'].sum()

### **Quantidade de Datas por Mês**

In [36]:
dfCall.groupby('month')['date'].count()

### **Soma do tempo de duração somentes do serviço tipo Call em cada rede (network)**

In [37]:
dfCall[dfCall['item'] == 'call'].head(10)

In [38]:
dfCall[dfCall['item'] == 'call'].groupby('network')['duration'].sum()

### **Qual quantidade de chamadas de "textos e dados" são enviados por mês em cada rede?**

In [39]:
# Descobrindo quais tipos de chamada existem
dfCall.item.value_counts()

In [40]:
dfCall[dfCall['item'] != 'call'].groupby(['month', 'network_type'])['date'].count()

Agregações permitem que dados estátisticos sejam calculdas por um grupo em um calculo apenas.
Instruções de agregação são fornecidas na forma de dicionarios ou listas em Python. No caso de dicionários, as chaves são usadas para especificar as colunas na qual a operação será realizada e os valores especificam a função a ser aplicada.

In [41]:
dfCall.groupby(['month', 'item']).agg(
    {
         'duration':"sum",    # Soma duração da ligação por grupo
         'network_type': "count",  # Obtém a contagem de redes (quantidade de registros)
         'date': "first"  # Obtem a primeira data por grupo
    }
)

### **Definindo a função de agregação antes**

In [23]:
aggCustom = {
    # Encontrando o min, max, e sum da coluna duração
    'duration': ["min", "max", "sum"],
    # Encontrando a quantidade de redes por tipo de entrada
    'network_type': "count",
    # min, first, e quantidade de datas únicas por grupo
    'date': ["min", 'first', 'nunique']
}

### **Aplicando sobre  DataSet**

In [42]:
# Agrupamento do DataFrame por "month" e "item" e extraíndo dados estátiscos para cada grupo.
gr = dfCall.groupby(
    ['month', 'item']
).agg(aggCustom)

In [43]:
gr