# 1 Business Intelligence (BI) e Ciclo Analítico de Inteligência de Dados

O BI é uma estratégia focada na análise de dados corporativos e na apresentação de informações acionáveis para ajudar os executivos, gerentes e outros usuários finais corporativos a tomar decisões de negócios informadas. O ciclo analítico de inteligência de dados é um processo que inclui várias etapas, desde a definição do problema até a comunicação dos resultados.

## Importância do BI e do Ciclo Analítico de Inteligência de Dados

Ambos são fundamentais para transformar dados brutos em insights significativos que podem impulsionar o sucesso do negócio. As organizações usam BI e análise de dados para identificar e resolver problemas, melhorar a eficiência, aumentar a produtividade e obter uma vantagem competitiva.

*Exemplos reais:*
1. Empresas de varejo utilizam BI para otimizar a cadeia de suprimentos, gerenciar inventário e melhorar a experiência do cliente.
2. O setor de saúde usa análise de dados para melhorar o atendimento ao paciente, prever surtos de doenças e melhorar a eficiência operacional.


# 2 - Fases do Projeto de BI

Um projeto de BI normalmente passa pelas seguintes fases:

1. **Estratégia de BI:** Definição dos objetivos e metas do projeto. Identificação das necessidades e expectativas dos usuários finais.

2. **Análise de Requisitos:** Coleta e análise detalhada dos requisitos do usuário. Identificação das fontes de dados necessárias.

3. **Design da Solução:** Design do data warehouse, esquema de dados, ETL, relatórios e painéis.

4. **Implementação:** Desenvolvimento e teste do sistema de BI. Importação e transformação dos dados. Configuração dos relatórios e dashboards.

5. **Entrega:** Lançamento do sistema de BI para os usuários finais. Treinamento e suporte.

6. **Manutenção:** Monitoramento e atualização do sistema conforme necessário. Resolução de problemas e melhorias contínuas.

Vamos explorar cada fase com mais detalhes.

In [47]:
# Importando as bibliotecas necessárias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder
import numpy as np
from sklearn.metrics import mean_squared_error, r2_score
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam
from keras.metrics import MeanSquaredError
from keras.callbacks import EarlyStopping
from sklearn.preprocessing import MinMaxScaler

# 1. Estratégia de BI
# Definição dos objetivos: Vamos tentar prever a quantidade vendida com base nas outras características do conjunto de dados.

# 2. Análise de Requisitos
# Identificamos que precisamos das informações de quantidade vendida e das outras características como requisitos para nosso modelo.

# 3. Design da Solução
# Nosso data warehouse será o próprio dataframe do pandas. Vamos usar um modelo de regressão linear para prever a quantidade vendida.

# 4. Implementação
# Carregando os dados
df = pd.read_csv('superstore_dataset.csv')

In [7]:
df.head(1)

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,City,State,...,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit,Shipping Cost,Order Priority
0,42433,AG-2011-2040,1/1/2011,6/1/2011,Standard Class,TB-11280,Toby Braunhardt,Consumer,Constantine,Constantine,...,OFF-TEN-10000025,Office Supplies,Storage,"Tenex Lockers, Blue",408.3,2,0.0,106.14,35.46,Medium


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 51290 entries, 0 to 51289
Data columns (total 24 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Row ID          51290 non-null  int64  
 1   Order ID        51290 non-null  object 
 2   Order Date      51290 non-null  object 
 3   Ship Date       51290 non-null  object 
 4   Ship Mode       51290 non-null  object 
 5   Customer ID     51290 non-null  object 
 6   Customer Name   51290 non-null  object 
 7   Segment         51290 non-null  object 
 8   City            51290 non-null  object 
 9   State           51290 non-null  object 
 10  Country         51290 non-null  object 
 11  Postal Code     9994 non-null   float64
 12  Market          51290 non-null  object 
 13  Region          51290 non-null  object 
 14  Product ID      51290 non-null  object 
 15  Category        51290 non-null  object 
 16  Sub-Category    51290 non-null  object 
 17  Product Name    51290 non-null 

In [11]:
df.describe()

Unnamed: 0,Row ID,Postal Code,Sales,Quantity,Discount,Profit,Shipping Cost
count,51290.0,9994.0,51290.0,51290.0,51290.0,51290.0,51290.0
mean,25645.5,55190.379428,246.490581,3.476545,0.142908,28.610982,26.375915
std,14806.29199,32063.69335,487.565361,2.278766,0.21228,174.340972,57.296804
min,1.0,1040.0,0.444,1.0,0.0,-6599.978,0.0
25%,12823.25,23223.0,30.758625,2.0,0.0,0.0,2.61
50%,25645.5,56430.5,85.053,3.0,0.0,9.24,7.79
75%,38467.75,90008.0,251.0532,5.0,0.2,36.81,24.45
max,51290.0,99301.0,22638.48,14.0,0.85,8399.976,933.57


In [12]:
df.describe(include = 'O')

Unnamed: 0,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,City,State,Country,Market,Region,Product ID,Category,Sub-Category,Product Name,Order Priority
count,51290,51290,51290,51290,51290,51290,51290,51290,51290,51290,51290,51290,51290,51290,51290,51290,51290
unique,25035,1430,1464,4,1590,795,3,3636,1094,147,7,13,10292,3,17,3788,4
top,CA-2014-100111,18-06-2014,22-11-2014,Standard Class,PO-18850,Muhammed Yedwab,Consumer,New York City,California,United States,APAC,Central,OFF-AR-10003651,Office Supplies,Binders,Staples,Medium
freq,14,135,130,30775,97,108,26518,915,2001,9994,11002,11117,35,31273,6152,227,29433


In [13]:
round(df.isna().sum() * 100 / len(df),4)

Row ID             0.0000
Order ID           0.0000
Order Date         0.0000
Ship Date          0.0000
Ship Mode          0.0000
Customer ID        0.0000
Customer Name      0.0000
Segment            0.0000
City               0.0000
State              0.0000
Country            0.0000
Postal Code       80.5147
Market             0.0000
Region             0.0000
Product ID         0.0000
Category           0.0000
Sub-Category       0.0000
Product Name       0.0000
Sales              0.0000
Quantity           0.0000
Discount           0.0000
Profit             0.0000
Shipping Cost      0.0000
Order Priority     0.0000
dtype: float64

In [48]:
# Tratando valores nulos
# Apagando colunas com mais de 40% de valores nulos
df.drop('Postal Code', axis=1, inplace = True)

# Excluindo coluna irrelevante
df.drop('Row ID', axis=1, inplace = True)
df.drop('Order ID', axis=1, inplace = True)
df.drop('Customer ID', axis=1, inplace = True)
df.drop('Product ID', axis=1, inplace = True)

# Substituindo valores nulos pela média (colunas numéricas) ou pela moda (colunas categóricas)
for column in df.columns:
    if df[column].dtype == 'object':
        df[column].fillna(df[column].mode()[0], inplace=True)
    else:
        df[column].fillna(df[column].mean(), inplace=True)

# Preparando os dados
features = df.drop('Quantity', axis=1) # X
target = df[['Quantity']] # y

# Convertendo categorias em variáveis numéricas
label_encoder = LabelEncoder()
for column in features.columns:
    if features[column].dtype == 'object':
        features[column] = label_encoder.fit_transform(features[column])

# Criando os normalizadores
normalizador_features = MinMaxScaler()
normalizador_target = MinMaxScaler()

# Normalizando as features
features = normalizador_features.fit_transform(features)

# Normalizando o target
target = normalizador_target.fit_transform(target)

# Dividindo os dados em conjuntos de treinamento, validação e teste
features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.2, random_state=42)
features_train, features_val, target_train, target_val = train_test_split(features_train, target_train, test_size=0.25, random_state=42) # 0.25 x 0.8 = 0.2

In [18]:
from keras.callbacks import EarlyStopping

# Definindo o modelo
model = Sequential()
model.add(Dense(32, input_dim=features_train.shape[1], activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(32, activation='relu'))
model.add(Dense(1))

# Compilando o modelo
model.compile(optimizer=Adam(), loss='mean_squared_error', metrics=[MeanSquaredError()])

# Definindo o critério de parada antecipada
early_stopping = EarlyStopping(monitor='val_loss', patience=20)

# Treinando o modelo
model.fit(features_train, target_train, validation_data=(features_val, target_val), epochs=50, batch_size=32, callbacks=[early_stopping])

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x1ba26da9fd0>

In [19]:
# Testando o modelo
predictions = model.predict(features_test)

# Revertendo a escala das previsões
predictions = normalizador_target.inverse_transform(predictions)

# Revertendo a escala do target de teste
target_test = normalizador_target.inverse_transform(target_test)


mse = mean_squared_error(target_test, predictions)
print(f'Mean Squared Error: {mse}')

# Calculando R2 e R2 ajustado
r2 = r2_score(target_test, predictions)
print(f'R2 Score: {r2}')

# Função para calcular o R2 ajustado
def adjusted_r2(r2, n, p):
    return 1 - ((1 - r2) * (n - 1) / (n - p - 1))

n = features_test.shape[0]
p = features_test.shape[1]
adj_r2 = adjusted_r2(r2, n, p)
print(f'Adjusted R2 Score: {adj_r2}')

Mean Squared Error: 3.0303054737833706
R2 Score: 0.41346449648676087
Adjusted R2 Score: 0.4124333763516659


In [None]:
# 5. Entrega
# Nesta fase, normalmente forneceríamos o modelo para os usuários finais e os treinaríamos sobre como usá-lo. 
# No entanto, essa parte é difícil de demonstrar em um script Python.

# 6. Manutenção
# Em um projeto de BI real, esta fase envolveria monitorar o desempenho do modelo ao longo do tempo e fazer ajustes conforme necessário. 
# Isso também é difícil de demonstrar em um script Python, mas é uma parte importante do processo de BI.

# 3 - Resumo e Perguntas

Hoje aprendemos sobre a importância do BI e do ciclo analítico de inteligência de dados. Também exploramos as fases de um projeto de BI, desde a estratégia inicial até a manutenção contínua.

Algumas perguntas para reflexão:

1. Por que é importante definir claramente os objetivos e metas na estratégia de BI?
2. Como a análise de requisitos pode impactar o sucesso de um projeto de BI?
3. Por que a fase de manutenção é crucial em um projeto de BI?

In [20]:
# Exemplo: Importância de definir claramente os objetivos e metas na estratégia de BI
def importance_of_bi_strategy(objectives, user_needs):
    # Verificar se os objetivos do projeto estão alinhados com as necessidades dos usuários
    if objectives.equals(user_needs):
        print("Uma estratégia de BI claramente definida ajuda a garantir que os objetivos do projeto atendam às necessidades dos usuários.\n")
    else:
        print("É importante garantir que os objetivos do projeto estejam alinhados com as necessidades dos usuários para uma estratégia de BI eficaz.\n")

# Exemplo: Impacto da análise de requisitos no sucesso do projeto de BI
def impact_of_requirements_analysis(requirements):
    # Verificar se todos os requisitos foram identificados e analisados adequadamente
    if not requirements.empty:
        print("Uma análise de requisitos completa e precisa é essencial para garantir que o projeto de BI atenda às necessidades dos usuários.\n")
    else:
        print("Certifique-se de identificar e analisar adequadamente todos os requisitos para um projeto de BI bem-sucedido.\n")

# Exemplo: Importância da fase de manutenção em um projeto de BI
def importance_of_maintenance(project_success):
    # Verificar se a fase de manutenção é crucial para manter o sucesso do projeto de BI
    if not project_success.empty:
        print("A fase de manutenção em um projeto de BI é crucial para monitorar e atualizar o sistema, garantindo que continue atendendo às necessidades em constante mudança.\n")
    else:
        print("Se a fase de manutenção for negligenciada, o sistema de BI pode se tornar obsoleto e não entregar os resultados esperados.\n")

# Chamada das funções com base na base de dados
importance_of_bi_strategy(df['Sales'], df['Order Priority'])
impact_of_requirements_analysis(df['Sales'])
importance_of_maintenance(df['Profit'])

É importante garantir que os objetivos do projeto estejam alinhados com as necessidades dos usuários para uma estratégia de BI eficaz.

Uma análise de requisitos completa e precisa é essencial para garantir que o projeto de BI atenda às necessidades dos usuários.

A fase de manutenção em um projeto de BI é crucial para monitorar e atualizar o sistema, garantindo que continue atendendo às necessidades em constante mudança.



# 4 - Introdução ao Ciclo Analítico da Inteligência de Dados

O Ciclo Analítico da Inteligência de Dados é um processo iterativo que nos permite transformar dados brutos em insights significativos para tomada de decisões. Ele consiste em sete etapas principais:

1. **Definição do problema:** Onde identificamos a questão de negócios que queremos resolver.
2. **Preparação de dados:** Aqui, coletamos, limpamos e formatamos os dados necessários para nossa análise.
3. **Análise exploratória de dados (EDA):** Nesta fase, examinamos os dados para identificar padrões, detectar anomalias e formular hipóteses.
4. **Modelagem de dados:** Aqui, criamos modelos matemáticos ou estatísticos para testar nossas hipóteses.
5. **Validação:** Nesta etapa, verificamos a precisão de nossos modelos e ajustamos conforme necessário.
6. **Implementação:** Aqui, aplicamos nossos modelos validados ao ambiente de produção.
7. **Comunicação:** Nesta fase, compartilhamos nossos resultados e insights com as partes interessadas.

Vamos explorar cada uma dessas fases com mais detalhes.


# 5 - Aprofundando no Ciclo Analítico da Inteligência de Dados

Agora que temos uma visão geral do Ciclo Analítico, vamos explorar cada uma das fases com mais profundidade.

1. **Definição do problema:** Esta é talvez a etapa mais crucial do ciclo. Uma definição de problema clara e precisa nos ajuda a direcionar nossos esforços de coleta de dados e análise. Precisamos entender o contexto do negócio e as necessidades das partes interessadas.

2. **Preparação de dados:** Os dados brutos raramente estão em um formato que possamos usar diretamente para análise. Eles podem precisar ser limpos, transformados ou agregados de alguma forma. Esta etapa pode incluir tarefas como lidar com valores ausentes, remover outliers e normalizar os dados.

3. **Análise exploratória de dados (EDA):** Nesta fase, visualizamos os dados e calculamos estatísticas resumidas para entender os padrões nos dados. Isso nos ajuda a construir intuições sobre os dados e formular hipóteses para testar na próxima etapa.

4. **Modelagem de dados:** Aqui, criamos modelos estatísticos ou de aprendizado de máquina para testar nossas hipóteses. O tipo de modelo que escolhemos dependerá do nosso problema e dos dados disponíveis.

5. **Validação:** Nesta etapa, avaliamos a qualidade de nossos modelos. Isso pode envolver a divisão dos dados em conjuntos de treinamento e teste, a aplicação do modelo ao conjunto de teste e a comparação das previsões do modelo com os resultados reais.

6. **Implementação:** Uma vez que estamos satisfeitos com a qualidade de nossos modelos, podemos implementá-los em um ambiente de produção. Isso pode envolver a escrita de código para automatizar o processo de coleta de dados, análise e relatórios.

7. **Comunicação:** Por fim, comunicamos nossos resultados às partes interessadas. Isso pode incluir a criação de relatórios, dashboards ou apresentações, e deve sempre incluir interpretações claras e acionáveis dos resultados.


# 6 - Resumo e Perguntas

Nesta seção, recapitulamos os pontos importantes cobertos na aula. No contexto do ciclo analítico da inteligência de dados, podemos reiterar as fases e a importância de cada uma delas, bem como como elas se encaixam no projeto de BI como um todo. Podemos também revisitar quaisquer conceitos teóricos que tenham sido particularmente importantes.

Perguntas de reflexão podem ser apresentadas para incentivar os alunos a pensar mais profundamente sobre o material. Por exemplo:

1. Como cada fase do ciclo analítico contribui para a eficácia geral de um projeto de BI?
2. Pode existir um projeto de BI bem-sucedido sem uma ou mais dessas fases?
3. Como a fase de implementação pode variar dependendo do ambiente de TI de uma organização?

# 7 - Revisão dos Conceitos

## Business Intelligence (BI)

- Business Intelligence é o processo de transformação de dados brutos em informações significativas para análise de negócios.

## Fases do Projeto de BI

1. **Estratégia de BI:** Definir a visão e os objetivos do projeto.
2. **Análise de requisitos:** Identificar as necessidades da empresa e dos usuários finais.
3. **Design de solução:** Projetar a solução que atenderá aos requisitos identificados.
4. **Implementação:** Desenvolver e testar a solução.
5. **Entrega:** Lançar a solução para os usuários finais.
6. **Manutenção:** Fornecer suporte contínuo e atualizações para a solução.

## O Ciclo Analítico da Inteligência de Dados

1. **Definição do problema:** Identificar o problema a ser resolvido.
2. **Preparação de dados:** Coletar e preparar os dados para análise.
3. **Análise exploratória:** Analisar os dados para obter insights e identificar padrões.
4. **Modelagem de dados:** Criar um modelo que represente os padrões nos dados.
5. **Validação:** Verificar a precisão do modelo.
6. **Implementação:** Implementar o modelo na prática.
7. **Comunicação:** Comunicar os resultados da análise.


Descrição do problema:
A empresa Superstore possui uma base de dados contendo informações de vendas de seus produtos entre 2011 e 2015. Eles estão buscando insights para otimizar suas vendas e melhorar sua lucratividade. Sua tarefa é realizar uma análise e propor soluções para os seguintes questionamentos:

Pode usar "df['Order Date'] = pd.to_datetime(df['Order Date'])" para conveter colunas com datas para o tipo de dados de datas.

1 - Qual a categoria de produto mais vendida durante todo o período?

2 - Qual a categoria de produto mais vendida cada ano?

3 - Qual a categoria de produto mais vendida no mese de dezembro de cada ano?

4 - Qual a região que apresentou maior lucratividade média?

5 - Existe alguma relação entre a quantidade vendida e o desconto aplicado?

7 - Qual a média da quantidade de compras dos produtos com 50% (0.5) ou mais de desconto?

8 - Qual a moda da quantidade de compras dos produtos com 50% (0.5) ou mais de desconto?

9 - Preparação de dados:

    9.1 - Verificar e tratar valores nulos, se necessário.

    9.2 - Selecionar as colunas relevantes para a análise.


10 - Análise exploratória de dados:

    10.1 - Calcular as vendas totais por categoria de produto.
    10.2 - Visualizar as vendas por categoria em um gráfico de barras.
    10.3 - Modelagem de dados:

11 - Realizar uma regressão linear para analisar a relação entre a quantidade vendida e o desconto aplicado (o X será apenas a coluna "Discount" e o y "Quantity"). (normalize os dados e separe em treinamento 70%, validação 15% e teste 15%)


12 - Avaliar a qualidade do modelo de regressão, utilizando métricas como o erro quadrático médio (MSE) e o coeficiente de determinação (R^2). (Não esqueça de desnormalizar o y de teste e o y predict andes verificar as métricas)


13 - Aplique Redução de Dimensionalidade com PCA para reduzir as colunas de X para apenas 3 Colunas (material sobre isto na aula 5, a partir do tópico 2.4)

14 - Realize o tratamento dos dados reduzidos para separar em X e y (Precisa normalizar?)

15 - Crie uma rede neural com a seguinte estrutura:
- camada de entrada
- camada oculta com 20 neurônios e função de ativação relu
- camada oculta com 40 neurônios e função de ativação relu
- camada oculta com 40 neurônios e função de ativação relu
- camada oculta com 40 neurônios e função de ativação relu
- camada oculta com 40 neurônios e função de ativação relu
- camada oculta com 40 neurônios e função de ativação relu
- camada oculta com 40 neurônios e função de ativação relu
- camada de saída com 1 neurônio e função de ativação linear

- Defina para a rede treinar 100 épocas, mas parar o treinamento caso fique 30 épocas sem melhorar a métrica MSE de validação

16 - Exiba o gráfico de loss durante o treinamento (esqueceu de fazer o history no fit? rsrs)

17 - Exiba as métricas de MSE, MAE, R2 e R2 ajustado.

18 - Seu modelo ficou bom?

In [31]:
df = pd.read_csv('superstore_dataset.csv')

In [32]:
# 1 - Qual a categoria de produto mais vendida durante todo o período?
df['Category'].mode()[0]

'Office Supplies'

In [71]:
# 2 - Qual a categoria de produto mais vendida cada ano?
df['Order Date'] = pd.to_datetime(df['Order Date'], format = "mixed")
df['Order Date'].dt.year.unique()

array([2011, 2012, 2013, 2014])

In [91]:
df['Order Date'].dt.year.unique()

array([2011, 2012, 2013, 2014])

In [70]:
print('2011:', df.loc[(df['Order Date'].dt.year == 2011), 'Category'].mode()[0])
print('2012:', df.loc[(df['Order Date'].dt.year == 2012), 'Category'].mode()[0])
print('2013:', df.loc[(df['Order Date'].dt.year == 2013), 'Category'].mode()[0])
print('2014:', df.loc[(df['Order Date'].dt.year == 2014), 'Category'].mode()[0])

2011: Office Supplies
2012: Office Supplies
2013: Office Supplies
2014: Office Supplies


In [78]:
# 3 - Qual a categoria de produto mais vendida no mese de dezembro de cada ano?
print('Dezembro de 2011:', df.loc[(df['Order Date'].dt.month == 12) & (df['Order Date'].dt.year == 2011), 'Category'].mode()[0])
print('Dezembro de 2012:', df.loc[(df['Order Date'].dt.month == 12) & (df['Order Date'].dt.year == 2012), 'Category'].mode()[0])
print('Dezembro de 2013:', df.loc[(df['Order Date'].dt.month == 12) & (df['Order Date'].dt.year == 2013), 'Category'].mode()[0])
print('Dezembro de 2014:', df.loc[(df['Order Date'].dt.month == 12) & (df['Order Date'].dt.year == 2014), 'Category'].mode()[0])

Dezembro de 2011: Office Supplies
Dezembro de 2012: Office Supplies
Dezembro de 2013: Office Supplies
Dezembro de 2014: Office Supplies


In [135]:
# 4 - Qual a região que apresentou maior lucratividade média?
df['Region'].unique()

array(['Africa', 'Oceania', 'EMEA', 'North', 'Central Asia', 'West',
       'North Asia', 'Central', 'South', 'Canada', 'Southeast Asia',
       'East', 'Caribbean'], dtype=object)

In [137]:
for i in df['Region'].unique():
    print(i + ':', df.loc[(df['Region'] == i), 'Profit'].mean())

Africa: 19.374674296926095
Oceania: 34.43909148264984
EMEA: 8.728966196062837
North: 40.6683286353187
Central Asia: 64.68759130859375
West: 33.84903181392445
North Asia: 70.82053934987168
Central: 28.011512246109564
South: 21.122011464258836
Canada: 46.399453125
Southeast Asia: 5.705442313838287
East: 32.13580758426966
Caribbean: 20.45640298224852


In [140]:
list = []
list_ = []
for i in df['Region'].unique():
    list_.append(i)
    list.append(df.loc[(df['Region'] == i), 'Profit'].mean())

print(list_[list.index(max(list))])
print(max(list))

North Asia
70.82053934987168
