Você está analisando dados de vendas em uma rede de lojas de departamentos e foi encarregado(a) de responder a algumas perguntas de negócio críticas para o planejamento estratégico da empresa. A primeira questão essencial é entender o desempenho das três unidades da rede, especificamente no que se refere ao valor total de vendas para o período.

O objetivo é obter a soma do valor total das vendas por unidade para identificar qual está performando melhor em termos de geração de receita. Essa análise ajudará a liderança a tomar decisões informadas sobre possíveis investimentos, promoções e realocação de recursos.

Os dados estão disponíveis na seguinte url:

```https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/loja_vendas.csv'```

Sua missão nesta atividade é carregar os dados de vendas, examinar as informações disponíveis, e aplicar o método groupby() para agrupar e sumarizar o valor total de vendas por unidade.

In [102]:
import pandas as pd

In [103]:
url = "https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/loja_vendas.csv"

df = pd.read_csv(url, na_values=["Infinity", "-Infinity", "inf", "-inf", "NaN"])

df.head()

Unnamed: 0,ID_compra,unidade,cidade,data,horario,categoria_produto,valor_unitario,quantidade,valor_total,metodo_pagamento,ID_cliente,programa_cashback,idade,avaliacao_compra
0,6,Parque das nações,Santo André,2022-01-03,15:40,Eletrônicos,4457.9,4,17831.6,Dinheiro,6149,Sim,30,10
1,5,Oswaldo Cruz,São Caetano do Sul,2022-01-03,16:48,Ferramentas e construção,115.9,1,115.9,PIX,9491,Sim,36,9
2,9,Paulicéia,São Bernardo do Campo,2022-01-03,12:08,Beleza e cuidados pessoais,68.9,2,137.8,Cartão,5288,Não,39,9
3,4,Oswaldo Cruz,São Caetano do Sul,2022-01-03,9:29,Ferramentas e construção,80.9,5,404.5,PIX,9679,Sim,35,10
4,8,Parque das nações,Santo André,2022-01-03,13:02,Beleza e cuidados pessoais,165.0,4,660.0,PIX,1380,Não,50,9


#### 1. Analisando vendas em uma rede de lojas

Você está analisando dados de vendas em uma rede de lojas de departamentos e foi encarregado(a) de responder a algumas perguntas de negócio críticas para o planejamento estratégico da empresa. A primeira questão essencial é entender o desempenho das três unidades da rede, especificamente no que se refere ao valor total de vendas para o período.

O objetivo é obter a soma do valor total das vendas por unidade para identificar qual está performando melhor em termos de geração de receita. Essa análise ajudará a liderança a tomar decisões informadas sobre possíveis investimentos, promoções e realocação de recursos.

Os dados estão disponíveis na seguinte url:

```'https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/loja_vendas.csv'```


Sua missão nesta atividade é carregar os dados de vendas, examinar as informações disponíveis, e aplicar o método groupby() para agrupar e sumarizar o valor total de vendas por unidade.

In [104]:
# Agrupa valores por unidade, pega a coluna 'valor_total', aplica uma soma e então ordena os valores por order crescente.

df.groupby('unidade', as_index=False)['valor_total'].sum().sort_values(by='valor_total', ascending=False)

Unnamed: 0,unidade,valor_total
0,Oswaldo Cruz,5811213.0
1,Parque das nações,5443778.1
2,Paulicéia,4988462.9


#### 2. Analisando as vendas por categoria de produto

Depois de avaliar o desempenho das unidades individuais da rede, a próxima tarefa é analisar o desempenho de vendas por categoria de produto. Esta análise é crucial para identificar quais categorias estão contribuindo mais significativamente para as receitas e podem ser alvos de estratégias de marketing ou ajustes de estoque.

Se você já carregou os dados para o exercício anterior, continue usando o mesmo DataFrame. Caso contrário, carregue os dados novamente usando a seguinte url:

```'https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/loja_vendas.csv'```


Sua missão nesta atividade é aplicar o método groupby() para agrupar e sumarizar o valor total de vendas por categoria de produto. Para tornar os resultados ainda mais claros, ordene as categorias de acordo com o valor total de vendas, do maior para o menor.



In [105]:
# Agruda pela coluna categoria_produto criando uma coluna de indices, pega a coluna valor_total e aplica uma soma e ordena os valores de maneira crescente

df.groupby('categoria_produto', as_index=False)['valor_total'].sum().sort_values(by='valor_total', ascending=False)

Unnamed: 0,categoria_produto,valor_total
3,Eletrônicos,14898778.5
1,Beleza e cuidados pessoais,423262.9
2,Casa e limpeza,316688.6
4,Ferramentas e construção,252953.1
0,Alimentos e bebidas,231284.3
5,Livros,75265.0
6,Papelaria e escritório,45221.6


#### 3. Analisando a idade dos clientes por método de pagamento

Após analisar o desempenho das vendas por categoria de produto, agora focaremos em entender como diferentes métodos de pagamento estão associados a diferentes faixas etárias dos compradores. Esta análise é vital para identificar preferências de pagamento de acordo com a idade, o que pode orientar a implementação de estratégias de marketing mais eficazes e aprimorar a experiência de compra.

Sua missão nesta atividade é aplicar o método groupby() para agrupar os compradores por método de pagamento e calcular os valores mínimos, médios e máximos da idade dos compradores para cada método.

In [106]:
# Agruda pela coluna metodo_pagamento criando uma coluna de indices, pega a coluna idade e aplica uma serie de metódos [max, min, median] arredonda os valores e ordena pelo valor da média por ordem crescente

df.groupby('metodo_pagamento', as_index=False)['idade'].agg(['min','median','max']).round().sort_values(by='median', ascending=False)

Unnamed: 0,metodo_pagamento,min,median,max
2,Dinheiro,18,50.0,70
3,PIX,18,40.0,68
1,Cartão,18,38.0,65
0,Carteira digital,18,27.0,60


#### 4. Analisando valores de aluguel por região

Nesta atividade, vamos explorar outro dataset que contém informações sobre o preço de aluguel de apartamentos na cidade de São Paulo. Este conjunto de dados nos permitirá entender as variações de preços nas diferentes regiões da cidade.

``` 
'https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/apartamentos_aluguel.csv'
```

Sua missão nesta atividade é aplicar o método groupby() para agrupar os dados por região e utilizar o método describe() para obter estatísticas descritivas do valor do aluguel. As estatísticas descritivas fornecerão insights importantes como média, mediana, valor mínimo, máximo e quartis, oferecendo uma visão detalhada sobre a distribuição dos preços de aluguel em cada região.

In [107]:
apartaments_df = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/apartamentos_aluguel.csv')

apartaments_df.head()

Unnamed: 0,Quartos,Banheiros,Suites,Vagas,Elevador,Mobiliado,Piscina,Regiao,Ano,Valor
0,2,2,1,1,Nao,Nao,Sim,Centro,2015,2500
1,1,2,1,2,Sim,Sim,Sim,Centro,2019,5000
2,1,2,1,1,Sim,Sim,Nao,Centro,2007,1600
3,2,2,1,1,Nao,Nao,Nao,Centro,2008,1500
4,3,3,1,1,Sim,Nao,Nao,Centro,2009,2200


In [108]:
# Agrupa os dados por Região, cria uma coluna de indices no começo do DF e usa o metodo describe para muitos valores de matemática [max, min, sum, count, std] e arredonda os valores (1 casa decimal)

apartaments_df.groupby('Regiao', as_index=False).describe().round()

Unnamed: 0_level_0,Regiao,Quartos,Quartos,Quartos,Quartos,Quartos,Quartos,Quartos,Quartos,Banheiros,...,Ano,Ano,Valor,Valor,Valor,Valor,Valor,Valor,Valor,Valor
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max,count,...,75%,max,count,mean,std,min,25%,50%,75%,max
0,Centro,882.0,2.0,1.0,1.0,1.0,2.0,3.0,4.0,882.0,...,2017.0,2022.0,882.0,3002.0,1525.0,630.0,1650.0,2500.0,4279.0,7000.0
1,Leste,1918.0,2.0,1.0,1.0,2.0,2.0,3.0,4.0,1918.0,...,2010.0,2021.0,1918.0,1697.0,830.0,480.0,1100.0,1450.0,2000.0,5025.0
2,Norte,1264.0,2.0,1.0,1.0,2.0,2.0,3.0,4.0,1264.0,...,2012.0,2022.0,1264.0,1995.0,1011.0,500.0,1250.0,1600.0,2500.0,5652.0
3,Oeste,1779.0,2.0,1.0,1.0,2.0,2.0,3.0,7.0,1779.0,...,2018.0,2022.0,1779.0,3590.0,2058.0,800.0,2000.0,3000.0,4700.0,10100.0
4,Sul,1809.0,2.0,1.0,1.0,2.0,2.0,3.0,5.0,1809.0,...,2017.0,2022.0,1809.0,2977.0,1717.0,700.0,1600.0,2500.0,4000.0,7800.0


#### 5. Analisando como a localização e a existência de piscinas afetam os valores de aluguel


Após explorar as estatísticas descritivas dos valores de aluguel por região, nosso próximo passo é entender como a ausência/presença de uma piscina no prédio influencia o preço de aluguel em diferentes regiões de São Paulo. Esta análise ajudará a entender melhor as preferências do mercado e poderá ser usada para orientar estratégias de precificação e marketing.


Agrupe os dados por região e piscina e calcule a média dos preços de aluguel. Esta abordagem mostrará como as piscinas afetam os preços de aluguel em diferentes áreas da cidade.

In [109]:
# Agrupa os dados por Regiao e Piscina, cria uma coluna com indices, pega a coluna 'Valor' e aplica uma média, arredonda valores para uma casa decimal e ordena os dados tanto por Regiao quanto por Valor


apartaments_df.groupby(['Regiao','Piscina'], as_index=False)[['Valor']].mean().round().sort_values(by=['Regiao', 'Valor'])

Unnamed: 0,Regiao,Piscina,Valor
0,Centro,Nao,2723.0
1,Centro,Sim,3567.0
2,Leste,Nao,1528.0
3,Leste,Sim,2017.0
4,Norte,Nao,1781.0
5,Norte,Sim,2252.0
6,Oeste,Nao,3261.0
7,Oeste,Sim,3854.0
8,Sul,Nao,2550.0
9,Sul,Sim,3318.0


#### 6. Analisando a tendência anual do valor de aluguel

Após examinar como características específicas dos imóveis influenciam os preços de aluguel em diferentes regiões, vamos agora focar em uma perspectiva temporal, considerando o ano de construção dos imóveis. O objetivo é compreender como a idade das construções influencia os preços de aluguel.


Agrupe os dados pelo ano do imóvel e calcule a média do valor de aluguel para cada ano. Isso permitirá que você visualize a variação dos preços de aluguel ao longo do tempo e identifique padrões de aumento, estabilidade ou diminuição.

Para simplificar a análise, você pode criar um gráfico de linhas diretamente com a biblioteca Pandas. Basta utilizar o método plot(kind='line') na variável que contém os dados agrupados, e o gráfico será gerado automaticamente."

In [110]:
# Agrupa os apartamentos por ano criando uma coluna de indices, pega a coluna valor e aplica a media dessa coluna Valor e ordena os dados pela coluna Valor de maneira crescente

influence_by_year = apartaments_df.groupby('Ano', as_index=False)['Valor'].mean().sort_values(by='Valor', ascending=False)
influence_by_year

Unnamed: 0,Ano,Valor
24,2022,6493.65343
23,2021,5689.215054
22,2020,5360.795652
21,2019,5085.976351
20,2018,4790.514196
19,2017,4183.217791
18,2016,3637.264516
17,2015,3378.365449
16,2014,3052.632075
15,2013,2824.625387


In [111]:
import plotly.express as px

In [112]:

fig = px.bar(
  data_frame=influence_by_year,  # Passando o DataFrame
  x=influence_by_year['Valor'],  # Passando a coluna 'Valor' para o eixo x
  y=influence_by_year['Ano'],  # Passando a coluna 'Ano' para o eixo y 
  title="Analisando a tendência anual do valor de aluguel", # Título do gráfico
  color='Valor', # Passando a coluna 'Valor' para a cor
  color_continuous_scale=px.colors.sequential.Viridis, # Passando uma paleta de cores
  labels={'Valor': 'Valor do aluguel', 'Ano': 'Ano'}, # Passando os rótulos
  orientation='h', # Definindo a orientação do gráfico como horizontal
  text=influence_by_year['Valor'], # Passando a coluna 'Valor' para o texto,
  template='plotly_white', # Definindo o template do gráfico
  height=600, # Definindo a altura do gráfico
  width=800, # Definindo a largura do gráfico,
)

fig.update_layout(
  transition={'duration': 500}, # Definindo a duração da transição
  title_x=0.5, # Centralizando o título,
  xaxis_title=dict(
    standoff=20       # distância do eixo
  ),
  yaxis_title=dict(
    standoff=20       # distância do eixo
  ),
)


fig.show()

#### 7. Analisando dados de saúde sobre doença cardíaca

Nesta atividade, vamos explorar um conjunto de dados que contém informações sobre pacientes que foram diagnosticados com ou sem doença cardíaca. Temos dados demográficos e informações de alguns exames médicos.

Utilize a seguinte URL para carregar o conjunto de dados em um DataFrame:

```
https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/pacientes_doenca_cardiaca.csv

```

O primeiro desafio com esses dados será agrupá-los com base na presença/ausência de doença cardíaca e sexo biológico, e calcular as idades mínima, média e máxima para cada grupo. Esta análise ajudará a identificar se há padrões visíveis que associam idade e sexo biológico à prevalência de doença cardíaca nestes dados.

In [113]:
heart_disease_patients = pd.read_csv('https://raw.githubusercontent.com/alura-cursos/python_dados/refs/heads/main/Dados/pacientes_doenca_cardiaca.csv')

heart_disease_patients.head()

Unnamed: 0,Idade,Sexo_biologico,Tipo_dor,Pressao_arterial,Colesterol,Glicemia_jejum>120,Resultados_ECG,Frequencia_cardiaca_max,Dor_exercicio,Depressao_ST,Inclinacao_ST,Numero_vasos_fluro,Teste_cintilografia,Doenca_cardiaca
0,70,Masculino,assintomática,130,322,Não,2,109,Não,2.4,2,3,3,Sim
1,67,Feminino,dor não anginosa,115,564,Não,2,160,Não,1.6,2,0,7,Não
2,57,Masculino,angina atípica,124,261,Não,0,141,Não,0.3,1,0,7,Sim
3,64,Masculino,assintomática,128,263,Não,0,105,Sim,0.2,2,1,7,Não
4,74,Feminino,angina atípica,120,269,Não,2,121,Sim,0.2,1,1,3,Não


In [114]:
# Agrupa os dados pelas colunas Doenca_cardiaca e Sexo_biologico, cria uma coluna de indice, pega a coluna 'Idade' e adiciona metodos de matematica como [min, max, mean] e arredonda os valores [1 casa decimal]

heart_disease_patients.groupby(['Doenca_cardiaca','Sexo_biologico'], as_index=False)[['Idade']].agg(['min','max','mean']).round()

Unnamed: 0_level_0,Doenca_cardiaca,Sexo_biologico,Idade,Idade,Idade
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,min,max,mean
0,Não,Feminino,34,76,55.0
1,Não,Masculino,29,70,51.0
2,Sim,Feminino,43,66,59.0
3,Sim,Masculino,35,77,56.0


#### 8. Analisando exames específicos


Nesta atividade, vamos aprofundar a análise do impacto da doença cardíaca em diferentes tipos de dor no peito, correlacionando-os com o nível de depressão ST, um indicador comum usado em exames cardíacos. Este tipo de análise é crucial para entender como a doença cardíaca pode influenciar outros sintomas e resultados de exames.

Agrupe os dados pela presença de doença cardíaca e tipo de dor no peito, e calcule a média do exame Depressão_ST para cada grupo. Utilize o método unstack() para transformar os dados agrupados em uma tabela mais legível, facilitando a comparação entre os diferentes grupos.

In [115]:
# Agrupa os dados pelas colunas 'Tipo_dor' e 'Frequencia_cardiaca_max', cria uma coluna de indices, pega a coluna 'Depressao_ST' e calcula a media dessa coluna, ordena os valores de maneira crescente com base na coluna 'Tipo_dor'

heart_disease_patients.groupby(['Tipo_dor','Frequencia_cardiaca_max' ], as_index=False)['Depressao_ST'].mean().sort_values('Tipo_dor', ascending=False).unstack()

Tipo_dor      158    dor não anginosa
              125    dor não anginosa
              134    dor não anginosa
              133    dor não anginosa
              132    dor não anginosa
                           ...       
Depressao_ST  29                  0.0
              30                  0.7
              31                  0.0
              32                  0.0
              0                   1.4
Length: 477, dtype: object

#### 9. Analisando indicadores clínicos com múltiplas agregações

Por fim, vamos finalizar as atividades focando em uma análise detalhada de vários indicadores clínicos dos pacientes, agrupados por presença de doença cardíaca e sexo biológico. Exploraremos as médias de várias informações. Este exercício é fundamental para entender esses fatores em diferentes grupos.

Agrupe os dados por doença cardíaca e sexo biológico e aplique várias funções de agregação para calcular as médias das seguintes variáveis: idade, pressão arterial, colesterol, frequência cardíaca máxima, Depressão ST, Inclinação ST e número de vasos detectados por fluoroscopia.

Renomeie as colunas resultantes para indicar que contêm as médias das variáveis.


In [None]:
# Agrupa os dados pelas colunas 'Doenca_cardiaca' e 'Sexo_biologico', cria uma coluna de indices, usa o metodo agg para calcular a média de cada coluna [Idade, Pressao_arterial, Colesterol, Frequencia_cardiaca_max, Depressao_ST, Inclinacao_ST, Numero_vasos_fluro] e arredonda os valores [1 casa decimal], renomeia as colunas e retorna o resultado

dic = {
  "Idade": "mean",
  "Pressao_arterial": "mean",
  "Colesterol": "mean",
  "Frequencia_cardiaca_max":"mean",
  "Depressao_ST": "mean",
  "Inclinacao_ST": "mean",
  "Numero_vasos_fluro": "mean"
}

heart_disease_patients.groupby(['Doenca_cardiaca', 'Sexo_biologico'], as_index=False).agg(dic).round().rename(columns={
  "Idade": "Idade (Média)",
  "Pressao_arterial":"Média da pressão Arterial",
  "Colesterol": "Média de colesterol",
  "Frequencia_cardiaca_max": "Média de Máximo de Frequencia Cardiaca",
  "Depressao_ST": "Média de Depressão ST",
  "Inclinacao_ST": "Média de Inclinação ST",
  "Numero_vasos_fluro": "Média de Numeros de Vasos p/Fluoroscopia",
})


Unnamed: 0,Doenca_cardiaca,Sexo_biologico,Idade (Média),Média da pressão Arterial,Média de colesterol,Média de Máximo de Frequencia Cardiaca,Média de Depressão ST,Média de Inclinação ST,Média de Numeros de Vasos p/Fluoroscopia
0,Não,Feminino,55.0,128.0,257.0,155.0,1.0,1.0,0.0
1,Não,Masculino,51.0,129.0,234.0,161.0,1.0,1.0,0.0
2,Sim,Feminino,59.0,149.0,290.0,144.0,2.0,2.0,1.0
3,Sim,Masculino,56.0,132.0,250.0,138.0,2.0,2.0,1.0
