# Contexto do desafio

Com a chegada de novos executivos na Label de música _Black Bear Records_, a empresa deve passar por grandes mudanças. Apesar de ter anos de prestígio no mundo da música, a gravadora têm ficado para trás nos seus resultados financeiros e está atrás de entender melhor como pode se adequar os novos tempos.  
<br>
Você e seu time de consultores foram contratados para analisar a situação geral da Gravadora, investigar seu portfólio e trazer insights que ajudem a empresa a montar uma estratégia de longo prazo que volte a colocar a _Black Bear_ de volta no topo.
<br>  
Para isso, vocês têm um conjunto de dados - uma tabela - com as principais informações do portfólio da empresa. Para analisar esses dados, vamos utilizar o que você já aprendeu de Python e Pandas! Para ajudar no processo, vamos tentar trazer as respostas para algumas das principais perguntas levantadas junto dos executivos da empresa, focando em trazer os highlights para pautar a discussão. 
<br>  
Mãos à obra!

## Importando bibliotecas e lendo arquivos

In [1]:
import pandas as pd
import numpy as np

artists_df = pd.read_csv('artists.csv')
albums_df = pd.read_csv('albums.csv')

In [None]:
artists_df.head(1)

Unnamed: 0,id,real_name,art_name,role,year_of_birth,country,city,email,zip_code,first_release,latest_release,released_albums
0,1,Kameko Nelson,,female voice,1981,Slovenia,Vedrin,lorem.tristique.aliquet@nonummyFusce.co.uk,6914,2008,2008,1


In [None]:
albums_df.head(1)

Unnamed: 0,id,artist_id,album_title,genre,year_of_pub,num_of_tracks,num_of_sales,rolling_stone_critic,mtv_critic,music_maniac_critic
0,1,1767,Call me Cat Moneyless That Doggies,Folk,2006,11,905193,4.0,1.5,3.0


In [None]:
print(artists_df.info())
print(albums_df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27536 entries, 0 to 27535
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id               27536 non-null  int64 
 1   real_name        27536 non-null  object
 2   art_name         18426 non-null  object
 3   role             27536 non-null  object
 4   year_of_birth    27536 non-null  int64 
 5   country          27536 non-null  object
 6   city             27536 non-null  object
 7   email            27536 non-null  object
 8   zip_code         27536 non-null  object
 9   first_release    27536 non-null  int64 
 10  latest_release   27536 non-null  int64 
 11  released_albums  27536 non-null  int64 
 12  idade            27536 non-null  int64 
dtypes: int64(6), object(7)
memory usage: 2.7+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 63817 entries, 0 to 63816
Data columns (total 10 columns):
 #   Column                Non-Null Count  Dtype  
-

# Perguntas a serem respondidas

    1) Quantos artistas temos no catálogo? Quantos álbuns lançados? 
    2) Quantas nacionalidades? Qual o país com a maior concentração de artistas?
    3) Quantos artistas foram adicionados ao catálogo nos último 3 anos?
    4) Quais os 5 tipos de artista mais presentes no catálogo?
    5) Qual faixa de idade mais comum entre os artistas do catálogo?
    6) Quantos álbuns foram lançados nos últimos 5 anos?
    7) Quais os 10 gêneros musicais mais presentes no catálogo? Quanto cada um representa do total de vendas?
    8) Quais os gêneros com as melhores avaliações pela Rolling Stone? E quais os piores?
    9) Quais os artistas de maior sucesso comercial? E de sucesso da crítica especializada?
    10) Se tivéssemos que não renovar o contrato dos 20% artistas com pior desempenho na crítica, quanto estaríamos arriscando de vendas mensais?

### 1) Quantos artistas temos no catálogo? Quantos álbuns lançados?

In [None]:
artists_df['id'].notna().sum()

27536

In [None]:
albums_df['id'].notna().sum()

63817

27.536 artistas no catálogo e 63.817 álbuns lançados.

### 2) Quantas nacionalidades? Qual o país com a maior concentração de artistas?

In [None]:
artists_df['country'].isnull().sum()

0

In [None]:
# Nacionalidades

artists_df['country'].nunique()

249

249 nacionalidades

In [None]:
# Ordem decrescente dos países com maior concentração de artistas

artists_df.groupby('country').agg({'id': 'count'}).sort_values(by='id', ascending=False).head()

Unnamed: 0_level_0,id
country,Unnamed: 1_level_1
Cape Verde,151
Bolivia,139
Curaçao,135
Cameroon,134
Dominican Republic,132


### 3) Quantos artistas foram adicionados ao catálogo nos último 3 anos?

In [None]:
# Quantos anos estão presentes nos dados? Quais são os últimos anos?

sorted(artists_df['first_release'].unique())

[2000,
 2001,
 2002,
 2003,
 2004,
 2005,
 2006,
 2007,
 2008,
 2009,
 2010,
 2011,
 2012,
 2013,
 2014,
 2015,
 2016,
 2017,
 2018,
 2019]

Tendo em vista que temos dados até 2019, vou assumir esse como o ano de referência.

In [None]:
artists_df.loc[artists_df['first_release'] >= 2017, 'id'].nunique()


1537

1537 artistas adicionados entre 2017-2019.

### 4) Quais os 5 tipos de artista mais presentes no catálogo?

In [None]:
artists_df.groupby('role')['id'].count().sort_values(ascending=False).head()

role
rapper     2743
singer     2671
DJ         1868
drummer    1786
artist     1778
Name: id, dtype: int64

### 5) Qual faixa de idade mais comum entre os artistas do catálogo?

In [None]:
# Criação de nova coluna calculada para descobrir a idade

artists_df['idade'] = 2019 - artists_df['year_of_birth']
artists_df['idade'].head()

0    38
1    64
2    26
3    31
4    30
Name: idade, dtype: int64

Melhor que utilizar o ano atual para o cálculo, o ideal seria importar a biblioteca datetime e usar a linha:<br>
```artists_df['idade'] = datetime.today().year - artists_df['year_of_birth']```

Pensando em reprodutibilidade do código, ele geraria o resultado correto independente do ano.
Como assumi 2019 como "ano atual", vou utilizar ele diretamente.

In [None]:
# Faixa de idade: 20-29, 30-39, etc

df = artists_df.copy()

df['faixa_idade'] = df['idade']

df.loc[:, 'faixa_idade'] = np.floor((df['idade']) / 10) * 10 
# divide-se a idade por 10 para que o floor seja aplicado; entra na faixa após a multiplicação por 10

df = df.groupby('faixa_idade').agg({'id':'count'}).sort_values(by='id', ascending=False)
df.rename(columns={'id': 'qtde_artistas'}, inplace=True)

df

Unnamed: 0_level_0,qtde_artistas
faixa_idade,Unnamed: 1_level_1
30.0,6065
50.0,6023
40.0,5976
20.0,5954
60.0,2892
10.0,626


### 6) Quantos álbuns foram lançados nos últimos 5 anos?

In [None]:
albums_df['id'].loc[albums_df['year_of_pub'] >= 2014].count()

19356

19.356 álbuns foram lançados desde 2014.

### 7) Quais os 10 gêneros musicais mais presentes no catálogo? Quanto cada um representa do total de vendas?

In [None]:
# Gêneros mais presentes

top_ten_genre = albums_df.groupby('genre', as_index=False).agg({'id': 'count'}
    ).sort_values(by='id', ascending=False).reset_index(drop=True)

top_ten_genre.rename(columns={'id': 'qty_sales'}, inplace=True)
top_ten_genre.head(10)


Unnamed: 0,genre,qty_sales
0,Indie,5947
1,Pop,4930
2,Rap,3709
3,Latino,2489
4,Pop-Rock,2482
5,Dance,2460
6,Rock,2431
7,Punk,2413
8,Compilation,1299
9,Country,1294


In [None]:
# Quanto cada gênero representa em vendas
# Primeiro passo: Total de vendas por gênero

top_ten_sales = albums_df.groupby('genre', as_index=False).agg({'id': 'count', 'num_of_sales': 'sum'}
    ).sort_values(by='num_of_sales', ascending=False).reset_index(drop=True)

top_ten_sales.rename(columns={'id': 'qty_sales'}, inplace=True)
top_ten_sales

Unnamed: 0,genre,qty_sales,num_of_sales
0,Indie,5947,2985458455
1,Pop,4930,2494235976
2,Rap,3709,1843054863
3,Latino,2489,1253417813
4,Pop-Rock,2482,1230952047
5,Dance,2460,1213471819
6,Rock,2431,1208839731
7,Punk,2413,1205791976
8,Heavy Metal,1280,656182270
9,Compilation,1299,656140262


In [None]:
# Segundo passo: Criando campo calculado (% do total de vendas)

top_ten_sales['total_sales%'] = (
    (top_ten_sales['num_of_sales'] / sum(top_ten_sales['num_of_sales'])) * 100).round(2)

top_ten_sales.head(10)

Unnamed: 0,genre,qty_sales,num_of_sales,total_sales%
0,Indie,5947,2985458455,9.37
1,Pop,4930,2494235976,7.83
2,Rap,3709,1843054863,5.79
3,Latino,2489,1253417813,3.94
4,Pop-Rock,2482,1230952047,3.87
5,Dance,2460,1213471819,3.81
6,Rock,2431,1208839731,3.8
7,Punk,2413,1205791976,3.79
8,Heavy Metal,1280,656182270,2.06
9,Compilation,1299,656140262,2.06


### 8) Quais os gêneros com as melhores avaliações pela Rolling Stone? E quais os piores?

In [2]:
# 5 melhores avaliações pela média

ratings = albums_df.groupby('genre').agg({'rolling_stone_critic': 'mean'}
    ).sort_values(by='rolling_stone_critic', ascending=False).round(3)

ratings.head()

Unnamed: 0_level_0,rolling_stone_critic
genre,Unnamed: 1_level_1
Rap,2.803
K-Pop,2.801
Folk,2.799
Electro-Pop,2.797
Blues,2.791


In [3]:
# 5 piores avaliações pela média

ratings.sort_values(by='rolling_stone_critic').head()

Unnamed: 0_level_0,rolling_stone_critic
genre,Unnamed: 1_level_1
Techno,2.637
Brit-Pop,2.647
Retro,2.677
J-Rock,2.677
Black Metal,2.683


### 9) Quais os artistas de maior sucesso comercial? E de sucesso da crítica especializada?

In [16]:
# Agrupamento pelo artist_id, usando-o como índice; df com nº de vendas e média da crítica
df = albums_df.groupby(['artist_id']).agg({'num_of_sales': 'sum', 'rolling_stone_critic':'mean'})

# Novo df com base no artists_df, que tem id como índice (para fazer join na sequencia)
artistas = artists_df.set_index('id').loc[:, ['real_name', 'art_name']]

# Criação da coluna 'artista' que contém o nome artístico; caso vazio é preenchido com o nome real
artistas['artista'] = artistas['art_name'].fillna(artistas['real_name'])

# join dos df; basea-se no índice para unir
artistas = df.join(artistas['artista'])

# Os 5 artistas de maior sucesso comercial
artistas.iloc[:, [2, 0]].sort_values(by='num_of_sales', ascending=False).head()

Unnamed: 0_level_0,artista,num_of_sales
artist_id,Unnamed: 1_level_1,Unnamed: 2_level_1
11290,Kim Hays,6267844
33896,Traditional price Difficult former,6072907
44614,Bunbury Invention Leif,5643206
7889,Remarkable Gentle,5573891
27648,Ibuprofen Believe Dispotix,5267296


In [28]:
# Os 5 artistas de maior sucesso da crítica

artistas.iloc[:, [2, 1]].sort_values(by='rolling_stone_critic', ascending=False).head()

Unnamed: 0_level_0,artista,rolling_stone_critic
artist_id,Unnamed: 1_level_1,Unnamed: 2_level_1
27527,Ted Read,5.0
48116,Taylos Reporter,5.0
7101,Omega Potassium,5.0
23761,Crestor Believe alleged,5.0
23708,Suspend Polish Terrible impossible,5.0


### 10) Se tivéssemos que não renovar o contrato dos 20% artistas com pior desempenho na crítica, quanto estaríamos arriscando de vendas?

In [24]:
print(artists_df.columns)
print(albums_df.columns)

Index(['id', 'real_name', 'art_name', 'role', 'year_of_birth', 'country',
       'city', 'email', 'zip_code', 'first_release', 'latest_release',
       'released_albums'],
      dtype='object')
Index(['id', 'artist_id', 'album_title', 'genre', 'year_of_pub',
       'num_of_tracks', 'num_of_sales', 'rolling_stone_critic', 'mtv_critic',
       'music_maniac_critic'],
      dtype='object')


As colunas desnecessárias serão removidas e a união dos datasets será feita pela coluna 'id'.

In [33]:
# Filtro das colunas desnecessárias de ambas as tabelas antes de fazer união delas

art = artists_df.drop(columns=['year_of_birth', 'role',
    'country', 'city','first_release', 'latest_release', 'email', 'zip_code'])

alb = albums_df.drop(columns=['artist_id', 'album_title', 'genre', 'num_of_tracks', 'year_of_pub'])


In [41]:
alb['all_critics'] = (
    (alb['rolling_stone_critic'] + alb['mtv_critic'] + alb['music_maniac_critic']) / 3).round(3)

alb.head()

Unnamed: 0,id,num_of_sales,rolling_stone_critic,mtv_critic,music_maniac_critic,all_critics
0,1,905193,4.0,1.5,3.0,2.833
1,2,969122,3.0,4.0,5.0,4.0
2,4,610116,1.5,2.0,4.0,2.5
3,5,151111,4.5,2.5,1.0,2.667
4,6,537615,4.5,1.5,2.0,2.667


In [36]:
# O resultado após o merge é uma tabela mais compacta

df_m = art.merge(alb, on='id')
df_m.head()

Unnamed: 0,id,real_name,art_name,released_albums,num_of_sales,rolling_stone_critic,mtv_critic,music_maniac_critic,all_critics
0,1,Kameko Nelson,,1,905193,4.0,1.5,3.0,2.83
1,2,Sacha Cameron,Bianco Ibureno Chloride,1,969122,3.0,4.0,5.0,4.0
2,5,Sonia U. Jensen,Asleep lonely Big Morgan,2,151111,4.5,2.5,1.0,2.67
3,6,Xanthus Wyatt,Paint of Heart Lorazepam,4,537615,4.5,1.5,2.0,2.67
4,7,Guinevere L. Fitzpatrick,Global The Africa Times,2,254802,5.0,2.0,2.5,3.17


In [40]:
# Como feito anteriormente: criação da coluna 'artista'contendo nome artístico; se vazio recebe o nome real

df_m['artista'] = df_m['art_name'].fillna(df_m['real_name'])

In [50]:
# encontrar os 20% piores de acordo com all critics

df_m['rank'] = df_m['all_critics'].rank(method='dense', pct=True)
df_m[['artista', 'all_critics', 'rank']].head()

Unnamed: 0,artista,all_critics,rank
0,Kameko Nelson,2.83,0.535714
1,Bianco Ibureno Chloride,4.0,0.785714
2,Asleep lonely Big Morgan,2.67,0.5
3,Paint of Heart Lorazepam,2.67,0.5
4,Global The Africa Times,3.17,0.607143


In [68]:
# Quantos dinheiros os 20% piores arrecadaram
piores = df_m['num_of_sales'].loc[(df_m['rank'] <= 0.20)].sum()

# Quantos % representa do total
share = 100 * piores / alb['num_of_sales'].sum()

# Quantas pessoas cortadas
corte = df_m['artista'].loc[df_m['rank'] <= 20].count()

In [69]:
print(f'Os 20% piores representam {share:.3f}% das vendas,\n'
    f'Totalizando {piores} dinheiros\n'
    f'{corte} artistas não teriam o contrato renovado.')

Os 20% piores representam 0.988% das vendas,
Totalizando 314718970 dinheiros
17526 artistas não teriam o contrato renovado.


<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=6c57ce19-4c83-42d2-828d-d933e5de0771' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>