In [1]:
import pandas as pd
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [2]:
def there_point(char):
    """Procura um ponto final na palavra

    Args:
        char (str): caractere que será analisado
        
    Return:
        bool
    """
    return False if char.find(".") == -1 else True

def add_zeros(number):
    """Altera o sufixo pelo número de zeros correspondente

    Args:
        dataset (pd.DataFrame): dataset que contém a coluna que será alterada
        col_name (str): nome da coluna que será alterada
        
    Return:

    """
    sufix = number[-1]
    if sufix == "M":
        if there_point(number) is True:
            number = number[:-1] + "00.000"
        else:
            number = number[:-1] + ".000.000"
    
    else:
        if there_point(number) is True:
            number = number[:-1] + "00"
        else:
            number = number[:-1] + ".000"
        
    return number

## Análise Univariada

Aqui, iremos avaliar as variáveis individualmente.

In [3]:
# Lendo os dados
df_instagram = pd.read_csv("../data/raw/social media influencers-INSTAGRAM - -DEC 2022.csv")

In [4]:
# Verificando as primeiras linhas
df_instagram.head()

Unnamed: 0,Rank,name,instagram name,Category_1,Category_2,followers,country,Eng. (Auth.),Eng. (Avg.)
0,1,leomessi,Leo Messi,Sports with a ball,Family,409.8M,Argentina,17.8M,23.4M
1,2,cristiano,Cristiano Ronaldo,Sports with a ball,,523M,India,11.7M,14.7M
2,3,neymarjr,NJ 🇧🇷,Sports with a ball,,198.9M,Brazil,6.7M,9.5M
3,4,kyliejenner,Kylie 🤍,Fashion,Modeling,376.3M,United States,2.7M,4.3M
4,5,kendalljenner,Kendall,Modeling,Fashion,268M,United States,3.2M,5M


De cara, já é possível perceber que os dados que deveriam ser numéricos estão
acompanhados pelo sufixo M, de milhão, fazendo com que sejam na verdade 
categóricos. Antes de se aprofundar na análise, vamos corrigir esse problema.


In [5]:
# Verificando os valores únicos da coluna followers
df_instagram["followers"].unique()

array(['409.8M', '523M', '198.9M', '376.3M', '268M', '345.9M', '365.4M',
       '337.4M', '90.4M', '236.5M', '53.8M', '228.8M', '85.7M', '205.6M',
       '107.5M', '41.4M', '270M', '72.3M', '355.2M', '144.9M', '58M',
       '42.2M', '579.8M', '189.8M', '42.4M', '44.5M', '66.7M', '69.6M',
       '80.3M', '73.5M', '40.4M', '60.5M', '229.3M', '47.6M', '47.9M',
       '139.4M', '63.2M', '126.3M', '87.6M', '61.7M', '28.4M', '23.8M',
       '31.6M', '27.4M', '23.7M', '71.3M', '28.9M', '86M', '129.4M',
       '41.6M', '31.5M', '51M', '49.6M', '76.4M', '24.6M', '25.4M',
       '76.9M', '92.3M', '28.1M', '56.6M', '69.3M', '20.1M', '23.9M',
       '32.9M', '77.9M', '46.5M', '114.8M', '37M', '33.5M', '35.6M',
       '144.2M', '55M', '41.1M', '33.6M', '29.2M', '20.8M', '34M',
       '48.4M', '63.6M', '51.4M', '127.3M', '101.1M', '23.1M', '25.7M',
       '84.1M', '30.9M', '56.1M', '70.5M', '50.3M', '84.8M', '18.1M',
       '53.9M', '55.5M', '28.5M', '48.7M', '23.2M', '57.1M', '45.5M',
       '19.3M

In [6]:
# Verificando os valores únicos da coluna Eng. (Auth.)
df_instagram["Eng. (Auth.)"].unique()

array(['17.8M', '11.7M', '6.7M', '2.7M', '3.2M', '2.5M', '2.2M', '1.8M',
       '6M', '2.3M', '12M', '5.6M', '1.4M', '2.9M', '9.5M', '1M', '4.4M',
       '761.2K', '1.6M', '4.3M', '6.6M', '375.1K', '998.2K', '5.9M',
       '3.6M', '3.3M', '2M', '4.6M', '2.4M', '571.7K', '2.1M', '643.4K',
       '1.5M', '587K', '1.1M', '3.5M', '3.1M', '2.8M', '1.3M', '931.9K',
       '516.6K', '752.1K', '851.7K', '629K', '799.4K', '882.2K', '1.9M',
       '647.1K', '414.9K', '1.2M', '335.9K', '760.8K', '861.4K', '721K',
       '861.7K', '264.1K', '371.3K', '497.3K', '541.8K', '687.3K',
       '527.2K', '615.6K', '433K', '687.8K', '674.2K', '542.4K', '786.6K',
       '481.7K', '614.5K', '404.8K', '845.8K', '833.1K', '472.1K',
       '797.9K', '1.7M', '889.4K', '660.2K', '353.9K', '367.5K', '135.8K',
       '984.1K', '565.2K', '389.4K', '880.4K', '504.2K', '884.6K',
       '528.3K', '415K', '582.6K', '652K', '974.4K', '499.5K', '330.8K',
       '712.9K', '88.2K', '914.8K', '915.8K', '741.1K', '519.6K',
  

In [7]:
# Verificando os valores únicos da coluna Eng. (Avg.)
df_instagram["Eng. (Avg.)"].unique()

array(['23.4M', '14.7M', '9.5M', '4.3M', '5M', '3.4M', '2.9M', '2.6M',
       '8.4M', '3M', '12M', '2.8M', '6.4M', '2M', '3.8M', '1.4M', '5.2M',
       '976.3K', '2.3M', '6.6M', '466.4K', '1.3M', '5.9M', '5.7M', '3.3M',
       '2.7M', '4.6M', '725.2K', '3.1M', '1M', '2.2M', '998.8K', '4.2M',
       '4.9M', '3.6M', '4.1M', '1.5M', '2.5M', '3.5M', '1.1M', '720.5K',
       '1.8M', '1.7M', '3.2M', '989.1K', '813.1K', '2.1M', '884.1K',
       '584.5K', '434K', '1.6M', '856.2K', '414.2K', '505.9K', '664.6K',
       '607.9K', '885.4K', '688.1K', '958.7K', '558.8K', '861.1K',
       '830.3K', '786.1K', '908.7K', '1.9M', '760.9K', '949.3K', '672.1K',
       '1.2M', '574.9K', '963.1K', '544.6K', '546.2K', '175.2K', '845K',
       '561.1K', '587.7K', '667.7K', '529.8K', '710.7K', '676.7K', '2.4M',
       '386K', '112.3K', '884.3K', '599.4K', '379.6K', '392.6K', '679.2K',
       '637.9K', '922.6K', '947.8K', '865.3K', '477.2K', '520.7K',
       '340.1K', '378.4K', '871K', '860.3K', '322.8K', '817.

Temos 2 sufixos sendo usados, **K**, para represental a unidade **mil**, e **M**
para representar **milhões**.

In [8]:
# Definindo as colunas numéricas
num_cols = ["followers", "Eng. (Auth.)", "Eng. (Avg.)"]

# Aplicando a função e transformando em numérico
for col in num_cols:
    df_instagram[col] = df_instagram[col].apply(add_zeros)
    df_instagram[col] = df_instagram[col].str.replace(".", "").astype("int")


Agora que corrigimos os dados numéricos, vamos analisar suas distribuições. 

In [9]:
# Criando a figura
fig = make_subplots(rows=3, cols=1)

# Plotando as variáveis em um gráfico subplot
for index, col in enumerate(num_cols, start=1):
    fig.add_trace(go.Histogram(x = df_instagram[col], name=col), row=index, col=1)
    
# Atualizando o layout
fig.update_layout(
    title='<b>Distribuição das variáveis numéricas</b>',
    title_font=dict(size=23, family="Arial"),
    font_color='#646369',
    bargap=0.20,
    bargroupgap=0.1,
    template='plotly_white',
    legend=dict(yanchor="top", y=0.90, xanchor="left", x=0.99, title=None),
    yaxis=dict(showticklabels=True, showgrid=True),
    xaxis=dict(showgrid=False),
    title_x=0.1,
    width=910,
    height=500
)
    
fig.show()

Nossas distribuições são bem semelhantes, com uma concentração maior de perfis
à esquerda e poucos à direita, que inclusive forma a cauda da distribuição. No
quesito **seguidores**, isso significa que a maioria possui menos de **100M**,
com exceção de alguns perfis outliers. A mesma coisa se aplica ao **engajamento**,
com a maior parte dos usuários analisados possuindo menos de **5M**, com exceção
dos perfis outliers.

Agora que conferimos as variáveis numéricas, vamos conferir os valores que cada
variável categórica carrega.

In [10]:
# Checando as variáveis categóricas
df_instagram[[col for col in df_instagram.columns if col not in num_cols]].head()

Unnamed: 0,Rank,name,instagram name,Category_1,Category_2,country
0,1,leomessi,Leo Messi,Sports with a ball,Family,Argentina
1,2,cristiano,Cristiano Ronaldo,Sports with a ball,,India
2,3,neymarjr,NJ 🇧🇷,Sports with a ball,,Brazil
3,4,kyliejenner,Kylie 🤍,Fashion,Modeling,United States
4,5,kendalljenner,Kendall,Modeling,Fashion,United States


A coluna **country** aparenta possuir registros que não condizem com o país real
do usuário, como, por exemplo, no caso do português Cristiano Ronaldo, que está
associado a India. Além disso, como as colunas **name** e **Instagram name**
apresentarão valores únicos em todos os campos, já que cada usuário possui o seu,
optaremos por não analisar esse campo. Apenas os campos **Category_1** e
**Category_2** serão analisados.   

In [11]:
# Verificando a quantidade de valores únicos em cada coluna
print("Category_1:", df_instagram["Category_1"].nunique(), "categorias únicas.")
print("Category_2:", df_instagram["Category_2"].nunique(), "categorias únicas.")

Category_1: 32 categorias únicas.
Category_2: 33 categorias únicas.


A dimensionalidade de ambas é quase igual. Também vale ressaltar que usar 
técnicas como o OneHotencoder aumentariam pouco o número de dimensões. Vamos
explorar os valores de cada coluna.

In [12]:
# Verificando os valores da coluna category_1
df_instagram["Category_1"].unique()

array(['Sports with a ball', 'Fashion', 'Modeling', 'Music',
       'Photography', 'Lifestyle', 'Fitness & Gym', 'Art/Artists',
       'Cinema & Actors/actresses', 'Finance & Economics', 'Science',
       'Shows', 'Beauty', 'Humor & Fun & Happiness', 'Family', nan,
       'Racing Sports', 'Clothing & Outfits', 'Computers & Gadgets',
       'Food & Cooking', 'Nature & landscapes', 'Literature & Journalism',
       'Business & Careers', 'Cars & Motorbikes', 'Luxury', 'Gaming',
       'Machinery & Technologies', 'Adult content', 'Animals',
       'Education', 'Water sports', 'Winter sports', 'Travel'],
      dtype=object)

In [13]:
# Verificando os valores da coluna category_2
df_instagram["Category_2"].unique()

array(['Family', nan, 'Modeling', 'Fashion', 'Music', 'Beauty',
       'Art/Artists', 'Cinema & Actors/actresses', 'Lifestyle',
       'Business & Careers', 'Photography', 'Clothing & Outfits',
       'Sports with a ball', 'Shows', 'Humor & Fun & Happiness',
       'Science', 'Machinery & Technologies', 'Shopping & Retail',
       'Adult content', 'Gaming', 'Fitness & Gym', 'Luxury',
       'Comics & sketches', 'Finance & Economics',
       'Literature & Journalism', 'Cars & Motorbikes',
       'Trainers & Coaches', 'Kids & Toys', 'Politics', 'Winter sports',
       'Racing Sports', 'Computers & Gadgets', 'NFT',
       'Management & Marketing'], dtype=object)

In [14]:
# Verificando quantas colunas estão em ambas as categorias
set_cat_1 = set(df_instagram["Category_1"].unique())
set_cat_2 = set(df_instagram["Category_2"].unique())
intersection = set_cat_1.intersection(set_cat_2)
len(intersection)

27

Das 32 colunas presentes na coluna Category_1, 27 também estão presentes na 
coluna Category_2.

Agora que já conhecemos nossas variáveis, vamos verificar se existem nulos.

In [15]:
# Buscando a quantidade de nulos em cada coluna
df_instagram.isna().sum()

Rank                0
name                0
instagram name     19
Category_1         50
Category_2        667
followers           0
country             1
Eng. (Auth.)        0
Eng. (Avg.)         0
dtype: int64

Das colunas de interesse, temos nulos nas duas categóricas. Como ambas servirão
de base para o clustering, vamos dropar as linhas em que ambas são nulas, pois
não agregarão em nada. 

Assumindo que nem todo perfil possui categorias diferentes, pode ser que o nosso
nulos seja apenas um indicativo que o perfil produz conteúdo apenas de um tipo.
Devido a isso, os missings que sobrarem serão preenchidos com "Sem Categoria".

In [16]:
# Buscando o index dos registros que atendem aos requisitos
index_nulls = df_instagram.query("Category_1.isnull() and Category_2.isnull()").index

# Dropando os registros
df_instagram = df_instagram.drop(index=index_nulls)

# Inserindo os valores nos dados ausentes
df_instagram["Category_2"] = df_instagram["Category_2"].fillna("Sem Categoria")

Agora que temos apenas as colunas de interesse, já podemos partir para a 
clusterização. Antes disso, iremos adicionar uma coluna que pode nos trazer 
informações valiosas, o engajamento por número de seguidores.

Para essa operação, vamos usar a coluna Eng. (Auth.), que parece ser o
engajamento orgânico, sem uso de publicidade, etc.

Outra coluna que será criada é uma para representar se o perfil participa de 
mais de uma categoria.

In [17]:
# Criando as colunas
df_instagram["Eng_per_follower"] = df_instagram["Eng. (Auth.)"] / df_instagram["followers"]
df_instagram["More_Than_One_category"] = ["yes" if value != "Sem Categoria" else "No" for value in df_instagram["Category_2"]]

## Buscando Insights
Nesta fase, irei buscar responder algumas perguntas com base nos dados de dezembro
de 2022. Dados de meses passados também poderão ser analisados.

Perguntas de interesse:

1. Quais os três perfis com mais seguidores?
2. Quais os três perfis com mais engajamento orgânico?
3. Quais os três perfis com maior engajamento geral por seguidor?
4. Quais as categorias mais populares para criar conteúdo?
5. Elas são as que geram mais engajamento orgânico médio?
6. Os perfis que trabalham com públicos diferentes (ter duas categorias), 
possuem um maior engajamento médio por seguidor?

### 1. Quais os três perfis com mais seguidores?

O perfil do próprio instagram, assim como os jogadores de futebol, Cristiano
Ronaldo e Messi, são os perfis que mais possuem seguidores na rede.

In [39]:
# Ordenando por seguidores
df_instagram.sort_values(by="followers", ascending = False).head(3)

Unnamed: 0,Rank,name,instagram name,Category_1,Category_2,followers,country,Eng. (Auth.),Eng. (Avg.),Eng_per_follower,More_Than_One_category
22,23,instagram,Instagram,Photography,Sem Categoria,579800000,India,375100,466400,0.000647,No
1,2,cristiano,Cristiano Ronaldo,Sports with a ball,Sem Categoria,523000000,India,11700000,14700000,0.022371,No
0,1,leomessi,Leo Messi,Sports with a ball,Family,409800000,Argentina,17800000,23400000,0.043436,yes


### 2. Quais os três perfis com mais engajamento orgânico?
Como no ranking anterior, os futebolistas Cristiano Ronaldo e Messi, estão na
terceira e primeira colocação, respectivamente. O segundo colcoado ficou com o 
artista V, integrante da banda sul-coreana BTS. 

In [40]:
# Ordenando por engajamento
df_instagram.sort_values(by="Eng. (Auth.)", ascending = False).head(3)

Unnamed: 0,Rank,name,instagram name,Category_1,Category_2,followers,country,Eng. (Auth.),Eng. (Avg.),Eng_per_follower,More_Than_One_category
0,1,leomessi,Leo Messi,Sports with a ball,Family,409800000,Argentina,17800000,23400000,0.043436,yes
10,11,thv,V,Music,Sem Categoria,53800000,South Korea,12000000,12000000,0.223048,No
1,2,cristiano,Cristiano Ronaldo,Sports with a ball,Sem Categoria,523000000,India,11700000,14700000,0.022371,No


### 3. Quais os três perfis com maior engajamento geral por seguidor?
Os perfis com maior engajamento orgânico por seguidor são de perfis relacionados
à música: rampage_thedancer, labels.hybe e kh1000le.

In [41]:
# Ordenando por engajamento
df_instagram.sort_values(by="Eng_per_follower", ascending = False).head(3)

Unnamed: 0,Rank,name,instagram name,Category_1,Category_2,followers,country,Eng. (Auth.),Eng. (Avg.),Eng_per_follower,More_Than_One_category
852,853,rampage_thedancer,RAMPAGE THE DANCER 🇨🇺,Water sports,Music,2200000,United States,1100000,1300000,0.5,yes
992,993,labels.hybe,HYBE LABELS Updates,Shows,Music,2300000,India,891100,1000000,0.387435,yes
760,761,kh1000le,CHENLE ZHONG,Music,Sem Categoria,3000000,Indonesia,980800,1100000,0.326933,No


### 4. Quais as categorias mais populares para criar conteúdo?
As categorias mais escolhidas entre os criadores de conteúdo são: música,
cinema e lifestyle.

In [52]:
# Buscando as categorias com mais produtores de conteúdo
df_instagram["Category_1"].value_counts()[0:3]

Category_1
Music                        233
Cinema & Actors/actresses    197
Lifestyle                    151
Name: count, dtype: int64

### 5. Elas são as que geram mais engajamento orgânico médio?
Nenhuma das categorias anteriores estão nas que mais geram engajamento médio.
O ranking é: Adult Content, Animals e Art/Artists.

In [54]:
df_instagram.groupby("Category_1")["Eng. (Auth.)"].mean()[0:3]

Category_1
Adult content    201685.714286
Animals          235300.000000
Art/Artists      905143.750000
Name: Eng. (Auth.), dtype: float64

### 6. Os perfis que trabalham com públicos diferentes (ter duas categorias), possuem um maior engajamento médio por seguidor? 

In [56]:
df_instagram.groupby("More_Than_One_category")["Eng. (Auth.)"].mean()[0:3]

More_Than_One_category
No     598472.123177
yes    606272.072072
Name: Eng. (Auth.), dtype: float64