# Analisando o engajamento do Instagram

## O que queremos responder?
- Qual tipo de conteúdo **mais engaja** no Instagram da minha empresa?
- Temos a base de dadoas do instagram **desde que o usuário começou a postar na marca até o dia 27/março**
- Ele também dá alguns direcionamentos:
    - Podem ignorar a coluna visualizações, queremos entender apenas curtidas, comentários e interações;
    - Tags vazias é que realmente não possuem tag (_favor tratar como vazio_).

___

**Vamos importar e visualizar a nossa base**

In [1]:
# Importando o pandas
import pandas as pd

In [2]:
# Importar a base em excel
# Base: engajamento_instagram.xlsx
base = pd.read_excel('engajamento_instagram.xlsx')

In [3]:
# Visualizando as 5 primeiras linhas
base.head()

Unnamed: 0,Tipo,Data,Curtidas,Comentários,Visualizações,Tags,Pessoas,Campanhas,Carrossel,Interacoes
0,Foto,2021-09-11,2858,16,,Loja,N,N,,2874
1,Foto,2021-09-11,2930,28,,Loja/Produtos,N,N,,2958
2,Foto,2021-09-11,2807,9,,Loja,N,N,,2816
3,Vídeo,2021-09-12,5115,49,82878.0,Produtos,N,N,,5164
4,Foto,2021-09-13,4392,45,,Produtos,S,N,,4437


Como a empresa pediu para ignorarmos a coluna `visualizações`, nós podemos apagar ela da nossa base de dados.

O motivo é simples, estamos trabalhando com uma base de dados consideravelmente pequena, porém, quando estivermos trabalhando com uma grande, quanto mais colunas/linhas desnecessárias tivermos, pior é para nossa análise, pois ficará consumindo mais processamento e memória.

**Em python, o que não te ajuda, te atrapalha** ~ Lira da Hashtag

Para apagar uma coluna, utilizamos a seguinte sintaxe: `nome_base.drop('nome_coluna', axis=1)`

- O axis=1 se refere a coluna, enquanto axis=0 se refere a linha;
- Devemos passar o nome da coluna que queremos apagar a base;
- Em caso de mais de 1 coluna, passamos a lista entre colchetes.

- OBS: o `inplace=True` faz com que as modificações realizadas fiquem gravadas na base original.

In [4]:
# Apagando a coluna "Visualizações"
base.drop('Visualizações', axis=1, inplace=True)

In [5]:
base.head()

Unnamed: 0,Tipo,Data,Curtidas,Comentários,Tags,Pessoas,Campanhas,Carrossel,Interacoes
0,Foto,2021-09-11,2858,16,Loja,N,N,,2874
1,Foto,2021-09-11,2930,28,Loja/Produtos,N,N,,2958
2,Foto,2021-09-11,2807,9,Loja,N,N,,2816
3,Vídeo,2021-09-12,5115,49,Produtos,N,N,,5164
4,Foto,2021-09-13,4392,45,Produtos,S,N,,4437


In [10]:
# Visualizando as 5 últimas linhas
base.tail()

Unnamed: 0,Tipo,Data,Curtidas,Comentários,Tags,Pessoas,Campanhas,Carrossel,Interacoes
47,IGTV,2022-03-12,5489,77,Dicas de como usar/Novos Produtos,S,N,,5566
48,Foto,2022-03-20,29084,479,Datas comemorativas/Promoções,S,S,,29563
49,Foto,2022-03-22,9087,106,,S,S,,9193
50,Foto,2022-03-26,16551,186,,S,N,,16737
51,IGTV,2022-03-27,4934,65,Dicas de como usar/Produtos,S,N,,4999


In [11]:
# Tamanho da base
base.shape

(52, 9)

In [12]:
# Se a base for pequena, o display mostra a base completa
display(base)

Unnamed: 0,Tipo,Data,Curtidas,Comentários,Tags,Pessoas,Campanhas,Carrossel,Interacoes
0,Foto,2021-09-11,2858,16,Loja,N,N,,2874
1,Foto,2021-09-11,2930,28,Loja/Produtos,N,N,,2958
2,Foto,2021-09-11,2807,9,Loja,N,N,,2816
3,Vídeo,2021-09-12,5115,49,Produtos,N,N,,5164
4,Foto,2021-09-13,4392,45,Produtos,S,N,,4437
5,Foto,2021-09-17,5359,62,Novos Produtos,N,S,S,5421
6,Foto,2021-09-19,21597,852,Novos Produtos,S,S,,22449
7,Foto,2021-09-25,6346,33,Produtos,N,S,,6379
8,Foto,2021-09-27,6355,89,Produtos,S,N,S,6444
9,Vídeo,2021-09-28,4056,81,Produtos,N,N,,4137


In [13]:
# Verificando as informações
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52 entries, 0 to 51
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Tipo         52 non-null     object        
 1   Data         52 non-null     datetime64[ns]
 2   Curtidas     52 non-null     int64         
 3   Comentários  52 non-null     int64         
 4   Tags         44 non-null     object        
 5   Pessoas      52 non-null     object        
 6   Campanhas    52 non-null     object        
 7   Carrossel    8 non-null      object        
 8   Interacoes   52 non-null     int64         
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 3.8+ KB


___

**A coluna `Carrossel` possui apenas 8 valores não nulos**

- Vamos entender os valores de carrossel:

In [15]:
# Contando os valores que aparecem na coluna Carrossel
base['Carrossel'].value_counts()

Carrossel
S    8
Name: count, dtype: int64

- Na verdade, os valores nulos são de postagens que não são carrossel, ou seja, 'S' para sendo postagens e o nulo deveria ser "N".

## Tratando os valores nulos

In [20]:
# Filtrando os valores em que carrossel é nulo
base.loc[base['Carrossel'].isnull()].head()

Unnamed: 0,Tipo,Data,Curtidas,Comentários,Tags,Pessoas,Campanhas,Carrossel,Interacoes
0,Foto,2021-09-11,2858,16,Loja,N,N,,2874
1,Foto,2021-09-11,2930,28,Loja/Produtos,N,N,,2958
2,Foto,2021-09-11,2807,9,Loja,N,N,,2816
3,Vídeo,2021-09-12,5115,49,Produtos,N,N,,5164
4,Foto,2021-09-13,4392,45,Produtos,S,N,,4437


In [21]:
# Filtrando os valores em que carrossel não é nulo
base.loc[base['Carrossel'].notnull()].head()

Unnamed: 0,Tipo,Data,Curtidas,Comentários,Tags,Pessoas,Campanhas,Carrossel,Interacoes
5,Foto,2021-09-17,5359,62,Novos Produtos,N,S,S,5421
8,Foto,2021-09-27,6355,89,Produtos,S,N,S,6444
12,Foto,2021-10-21,6166,55,Novos Produtos,S,S,S,6221
21,Foto,2021-12-23,8328,93,Produtos,S,N,S,8421
25,Foto,2022-01-02,12193,138,Novos Produtos,S,N,S,12331


In [23]:
# Selecionando apenas a coluna Carrossel
base.loc[base['Carrossel'].isnull(), "Carrossel"].head()

0    NaN
1    NaN
2    NaN
3    NaN
4    NaN
Name: Carrossel, dtype: object

In [24]:
# Agora vamos atribuir o valor N para essa coluna
base.loc[base['Carrossel'].isnull(), "Carrossel"] = "N"

**Verificando novamente os valores de `Carrossel`**

In [26]:
base.head()

Unnamed: 0,Tipo,Data,Curtidas,Comentários,Tags,Pessoas,Campanhas,Carrossel,Interacoes
0,Foto,2021-09-11,2858,16,Loja,N,N,N,2874
1,Foto,2021-09-11,2930,28,Loja/Produtos,N,N,N,2958
2,Foto,2021-09-11,2807,9,Loja,N,N,N,2816
3,Vídeo,2021-09-12,5115,49,Produtos,N,N,N,5164
4,Foto,2021-09-13,4392,45,Produtos,S,N,N,4437


In [27]:
base['Carrossel'].value_counts()

Carrossel
N    44
S     8
Name: count, dtype: int64

___

## Mostrando as informações estatísticas

In [28]:
# Descrição estatística da base
base.describe()

Unnamed: 0,Data,Curtidas,Comentários,Interacoes
count,52,52.0,52.0,52.0
mean,2021-12-23 04:36:55.384615424,12262.730769,189.5,12452.230769
min,2021-09-11 00:00:00,2807.0,9.0,2816.0
25%,2021-10-23 06:00:00,5492.0,69.5,5562.5
50%,2022-01-05 00:00:00,9603.0,128.0,9773.5
75%,2022-02-15 12:00:00,17621.75,265.25,17920.75
max,2022-03-27 00:00:00,37351.0,852.0,37853.0
std,,8165.875326,170.687709,8299.390088


Para termos mais ou menos uma ideia e uma análise dos dados iniciais (ou até mesmo descobrir um padrão), a primeira coisa que podemos fazer é **pegar os 5 primeiros registros com mais e menos curtidas**.

In [30]:
# Ordenando os valores
base.sort_values(by="Curtidas", ascending=False).head()

Unnamed: 0,Tipo,Data,Curtidas,Comentários,Tags,Pessoas,Campanhas,Carrossel,Interacoes
39,Foto,2022-02-17,37351,502,Promoções,S,S,N,37853
30,Reels,2022-01-24,29981,502,Trends,S,S,N,30483
48,Foto,2022-03-20,29084,479,Datas comemorativas/Promoções,S,S,N,29563
33,Foto,2022-02-06,24655,186,Influenciadores,S,S,N,24841
26,Foto,2022-01-08,24585,354,Datas comemorativas,S,S,S,24939


In [32]:
# Ordenando os valores de forma ascendente
base.sort_values(by="Curtidas", ascending=True).head()

# OU 

# base.sort_values(by="Curtidas", ascending=False).tail()

Unnamed: 0,Tipo,Data,Curtidas,Comentários,Tags,Pessoas,Campanhas,Carrossel,Interacoes
2,Foto,2021-09-11,2807,9,Loja,N,N,N,2816
0,Foto,2021-09-11,2858,16,Loja,N,N,N,2874
20,Foto,2021-12-16,2881,29,Produtos,N,N,N,2910
1,Foto,2021-09-11,2930,28,Loja/Produtos,N,N,N,2958
17,Vídeo,2021-11-09,3213,60,Produtos,N,N,N,3273


- Podemos observar que no top 5 todas as postagens tinham pessoas e eram fotos de campanha;
- Nas 5 piores postagens, não haviam pessoas e nem eram postagens de campanhas;

- **Isso pode ser um indicador que pessoas e campanhas tem relação com as curtidas**

___