In [98]:
import pandas as pd
import numpy as np 

data = pd.read_json("./instagram.json")

data.head(20)

Unnamed: 0,Rank,Name,Channel Info,Category,Posts,Followers,Avg. Likes,Eng Rate
0,1,instagram,brand,photography,7300,580100000,7310,0.001
1,2,cristiano,male,"Health, Sports & Fitness",3400,519900000,3410,0.014
2,3,leomessi,male,"Health, Sports & Fitness",1000,403700000,970,0.017
3,4,kyliejenner,female,entertainment,7000,375900000,7020,0.017
4,5,selenagomez,female,entertainment,1800,365300000,1850,0.011
5,6,therock,male,entertainment,7000,354300000,7030,0.003
6,7,arianagrande,female,entertainment,5000,345600000,4980,0.014
7,8,kimkardashian,female,entertainment,5700,336300000,5730,0.009
8,9,beyonce,female,entertainment,2100,287300000,2050,0.01
9,10,khloekardashian,female,entertainment,4200,283900000,4190,0.005


# verificar se existe algum campo com dados nulos ✅
# limpar esses dados nulos para analise e substituis para não informado ✅

# soma total de todos os posts dos top 200 do insta ✅
# quem possui o maior numero de posts no total ✅
# quem possui o menor numero de posts no total ✅

# top 10 perfil com maiores numeros  posts ✅
# top 10 perfil com menores numeros posts ✅
# top 5 maiores posts masculinos ✅
# top 5 maiores posts femininos ✅
# top 5 maiores posts por marca ✅


# top 10 channel info com mais seguidores ✅
# top 5 maiores channel info masculinos com mais seguidores✅
# top 5 maiores channel info  femininos com mais seguidores✅


In [118]:
# transforma Posts em numerico (caso não esteja)
data['Posts'] = pd.to_numeric(data['Posts'], errors='coerce').fillna(0).astype(int)

# veriricando o tipo de cada dado
data.dtypes

Rank              int64
Name             object
Channel Info     object
Category         object
Posts             int64
Followers         int64
Avg. Likes        int64
Eng Rate        float64
dtype: object

In [29]:
# veririficando se algum campo está como null
data.isnull().sum()


Rank            0
Name            0
Channel Info    0
Category        0
Posts           0
Followers       0
Avg. Likes      0
Eng Rate        0
dtype: int64

In [52]:
# substituir o null por outra coisa inplace=True para que a substituição seja feita
data['Channel Info'].fillna('untold', inplace=True)
data['Category'].fillna('untold', inplace=True)


In [28]:
# somando todos os posts
sumPosts = data['Posts'].sum()

print(sumPosts)


21616200


In [44]:
total_posts_by_name = data.groupby('Name')['Posts'].sum()

#idmax Retorne a posição do array com o maior valor (que no caso é o nome) e depois  com .max para exibir qual o maior valor dentro de posts 
name_with_most_posts = total_posts_by_name.idxmax(skipna= True)
max_posts = total_posts_by_name.max()

print(f"O nome com o maior total de posts é {name_with_most_posts}, com {max_posts} posts.")

O nome com o maior total de posts é kendalljenner, com 1555000 posts.


In [55]:
# criando uma funcao para somar todos os posts e temos agrupar com name abaixo
def calcule_total_posts(group):
    return group['Posts'].sum()

total_posts_by_name = data.groupby('Name').apply(calcule_total_posts)

# skipna = vai pular se tiver algum null
name_with_min_posts = total_posts_by_name.idxmin(skipna= True)
min_posts = total_posts_by_name.min()

print(f"O nome com o menor total de posts é {name_with_min_posts}, com {min_posts} posts.")

O nome com o menor total de posts é chrishemsworth, com 900 posts.


In [101]:
def filter_by_gender(data, gender):
    filtered_data = data[data['Channel Info'].str.lower() == gender]
    return filtered_data.groupby('Name')['Posts'].sum().nlargest(5)

top_5_male_posts = filter_by_gender(data, 'male')

top_5_female_posts = filter_by_gender(data, 'female')

top_5_brand_posts = filter_by_gender(data, 'brand')

print("\nTop 5 maiores posts masculinos:")
print(top_5_male_posts)
print("\nTop 5 maiores posts femininos:")
print(top_5_female_posts)
print("\nTop 5 maiores posts marcas:")
print(top_5_brand_posts)



Top 5 maiores posts masculinos:
Name
kendalljenner       1555000
antogriezmann        872000
mosalah              870000
justintimberlake     790000
theweeknd            758000
Name: Posts, dtype: int64

Top 5 maiores posts femininos:
Name
saraalikhan95      889000
roses_are_rosie    879000
georginagio        778000
billieeilish       737000
kimberly.loaiza    578000
Name: Posts, dtype: int64

Top 5 maiores posts marcas:
Name
natgeo           26700
mercedesbenz     18500
natgeotravel     17200
5.min.crafts     15500
voguemagazine    11000
Name: Posts, dtype: int64


In [115]:

def filter_values(group):
    # Soma os posts
    return group['Posts'].sum()

# Aplicar a função e passar o parâmetro ascending
def get_top_posts(data, top_n, ascending):
    # Calcular a soma dos posts por nome e ordenar os valores
    top_posts = data.groupby('Name').apply(filter_values).sort_values(ascending=ascending).head(top_n)
    return top_posts

# Obter o Top 10 maiores posts (descending order)
top_10_maiores_posts2 = get_top_posts(data, top_n=5, ascending=False)
print("\nTop 10 maiores posts:")
print(top_10_maiores_posts2)

# Obter o Top 10 menores posts (ascending order)
top_10_menores_posts2 = get_top_posts(data, top_n=8, ascending=True)
print("\nTop 10 menores posts:")
print(top_10_menores_posts2)


Top 10 maiores posts:
Name
kendalljenner      1555000
saraalikhan95       889000
roses_are_rosie     879000
antogriezmann       872000
mosalah             870000
dtype: int64

Top 10 menores posts:
Name
sooyaaa__                900
lalalalisa_m             900
iamzlatanibrahimovic     900
chrishemsworth           900
jennierubyjane           900
leomessi                1000
nike                    1000
toni.kr8s               1000
dtype: int64
