# Integração do PostgreSQL com Pandas para realização de queries descritivas 

Nosso grupo optou pelo dataset em csv com os dados dos trendings do Youtube Brasil dos anos de 2020 a 2024. Através de queries voltadas principalmente para os canais, categorias e datas dos videos, é possível pensar em conclusões sobre o uso de uma das plataformas mais presentes no dia a dia dos brasileiros. Tal estudo poderia se estender para o entendimento de o que, e como, os brasileiros consomem online. A partir do estudo de uma base relevante, objetiva-se colocar em prática os conteúdos de SQL e aplicação de queries, bem como conexão com o banco de dados do PostgreSQL.

**Bibliotecas usadas:**

In [19]:
#biblioteca necessarias
import sqlalchemy
import pandas as pd
from sqlalchemy import create_engine
import psycopg2
import json

**Importando o Criando o Banco do SQL:**

**Importando o DataSet:**

In [None]:
with open(r'C:\Users\eduar\Documents\ADA\sql\projeto\datasets\BR_category_id.json') as file:
    data = json.load(file)

# Usando json_normalize para transformar os dados aninhados em um DataFrame plano
df_items = pd.json_normalize(data, record_path=['items'])

In [None]:
# read
df = pd.read_csv(r'C:\Users\eduar\Documents\ADA\sql\projeto\datasets\BR_youtube_trending_data.csv')

# Carregar o arquivo JSON que contem as categorias
with open(r'C:\Users\eduar\Documents\ADA\sql\projeto\datasets\BR_category_id.json') as file:
    data = json.load(file)

# Usando json_normalize para transformar os dados aninhados em um DataFrame plano
df_cat = pd.json_normalize(data, record_path=['items'])

In [None]:
# cria a tabela, excluindo a versão anterior caso exista
pgcursor.execute('DROP TABLE if exists youtubeanalise.table')
pgcursor.execute('DROP TABLE if exists categoria.table')
df = pd.read_csv(r'C:\Users\eduar\Documents\ADA\sql\projeto\datasets\BR_youtube_trending_data.csv')



# criando o passando o df para o postgres 
df.to_sql('youtubeanalise', engine, if_exists='append', index=False)
df_cat.to_sql('categoria', engine, if_exists='append', index=False)

31

**Analisando dados do Dataset:**

O comando ".desc()" informa a quantidade de valores não-nulos (non-null) de cada coluna, a nomenclatura de cada coluna e o tipo de Dado de cada coluna (int64, object e float64, por exemplo). Valores Nulos podem interferir nas análises, sendo necessário um tratamento dos mesmos. Além disso, é fundamental uma análise se o tipo de dado é concordante com a informação que a coluna pretende transmitir.
Em seguido utilizamos o comando describe para verificar as médias do dataset.




In [None]:
print(f'o tamanho do data set é:\n{df.shape}')
print(f'{df.info()}')
df.describe()

o tamanho do data set é:
(262390, 16)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 262390 entries, 0 to 262389
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   video_id           262390 non-null  object
 1   title              262390 non-null  object
 2   publishedAt        262390 non-null  object
 3   channelId          262390 non-null  object
 4   channelTitle       262390 non-null  object
 5   categoryId         262390 non-null  int64 
 6   trending_date      262390 non-null  object
 7   tags               262390 non-null  object
 8   view_count         262390 non-null  int64 
 9   likes              262390 non-null  int64 
 10  dislikes           262390 non-null  int64 
 11  comment_count      262390 non-null  int64 
 12  thumbnail_link     262390 non-null  object
 13  comments_disabled  262390 non-null  bool  
 14  ratings_disabled   262390 non-null  bool  
 15  description        251186 non-

Unnamed: 0,categoryId,view_count,likes,dislikes,comment_count
count,262390.0,262390.0,262390.0,262390.0,262390.0
mean,18.613202,1566986.0,96367.75,782.514246,6887.335
std,5.970086,5875701.0,358806.0,6856.433452,72220.1
min,1.0,0.0,0.0,0.0,0.0
25%,17.0,192432.2,12267.0,0.0,411.0
50%,20.0,447551.5,27531.0,0.0,1046.0
75%,24.0,1108086.0,67968.5,260.0,2753.0
max,29.0,278080600.0,16213760.0,848980.0,6817450.0


**Conexão com o banco de dados postgresql**

In [None]:
engine=create_engine('postgresql+psycopg2://postgres:2a6e005d7f@localhost/youtubebr_db')
conn = engine.connect()

# Queries de análise descritiva do banco de dados
Note que devido ao uso do postgresql, com seu sql flavor específico, podem haver pequenas variações no código se você utiliza outro SGBD. 

**#1 - Quais os canais mais presentes nos top trendings do Brasil?**

In [None]:
query = '''
--SQL code here
SELECT
    youtubeanalise."channelTitle",
    COUNT("channelTitle") AS videos_do_canal
FROM
    youtubeanalise
GROUP BY "channelTitle"
ORDER BY COUNT("channelTitle") DESC;

'''

df = pd.read_sql_query(query, conn)

df

Unnamed: 0,channelTitle,videos_do_canal
0,ge,3051
1,Felipe Neto,2613
2,ESPN Brasil,2400
3,Jazzghost,2123
4,Enaldinho,1905
...,...,...
5709,RADIO.COM,1
5710,Ju Araújo,1
5711,[adult swim junior],1
5712,Favela Funk,1


**2 - Quais as categorias mais presentes nos top trendings do Brasil?**

In [None]:
query = '''
SELECT
    c."snippet.title" AS category_name,
    COUNT(*) AS numero_de_videos,
    SUM(y.view_count) AS total_views 
FROM
    youtubeanalise y
JOIN
    categoria c ON y."categoryId"::bigint = c.id::bigint 
GROUP BY
    category_name
ORDER BY
    total_views DESC; 
'''

df = pd.read_sql_query(query, conn)

df

Unnamed: 0,category_name,numero_de_videos,total_views
0,Music,57047,185976200000.0
1,Entertainment,63489,95034490000.0
2,Gaming,39392,41876950000.0
3,Sports,39579,31174640000.0
4,People & Blogs,31912,25390020000.0
5,Science & Technology,3678,8568682000.0
6,Comedy,10265,8504427000.0
7,Film & Animation,3210,6291349000.0
8,News & Politics,4424,2987990000.0
9,Education,3122,2153363000.0


**- #3 -  Quais os canais mais hegemônicos dentro de suas categorias**



In [None]:
query = '''
--SQL code here
SELECT
    c."snippet.title" AS categoria,
    y."channelTitle" AS canal_mais_visto,
    SUM(y."view_count") AS numero_de_views
FROM
    youtubeanalise y
INNER JOIN
    categoria c ON y."categoryId"::bigint = c.id::bigint
GROUP BY
    c."snippet.title", y."channelTitle"
ORDER BY
    numero_de_views DESC
LIMIT 10;
'''
df = pd.read_sql_query(query, conn)

df

Unnamed: 0,categoria,canal_mais_visto,numero_de_views
0,Entertainment,MrBeast,21365150000.0
1,Music,HYBE LABELS,15276160000.0
2,Music,BLACKPINK,12272120000.0
3,Music,JYP Entertainment,11221040000.0
4,Music,SMTOWN,11005640000.0
5,Entertainment,DaFuq!?Boom!,9116782000.0
6,Music,BANGTANTV,6948069000.0
7,Gaming,Brawl Stars,3614489000.0
8,Music,Big Hit Labels,3442041000.0
9,Entertainment,Felipe Neto,3133281000.0


**- #4 -  Quais categorias possuem maior quantidade de visualizações?**

In [None]:
query = '''
--SQL code here
SELECT
    c."snippet.title" AS categoria,
    SUM(y."view_count") AS views
FROM
    youtubeanalise AS y
LEFT JOIN
    categoria AS c ON y."categoryId"::bigint = c.id::bigint
GROUP BY c."snippet.title"
ORDER BY COUNT(y."categoryId") DESC


'''
df = pd.read_sql_query(query, conn)

df

Unnamed: 0,categoria,views
0,Entertainment,95034490000.0
1,Music,185976200000.0
2,Sports,31174640000.0
3,Gaming,41876950000.0
4,People & Blogs,25390020000.0
5,Comedy,8504427000.0
6,News & Politics,2987990000.0
7,Science & Technology,8568682000.0
8,Film & Animation,6291349000.0
9,Education,2153363000.0


**6 - Quais os canais com as MAIORES taxas de aprovação?**

In [None]:
query = '''
--SQL code here
SELECT
    "channelTitle",
    SUM("view_count") AS total_view_count,
    SUM("likes") AS total_likes,
    SUM("dislikes") AS total_dislikes,
    CASE 
        WHEN SUM("dislikes") > 0 THEN SUM("likes")::float / NULLIF(SUM("dislikes"), 0)
        ELSE NULL
    END AS like_dislike_ratio
FROM
    youtubeanalise
GROUP BY "channelTitle"
ORDER BY like_dislike_ratio DESC NULLS LAST
LIMIT 10;
'''
df = pd.read_sql_query(query, conn)

df


Unnamed: 0,channelTitle,total_view_count,total_likes,total_dislikes,like_dislike_ratio
0,Tonigon,600213858.0,26868027.0,1826.0,14714.144031
1,Spider Slack,157672463.0,9254189.0,629.0,14712.54213
2,Fixz,148104152.0,6404907.0,494.0,12965.398785
3,Spagnhol Plantas,14467300.0,701822.0,58.0,12100.37931
4,Paulistão,847317240.0,26664718.0,2320.0,11493.412931
5,Linkin Park,241859025.0,19269320.0,1934.0,9963.453981
6,VEIGH,112907617.0,7653704.0,781.0,9799.877081
7,Gabriel o Pensador,5540387.0,807357.0,87.0,9279.965517
8,Onerb,97997306.0,3741185.0,427.0,8761.557377
9,TV Quase,33085816.0,4895266.0,566.0,8648.879859


**7 - Quais os canais com as MAIORES taxas de reprovação?**

In [None]:
query = '''
--SQL code here
SELECT
    "channelTitle",
    SUM("view_count") AS total_view_count,
    SUM("likes") AS total_likes,
    SUM("dislikes") AS total_dislikes,
    CASE 
        WHEN SUM("likes") > 0 THEN SUM("dislikes")::float / NULLIF(SUM("likes"), 0)
        ELSE NULL
    END AS dislike_like_ratio
FROM
    youtubeanalise
GROUP BY "channelTitle"
ORDER BY dislike_like_ratio DESC NULLS LAST
LIMIT 10;
'''
df = pd.read_sql_query(query, conn)

df


Unnamed: 0,channelTitle,total_view_count,total_likes,total_dislikes,dislike_like_ratio
0,Camila Falk,459989.0,34674.0,70502.0,2.033281
1,Aula Paraná,94229.0,2849.0,4055.0,1.423306
2,FatTV,20328830.0,66799.0,40464.0,0.605758
3,RebeldelaSerieVEVO,4296193.0,144168.0,74495.0,0.516724
4,Podcast Magsan,589713.0,40968.0,19873.0,0.485086
5,ESPN,22562935.0,90242.0,43111.0,0.477727
6,Nego do Borel - Topic,836813.0,90262.0,42870.0,0.474951
7,Planalto,6565487.0,24350.0,10511.0,0.431663
8,BroHacker,16951348.0,41147.0,16619.0,0.403893
9,bradesco,603037904.0,97584.0,38036.0,0.389777


**8 -Qual dia da semana teve mais visualizações?**

In [None]:

query = '''
SELECT
       EXTRACT(ISODOW FROM "publishedAt"::timestamp)::integer AS id_dia,
	   CASE EXTRACT( ISODOW FROM "publishedAt"::timestamp)
             WHEN 0 THEN 'Domingo'
             WHEN 1 THEN 'Segunda'
             WHEN 2 THEN 'Terça'
             WHEN 3 THEN 'Quarta'
             WHEN 4 THEN 'Quinta'
             WHEN 5 THEN 'Sexta'
             WHEN 6 THEN 'Sábado'
			 WHEN 7 THEN 'Domingo'
       END AS Dia_da_Semana,
       SUM(view_count) AS total_de_views
FROM "youtubeanalise"
GROUP BY EXTRACT(ISODOW FROM "publishedAt"::timestamp)
ORDER BY SUM(view_count) DESC;

'''
df = pd.read_sql_query(query, conn)

df


Unnamed: 0,id_dia,dia_da_semana,total_de_views
0,5,Sexta,122212200000.0
1,1,Segunda,58438810000.0
2,6,Sábado,52026560000.0
3,4,Quinta,49176890000.0
4,2,Terça,48382960000.0
5,3,Quarta,47483770000.0
6,7,Domingo,33440330000.0


 **9 - Quais meses tiveram maior numero de visualizações dos trendings?**

In [None]:

query = '''
SELECT
       EXTRACT(MONTH FROM "publishedAt"::timestamp)::integer AS id_mes,
	   CASE EXTRACT(MONTH FROM "publishedAt"::timestamp)
             WHEN 1 THEN 'Janeiro'
             WHEN 2 THEN 'Fevereiro'
             WHEN 3 THEN 'Março'
             WHEN 4 THEN 'Abril'
             WHEN 5 THEN 'Maio'
             WHEN 6 THEN 'Junho'
             WHEN 7 THEN 'Julho'
			 WHEN 8 THEN 'Agosto'
             WHEN 9 THEN 'Setembro'
             WHEN 10 THEN 'Outubro'
             WHEN 11 THEN 'Novembro'
             WHEN 12 THEN 'Dezembro'
       END AS Mes_do_ano,
       SUM(view_count) AS total_de_views
FROM "youtubeanalise"
GROUP BY EXTRACT(MONTH FROM "publishedAt"::timestamp)
ORDER BY SUM(view_count) DESC;

'''
df = pd.read_sql_query(query, conn)

df



Unnamed: 0,id_mes,mes_do_ano,total_de_views
0,12,Dezembro,41411510000.0
1,10,Outubro,39238040000.0
2,8,Agosto,38617860000.0
3,1,Janeiro,35434680000.0
4,6,Junho,35433090000.0
5,9,Setembro,33483070000.0
6,7,Julho,33261990000.0
7,11,Novembro,33099960000.0
8,2,Fevereiro,31799720000.0
9,5,Maio,31357060000.0


**10 - Dos anos analisados qual teve a maior quantidade de views?**

In [None]:
#10 Qual ano teve mais visualizações ?
query = '''
SELECT
       EXTRACT(YEAR FROM "publishedAt"::timestamp)::integer AS id_mes,
       SUM(view_count) AS total_de_views
FROM "youtubeanalise"
GROUP BY EXTRACT(YEAR FROM "publishedAt"::timestamp)
ORDER BY SUM(view_count) DESC;

'''
df = pd.read_sql_query(query, conn)

df


Unnamed: 0,id_mes,total_de_views
0,2021,125033500000.0
1,2023,121503400000.0
2,2022,98166780000.0
3,2020,44154620000.0
4,2024,22303220000.0


**Conclusão de trabalhar com queries**



Neste trabalho de Data Science, empregamos técnicas de análise de dados e manipulação de bases de dados utilizando PostgreSQL para extrair insights relevantes de um conjunto de dados do YouTube. Focamos em entender as tendências de visualização, avaliar o desempenho do conteúdo em diferentes categorias e investigar a relação entre as reações dos espectadores (curtidas e descurtidas) e o conteúdo do canal.

Identificamos categorias com maior número de visualizações, sugerindo preferências do público, e analisamos a distribuição de curtidas e descurtidas para entender a recepção do conteúdo pelos usuários. Ao avaliar a proporção de curtidas e descurtidas por canal, identificamos criadores de conteúdo com respostas mais positivas de seu público, útil para campanhas de marketing. Evitamos erros ao calcular essas proporções.

Ao limitar nossos resultados aos principais canais e categorias, fornecemos recomendações específicas para criadores de conteúdo e anunciantes, fundamentais para orientar decisões estratégicas sobre criação de conteúdo e investimentos em publicidade, além de compreender o comportamento da audiência.

Este estudo destacou a capacidade do PostgreSQL em lidar com grandes volumes de dados e a importância das habilidades técnicas em SQL para cientistas de dados maximizarem o valor de bases de dados complexas e realizarem análises detalhadas.