## Descrição do Projeto

Este projeto faz parte do módulo III do curso de Data Science oferecido pela Ada Tech, focado na exploração de técnicas avançadas de consulta em SQL. O curso visa equipar os alunos com habilidades práticas em análise de dados, utilizando SQL para extrair, analisar e interpretar grandes conjuntos de dados. Através deste módulo, somos encorajados a aplicar conceitos teóricos em cenários reais, aprimorando nossa capacidade de tomar decisões baseadas em dados.

### Objetivo do Projeto

O objetivo deste projeto é realizar uma análise descritiva completa de um dataset escolhido, utilizando consultas SQL para extrair insights e compreender as dinâmicas subjacentes aos dados. Pretende-se demonstrar a aplicabilidade do SQL em tarefas de data science, desde a manipulação até a análise de dados complexos.

### Proposta do Projeto

A proposta envolve selecionar um dataset, importá-lo para um banco de dados PostgreSQL, e então realizar uma série de análises descritivas e exploratórias através do Jupyter Notebook. Este processo inclui a identificação de padrões, tendências e anomalias nos dados, bem como responder a perguntas específicas que possam oferecer valor prático ou insights.

### Dataset Escolhido

Para este projeto, decidi utilizar o dataset "Udemy Courses 2010-2023-with-language", disponível no Kaggle. Este dataset compreende uma vasta coleção de cursos oferecidos na plataforma Udemy desde 2010 até 2023, incluindo informações sobre títulos dos cursos, URLs, avaliações, número de revisões, número de aulas publicadas, data de criação, última data de atualização, duração, ID dos instrutores e idiomas. A escolha deste dataset se deu pela rica oportunidade de explorar as tendências no e-learning e a evolução do mercado de cursos online ao longo dos anos.

### Questões a Serem Abordadas

Algumas das questões específicas que serão exploradas neste projeto incluem:

1. Quais são os cursos mais bem avaliados e populares?
2. Como a oferta de cursos evoluiu ao longo do tempo?
3. Existe uma correlação entre o número de avaliações e as classificações dos cursos?
4. Quais são os idiomas mais comuns dos cursos oferecidos?
5. Quem são os instrutores com o maior número de cursos na plataforma?

Estas perguntas visam não apenas a explorar o dataset em profundidade, mas também a fornecer insights sobre o comportamento dos usuários da plataforma Udemy e as estratégias dos instrutores.

# EXECUTAR ESTE SCRIPT APENAS UMA VEZ. (CRIAÇÃO DO SCHEMA, TABELA E INSERÇÃO DOS DADOS NA TABELA)

In [1]:
# Importando as bibliotecas e funções que serão utilizadas no projeto
from sqlalchemy import create_engine, MetaData, Table, Column, Integer, String, Float, Date
from sqlalchemy.sql import text
import pandas as pd

In [2]:
# Conexão ao banco de dados
SGBD = "postgresql+psycopg2"
USER = "postgres"
SENHA = "senha"
HOST = "localhost"
DATABASE = "postgres"
engine = create_engine(f"{SGBD}://{USER}:{SENHA}@{HOST}/{DATABASE}")
conn = engine.connect()

In [3]:
# Criação de um objeto MetaData
metadata = MetaData()

In [4]:
# Criação do schema, se não existir
schema_creation_query = text("CREATE SCHEMA IF NOT EXISTS projeto;")

with engine.begin() as connection:
    connection.execute(schema_creation_query)

In [5]:
# Definição da tabela
udemy_courses = Table('udemy_courses', metadata,
                      Column('id', Integer, primary_key=True),
                      Column('title', String),
                      Column('url', String),
                      Column('rating', Float),
                      Column('num_reviews', Integer),
                      Column('num_published_lectures', Integer),
                      Column('created', Date),
                      Column('last_update_date', Date),
                      Column('duration', String),
                      Column('instructors_id', Integer),
                      Column('language', String),
                      schema='projeto')

# Criando o schema e a tabela
metadata.create_all(engine)

In [17]:
# Leitura do arquivo .csv
path_to_csv = r'C:\Workspace\CURSO ADA TECH\MODULO III - linguagem SQL\Projeto SQL\udemy_lang.csv'
df_csv = pd.read_csv(path_to_csv)

In [18]:
df_csv.head()

Unnamed: 0.1,Unnamed: 0,id,title,url,rating,num_reviews,num_published_lectures,created,last_update_date,duration,instructors_id,image,language
0,0,567828,The Complete Python Bootcamp From Zero to Hero...,/course/complete-python-bootcamp/,4.592782,452973,155,2015-07-29T00:12:23Z,2021-03-14,22 total hours,9685726,https://img-c.udemycdn.com/course/750x422/5678...,en
1,1,1565838,The Complete 2023 Web Development Bootcamp,/course/the-complete-web-development-bootcamp/,4.667258,263152,490,2018-02-22T12:02:33Z,2023-01-20,65.5 total hours,31334738,https://img-c.udemycdn.com/course/750x422/1565...,en
2,2,625204,The Web Developer Bootcamp 2023,/course/the-web-developer-bootcamp/,4.696147,254711,616,2015-09-28T21:32:19Z,2023-02-12,64 total hours,4466306,https://img-c.udemycdn.com/course/750x422/6252...,en
3,3,756150,Angular - The Complete Guide (2023 Edition),/course/the-complete-guide-to-angular-2/,4.592692,180257,472,2016-02-08T17:02:55Z,2023-02-06,34.5 total hours,13952972,https://img-c.udemycdn.com/course/750x422/7561...,en
4,4,2776760,100 Days of Code: The Complete Python Pro Boot...,/course/100-days-of-code/,4.695252,177568,676,2020-01-24T10:47:21Z,2022-11-30,64 total hours,31334738,https://img-c.udemycdn.com/course/750x422/2776...,en


In [19]:
# Dropando as colunas que não foram criadas na tabela e não serão utilizadas
df_csv.drop(columns=['Unnamed: 0','image'], inplace=True)

In [20]:
df_csv.head()

Unnamed: 0,id,title,url,rating,num_reviews,num_published_lectures,created,last_update_date,duration,instructors_id,language
0,567828,The Complete Python Bootcamp From Zero to Hero...,/course/complete-python-bootcamp/,4.592782,452973,155,2015-07-29T00:12:23Z,2021-03-14,22 total hours,9685726,en
1,1565838,The Complete 2023 Web Development Bootcamp,/course/the-complete-web-development-bootcamp/,4.667258,263152,490,2018-02-22T12:02:33Z,2023-01-20,65.5 total hours,31334738,en
2,625204,The Web Developer Bootcamp 2023,/course/the-web-developer-bootcamp/,4.696147,254711,616,2015-09-28T21:32:19Z,2023-02-12,64 total hours,4466306,en
3,756150,Angular - The Complete Guide (2023 Edition),/course/the-complete-guide-to-angular-2/,4.592692,180257,472,2016-02-08T17:02:55Z,2023-02-06,34.5 total hours,13952972,en
4,2776760,100 Days of Code: The Complete Python Pro Boot...,/course/100-days-of-code/,4.695252,177568,676,2020-01-24T10:47:21Z,2022-11-30,64 total hours,31334738,en


In [21]:
# Inserindo o arquivo csv no banco de dados (uma vez que o schema e a tabela ja está criada)

df_csv.to_sql('udemy_courses', engine, schema='projeto', if_exists='append', index=False)

104

# COMEÇAR A EXECUTAR O CÓDIGO A PARTIR DAQUI!!!! (ACIMA FOI APENAS PARA CRIAR O BANCO DE DADOS, SCHEMA E TABELAS)

In [1]:
# Importando as bibliotecas e funções que serão utilizadas no projeto
from sqlalchemy import create_engine
import pandas as pd

In [2]:
# Conexão com o banco de dados
SGBD = "postgresql+psycopg2"
USER = "postgres"
SENHA = "senha"
HOST = "localhost"
DATABASE = "postgres"
engine = create_engine(f"{SGBD}://{USER}:{SENHA}@{HOST}/{DATABASE}")
conn = engine.connect()

### Análise Descritiva da tabela;<br>

- **Qual as tipagens das colunas?;**<br>
- **Quantos nulos temos em cada coluna?;**<br>
- **Quantos valores únicos temos nas colunas categoricas?;**<br>

In [3]:
# Inserindo a tabela num dataframe
query = '''
SELECT * 
FROM projeto.udemy_courses
'''

df = pd.read_sql_query(query, conn)

In [4]:
# Qual a tipagem das colunas?
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83104 entries, 0 to 83103
Data columns (total 11 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      83104 non-null  int64  
 1   title                   83104 non-null  object 
 2   url                     83104 non-null  object 
 3   rating                  83104 non-null  float64
 4   num_reviews             83104 non-null  int64  
 5   num_published_lectures  83104 non-null  int64  
 6   created                 83104 non-null  object 
 7   last_update_date        83026 non-null  object 
 8   duration                83104 non-null  object 
 9   instructors_id          83104 non-null  int64  
 10  language                83104 non-null  object 
dtypes: float64(1), int64(4), object(6)
memory usage: 7.0+ MB


In [17]:
query = """
SELECT
    column_name,
    data_type 
FROM information_schema.columns 
WHERE table_name = 'udemy_courses' 
AND table_schema = 'projeto';
"""

pd.read_sql_query(query,conn)

Unnamed: 0,column_name,data_type
0,id,integer
1,title,character varying
2,url,character varying
3,rating,double precision
4,num_reviews,integer
5,num_published_lectures,integer
6,created,date
7,last_update_date,date
8,duration,character varying
9,instructors_id,integer


In [18]:
# Quais os tipos de cada coluna e há quantidade de caracteres pré-definido?
query = """
SELECT
    column_name,
    data_type,
    character_maximum_length
FROM information_schema.columns 
WHERE table_name = 'udemy_courses' 
AND table_schema = 'projeto';
"""

pd.read_sql_query(query,conn)

Unnamed: 0,column_name,data_type,character_maximum_length
0,id,integer,
1,title,character varying,
2,url,character varying,
3,rating,double precision,
4,num_reviews,integer,
5,num_published_lectures,integer,
6,created,date,
7,last_update_date,date,
8,duration,character varying,
9,instructors_id,integer,


In [21]:
# Quantos valores únicos temos nas colunas categóricas?
query = '''
SELECT
    'title' AS coluna,
    COUNT(DISTINCT title) AS valores_unicos
FROM projeto.udemy_courses
UNION ALL
SELECT
    'url',
    COUNT(DISTINCT url)
FROM projeto.udemy_courses
UNION ALL
SELECT
    'language',
    COUNT(DISTINCT language)
FROM projeto.udemy_courses;
'''

pd.read_sql_query(query, conn)

Unnamed: 0,coluna,valores_unicos
0,language,88
1,title,82798
2,url,83104


### Faça 10 perguntas ao seu dataset e responda-as com querys

1. **Quais são os 10 cursos mais bem avaliados com mais de 100 avaliações?**
   - Essa pergunta ajuda a identificar cursos de alta qualidade que possuem uma quantidade significativa de feedback dos usuários.

In [26]:
query = '''
SELECT
    instructors_id,
    title,
    rating,
	num_reviews
	

FROM projeto.udemy_courses
WHERE num_reviews > 100

ORDER BY 
	rating DESC, num_reviews DESC

LIMIT 10;
'''

pd.read_sql_query(query, con=conn)

Unnamed: 0,instructors_id,title,rating,num_reviews
0,2330472,3D Modeling Piped Systems in AutoCAD,5.0,942
1,2330472,IEC Paradigms (Level 4),5.0,914
2,3470136,The Talking Dead - Basics of Spirit Communication,5.0,516
3,165065,Photography - Become a Better Photographer - P...,5.0,495
4,5075576,Advanced Close Combat Training: Scientific Sel...,5.0,464
5,29660550,Curso de Piano Nível Intermediário (por música...,5.0,457
6,8909578,Build up on VMware vSphere & ESXi in Enterpris...,5.0,454
7,122644641,ServiceNow Certified System Admin (CSA) Tests ...,5.0,450
8,1502464,Analog Audio Tape Recorder Basic Theory and Al...,5.0,361
9,65211132,Cristaloterapia - Aprofundando o Conhecimento ...,5.0,315


1.1 **Quais são os 10 cursos com linguatem brasileira mais bem avaliados?**

In [27]:
query = '''
SELECT
    instructors_id,
    title,
    rating,
	num_reviews,
	language
	

FROM projeto.udemy_courses
WHERE num_reviews > 100 AND language = 'pt'


ORDER BY 
	rating DESC, num_reviews DESC

LIMIT 10;
'''

pd.read_sql_query(query, con=conn)

Unnamed: 0,instructors_id,title,rating,num_reviews,language
0,29660550,Curso de Piano Nível Intermediário (por música...,5.0,457,pt
1,35893560,Curso de Excel Avançado + Conteúdo Extra,5.0,275,pt
2,56962148,"30 Treinos Completos, Rápidos e Intensos + Gui...",5.0,221,pt
3,6317252,WakeUp | Aperfeiçoar - Fotografia de Recém-Nas...,5.0,160,pt
4,163172430,NFT - Como funcionam os Tokens Não Fungíveis,5.0,125,pt
5,162735038,3Commas Simple Crypto Trading Bot Tutorial!,4.969344,181,pt
6,437257,"Como Conseguir Fotos, Ilustrações e Vídeos Gra...",4.968767,473,pt
7,79335226,Astrologia - O Início da Jornada,4.958988,261,pt
8,16732574,Animação no PowerPoint: Slides Animados e Efei...,4.958115,520,pt
9,52487986,Investimentos em Fundos Imobiliários (FIIs) na...,4.957833,473,pt


2. **Qual é a distribuição de cursos por idioma, de maneira com que a linguagem 'br' também apareça no resultado?**
   - Fornece insights sobre a diversidade linguística dos cursos oferecidos e potenciais mercados a serem explorados.

In [15]:
query = '''
-- Criando Subquery usando WITH para pesquisar a linguagem 'br'
WITH cursos_br AS (
SELECT 
	language,
	COUNT(*) AS Quantidade
FROM projeto.udemy_courses
WHERE language = 'br'
GROUP BY language
ORDER BY quantidade DESC
),

-- Criando Subquery para pesquisar todas as linguagens 
--(top 19, para motrar apenas as 20 linguagens com maior numero de cursos (19 + 1 br))
outros_cursos AS (
SELECT 
	language,
	COUNT(*) AS Quantidade
FROM projeto.udemy_courses
WHERE language <> 'br'
GROUP BY language
ORDER BY quantidade DESC
LIMIT 19
)

-- Fazendo a pesquisa na subquery
SELECT 
	language,
	Quantidade
FROM cursos_br
-- Concatenando com todas as outras
UNION ALL
SELECT
	language,
	Quantidade
FROM outros_cursos
ORDER BY Quantidade DESC, language;
'''
pd.read_sql_query(query, con=conn)

Unnamed: 0,language,quantidade
0,en,59560
1,es,4706
2,pt,2727
3,de,2696
4,fr,2552
5,it,2065
6,ja,1349
7,tr,1023
8,da,490
9,ar,458


3. **Quantos cursos foram criados por ano?**
   - Essa análise pode mostrar tendências de crescimento ou declínio na oferta de cursos novos ao longo do tempo.

In [20]:
query = '''
SELECT
    EXTRACT(YEAR FROM created) AS ano_criacao,
    COUNT(*) AS numero_cursos
FROM projeto.udemy_courses
GROUP BY ano_criacao
ORDER BY numero_cursos;

'''

pd.read_sql_query(query , conn)

Unnamed: 0,ano_criacao,numero_cursos
0,2010.0,3
1,2011.0,51
2,2012.0,360
3,2023.0,1089
4,2013.0,1249
5,2014.0,2269
6,2015.0,4374
7,2016.0,4553
8,2017.0,6616
9,2018.0,9078


4. **Qual é o curso mais antigo e o mais recentemente atualizado na plataforma?**
   - Isso pode indicar cursos que são perenes (com longevidade na plataforma) e a frequência de atualização dos cursos.

In [28]:
query = '''
(SELECT 
	title,
	created
FROM projeto.udemy_courses
ORDER BY created ASC
LIMIT 1)

UNION ALL

(SELECT 
	title,
	created
FROM projeto.udemy_courses
ORDER BY created DESC
LIMIT 1)
'''
pd.read_sql_query(query, conn)

Unnamed: 0,title,created
0,Simple Strategy for Swing Trading the Stock Ma...,2010-04-14
1,Create interactive documents with Adobe InDesi...,2023-02-14


5. **Qual é a duração média dos cursos por categoria de idioma?**
   - Revela se existe uma correlação entre o idioma do curso e sua duração, o que pode indicar preferências de aprendizado específicas de cada idioma.

In [31]:
query = '''
SELECT
	language,
    ROUND(AVG(CAST(REGEXP_REPLACE(duration, '^(\d+).*', '\\1') AS INTEGER)), 2) AS tempo_medio_horas
FROM projeto.udemy_courses
GROUP BY language
ORDER BY tempo_medio_horas DESC
LIMIT 20;
'''
# AQUI EU PRECISEI MUITO DE AJUDA (NÃO SABIA QUE DAVA PARA CONVERTER VARCHAR EM NUMERO.... PQP, MTO TOP!!!!)
pd.read_sql_query(query, conn)

Unnamed: 0,language,tempo_medio_horas
0,wa,267.78
1,vo,208.33
2,hy,105.0
3,ku,75.51
4,af,74.57
5,lb,72.0
6,eu,62.03
7,pa,40.0
8,da,36.84
9,ka,36.0


6. **Quais instrutores possuem o maior número de cursos na plataforma?**
   - Destaca os instrutores mais produtivos ou populares na Udemy.

In [34]:
query = '''
SELECT
	instructors_id,
	COUNT(*) AS quantidade_cursos
FROM projeto.udemy_courses
GROUP BY instructors_id
ORDER BY quantidade_cursos DESC
LIMIT 10;
'''

pd.read_sql_query(query, conn)

Unnamed: 0,instructors_id,quantidade_cursos
0,5058914,485
1,214757,284
2,39032,279
3,16262298,247
4,32504146,240
5,665187,229
6,254593,205
7,5581552,201
8,50191822,180
9,63572698,179


7. **Qual é a evolução mensal (de 2020 e 2021) da média de avaliações dos cursos desde a sua criação até a data da última atualização?**
   - Essa análise pode ajudar a entender como a percepção da qualidade dos cursos muda com o tempo e após atualizações. Você pode usar funções de janela para calcular as médias móveis mensais de avaliações.

In [11]:
query = '''
WITH mensal AS (
    SELECT
        DATE_TRUNC('month', created) AS mes,
        rating::NUMERIC AS avaliacao
    FROM projeto.udemy_courses
	WHERE EXTRACT(YEAR FROM created) IN (2020,2021)
    UNION ALL
    SELECT
        DATE_TRUNC('month', serie) AS mes,
        rating::NUMERIC AS avaliacao
    FROM projeto.udemy_courses,
        GENERATE_SERIES(created, last_update_date - INTERVAL '1 month', '1 month'::interval) AS serie
)
SELECT
    TO_CHAR(mes, 'MM/YYYY') AS mes_ano,
    ROUND(AVG(avaliacao), 2) AS media_avaliacao
FROM mensal
WHERE EXTRACT(YEAR FROM mes) IN (2020,2021)
GROUP BY mes_ano
ORDER BY mes_ano;
'''

pd.read_sql_query (query, conn)

Unnamed: 0,mes_ano,media_avaliacao
0,01/2020,4.29
1,01/2021,4.27
2,02/2020,4.28
3,02/2021,4.27
4,03/2020,4.28
5,03/2021,4.26
6,04/2020,4.28
7,04/2021,4.26
8,05/2020,4.28
9,05/2021,4.25


8. **Quantos cursos não possuem avaliações?**
   - Oferece uma visão sobre quantos cursos ainda não foram avaliados, o que pode indicar novos cursos ou cursos menos populares.

In [35]:
query = '''
SELECT
	COUNT(id) AS quantidade
FROM projeto.udemy_courses
WHERE num_reviews < 1
;
'''
pd.read_sql_query(query, conn)

Unnamed: 0,quantidade
0,5392


9. **Qual é o top 5 de cursos com maior número de aulas publicadas?**
   - Identifica os cursos que oferecem o maior volume de conteúdo, o que pode ser um indicativo de profundidade ou abrangência do tema abordado.

In [3]:
query = '''
SELECT
	title,
	num_published_lectures
FROM projeto.udemy_courses
ORDER BY num_published_lectures DESC
LIMIT 5;
'''
pd.read_sql_query (query, conn)

Unnamed: 0,title,num_published_lectures
0,Microsoft Office 2013 Training Tutorial,891
1,QuickBooks Online vs. QuickBooks Desktop vs. E...,800
2,Data Science Mega-Course: #Build {120-Projects...,800
3,"QuickBooks Desktop 2023, 2022, & 2021",800
4,"QuickBooks Online vs. QuickBooks Desktop 2022,...",800


10. **Quais cursos mantiveram uma média de avaliação superior a 4.5 ao longo de todo o período desde a sua criação, considerando apenas os cursos com mais de 100 avaliações em total?**
    - Essa análise pode ajudar a identificar cursos de alta qualidade que consistentemente satisfazem ou excedem as expectativas dos alunos.

In [13]:
query = '''
SELECT
	id,
	title,
	AVG(rating) AS media_avaliacao,
	SUM(num_reviews) AS total_visualizacoes
FROM projeto.udemy_courses
GROUP BY id, title
HAVING AVG(rating) > 4.5 AND SUM(num_reviews) > 100
ORDER BY media_avaliacao DESC, total_visualizacoes DESC
LIMIT 20;
'''
pd.read_sql_query (query, conn)

Unnamed: 0,id,title,media_avaliacao,total_visualizacoes
0,656714,3D Modeling Piped Systems in AutoCAD,5.0,942
1,1052868,IEC Paradigms (Level 4),5.0,914
2,1258142,The Talking Dead - Basics of Spirit Communication,5.0,516
3,65809,Photography - Become a Better Photographer - P...,5.0,495
4,225172,Advanced Close Combat Training: Scientific Sel...,5.0,464
5,1972986,Curso de Piano Nível Intermediário (por música...,5.0,457
6,606772,Build up on VMware vSphere & ESXi in Enterpris...,5.0,454
7,3920074,ServiceNow Certified System Admin (CSA) Tests ...,5.0,450
8,88160,Analog Audio Tape Recorder Basic Theory and Al...,5.0,361
9,2351622,Cristaloterapia - Aprofundando o Conhecimento ...,5.0,315
