Análise de Dados - Cursos plataforma de ensino online
A análise de dados é uma ferramenta essencial para impulsionar os negócios de uma empresa, e consequentemente, agregar valor.

Um dos profissionais necessários para a geração de valor para empresas, é o cientista/analista de dados. Este profissional é capaz de retirar insights de diversas fontes de dados.

Dito tudo isso, você, como cientista/analista de dados recebeu a missão de analisar dados de uma empresa ensino online de tecnologia. Seu principal objetivo, é através dos dados (disponibilizados na pasta compartilhada deste módulo), é o de responder algumas perguntas de negócios para auxiliar a empresa a aprimorar os seus serviços e produtos.

Detalhes da base de dados podem ser vistos na plataforma Kaggle pelo link

Para isso, use os conhecimentos obtidos neste módulo (e anteriores) para responder as seguintes questões:

Dicas:

Serão três diferentes bases de dados disponibilizadas na pasta do módulo, separadas por assunto (curso). Porém, todas elas contêm o mesmo cabeçalho. Logo, para que consiga responder as perguntas abaixo, unifique-as em um único DataFrame do pandas, e realize as análises.
Não é necessário criar gráficos/visualizações para apresentar os resultados de cada pergunta. Porém, se você estiver confortável para criá-los quando necessário, fique à vontade.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sb

business = pd.read_csv('udemy-business.csv')
design = pd.read_csv('udemy-design.csv')
music = pd.read_csv('udemy-music.csv')
web = pd.read_csv('udemy-web.csv')

geral = pd.concat([business, design, music, web])
geral

1. Quantos cursos estão disponíveis na plataforma?

In [None]:
#calcular total de cursos e total de cursos por área
total_cursos = len(geral['course_id'])
cursos_business = len(business['course_id'])
cursos_web = len(web['course_id'])
cursos_design = len(design['course_id'])
cursos_music = len(music['course_id'])
#organizar os vetores para o gráfico
cursos = ['Business', 'Web', 'Design', 'Music', 'Total de Cursos']
qnt_cursos = [cursos_business, cursos_web, cursos_design, cursos_music, total_cursos]
#montagem do gráfico
plt.plot(cursos, qnt_cursos, 'ro', linestyle='--')
plt.show()
#resposta exata da pergunta 1
print(f'Nossa plataforma disponibiliza total de {total_cursos} cursos')

2. Quais e quantos são os cursos que abordam o assunto: JavaScript?

3. Qual é o preço médio (coluna *price*) dos cursos oferecidos na plataforma?

In [None]:
preço_cursos = np.round(geral[['price']].mean(), 2)
preço_business = np.round(business[['price']].mean(), 2)
preço_web = np.round(web[['price']].mean(), 2)
preço_design = np.round(design[['price']].mean(), 2)
preço_music = np.round(music[['price']].mean(), 2)

preços = ['Business', 'Web', 'Design', 'Music', 'Preço Médio']
preços_cursos = [preço_business, preço_web, preço_design, preço_music, preço_cursos]

plt.plot(preços, preços_cursos, 'bo', linestyle='solid')
plt.show()

preço_medio = preço_cursos
print(f'Nossos cursos tem preço médio de R${preço_medio}')

4. Quais são os cinco cursos com maior número de inscritos (coluna *num_subscribers*)?

In [None]:
num_inscritos = geral.sort_values(by='num_subscribers', ascending=False).reset_index()
num_inscritos.head()
curso1 = num_inscritos['course_title'][0]
curso2 = num_inscritos['course_title'][1]
curso3 = num_inscritos['course_title'][2]
curso4 = num_inscritos['course_title'][3]
curso5 = num_inscritos['course_title'][4]
maior1 = num_inscritos['num_subscribers'][0]
maior2 = num_inscritos['num_subscribers'][1]
maior3 = num_inscritos['num_subscribers'][2]
maior4 = num_inscritos['num_subscribers'][3]
maior5 = num_inscritos['num_subscribers'][4]

cursos = [curso5, curso4, curso3, curso2, curso1]
inscritos = [maior5, maior4, maior3, maior2, maior1]

plt.plot(inscritos, cursos, 'ro', linestyle = '--', color = 'orange')
plt.show()

5. Dos cinco cursos mais populares em termos de inscritos, mostre o **rate médio**, **máximo** e **mínimo** de cada um deles.

In [None]:
rate_max = num_inscritos['Rating'].max()
rate_min = num_inscritos['Rating'].min()
rate_medio = np.round(num_inscritos['Rating'].mean(), 3)

rate = ['Avaliação (média)', 'Avaliação (min)', 'Avaliação (max)']
valores_rate = [rate_medio, rate_min, rate_max]

plt.plot(valores_rate, rate, 'ro')
plt.show()

6. Apresente os dez cursos mais avaliações na plataforma.

In [None]:
avaliacoes = geral.sort_values(by='num_reviews', ascending=False).reset_index().head(10)
avaliacoes

7. A partir dos dez cursos mais avaliações, mostre:
1) qual tem o maior número de inscritos;
2) qual tem o maior **rate** (avaliação do curso).

In [None]:
#1) qual tem o maior número de inscritos;
inscritos = avaliacoes.sort_values(by='num_subscribers', ascending=False).reset_index()
curso_maior = [inscritos['course_title'][0]]
inscritos = avaliacoes['num_subscribers'].max()
print(f'Nosso curso com mais inscrições, dentre os mais avaliados é {curso_maior}, com {inscritos} inscritos')

In [None]:
#2) qual tem o maior **rate** (avaliação do curso).
rate = avaliacoes.sort_values(by='Rating', ascending=False).reset_index()
rate_maior = [rate['course_title'][0]]
rate = avaliacoes['Rating'].max()
print(f'Nosso curso com melhor avaliação, dentre os mais avaliados é {rate_maior}, com {rate} de pontos')

8. Dos cursos listados na base de dados, qual tem maior duração em horas?

In [None]:
duracao = geral.sort_values(by='content_duration', ascending=False).reset_index()
curso_maior = duracao['course_title'][0]
maior_tempo = duracao['content_duration'][0]
tempo_medio = duracao['content_duration'].mean()

curso = [curso_maior, 'Duração Média']
valores = [maior_tempo, tempo_medio]

plt.bar(curso, valores, color = 'orange')
plt.show()

9. Dos cursos listados na base de dados, qual tem o maior número de aulas (*lectures*)?

In [None]:
media_num_aulas = geral['num_lectures'].mean()
maior_num_aulas = geral['num_lectures'].max()
curso_maior_num_aulas = geral[geral['num_lectures'] == maior_num_aulas]
media_num_aulas
curso_maior_num_aulas

aulas = ['Média de número de aulas', 'Back to School Web Development and Programming']
qnt_aulas = [media_num_aulas, maior_num_aulas]

plt.plot(aulas, qnt_aulas)
plt.show()

print(f'''Nosso curso com maior número de aulas é o
"Back to School Web Development and Programming"
com {maior_num_aulas} aulas.''')

10. Apresente o número (contagem) de cursos agrupados por nível (coluna *level*).

In [None]:
agrupamento = geral.groupby(by='level').count().reset_index()
agrupamento

niveis = ['Todos os Níveis', 'Iniciante', 'Intermediário', 'Avançado']
valores = [1925, 1271, 422, 58]

plt.plot(niveis, valores)
plt.show()

print(f'''Possuímos 4 níveis de cursos:
- Iniciante, com 1271 cursos;
- Intermediário, com 422 cursos;
- Avançado, com 58 cursos;
- Para todos, com 1925 cursos;
Totalizando 3681 cursos''')

11. Quais são os cursos mais recentes contidos na base de dados?

In [None]:
mais_recentes = geral.sort_values(by='published_timestamp', ascending=False).reset_index()
mais_recentes.head()

12. Apresente o número (contagem) de cursos agrupados por nível (coluna *level*) e por assunto (coluna *subject*).


In [None]:
agrupar = geral.groupby(by=['level', 'subject']).count().reset_index()
agrupar['course_id'].sum()

13. Disponibilize suas análises em um repositório do Github e compartilhe o link abaixo.

https://github.com/YuriCatundaGondim/projeto_analise_dados

14. Crie uma conta no <a href="https://www.kaggle.com/datasets/thedevastator/udemy-courses-revenue-generation-and-course-anal">Kaggle</a> e crie um Notebook com as análises feitas neste projeto. A ideia aqui, é que você comece a criar um portfólio de análise de dados na plataforma :)

https://www.kaggle.com/code/yurigondim/projeto-an-lise-de-dados-udemy