## Análise de Dados - Cursos plataforma de ensino *online*

A análise de dados é uma ferramenta essencial para impulsionar os negócios de uma empresa, e consequentemente, agregar valor.
<br>
<br>
Um dos profissionais necessários para a geração de valor para empresas, é o cientista/analista de dados. Este profissional é capaz de retirar insights de diversas fontes de dados.
<br>
<br>
Dito tudo isso, você, como cientista/analista de dados recebeu a missão de analisar dados de uma empresa ensino online de tecnologia. Seu principal objetivo, é através dos dados (disponibilizados na <a href="https://drive.google.com/file/d/1PE-9PTK5twBuUOuuKAk3Oo02Is8Dr8q-/view?usp=share_link">pasta compartilhada</a> deste módulo), é o de responder algumas perguntas de negócios para auxiliar a empresa a aprimorar os seus serviços e produtos.
<br>
<br>
Detalhes da base de dados podem ser vistos na plataforma Kaggle pelo <a href="https://www.kaggle.com/datasets/thedevastator/udemy-courses-revenue-generation-and-course-anal">link</a>
<br>
<br>
Para isso, use os conhecimentos obtidos neste módulo (e anteriores) para responder as seguintes questões:

**Dicas:**

- Serão três diferentes bases de dados disponibilizadas na pasta do módulo, separadas por assunto (curso). Porém, todas elas contêm o mesmo cabeçalho. Logo, para que consiga responder as perguntas abaixo, unifique-as em um único **DataFrame** do pandas, e realize as análises.
- Não é necessário criar gráficos/visualizações para apresentar os resultados de cada pergunta. Porém, se você estiver confortável para criá-los quando necessário, fique à vontade.

### Perguntas a serem respondidas a partir dos dados.

In [None]:
import numpy as np
import pandas as pd

In [None]:
course_business = pd.read_csv("/content/3.1-data-sheet-udemy-courses-business-courses.csv",sep=",")
course_design = pd.read_csv("/content/3.1-data-sheet-udemy-courses-design-courses.csv", sep=",")
course_music = pd.read_csv("/content/3.1-data-sheet-udemy-courses-music-courses.csv", sep=",")
course_web_development = pd.read_csv("/content/3.1-data-sheet-udemy-courses-web-development.csv", sep=",")

In [None]:
courses = pd.concat([course_business, course_design, course_music,  course_web_development]) 

In [None]:
courses.to_csv("total_courses", index=False)

In [None]:
courses = pd.read_csv("/content/total_courses", sep=",")

In [None]:
courses

In [None]:
courses.info()

1. Quantos cursos estão disponíveis na plataforma?

In [None]:
qtd_courses = courses["course_title"].count()

print(f'Estão disponíveis na plataforma {qtd_courses} cursos!')

Estão disponíveis na plataforma 3676 cursos!


2. Quais e quantos são os cursos que abordam o assunto: JavaScript?

In [None]:
courses["course_title"] = courses["course_title"].str.lower()
course_subject = courses[courses["course_title"].str.contains("javascript", na=False)]
course_subject

3. Qual é o preço médio (coluna *price*) dos cursos oferecidos na plataforma?

In [None]:
price_mean = courses["price"].mean()

print(f"O preço médio dos cursos oferecidos na plataforma é de R${price_mean:.2f}")

O preço médio dos cursos oferecidos na plataforma é de R$66.12


4. Quais são os cinco cursos com maior número de inscritos (coluna *num_subscribers*)?

In [None]:
course_max_subscribers = courses.sort_values("num_subscribers", ascending=False).reset_index()[
    ["course_id","course_title","num_subscribers"]
    ].head(5)
course_max_subscribers

Unnamed: 0,course_id,course_title,num_subscribers
0,41295.0,Learn HTML5 Programming From Scratch,268923.0
1,59014.0,Coding for Entrepreneurs Basic,161029.0
2,625204.0,The Web Developer Bootcamp,121584.0
3,173548.0,Build Your First Website in 1 Week with HTML5 ...,120291.0
4,764164.0,The Complete Web Developer Course 2.0,114512.0


5. Dos cinco cursos mais populares em termos de inscritos, mostre o **rate médio**, **máximo** e **mínimo** de cada um deles.

In [None]:
course_max_subscribers["num_subscribers"].agg(['max','min','mean'])


max     268923.0
min     114512.0
mean    157267.8
Name: num_subscribers, dtype: float64

6. Apresente os dez cursos mais visualizados na plataforma.

In [None]:
course_max_reviews = courses.sort_values("num_reviews", ascending=False).reset_index()[
    ["course_id","course_title","num_reviews"]
    ].head(10)
course_max_reviews   

In [None]:
top_course_max_reviews = courses.sort_values("num_reviews", ascending=False).head(10)
top_course_max_reviews

7. A partir dos dez cursos mais vistos, mostre: 1) qual tem o maior número de inscritos; 2) qual tem o maior **rate** (avaliação do curso).

In [None]:
course_max_reviews = top_course_max_reviews["num_reviews"].max()
id_course_max_reviews = top_course_max_reviews[top_course_max_reviews["num_reviews"]==course_max_reviews]
id_course_max_reviews


In [None]:
course_max_rating = top_course_max_reviews["Rating"].max()
id_course_max_rating = top_course_max_reviews[top_course_max_reviews["Rating"]==course_max_rating]
id_course_max_rating

8. Dos cursos listados na base de dados, qual tem maior duração em horas?

In [None]:
max_hours = courses["content_duration"].max()
course_max_hours = courses[courses["content_duration"]==max_hours]
course_max_hours

Unnamed: 0,course_id,course_title,url,price,num_subscribers,num_reviews,num_lectures,level,Rating,content_duration,published_timestamp,subject
1358,978576.0,the complete figure drawing course hd,https://www.udemy.com/the-complete-figure-draw...,50.0,1323.0,136.0,225.0,Beginner Level,0.37,78.5,2016-10-11T21:40:06Z,Graphic Design


9. Dos cursos listados na base de dados, qual tem o maior número de aulas (*lectures*)?

In [None]:
max_lectures = courses["num_lectures"].max()
course_max_lectures = courses[courses["num_lectures"]==max_lectures]
course_max_lectures

10. Apresente o número (contagem) de cursos agrupados por nível (coluna *level*).

In [None]:
courses.groupby("level").count()

11. Quais são os cursos mais recentes contidos na base de dados?

In [None]:
courses.sort_values("published_timestamp", ascending=False).reset_index()[
    ["course_id","course_title","published_timestamp"]
    ].head()

12. Apresente o número (contagem) de cursos agrupados por nível (coluna *level*) e por assunto (coluna *subject*).

In [None]:
courses.groupby(["level", "subject"]).count()

13. Disponibilize suas análises em um repositório do Github e compartilhe o link abaixo.

In [None]:
# link do projeto no Github

14. Crie uma conta no <a href="https://www.kaggle.com/datasets/thedevastator/udemy-courses-revenue-generation-and-course-anal">Kaggle</a> e crie um Notebook com as análises feitas neste projeto. A ideia aqui, é que você comece a criar um portfólio de análise de dados na plataforma :)