# Análise de dados dos cursos do UDEMY por número de inscritos
#### Essa análise usa dados coletados no Kaggle de cursos do Udemy. O foco é realizar uma análise por cursos que obtiveram mais inscritos, não rendimento do curso. Seria possível realizar o rendimento multiplicando o custo pelo número de inscritos (ambas informações disponíveis), mas foram realizadas promoções e descontos que podem não ter sido durante todo o período de disponibilidade do curso, o que afetaria o ganho total por curso. Ao invés disso, custo e promoção serão utilizadas como variáveis independentes.

In [1]:
#Importando bibliotecas usadas inicialmente
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt

In [2]:
#importando base de dados e visualizando 
data = pd.read_csv('../input/business-courses-udemy-10k-courses/udemy_output_All_Business_p1_p626.csv')
data.head(5)

In [3]:
data.describe()

In [4]:
data.info()

In [5]:
data.query('num_published_lectures == 0')

#### É possível perceber que existem cursos sem aulas publicadas, esses não são cursos, mas exames práticos que itilizam testes publicados, como essa análise é de cursos, somente serão considerados cursos com aulas publicadas.

In [6]:
data = data.query('num_published_lectures > 0')
data.describe()

#### O máximo de número de aulas publicadas é bem destoante dos quartis, pode se tratar de um outlier ou de uma distribuição com uma calda muito grande. Vamos verificar

In [7]:
#Dando alguns ajuses te cor e estilo ao seaborn.
sns.set_palette('PRGn')
sns.set_style('ticks')

In [8]:
data['num_published_lectures'].isna().sum()

In [44]:
np.isinf(data['num_published_lectures']).sum()

In [9]:
ax = sns.distplot(data['num_published_lectures'], kde=False, norm_hist=False)
ax.set_title('Distribuição de aulas publicadas')
ax.set(xlabel='Aulas publicadas', ylabel='Frequencia')
ax

In [10]:
ax = sns.boxplot(data['num_published_lectures'])
ax.set_title('Aulas publicadas')
ax

In [11]:
data.query('num_published_lectures > 500')

#### Os cursos muito longos são agregados de uma série de cursos de uma mesma área. Representam opções válidas dentro do escopo de vendas do Udemy.Os outros dados não parecem ruins, os dados de testes práticos são praticamente nulos, mas isso também é aceitável. 

#### Agora, vamos explorar o número de inscritos, que é a variável dependente, para saber a qualidade dos dados.

In [12]:
#Dando alguns ajuses te cor e estilo ao seaborn.
sns.set_palette('PRGn')
sns.set_style('ticks')

In [13]:
data['num_subscribers'].isna().sum()

In [45]:
np.isinf(data['num_subscribers']).sum()

In [14]:
ax = sns.distplot(data['num_subscribers'], kde=False, norm_hist=False)
ax.set_title('Distribuição de inscritos')
ax.set(xlabel='Inscritos', ylabel='Frequencia')
ax

In [15]:
#Para confirmar que existe uma distribuição quase toda em valores muito baixos, 
#estou colocando de forma cumulativa, utilizando códigos do matplotlib. 
ax = sns.distplot(data['num_subscribers'], hist_kws={'cumulative':True}, kde_kws={'cumulative':True})
ax.set_title('Distribuição de inscritos')
ax.set(xlabel='Inscritos', ylabel='Frequencia')
ax

In [16]:
ax = sns.boxplot(data['num_subscribers'])
ax.set_title('Inscritos')
ax

#### Avaliando o número de inscritos, fica evidente que existe um descompasso nos cursos. Alguns com quantidades imensas de inscritos e outros com quantidades significativamente menores. Há dois cursos de ação possíveis. Por um lado, pode-se assumir que há um grupo de cursos incrivelmente mais bem sucedidos, cujos resultados deve ser, de fato, analisado. Por outro lado, é possível tentar dividir os cursos em categorias que façam sentido em análises separadas, considerando que alguns cursos serão mais segmentados por natureza. 

#### Para esse estudo, como o propósito não é analisar quão bem sucedido certo curso é em certo segmento, escolheu-se trabalhar com os cursos de forma não segmentada. Buscando compreender quais categorias levam mais alunos e inscrições para o Udemy como um todo. 

#### Segue-se, portanto, com a visualização de outras variáveis relevantes na amostra.

In [17]:
data['avg_rating'].isna().sum()

In [46]:
np.isinf(data['avg_rating']).sum()

In [18]:
ax = sns.distplot(data['avg_rating'], kde=False, norm_hist=False)
ax.set_title('Frequencia da nota média')
ax.set(xlabel='Nota média', ylabel='Frequencia')
ax

In [19]:
ax = sns.boxplot(data['avg_rating'])
ax.set_title('Nota Média')
ax

#### A nota média tem uma distribuição que tende para a direita, como é esperado do comportamento de avaliação de serviços, em que as pessoas tendem a dar notas mais altas. Há uma nota que parece ser 1 que merece ser investigada.

In [20]:
data.query('avg_rating == 1')

#### O curso teve poucos inscritos, poucos avaliadores e uma nota baixa, o que é aceitável com somente 3 avaliadores. 

#### Como tratado anteriormente, cursos com poucos inscritos parecem fazer parte de cursos muito segmentados, sendo esse um extremo. Não parece ser o caso de um dado mal inscrito, mas de um curso péssimamente avaliado e com poucos alunos. Para a análise, é válido seguir com ele, pois ele representa um caso de falha que deve ser avaliado.

#### retirando valores com na, pois eles não poderão ser avaliados.

In [21]:
data['discount_price__amount'].isna().sum()

In [47]:
np.isinf(data['discount_price__amount']).sum()

#### O mínimo do desconto não é zero, portanto os NA são, certamente, a ausência de desconto.
#### Dessa forma, é válido transoformar o NA em 0 para seguir o estudo. 

In [22]:
data['discount_price__amount'] = data['discount_price__amount'].fillna(0)
data['discount_price__amount'].isna().sum()

In [23]:
ax = sns.distplot(data['discount_price__amount'], kde=False, norm_hist=False)
ax.set_title('Frequencia de desconto do curso')
ax.set(xlabel='Desconto', ylabel='Frequencia')
ax

In [24]:
ax = sns.boxplot(data['discount_price__amount'])
ax.set_title('Nota Média')
ax

In [25]:
data['price_detail__amount'].isna().sum()

In [48]:
np.isinf(data['price_detail__amount']).sum()

In [26]:
ax = sns.distplot(data['price_detail__amount'], kde=False, norm_hist=False)
ax.set_title('Frequencia do custo do curso')
ax.set(xlabel='Custo', ylabel='Frequencia')
ax

In [27]:
ax = sns.boxplot(data['price_detail__amount'])
ax.set_title('Custo')
ax

In [28]:
data['num_reviews'].isna().sum()

In [49]:
np.isinf(data['num_reviews']).sum()

In [29]:
ax = sns.distplot(data['num_reviews'], kde=False, norm_hist=False)
ax.set_title('Frequencia de avaliações do curso')
ax.set(xlabel='Avaliações', ylabel='Frequencia')
ax

In [30]:
ax = sns.boxplot(data['num_reviews'])
ax.set_title('Número de avaliações')
ax

#### A transgformação logarítmica será necessária para normalizar a distribuição das amostras.

In [61]:
data['log_inscritos'] = np.log(data['num_subscribers'])
data['log_avaliacao_media'] = np.log(data['avg_rating'])
data['log_desconto'] = np.log(data['discount_price__amount']+1)
data['log_valor'] = np.log(data['price_detail__amount'])
data['log_aulas_publicadas'] = np.log(data['num_published_lectures'])
data['log_n_avaliacoes'] = np.log(data['num_reviews'])


In [62]:
ax = sns.pairplot(data, y_vars='log_inscritos', x_vars=['log_avaliacao_media','log_desconto','log_valor',
                                              'log_aulas_publicadas','log_n_avaliacoes'], height=5, kind='reg')
ax.fig.suptitle('Dispersão entre as Variáveis Transformadas', fontsize=20, y=1.05)
ax

#### Avaliação média segue com muito peso em um dos lados e não apresenta boa distribuição.
#### Número de avaliações parece ser a variável mais eficiente. 

In [63]:
from sklearn.model_selection import train_test_split

In [64]:
y = data['log_inscritos']
X = data[['log_avaliacao_media','log_desconto','log_valor',
                                              'log_aulas_publicadas','log_n_avaliacoes']]

In [65]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

In [66]:
#A constante vai ser adicionada para aplicar OLS
import statsmodels.api as sm
X_train_com_constante = sm.add_constant(X_train)

In [67]:
modelo_stats_models = sm.OLS(y_train, X_train_com_constante, hasconst = True).fit()

In [68]:
print(modelo_stats_models.summary())

#### O modelo saiu com uma probabilidade F abaixo de 0.00, o que indica significância, o Rquadrado de 0.5 é aceitável, porém baixo. Pela análise t, o valor não parece exibir efeito significativo, mas a média de avaliações, valor, aulas publicadas e número de avialiações sim. Sendo uma correlação negativa com avaliação média e positiva com os outros. O maior efeito foi em número de avaliações.

#### O modelo revela que um maior número de avaliações está fortemente correlacionado com o número de inscritos em um curso, o que é evidente emente imaginável desde o início. Entretanto, como resultados interessantes são:
#### Cursos com mais aulas potencialmente atraem mais alunos.
#### Descontos maiores têm efeitos mais importantes que o valor do curso.
#### A correlação positiva do valor do curso e número de inscritos indica que cursos mais caros são mais procurados, entretanto isso pode simplesmente indicar que houve uma avaliação prévia do Udemy e cursos mais procurados são mais caros. 