## 1. Importar Paquetes

En primer lugar importamos los paquetes necesarios realizar análisis de datos con python.

In first place, we import the packages of data analysis with python.

In [1]:
import pandas as pd
import numpy as np

## 2. Leer Archivos

Se cargan los archivos necesarios para llevar a cabo el análisis.

We load the necessary files to do the analysis.

In [2]:
df = pd.read_csv('3.1-data-sheet-udemy-courses-business-courses.csv')
df.head(2)

Unnamed: 0,course_id,course_title,url,price,num_subscribers,num_reviews,num_lectures,level,Rating,content_duration,published_timestamp,subject
0,49798.0,Bitcoin or How I Learned to Stop Worrying and ...,https://www.udemy.com/bitcoin-or-how-i-learned...,0.0,65576.0,936.0,24.0,All Levels,0.56,8.0,2013-04-20T02:25:22Z,Business Finance
1,48841.0,Accounting in 60 Minutes - A Brief Introduction,https://www.udemy.com/accounting-in-60-minutes...,0.0,56659.0,4397.0,16.0,Beginner Level,0.95,1.5,2013-04-07T21:39:25Z,Business Finance


### 2.1. Significado de las Columnas

El significado de las columnas es el siguiente:

1. *course_id*: es un id interno que se le asigna a cada curso (internal id assigned to each course).
2. *course_title*: es el título de cada curso (title of each course).
3. *url*: url de cada curso (url of each course).
4. *price*: precio en dólares de cada curso (price in dollars of each course).
5. *num_subscribers*: número de alumnos suscritos (subscribers number).
6. *num_reviews*: número de reviews (reviews number).
7. *num_lectures*: número de lecciones (lectures number).
8. *level*: nivel de conocimiento (knowledge level).
9. *rating*: rating promedio de cada curso (average rating of each course).
10. *content_duration*: duración del contenido del curso en horas (content duration in hours).
11. *published_timestamp*: cuando fue publicado el curso en Udemy (timestamp when the course was published in Udemy).
12. *subject*: tema del curso (subject of the course).

## 3. Limpieza de Datos

Se comienza el proceso de explorar y limpiar los datos.

We start the exploratory and cleaning process for the data.

### 3.1. Información General

Una función útil para examinar dataframes en python es info(), que nos indica cuántas filas tiene nuestro dataframe, seguido de contar registros no nulos de cada columna y el tipo de dato que contiene.

A useful function to examine dataframes is info(), which tell us how many rows our dataframe has and a count of non-null data we have on each column and they data type.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1192 entries, 0 to 1191
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   course_id            1191 non-null   float64
 1   course_title         1191 non-null   object 
 2   url                  1191 non-null   object 
 3   price                1191 non-null   float64
 4   num_subscribers      1191 non-null   float64
 5   num_reviews          1191 non-null   float64
 6   num_lectures         1191 non-null   float64
 7   level                1191 non-null   object 
 8   Rating               1192 non-null   float64
 9   content_duration     1191 non-null   float64
 10  published_timestamp  1191 non-null   object 
 11  subject              1191 non-null   object 
dtypes: float64(7), object(5)
memory usage: 111.9+ KB


### 3.2. Valores Nulos

Como observamos anteriormente, tenemos un valor nulo en casi todas las columnas, por lo que podemos corroborar con la función isna() y sum().

As we saw previously, we have a null value in almost all columns, so we can corroborate this information with the function isna() and sum().

In [4]:
df.isna().sum()

course_id              1
course_title           1
url                    1
price                  1
num_subscribers        1
num_reviews            1
num_lectures           1
level                  1
Rating                 0
content_duration       1
published_timestamp    1
subject                1
dtype: int64

### 3.3. Limpieza de Valores Nulos

Al tener valores nulos existen distintos caminos que podemos tomar para trabajarlos: eliminarlos o sustituirlos. En este caso particular, vamos a eliminar la fila que contiene valores nulos usando la función dropna().

When we have null values there are different ways we can take to adress this problem: remove or replace the values. In this case, we are going to remove the row that contains the null values with the function dropna().

In [5]:
df1 = df.dropna()
df1.isna().sum()

course_id              0
course_title           0
url                    0
price                  0
num_subscribers        0
num_reviews            0
num_lectures           0
level                  0
Rating                 0
content_duration       0
published_timestamp    0
subject                0
dtype: int64

## 4. Análisis de Datos

Una vez que los datos están limpios, podemos comenzar con los distintos análisis que se quisieran realizar.

Lo primero interesante que podemos hacer es usar la función describe(), la que nos dará un breve análisis descriptivo de las columnas con valores numéricos.

Once data is clean, we can start the different analysis we want to conduct.

The first move we can do is to apply the function describe(), which give us a descriptive analysis of the columns with numeric values.

In [6]:
df1.describe()

Unnamed: 0,course_id,price,num_subscribers,num_reviews,num_lectures,Rating,content_duration
count,1191.0,1191.0,1191.0,1191.0,1191.0,1191.0,1191.0
mean,642551.9,68.694374,1569.026868,63.729639,32.462636,0.690353,3.557697
std,347628.5,64.439371,3918.394281,236.208555,45.512784,0.297227,5.673457
min,19653.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,364497.0,20.0,59.0,3.0,13.0,0.47,1.0
50%,627772.0,45.0,486.0,12.0,22.0,0.8,2.0
75%,926648.0,95.0,1617.0,38.0,36.0,0.95,4.0
max,1282064.0,200.0,65576.0,4397.0,544.0,1.0,71.5


Con lo anterior podemos observar los siguientes puntos:

1. course_id no nos sirve como información relevante ya que solo es una forma de orden interno (course_id it's not helpful because it's just a way to order the courses).
2. Podemos observar que si bien los promedios nos pueden dar conclusiones generales de los datos, podemos observar que la desviación estándar es cercana o mayor que el promedio, lo que quiere decir que los datos que tenemos están bastantes dispersos (If average could give us a general picture, in this case the standar deviation it's also high, so this means that data is quite scattered).
3. Otro dato relevante es que content_duration tiene como dato mínimo 0, lo que se puede interpretar como que hay cursos que no ofrecen videos y solo entregan material escrito, o, tenemos datos que presentan errores (Another highlight is that content_duration has a minimum value of 0, which means that there are courses that not offer videos and just give written material, or we have data errors).

### 4.1. Análisis de Nivel Cursos

Ahora veremos como se distribuyen los niveles de los cursos, usando la función de pandas pivot_table().

Now, we'll see how is distributed the level of the courses using a function called pivot_table().

In [9]:
pd.pivot_table(df1, values=['num_subscribers'], index=['level'], aggfunc=['count','mean','median','max','min'])

Unnamed: 0_level_0,count,mean,median,max,min
Unnamed: 0_level_1,num_subscribers,num_subscribers,num_subscribers,num_subscribers,num_subscribers
level,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
All Levels,633,1711.627172,461.0,65576.0,0.0
Beginner Level,399,1348.423559,440.0,56659.0,0.0
Expert Level,25,1419.96,512.0,8985.0,1.0
Intermediate Level,134,1580.08209,913.5,22257.0,0.0


Podemos observar lo siguiente:
1. El 53% de los cursos son para todos los niveles, 34% para principiantes, 11% para intermedios y 2% para expertos (53% of courses are for all levels, 34% for beginners, 11% for intermediates and 2% for experts).
2. El promedio de suscriptores más alto está en todos los niveles, lo que es lógico si pensamos que son los que tienen una mayor cantidad de cursos ofrecidos (The higher average of subscribers are in all levels, which si logical if we see that they offered a lot of courses).