# Actividad
## Obtención de los datos
Primero se debe obtenerse el dataset para ello se "descarga" el csv y es almacenado como dataframe

In [1]:
# Get data set from web
df_grad_upct_all <- read.csv("https://www.datos.gov.co/api/views/ha9e-e48s/rows.csv?accessType=DOWNLOAD")

## Conocer que datos hay en el conjunto
Para realizar estudio sobre un conjunto de datos, es necesario conocer que es lo que hay en estos datos, para ello por medio de R se puede obtener cierta información basica que facilita establecer que se puede analizar.

### Dimensión de los datos
Los agrupamiento de datos tienen una estructura tabla similar al SQL, donde cada fila de la tabla es un dato y cada columna es partes del dato, para obtener esa cantidad se utiliza la función **dim**




In [None]:
# Get data set from web
df_grad_upct_all <- read.csv("https://www.datos.gov.co/api/views/ha9e-e48s/rows.csv?accessType=DOWNLOAD")

# Get quantity of dataset row, col
sprintf('Dimensión de los datos [Filas, columnas]:')
dim(df_grad_upct_all)





### Obtener las llaves de las columnas (nombres, etiquetas)
Cada columna de la tabla del dataframe contiene una parte del dato, toda la fila está compuesta por 1 dato en cada columna, los nombre de las columnas permite identificar que datos contienem estos se obtienen con **columname**

In [19]:
# Get data set from web
df_grad_upct_all <- read.csv("https://www.datos.gov.co/api/views/ha9e-e48s/rows.csv?accessType=DOWNLOAD")

sprintf('Columnas en el dataframe:')
# Get column names from dataframe
colnames(df_grad_upct_all)

## Extraer los datos que se utilizarán para el analisis
Para un analisis no siempre suele utilizarse todos los datos que contiene, solo unos en especifico que tengan alguna relación permite analizar, lo cual son separados del dataframe completo. En este caso el analisi a realizar es sobre la frecuencia de graduados por programa y solamente los graduados de pregrado

### Extrayendo los programas y listar todos los diferentes que hay
Conociendo los datos que hay se establece que analisis que se desea realizar, en este caso en particular se filtrará por el nombre de carrera donde se separará la variable **NOMBRE_PROGRAMA** en un vector o contenedor aparte por medio del operador **$** de R (los datos con esa unica columna) y se listarán todos los diferentes programas que hay esa columna con la función **levels**

In [2]:
# Get data set from web
df_grad_upct_all <- read.csv("https://www.datos.gov.co/api/views/ha9e-e48s/rows.csv?accessType=DOWNLOAD")

# Get data "NOMBRE_PROGRAMA" from dataframe, this are name of graduated program
nomb_prog <- df_grad_upct_all$NOMBRE_PROGRAMA

sprintf('Programas de los que hay al menos 1 graduado:')
# Show different programs that are graduated
levels(nomb_prog)

### Filtrar los programas a solo los de facultad de ingenierias
Todo programa universitario tiene relacionado una facultad, como el analisis se quiere unicamente los que sean de ingenierias una manera sencilla de filtrar es por medio de la función **filter**  de la libreria **dplyr**, esta función busca a razón de unas condiciones en una columna de un dataframe los que coincidas y estos qeu coincidan con ello forman un nuevo dataframe con unicamente las "filas" que coincidieron con la comndición dada (un sub-set)

In [None]:
# Get data set from web
df_grad_upct_all <- read.csv("https://www.datos.gov.co/api/views/ha9e-e48s/rows.csv?accessType=DOWNLOAD")

# Get all facults, programs and prom
facult <-df_grad_upct_all$NOMBRE_FACULTAD
programs <-df_grad_upct_all$NOMBRE_PROGRAMA
prom_grad <-df_grad_upct_all$PACUMULADO

## Process for separate engineering facult 

# Create data frame with last data
df_grad_upct_facu_prog_prom <- data.frame(facult, programs, prom_grad/10)

# Include library for filter
library(dplyr)
# Generate a sub-set of df where facult have INGENIERIA
fac_ing <- filter(df_grad_upct_facu_prog_prom, df_grad_upct_facu_prog_prom$facult=="INGENIERIA")
head(fac_ing)

sprintf('Total de estudiantes de la facultad de ingenierias:')
length(fac_ing)

### Filtrar los programas a solo los de pregrado
En los programas de los que se han graduado hay carreras de post-grado, las carreras que son de posgrado en general son Maestrias, doctorados y especializaciones por ende las carreras que contengan eso en su nombre serán las que se debe excluir, para ello se obtiene un vector de boleanos con la función **str_detect** de la libreria **stringr** el cual busca en cada dato que sea cadena de caracteres si cumple con la expresión regular dada dejando **TRUE** si coincide y **FALSE** si no coincide, este vector funcionará como llave para "filtrar" los datos y quitar todas las carreras de posgrado dejando las de pregrado unicamente.

Este vector funcionará como **llave** (key) para remover los datos que no coincidan con el orden de este vector, dejadno unicamente datos de los de pregrado, como los analisis a realizar requieren la nota y la facultad de donde provienen a estas columnas se le aplica el uso de la llave obtenida.

In [6]:
# Get data set from web
df_grad_upct_all <- read.csv("https://www.datos.gov.co/api/views/ha9e-e48s/rows.csv?accessType=DOWNLOAD")

## Process for separate pregrade and posgrade
# Include library for str_detect for exclude post-grades
library(stringr)

# Get keys for exclude posgrades
posgrades_key <- str_detect(nomb_prog, "MAESTRIA.*|DOCTORADO.*|ESPECIALIZACION.*|MAESTRÃ\\u008dA.*|ESPECIALIZACIÃ“N.*")

# Set pregrade facult, programs, and prom exclude result from var_key (removing postgrade)
pregrade_facult <-df_grad_upct_all$NOMBRE_FACULTAD[!posgrades_key]
pregrade_programs <-df_grad_upct_all$NOMBRE_PROGRAMA[!posgrades_key]
pregrade_prom_grad <-df_grad_upct_all$PACUMULADO[!posgrades_key]



# Length of rows in dataframe from any colum
sprintf('Total de estudiantes graduados de pregrado y posgrado:')
length(df_grad_upct_all$NOMBRE_PROGRAMA)

sprintf('Total de estudiantes de graduados pregrado:')
# Quantity of pregrade students, length of current rows
length(pregrade_programs)


### Filtrar de la facultad de ingenierias unicamente los programas de pregrado que tiene
Con la operación realizada anteriormente con **str_detect** se aplicó sobte todo el conjunto de datos y contiene de todas las facultades, para quedar con un dataframe que tenga unicamente programas de pregrado de la facultad de ingenierias deben usarse ambas funciones, donde primero se usa **filter** de la faucltad de ingenierias y luego se retiran los programas, ahora bien para que el dataframe sea dinamico se debe agregar una columna que permita detectar con tipo Falso o Verdadero si es o no es de pregrado agregandole una columna con **cbin**


In [16]:
# Get data set from web
df_grad_upct_all <- read.csv("https://www.datos.gov.co/api/views/ha9e-e48s/rows.csv?accessType=DOWNLOAD")


facult <-df_grad_upct_all$NOMBRE_FACULTAD
programs <-df_grad_upct_all$NOMBRE_PROGRAMA
prom_grad <-df_grad_upct_all$PACUMULADO

df_grad_upct_facu_prog_prom <- data.frame(facult, programs, prom_grad/10)

#head(df_all)

# levels(df_all$programs)

library(dplyr)
df_grad_upct_facu_ing <- filter(df_grad_upct_facu_prog_prom, df_grad_upct_facu_prog_prom$facult=="INGENIERIA")

#head(fac_ing)

## Create column of only pregrade

# Get keys for exclude posgrades
library(stringr)
posg <- str_detect(df_grad_upct_facu_ing$programs, "MAESTRIA.*|DOCTORADO.*|ESPECIALIZACION.*|MAESTRÃ\\u008dA.*|ESPECIALIZACIÃ“N.*")
sprintf('Total de estudiantes de posgrado:')
length(posg)

# Add posg flag, where False is pregrade
df_grad_upct_facu_ing <- cbind(df_grad_upct_facu_ing, posg)
sprintf('Data:')
head(df_grad_upct_facu_ing)

# Get only pregrade from complete dataframe
df_pregrade_fact_ing <- filter(df_grad_upct_facu_ing, df_grad_upct_facu_ing$posg==FALSE)

sprintf('Total de estudiantes de pregrado de la facultad de ingenierias :')
# Quantity of pregrade students, length of current rows
length(df_pregrade_fact_ing$programs)


Unnamed: 0_level_0,facult,programs,prom_grad.10,posg
Unnamed: 0_level_1,<fct>,<fct>,<dbl>,<lgl>
1,INGENIERIA,INGENIERIA AMBIENTAL,4.0,False
2,INGENIERIA,INGENIERIA AMBIENTAL,4.1,False
3,INGENIERIA,INGENIERIA AMBIENTAL,4.0,False
4,INGENIERIA,INGENIERIA AMBIENTAL,3.5,False
5,INGENIERIA,INGENIERIA CIVIL,3.8,False
6,INGENIERIA,INGENIERIA CIVIL,3.9,False


## Tabla de frecuencia
La tabla de frecuencia indica cuantos de un mismo dato agrupado (combinando por columna) hay esto ayudaá a indicar cuantos graduados hay de cada programa en especifico

In [11]:
# Get data set from web
grad_upct <- read.csv("https://www.datos.gov.co/api/views/ha9e-e48s/rows.csv?accessType=DOWNLOAD")

## Process for separate pregrade and posgrade
# Include library for str_detect for exclude post-grades
library(stringr)

# Get keys for exclude posgrades
posgrades_key <- str_detect(nomb_prog, "MAESTRIA.*|DOCTORADO.*|ESPECIALIZACION.*|MAESTRÃ\\u008dA.*|ESPECIALIZACIÃ“N.*")
engineering_key <- str_detect(nomb_prog, "INGENIERIA.*")

# Set pregrade facult, programs, and prom exclude result from var_key (removing postgrade)
pregrade_facult <-grad_upct$NOMBRE_FACULTAD[!posgrades_key]
pregrade_programs <-grad_upct$NOMBRE_PROGRAMA[!posgrades_key]
pregrade_prom_grad <-grad_upct$PACUMULADO[!posgrades_key]

engineering_facult <-pregrade_facult[engineering_key]
engineering_programs <-pregrade_programs[engineering_key]
engineering_prom_grad <-pregrade_prom_grad[engineering_key]

# Create data_frame for analysis
data_frame_pregrade <- data.frame(pregrade_facult, pregrade_programs, pregrade_prom_grad/10)
data_frame_engineering <- data.frame(engineering_facult, engineering_programs, engineering_prom_grad/10)

# https://stackoverflow.com/questions/29639680/r-table-function-how-to-remove-0-counts
# Remove headers with cero ocurrencies from pregrade_programs
data_frame_pregrade$pregrade_programs<-droplevels(data_frame_pregrade$pregrade_programs)
data_frame_engineering$engineering_programs<-droplevels(data_frame_engineering$engineering_programs)

# https://stackoverflow.com/questions/25293045/count-number-of-rows-in-a-data-frame-in-r-based-on-group
# Show number of ocurrencies, quantity of graduated people
#table(data_frame_pregrade$pregrade_programs)

table(data_frame_engineering$engineering_programs)


                                                               ADMINISTRACION AGROINDUSTRIAL 
                                                                                           6 
                                                       ADMINISTRACION COMERCIAL Y FINANCIERA 
                                                                                          20 
                                                                  ADMINISTRACION DE EMPRESAS 
                                                                                         168 
                                                    ADMINISTRACION DE EMPRESAS AGROPECUARIAS 
                                                                                          48 
                                                        ADMINISTRACION DE SERVICIOS DE SALUD 
                                                                                          53 
                                                           