# Instalación e importación de librerías

In [1]:
import numpy as np
import pandas as pd
import os

## Ruta de datos

In [7]:
path = os.path.join(os.getcwd(),'collecting_initial_data')
path_additional_data = os.path.join(path,'additional_data')
path_existing_data = os.path.join(path,'existing_data')

# Describing Data

**Cantidad de datos.** Para la mayoría de las técnicas de modelado, existen compensaciones asociadas con el tamaño de los datos. Grandes conjuntos de datos pueden producir modelos más precisos, pero también pueden alargar el tiempo de procesamiento. Considere si usar un subconjunto de datos es una posibilidad. Cuando tome notas para el informe final, asegúrese de incluir estadísticas de tamaño para todos los conjuntos de datos y recuerde considerar tanto la cantidad de registros como los campos (atributos) al describir los datos.

In [51]:
def amount_of_data(df):
    amount_of_data_list = []
    for col in df.columns:  
        amount_of_data_list.append(len(df[col][df[col].notnull()]))
    return amount_of_data_list

**Tipos de valor.** Los datos pueden tomar una variedad de formatos, como numérico, categórico (cadena) o booleano (verdadero/falso). Prestar atención al tipo de valor puede evitar problemas durante el modelado posterior.

In [45]:
def value_types(df):
    value_types_list = df.dtypes.values
    return value_types_list

**Esquemas de codificación.** Con frecuencia, los valores de la base de datos son representaciones de características como el género o el tipo de producto. Por ejemplo, un conjunto de datos puede usar M y F para representar hombres y mujeres, mientras que otro puede usar los valores numéricos 1 y 2. Tenga en cuenta cualquier esquema en conflicto en el informe de datos.

In [52]:
def coding_schemes(df):
    coding_schemes_list = df.iloc[0].values
    return coding_schemes_list

In [58]:
df_coec = pd.read_csv(os.path.join(path_additional_data,'costo_oferta_educacion_continua.csv'))

In [57]:
info_df_coec = pd.DataFrame(data=[df_coec.columns,amount_of_data(df_coec),value_types(df_coec),coding_schemes(df_coec)]).transpose()
info_df_coec = info_df_coec.rename(columns={0:'column_name',1:'amount_of_data',2:'value_types',3:'coding_schemes'})
info_df_coec

Unnamed: 0,column_name,amount_of_data,value_types,coding_schemes
0,#,15,float64,1.0
1,Universidad,15,object,udla universidad de las americas
2,Ciudad,15,object,Quito
3,Pagina Web,15,object,https://www.udla.edu.ec/educacion-continua2/
4,Servicios,103,object,37 carreras de pregrado en modalidades presenc...
5,Tipos de Oferta,280,object,Maestrias
6,Areas de Formación,350,object,Administracion y negocios
7,Nombre de los Programas,519,object,gerencia de instituciones de salud
8,Modalidad,521,object,100% online
9,horarios,521,object,22 de marzo de 2021


# Explorando datos

In [60]:
df_coec.head()

Unnamed: 0,#,Universidad,Ciudad,Pagina Web,Servicios,Tipos de Oferta,Areas de Formación,Nombre de los Programas,Modalidad,horarios,Tiempo de duración,Duración programa,Precio,formas de pago,certificación,plataforma educacion virtual,Red de educación
0,1.0,udla universidad de las americas,Quito,https://www.udla.edu.ec/educacion-continua2/,37 carreras de pregrado en modalidades presenc...,Maestrias,Administracion y negocios,gerencia de instituciones de salud,100% online,22 de marzo de 2021,1736 H,1 año 2 meses,llamar,"efectivo , tarjetas de credito y , debito , ba...","WACS, Acreditadora de Chile, CES","moodle ,office 365",
1,,,,,,,Educacion,liderazgo educativo,100% online,22 de marzo de 2021,1680 H,1 año 2 meses,llamar,"efectivo , tarjetas de credito y , debito , ba...","WACS, Acreditadora de Chile, CES","moodle ,office 365",
2,,,,,,,Salud,seguridad y salud ocupacional,100% online,22 de marzo de 2021,1680 H,1 año 2 meses,llamar,"efectivo , tarjetas de credito y , debito , ba...","WACS, Acreditadora de Chile, CES","moodle ,office 365",
3,,,,,,Diplomados,Administracion y negocios,administracion de empresas,100% online,22 de marzo de 2021,168 H,3-5 meses,llamar,"efectivo , tarjetas de credito y , debito , ba...","WACS, Acreditadora de Chile, CES","moodle ,office 365",
4,,,,,,,,desarrollo de negocios y emprendimiento,100% online,22 de marzo de 2021,168 H,3-5 meses,llamar,"efectivo , tarjetas de credito y , debito , ba...","WACS, Acreditadora de Chile, CES","moodle ,office 365",


In [59]:
df_coec.describe(include='all')

Unnamed: 0,#,Universidad,Ciudad,Pagina Web,Servicios,Tipos de Oferta,Areas de Formación,Nombre de los Programas,Modalidad,horarios,Tiempo de duración,Duración programa,Precio,formas de pago,certificación,plataforma educacion virtual,Red de educación
count,15.0,15,15,15,103,280,350,519,521,521,519,520,518,521,521,521,1
unique,,15,12,15,15,25,53,503,10,136,134,99,76,18,38,46,1
top,,udla universidad de las americas,Quito,https://www.udla.edu.ec/educacion-continua2/,"Cursos presenciales abiertos y cerrados, inte...",CURSOS Y PROGRAMAS DE FORMACION,Empresariales,SQL Aplicado al Análisis de Datos,Presencial,"Este curso se oferta bajo pedido, para grupos ...",16 H,32 H,llamar,DESCUENTOS\n10% de descuento por pronto pago: ...,"Sistema nacional de Informacion, CES , Secreta...","EPN , CEC-EPN",Red de Educación Continua de Latinoamérica y E...
freq,,1,4,1,89,220,146,2,151,87,46,37,238,192,144,99,1
mean,8.0,,,,,,,,,,,,,,,,
std,4.472136,,,,,,,,,,,,,,,,
min,1.0,,,,,,,,,,,,,,,,
25%,4.5,,,,,,,,,,,,,,,,
50%,8.0,,,,,,,,,,,,,,,,
75%,11.5,,,,,,,,,,,,,,,,


In [61]:
df_coec.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 521 entries, 0 to 520
Data columns (total 17 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   #                             15 non-null     float64
 1   Universidad                   15 non-null     object 
 2   Ciudad                        15 non-null     object 
 3   Pagina Web                    15 non-null     object 
 4   Servicios                     103 non-null    object 
 5   Tipos de Oferta               280 non-null    object 
 6   Areas de Formación            350 non-null    object 
 7   Nombre  de los Programas      519 non-null    object 
 8   Modalidad                     521 non-null    object 
 9   horarios                      521 non-null    object 
 10  Tiempo de duración            519 non-null    object 
 11  Duración programa             520 non-null    object 
 12   Precio                       518 non-null    object 
 13  forma

## Data Exploration Report

* ¿Qué tipo de hipótesis ha formulado acerca de los datos?: La hoja CSV esta compuesta de datos de cursos de eduación continúa con su información respectiva acerca de su ubicación, area, precio, modalidad, certificado, etc.

* ¿Qué atributos parecen prometedores para un análisis posterior?: Los datos Modalidad, Areas de Formación, Nombre  de los Programas, Tiempo de duración y Precio.

* ¿Sus exploraciones han revelado nuevas características sobre los datos?: Existen muchos datos nulos y datos erroneos que hay que corregir.

* ¿Cómo han cambiado estas exploraciones su hipótesis inicial?: Se requerira un procesamiento de texto para identificar correctamente los datos.

* ¿Puede identificar subconjuntos particulares de datos para su uso posterior?: Conjunto de datos conformada por Modalidad, Areas de Formación, Nombre  de los Programas, Tiempo de duración y Precio.

* Eche otro vistazo a sus objetivos de minería de datos. ¿Esta exploración ha alterado los objetivos?: Estos datos son de vital importancia para obtener el valor de los cursos a nivel nacional

# Verificación de la calidad de los datos

**Datos faltantes**: incluye valores que están en blanco o codificados como falta de respuesta (como $null$, ? o 999).

In [63]:
mising_data_df_coec = amount_of_data(df_coec)
mising_data_df_coec

[15, 15, 15, 15, 103, 280, 350, 519, 521, 521, 519, 520, 518, 521, 521, 521, 1]

**Errores de datos**: suelen ser errores tipográficos cometidos al ingresar los datos.

In [65]:
#data_errors_df_coec 
def data_errors(df):
    data_errors_list = []
    for col in df.columns:  
        data_errors_list.append([df[col].value_counts()])
    return data_errors_list
data_errors(df_coec)

[[1.0     1
  2.0     1
  3.0     1
  4.0     1
  5.0     1
  6.0     1
  7.0     1
  8.0     1
  9.0     1
  10.0    1
  11.0    1
  12.0    1
  13.0    1
  14.0    1
  15.0    1
  Name: #, dtype: int64],
 [udla universidad de las americas                     1
  uide universidad internacional del ecuador           1
  universidad de los hemisferios                       1
  utpl Universidad Pariticular de Loja                 1
  Universidad Catolica de Santiago de Guayaquil        1
  USFQ Universidad San Francisco de Quito              1
  Universidad de Cuenca                                1
  UNIB.E Universidad Iberoamericana del Ecuador        1
   UTE Universidad Tecnológica Equinoccial             1
  UNEMI Universidad Estatal de Milagro                 1
  EPN Escuela Politecnica Nacional                     1
  Universidad Catolica de Cuenca                       1
  Escuela Superior Politecnica Litoral  ESPOL          1
  universidad  estatal de Bolivar                    

**Errores de medición**: incluyen datos que se ingresaron correctamente pero que se basan en un esquema de medición incorrecto.

**Inconsistencias en la codificación**: generalmente involucran unidades de medida no estándar o inconsistencias de valores, como el uso de M y masculino para el género.

**Metadatos incorrectos**: incluyen discrepancias entre el significado aparente de un campo y el significado establecido en el nombre o la definición de un campo.

### Data Quality Report

Según su exploración y verificación de la calidad de los datos, ahora está listo para preparar un informe que guiará la siguiente fase de CRISP-DM. Consulte el tema Verificación de la calidad de los datos para obtener más información.

Lista de tareas

Como se discutió anteriormente, hay varios tipos de problemas de calidad de datos. Antes de pasar al siguiente paso, tenga en cuenta los siguientes problemas de calidad y planifique una solución. Documente todas las respuestas en el informe de calidad de datos.

* ¿Ha identificado atributos faltantes y campos en blanco? Si es así, ¿hay significado detrás de tales valores faltantes?

* ¿Existen incoherencias ortográficas que puedan causar problemas en fusiones o transformaciones posteriores?

* ¿Ha explorado las desviaciones para determinar si son "ruido" o fenómenos que vale la pena analizar más a fondo?

* ¿Ha realizado una verificación de plausibilidad de los valores? Tome notas sobre cualquier conflicto aparente (como adolescentes con altos niveles de ingresos).

* ¿Ha considerado excluir datos que no tienen impacto en sus hipótesis?

* ¿Los datos se almacenan en archivos planos? Si es así, ¿los delimitadores son consistentes entre los archivos? ¿Cada registro contiene el mismo número de campos?

## Consideraciones para el siguiente paso

Antes de preparar los datos para el modelado en IBM® SPSS® Modeler, considere los siguientes puntos:

* ¿Qué tan bien entiendes los datos?

* ¿Están claramente identificadas y accesibles todas las fuentes de datos? ¿Conoce algún problema o restricción?

* ¿Ha identificado atributos clave de los datos disponibles?

* ¿Te ayudaron estos atributos a formular hipótesis?

* ¿Ha anotado el tamaño de todas las fuentes de datos?

* ¿Es capaz de utilizar un subconjunto de datos cuando corresponda?

* ¿Ha calculado estadísticas básicas para cada atributo de interés? ¿Emergió información significativa?

* ¿Usó gráficos exploratorios para obtener más información sobre los atributos clave? ¿Esta idea reformuló alguna de sus hipótesis?

* ¿Cuáles son los problemas de calidad de datos para este proyecto? ¿Tiene un plan para abordar estos problemas?

* ¿Son claros los pasos de preparación de datos? Por ejemplo, ¿sabe qué fuentes de datos fusionar y qué atributos filtrar o seleccionar?

Ahora que está armado con la comprensión de los datos y del negocio, es el momento de utilizar IBM SPSS Modeler para preparar sus datos para el modelado.