---
title: "Analítica de Proyectos"
format: html
keywords:
  - Oferta Comercial de Estudios Universitarios
  - Red Bipartita
  - Modelos de Grafo Exponencial Aleatorio
abstract: |
  Aunque Microsoft Excel y Microsoft Project suelen ser las herramientas preferidas para la gestión y control de proyectos, sus limitaciones son evidentes cuando se necesita analizar datos no estructurados (e.g., colecciones de textos, fotos, video, o audios) que resultan fundamentales para manejar la información relevante de un proyecto de gran complejidad que requiera el uso de herramientas de minería de datos, de big data, o de inteligencia artificial. Este tutorial tiene como objetivo brindar un panorama práctico de cómo se integra Python y R a la gestión y control de proyectos.
---


# ¿Por qué Python y R para la gestión de proyectos?

Hay varias razones que nos obligan a considerar otras opciones más allá de Excel y de Microsoft Project que suelen ser las herramientas más populares para la gestión de proyectos.

1.  Excel es limitado a la hora abrir archivos con datos que están en el orden de los millones de filas o columnas.
2.  Microsoft Project es un software licenciado (no libre) orientado al control de proyectos y no nos permite saber los pequeños cambios que pueden ocurrir en el transcurso de cualquier proyecto.
3.  Ni Excel ni Project son útiles para analizar "datos no estructurados" tales como colecciones de documentos, fotos, videos, o audios. En cambio los datos no estructurados son analizables con Python y R de una forma más ágil.
4.  El análisis de datos no estructurados es la base fundamental de herramientas como el aprendizaje automático (conocido en inglés como Machine Learning). Veamos algunas funcionalidades básicas en las llamadas ciencias de datos para entender cómo funciona Python. Una cruda realidad es que las personas encargadas de recolectar datos no son especialistas en estadística y por ello no suelen guardar los datos de una manera que sean directamente usables para fines analíticos. Parte de lo que veremos en las próximas subsecciones está tomado del libro de texto de Hathaway y Larson [-@Hathaway2021] quienes se inspiraron en la "biblia" de la ciencia de datos escrita por Wickham y Grolemund [-@Wickham2017].

## Organización de datos con Pandas

Pandas es una librería para Python que está diseñada para realizar tareas relacionadas con la lectura, edición, y manipulación de datos estructurados.

Las siguientes seis tablas contienen exactamente la misma información pero dicha info está dispuesta de manera diferente.


In [None]:
import pandas as pd
base_url = "https://github.com/byuidatascience/data4python4ds/raw/master/data-raw/"
table1 = pd.read_csv("{}table1/table1.csv".format(base_url))
table2 = pd.read_csv("{}table2/table2.csv".format(base_url))
table3 = pd.read_csv("{}table3/table3.csv".format(base_url))
table4a = pd.read_csv("{}table4a/table4a.csv".format(base_url))
table4b = pd.read_csv("{}table4b/table4b.csv".format(base_url))
table5 = pd.read_csv("{}table5/table5.csv".format(base_url), dtype = 'object')

La Tabla 1 (`table1`) viene así


In [None]:
table1

La Tabla 2 (`table2`) tiene esta apariencia


In [None]:
table2

La Tabla 3 (`table3`) es algo distinta


In [None]:
table3

La tabla 4a (`table4a`) también es algo diferente


In [None]:
table4a

Y lo mismo podemos afirmar de la tabla 4b


In [None]:
table4b

y de la tabla 5


In [None]:
table5

La recomendación estándar para analizar datos estructurados es que cada variable debe ocupar una columna, cada observación debe ocupar una fila o renglón, y los valores de cada observación deben estar en cada celda, tal como aparece en la siguiente imágen.

![](tidy.png){fig-align="center"}

Estas tres reglas están interrelacionadas porque es imposible satisfacer solo dos de las tres. Esa interrelación conduce a un conjunto aún más simple de instrucciones prácticas:

Coloque cada conjunto de datos en un objeto de tipo tibble.
Coloque cada variable en una columna.

En este ejemplo, solo la tabla 1 está ordenada. Es la única representación donde cada columna es una variable.

¿Por qué es importante tener los datos ordenados? 

La ventaja general es tener una forma consistente de almacenar datos. Si tiene una estructura de datos consistente, es más fácil aprender las herramientas que funcionan con ella porque tienen una uniformidad subyacente. La ventaja específica en colocar variables en columnas es que permite que la naturaleza vectorizada de pandas y NumPy brille.

Las librerías "altair" y "Pandas" funcionan bien con datos ordenados. Aquí hay un par de pequeños ejemplos que muestran cómo podría trabajar con la tabla 1.


In [None]:
import altair as alt
table1.assign(
    rate = lambda x: x.cases / x.population * 1000
)

(table1.
  groupby('year').
  agg(n = ('cases', 'sum')).
  reset_index())
  
base_chart = (alt.Chart(table1).
  encode(alt.X('year'), alt.Y('cases'), detail = 'country'))

chart = base_chart.mark_line() + base_chart.encode(color = 'country').mark_circle()

chart