# Cuaderno 5: Datos Ordenados

Este cuaderno presenta una serie de ejercicios para entender cómo ordenar tablas de datos que no cumplen con las tres reglas fundamentales de los datos ordenados:

* Las variables están en cada columna.
* Las observaciones individuales de las variables están en cada fila.
* El registro de una observación individual está en cada celda

### 1. Instalacion de Librerias
En este ejercicio se requiere instalar la libreria altair, la cual no se encuentra disponible en Anaconda. 

Este proceso solo debe ser realizado una unica vez como se te indico en el numeral "Instalando una librería de Python" en el libro. 
Una vez lo tengas listo y en funcionamiento puedes cambiar el simbolo (!) que precede a la instruccion pip por un (#) que significa comentario, en cuyo caso el sistema lo omitira de ejecución.


In [1]:
!pip install altair

Collecting altair
  Using cached altair-4.2.0-py3-none-any.whl (812 kB)
Installing collected packages: altair
Successfully installed altair-4.2.0


### 2. Llamado a las librerias
LLamado a las librerias necesarias para el desarrollo de tus actividades.

In [2]:
import pandas as pd                    # Libreria especializada en el manejo y estructura de datos 
#import altair as alt                  
import numpy as np                     # Librería para vectores, matrices y funciones matematicas

### 3. Conjunto de datos o datasets a utilizar
Se utilizan datos en internet como fuente, por esta razon se define la variabe base_url con la direccion de donde se obtendran los archivos, que en este caso es el repositorio "https://github.com/byuidatascience/data4python4ds/raw/master/data-raw/"

In [3]:
base_url = "https://github.com/byuidatascience/data4python4ds/raw/master/data-raw/"
table1 = pd.read_csv("{}table1/table1.csv".format(base_url))
table2 = pd.read_csv("{}table2/table2.csv".format(base_url))
table3 = pd.read_csv("{}table3/table3.csv".format(base_url))
table4a = pd.read_csv("{}table4a/table4a.csv".format(base_url))
table4b = pd.read_csv("{}table4b/table4b.csv".format(base_url))
table5 = pd.read_csv("{}table5/table5.csv".format(base_url), dtype = 'object')

### 4. Ordenando los datos 
Si despliegas los datos obtenidos en algunas de las tablas encontraras diversas estructuras para los mismos.Por ejemplo en Table 4a observas que para cada pais, los datos vienen por filas, incumpliendo de esta forma una de las reglas basicas para los datos ordenados. ¿Cual crees tu que es a la que faltamos?


In [4]:
table4a.head()                               # Muestra el contenido de los primeros registros del conjunto de datos

Unnamed: 0,country,1999,2000
0,Afghanistan,745,2666
1,Brazil,37737,80488
2,China,212258,213766


Esto puede ser arreglado, asegurando que tengamos las columnas de country(país), year(año) y cases(numero de casos) en columnas, lo cual podemos realizar con el comando melt sobre la table4a.


In [5]:
table4a.melt(['country'], var_name = "year", value_name = "cases")  # Transforma la estructura del conjunto de datos table4a

Unnamed: 0,country,year,cases
0,Afghanistan,1999,745
1,Brazil,1999,37737
2,China,1999,212258
3,Afghanistan,2000,2666
4,Brazil,2000,80488
5,China,2000,213766


Miremos ahora que ocurre con la table4b, la cual nos presenta las poblaciones de los paises para los años 1999 y 2000.

In [6]:
table4b.head()                                    # Muestra el contenido de los primeros registros del conjunto de datos

Unnamed: 0,country,1999,2000
0,Afghanistan,19987071,20595360
1,Brazil,172006362,174504898
2,China,1272915272,1280428583


Usando nuevamente el comando melt, pero en este caso sobre la table4b, podemos ordenar los datos para que cumplan las tres reglas fundamentales de ordenamiento de datos. 

In [7]:
table4b.melt(['country'], var_name = 'year', value_name = 'population')  # Transforma la estructura del conjunto de datos table4b

Unnamed: 0,country,year,population
0,Afghanistan,1999,19987071
1,Brazil,1999,172006362
2,China,1999,1272915272
3,Afghanistan,2000,20595360
4,Brazil,2000,174504898
5,China,2000,1280428583


Vamos ahora a trabajar con la table2, observemos como estan los datos contenidas en ella.

In [8]:
table2.head()                                         # Muestra el contenido de los primeros registros del conjunto de datos

Unnamed: 0,country,year,type,count
0,Afghanistan,1999,cases,745
1,Afghanistan,1999,population,19987071
2,Afghanistan,2000,cases,2666
3,Afghanistan,2000,population,20595360
4,Brazil,1999,cases,37737


En la columna type encontramos diferentes clases de datos correspondientes a cases (numeros de casos) y population (población), los cuales impiden su analisis en forma adecuada.
Para tal fin vamos a usar la funcion de pandas pivot(), que realiza lo opuesto a melt().

In [9]:
table2.pivot_table(
    index = ['country', 'year'], 
    columns = 'type', 
    values = 'count').reset_index()

type,country,year,cases,population
0,Afghanistan,1999,745,19987071
1,Afghanistan,2000,2666,20595360
2,Brazil,1999,37737,172006362
3,Brazil,2000,80488,174504898
4,China,1999,212258,1272915272
5,China,2000,213766,1280428583


Como puedes apreciar, ahora tenemos una columna por cada una de las variables type (cases y population), facilitando su analisis de acuerdo con las reglas de datos ordenados.

### 5. Derivando datos desde las columnas
Ahora vamos a revisar table3 en sus datos. Encontramos que la columna rate contiene aparentemente para cada pais y año, los cases(numeros de casos) dividido entre population(poblacion). Sin embargo aparecen como un conjunto de caracteres y no como una formula que nos permita obtener un resultado numerico como seria lo esperado.

In [10]:
table3.head()

Unnamed: 0,country,year,rate
0,Afghanistan,1999,745/19987071
1,Afghanistan,2000,2666/20595360
2,Brazil,1999,37737/172006362
3,Brazil,2000,80488/174504898
4,China,1999,212258/1272915272


Iniciaremos el proceso de obtener cada una de las columnas cases y population a partir de la columna rate, usando el simbolo "/" como separador de cada uno de los datos, mediante la utilización del comando str.split. 
Su resultado sera un nuevo conjunto denominado "new_columns" que contendra las nuevas columnas, las cuales renombraremos como cases (para la primera, recuerda que en python se enumera desde 0) y population para la segunda(que en orden de enumeracion corresponde al uno).


In [11]:
new_columns = (table3.
  rate.str.split("/", expand = True).
  rename(columns = {0: "cases", 1: "population"})
  )                                                        # Crea un nuevo conjunto de datos con la division de la columna rate
new_columns.head()                                         # en las columnas cases y population.

Unnamed: 0,cases,population
0,745,19987071
1,2666,20595360
2,37737,172006362
3,80488,174504898
4,212258,1272915272


El paso siguiente es reemplazar estas dos columnas cases y population por la columna rate en el conjunto table3, asegurandonos que sean convertidas en numeros para posteriores operaciones.
El comando concat se encarga de unir las columnas con la opcion axis=1, mientras que el parametro drop en la columna rate nos indica que esta sera eliminada de nuestro conjunto de datos.
Finalmente el astype=float nos permite la conversion al tipo numerico flotante para las nuevas columnas.

In [12]:
pd.concat([
  table3.drop(columns = 'rate'), 
  new_columns.astype('float')],
  axis = 1)                                          # Concatena el conjunto new_columns con table3

Unnamed: 0,country,year,cases,population
0,Afghanistan,1999,745.0,19987070.0
1,Afghanistan,2000,2666.0,20595360.0
2,Brazil,1999,37737.0,172006400.0
3,Brazil,2000,80488.0,174504900.0
4,China,1999,212258.0,1272915000.0
5,China,2000,213766.0,1280429000.0


La liberia pandas es muy poderosa en el manejo de datos y la combinación entre estos. Por ejemplo continuando con la table3 en la columna year, podriamos crear un nuevos conjunto de datos llamado cent_year donde se extraen los primeros dos numeros (convertidos a caracteres con la funcion str) en la variable century y los dos ultimos (tambien convertidos a caracteres) en la variable year. 
Despues lo reeemplazamos en nuestro table3, eliminando la columna original year (4 digitos) por dos columnas de dos digitos century y year ambas de tipo string.

In [13]:
cent_year = pd.DataFrame({
    'century': table3.year.astype(str).str[:2],
    'year': table3.year.astype(str).str[-2:]
})                                                     # Crea un nuevo conjunto de datos con la division de la columna year
pd.concat([table3.drop(columns = 'year'), cent_year], axis = 1)  # Concatena el conjunto cent_year con table3

Unnamed: 0,country,rate,century,year
0,Afghanistan,745/19987071,19,99
1,Afghanistan,2666/20595360,20,0
2,Brazil,37737/172006362,19,99
3,Brazil,80488/174504898,20,0
4,China,212258/1272915272,19,99
5,China,213766/1280428583,20,0


Usando la table5, podrian integrarse las columnas century y year en una sola columna, mediante una operacion de concatenacion de caracteres que se representa con un simbolo (+). Debes ser muy cuidadoso con esta operación, porque si se tratara de dos campos numericos el resultado seria la suma aritmetica. El resultado aparece en la columna new y se logra mediante el comando assign.

In [14]:
table5.assign(new = table5['century'] + table5['year'])     # Crea una nueva columna con la concatenacion de century y year

Unnamed: 0,country,century,year,rate,new
0,Afghanistan,19,99,745/19987071,1999
1,Afghanistan,20,0,2666/20595360,2000
2,Brazil,19,99,37737/172006362,1999
3,Brazil,20,0,80488/174504898,2000
4,China,19,99,212258/1272915272,1999
5,China,20,0,213766/1280428583,2000


Finalmente las mismas columnas podrian ser concatenadas usando el comando agg.

In [15]:
table5.assign(new = table5[['century', 'year']].agg("_".join, axis = 1)) 

Unnamed: 0,country,century,year,rate,new
0,Afghanistan,19,99,745/19987071,19_99
1,Afghanistan,20,0,2666/20595360,20_00
2,Brazil,19,99,37737/172006362,19_99
3,Brazil,20,0,80488/174504898,20_00
4,China,19,99,212258/1272915272,19_99
5,China,20,0,213766/1280428583,20_00
