# Tidy Data
La idea principal del concepto de *Tidy Data* es estructurar conjuntos de datos para facilitar el análisis. Nuestro vocabulario de filas y columnas simplemente no es lo suficientemente rico.

Un dataset, como vimos en general, es una colección de valores, numeros (cuantitativos) o strings (cualitativos)

Recordemos el principio de *Tidy Data*:

- Cada *valor* corresponde a una *variable* y a una *observación*.
- Una *variable* tiene todos los valores medidos de todas las muestras sobre un atributo subyacente.
- Una *observación* contiene todos los valores medidos de una muestra en todos los atributos.

Llevando a ordenar a nuestros DataFrames de la siguiente manera:

- Cada *variable* es una *columna*.
- Cada *observación* es una *fila*.
- Cada *celda* es un *valor*.
- Cada *unidad de observación* es una *tabla*.

Para este ejercicio vamos a trabajar con el csv de la población de países (`countries_population.csv`)

OBS: En las celdas de procesamiento si ves ___ es para que reemplaces.

1. Importa `pandas` como `pd`

2. Lea `countries_population.csv` y asignalo a `population` 

In [None]:
___ = ___.read_csv(___)

3. Imprima la cabecera de `population`

4. Imprima las columnas de `population`

Por lo que podemos ver, en este dataframe, tenemos para cada país tenemos la población desde 1960 a 2021 distribuida en columnas. Este tipo de ordenamiento de los datos se llama de forma tabular, que es la típica utilizada en planillas de cálculo. Facilita la visualización de datos, pero no es óptima para automatizar algoritmos que nos permitan procesar nuestros datos.

Por lo que vamos a pasar nuestro DataFrame a formato Tidy. Pero antes, debemos quitar toda la información que no necesitamos de nuestro DataFrame. La unidad de observación es la población mundial durante los años, por lo que el resto de información es redundante. Las columnas `"Country Code"`, `"Indicator Name"`, `"Indicator Code"` y `"Unnamed: 66"` no las necesitamos:

1. Cree una lista con los nombres de todas las columnas que queremos quitar llamada `columns_to_drop_list`

In [None]:
columns_to_drop_list = [__, __, __, __]

2. Usando el método `.drop()` quite las columnas de `population`. Utilice como argumento a `columns_to_drop_list`, `axis=1` y `inplace=True`

In [None]:
population.___(___, ___, ___)

3. Imprima la cabecera de `population`

----
## Armando nuestro Tidy DataFrame

Ya con nuestro DataFrame más limpio, vamos a pasarlo a un formato Tidy, para ello intentemos entender que de nuestra data es una variable y una observación:

- **Variables**:
    - **Nombre del país**: Es el nombre del país al que se registra la población del país. 
      Es una variable fija, que sabemos de antemano a la medición. 
      El tipo de valores que puede asumir esta variable son strings. 
      El dominio de esta variable es el conjunto de nombres de países.
    - **Año de medición**: Es el año en que se midió el tamaño de la población de algún país. 
      Es una variable fija, que sabemos de antemano a la medición. 
      El tipo de valores que puede asumir esta variable son enteros.
      El dominio de esta variable va de 1960 a 2021.
    - **Población**: Es el tamaño de la población de un país en un año particular.
      Es una variable medible, que se registra en el experimento.
      El tipo de valores que puede asumir esta variable son enteros.
      El dominio de esta variable es el conjunto de números naturales incluido el cero.
- **Observación**: Una observación en este caso es el registro de la población de un país en un país específico. La observación tendrá tres valores, uno por variable (país, año y población).

Vemos que `population` tiene valores como columnas que son el año de medición de la población.

Teniendo esto en cuenta, vamos a transformar a nuestro DataFrame en Tidy usando `pd.melt()`:

- La columna `"Country Name"` es correcta, es decir, es una variable con sus valores, por lo que no necesitamos transformarlo, lo podemos poner en `id_vars` de `pd.melt()`.
- En cambio las columnas de años la necesitamos transformarlo, entonces irá en `value_vars` de `pd.melt()`.

1. Cree una lista con los valores desde 1960 a 2021 usando un ciclo `for` y `range()`. Llame a la lista `years`.

In [None]:
___ = list()

for i in range(___, ___):
    ___.append(i)

2. Convierta los valores de `years` en strings (`str`)

In [None]:
___ = [str(x) for x in ___]

3. Transforme a `population` usando `pd.melt()`, asigne el resultado a `population_tidy`. Como dijimos a la columna `"Country Name"` la guardamos en `id_vars`. Para `value_vars` use la lista `years`. A la columna que incorpore los valores de los años, llamela `"year"` (`var_name="year"`), y a la columna que incorpore la población, llamela `"population"` (`value_name="population"`)

In [None]:
___ = pd.melt(___, id_vars=___, value_vars=___, var_name=___, value_name=___)

4. Imprima la cabecera de `population_tidy`

----
## Limpiando nuesto Tidy DataFrame

Ya tenemos a nuestro dataframe prácticamente ordenado, pero debemos hacer algunos cambios. La columna `"Country Name"` no es recomendable que tenga mayúscula, por lo que  vamos a cambiar a las columnas a `["country", "year", "population"]`:

1. Renombre a las columnas de `population_tidy` en `["country", "year", "population"]`.

Veamos si hay valores NaN en nuestro DataFrame:

1. Vea la información de columnas y valores faltantes de `population_tidy` usando `.info()`

2. Como podemos ver, `"country"` y `"year"` están completas pero `"population"` tiene valores faltantes. Chequemos esto usando slicing con `.loc[]` de `population_tidy` con el método `.isna()` para la columna `"population"`. Imprima la cabecera de este filtrado.

In [None]:
___.loc[___[___].isna()]

3. Quite los NaN de `population_tidy` usando `.dropna()` y además resete el index usando `.reset_index()` con `drop=True`.

In [None]:
___.___(inplace=True)

In [None]:
___.___(drop=True, inplace=True)

4. Vea de nuevo la información de columnas y valores faltantes de `population_tidy` usando `.info()`

Hemos quitado los valores NaN porque no nos dan información, en el contexto de este DataFrame es que no se hizo la medición de población en ese año, por lo que es lo mismo a que no esté la información en el dataset.

Ahora, analizando `.info()`, vemos que las columnas `"year"` y `"population"` no están como el tipo de variable que debe ser, por lo que vamos a transformarlos:

1. Transforme a la columna `"year"` de `population_tidy` en tipo entera (`int`) usando el método `.astype()`

In [None]:
population_tidy[___] = population_tidy[___].astype(___)

2. Transforme a la columna `"population"` de `population_tidy`en tipo entera (`int`) usando el método `.astype()` 

3. Imprima los tipos que son cada columnas de `population_tidy` usando `.dtypes`

4. Imprima la cabecera de `population_tidy`

Por último vamos a ordenar nuestro dataframe por año y país (en ese orden), ambos de forma ascendente:

1. Ordena a  `population_tidy` los valores usando `.sort_values()`, tomando las columnas `"year"` y `"country"` en ese orden. Asignalo al mismo DataFrame `population_tidy`

In [None]:
___ = ___.sort_values([___, ___])

----
## Usando el Tidy Datafram

Ahora tenemos nuestros datos en formato Tidy Data. Trabajando con `population_tidy` podemos hacer algunos slicing para ver cómo funciona:

1. Filtre todas las filas en donde `"country"` es igual a `"Argentina"`. Imprima el resultado

2. Filtre todas las filas en donde `"country"` es igual a `"Argentina"` y `"year"` va de `2010` en adelante. Imprima el resultado

3. Filtre todas las filas en donde `"population"` es mayor o igual a 45.000.000 y menor o igual a 46.000.000. Imprima el resultado

Este último filtrado nos devuelve los países que tuvieron en el pasado la población de Argentina en 2021.

---
## Volviendo a formato tabular

Por último, por ahí deseamos volver a tener nuestros datos en forma tabular, para una presentación o para exportarse para un paper. Para ello, podemos usar `pd.pivot_table()`. Queremos que las filas sean cada país y que las columnas sean los años y la población sea el valor de cada celda correspondiente a la intersección de un país y un año en particular.

En `pd.pivot_table()`, podemos indicar qué columnas sus valores se transformen en filas (usando el argumento `index`), qué columnas sus valores se transformen en columnas (usando el argumento `columns`) y la columna que usaremos para rellenar las intersecciones (usando el argumento `values`). 

``` Python
df_pivoted = pivot_table(df, index=["col_1", "col_2"], columns=["col_3", "col_4"], values="col_5")
```

1. Cree una tabla tabulada de `population_tidy` usando como fila a `"country"` y columna a `"year"` y valores a `"population"`. Asignelo a `population_pivot`

In [None]:
___ = pd.pivot_table(___, index=___, columns=___, values=___)

2. Imprima la cabecera de `population_pivot`

3. Cree una tabla tabulada de `population_tidy` usando como fila a `"year"` y columna a `"country"` y valores a `"population"`. Asignelo a `population_pivot_2`

4. Imprima la cabecera de `population_pivot_2`