# Challenge: Múltiples variables almacenadas en una columna.

Vamos a tratar ahora con el siguiente dataset: Registros de tuberculosis de la Organización Mundial de la Salud
Este conjunto de datos documenta el recuento de casos confirmados de tuberculosis por país, año, edad y sexo.

## Problemas:
- Algunas columnas contienen varios valores: sexo y edad.
- Mezcla de ceros y valores perdidos NaN. Esto se debe al proceso de recopilación de datos y la distinción es importante para este conjunto de datos.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("data/tb-raw.csv")
df

Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,mu,f014
0,AD,2000,0.0,0.0,1.0,0.0,0,0,0.0,,
1,AE,2000,2.0,4.0,4.0,6.0,5,12,10.0,,3.0
2,AF,2000,52.0,228.0,183.0,149.0,129,94,80.0,,93.0
3,AG,2000,0.0,0.0,0.0,0.0,0,0,1.0,,1.0
4,AL,2000,2.0,19.0,21.0,14.0,24,19,16.0,,3.0
5,AM,2000,2.0,152.0,130.0,131.0,63,26,21.0,,1.0
6,AN,2000,0.0,0.0,1.0,2.0,0,0,0.0,,0.0
7,AO,2000,186.0,999.0,1003.0,912.0,482,312,194.0,,247.0
8,AR,2000,97.0,278.0,594.0,402.0,419,368,330.0,,121.0
9,AS,2000,,,,,1,1,,,


Para ordenar este conjunto de datos, necesitamos eliminar los diferentes valores del encabezado y SEPARARLOS en filas.

### Instrucciones:
- Primero, necesitaremos fusionar las columnas de sexo + grupo de edad en una sola.
- Una vez que tengamos esa única columna, derivaremos tres columnas de ella: sexo, age_lower y age_upper. Con ellos, podremos construir correctamente un conjunto de datos ordenado.

In [3]:
# Utiliza melt como en primer challenge para realizar el melt sobre las columnas que correspondan
df = pd.melt(df, id_vars=["country","year"], value_name="frecuencia", var_name="group")
df

Unnamed: 0,country,year,group,frecuencia
0,AD,2000,m014,0.0
1,AE,2000,m014,2.0
2,AF,2000,m014,52.0
3,AG,2000,m014,0.0
4,AL,2000,m014,2.0
...,...,...,...,...
85,AM,2000,f014,1.0
86,AN,2000,f014,0.0
87,AO,2000,f014,247.0
88,AR,2000,f014,121.0


In [4]:
# Utiliza str.extract como en el primer challenge para separar el género y el rango de edad
genero = df['group'].str.extract(r'(\w)', expand=False)
genero

0     m
1     m
2     m
3     m
4     m
     ..
85    f
86    f
87    f
88    f
89    f
Name: group, Length: 90, dtype: object

In [24]:
# Renombre las columnas como "sex", "age_lower", "age_upper" según corresponda


In [25]:
# Crea la columna `age` uniendo los valores de las columnas `age_lower` y `age_upper`


## Resultado
Al finalizar, deberías obtener un dataframe similar a este:

![image.png](https://storage.googleapis.com/campus-cvs/lectures/tidyDataChallenge2.PNG)