# Challenge: Múltiples variables almacenadas en una columna.

Vamos a tratar ahora con el siguiente dataset: Registros de tuberculosis de la Organización Mundial de la Salud
Este conjunto de datos documenta el recuento de casos confirmados de tuberculosis por país, año, edad y sexo.

## Problemas:
- Algunas columnas contienen varios valores: sexo y edad.
- Mezcla de ceros y valores perdidos NaN. Esto se debe al proceso de recopilación de datos y la distinción es importante para este conjunto de datos.

In [1]:
import pandas as pd

In [82]:
tb = pd.read_csv("tb-raw.csv")
tb

Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,mu,f014
0,AD,2000,0.0,0.0,1.0,0.0,0,0,0.0,,
1,AE,2000,2.0,4.0,4.0,6.0,5,12,10.0,,3.0
2,AF,2000,52.0,228.0,183.0,149.0,129,94,80.0,,93.0
3,AG,2000,0.0,0.0,0.0,0.0,0,0,1.0,,1.0
4,AL,2000,2.0,19.0,21.0,14.0,24,19,16.0,,3.0
5,AM,2000,2.0,152.0,130.0,131.0,63,26,21.0,,1.0
6,AN,2000,0.0,0.0,1.0,2.0,0,0,0.0,,0.0
7,AO,2000,186.0,999.0,1003.0,912.0,482,312,194.0,,247.0
8,AR,2000,97.0,278.0,594.0,402.0,419,368,330.0,,121.0
9,AS,2000,,,,,1,1,,,


In [83]:
tb.drop(columns=["mu"],inplace=True)
tb


Unnamed: 0,country,year,m014,m1524,m2534,m3544,m4554,m5564,m65,f014
0,AD,2000,0.0,0.0,1.0,0.0,0,0,0.0,
1,AE,2000,2.0,4.0,4.0,6.0,5,12,10.0,3.0
2,AF,2000,52.0,228.0,183.0,149.0,129,94,80.0,93.0
3,AG,2000,0.0,0.0,0.0,0.0,0,0,1.0,1.0
4,AL,2000,2.0,19.0,21.0,14.0,24,19,16.0,3.0
5,AM,2000,2.0,152.0,130.0,131.0,63,26,21.0,1.0
6,AN,2000,0.0,0.0,1.0,2.0,0,0,0.0,0.0
7,AO,2000,186.0,999.0,1003.0,912.0,482,312,194.0,247.0
8,AR,2000,97.0,278.0,594.0,402.0,419,368,330.0,121.0
9,AS,2000,,,,,1,1,,


Para ordenar este conjunto de datos, necesitamos eliminar los diferentes valores del encabezado y SEPARARLOS en filas.

### Instrucciones:
- Primero, necesitaremos fusionar las columnas de sexo + grupo de edad en una sola.
- Una vez que tengamos esa única columna, derivaremos tres columnas de ella: sexo, age_lower y age_upper. Con ellos, podremos construir correctamente un conjunto de datos ordenado.

In [84]:
# Utiliza melt como en primer challenge para realizar el melt sobre las columnas que correspondan
tb1=pd.melt(frame=tb, id_vars=["country","year"], var_name="sexo + grupo de edad", value_name="cases")
tb1

Unnamed: 0,country,year,sexo + grupo de edad,cases
0,AD,2000,m014,0.0
1,AE,2000,m014,2.0
2,AF,2000,m014,52.0
3,AG,2000,m014,0.0
4,AL,2000,m014,2.0
...,...,...,...,...
75,AM,2000,f014,1.0
76,AN,2000,f014,0.0
77,AO,2000,f014,247.0
78,AR,2000,f014,121.0


In [85]:
tb1Expanded=tb1["sexo + grupo de edad"].str.split("(\d+)", expand=True)
tb1Expanded.drop(columns=[2],inplace=True)
tb1Expanded.columns=["sexo","grupo de edad"]
tb1Expanded

Unnamed: 0,sexo,grupo de edad
0,m,014
1,m,014
2,m,014
3,m,014
4,m,014
...,...,...
75,f,014
76,f,014
77,f,014
78,f,014


In [86]:
tb1=tb1.drop(columns=["sexo + grupo de edad"])
tb2=pd.concat([tb1, tb1Expanded ],axis=1)
tb2

Unnamed: 0,country,year,cases,sexo,grupo de edad
0,AD,2000,0.0,m,014
1,AE,2000,2.0,m,014
2,AF,2000,52.0,m,014
3,AG,2000,0.0,m,014
4,AL,2000,2.0,m,014
...,...,...,...,...,...
75,AM,2000,1.0,f,014
76,AN,2000,0.0,f,014
77,AO,2000,247.0,f,014
78,AR,2000,121.0,f,014


In [87]:
tb2_age=tb2["grupo de edad"].str.split("", expand=True)
tb2_age.drop(columns=[0,5],inplace=True)
tb2_age

Unnamed: 0,1,2,3,4
0,0,1,4,
1,0,1,4,
2,0,1,4,
3,0,1,4,
4,0,1,4,
...,...,...,...,...
75,0,1,4,
76,0,1,4,
77,0,1,4,
78,0,1,4,


In [88]:
for i in range(tb2_age):
    if tb2["grupo de edad"][i]=="65":
        print(tb2["grupo de edad"][i])
    

TypeError: 'DataFrame' object cannot be interpreted as an integer

In [67]:
for i in range(len(tb2)):
    if tb2["grupo de edad"][i]=="014":
        tb2_age["Age lower"]=tb2_age[1]
        tb2_age["Age upper"]=tb2_age[2].map(str)+tb2_age[3]
    elif tb2["grupo de edad"][i]=="65":
        tb2_age["Age lower"]=tb2_age[1]
        tb2_age["Age upper"]=tb2_age[1].map(str)+tb2_age[2]
    else:
        tb2_age["Age lower"]=tb2_age[1].map(str)+tb2_age[2]
        tb2_age["Age upper"]=tb2_age[3].map(str)+tb2_age[4]

tb2_age["Age"]=tb2_age["Age lower"].map(str)+"-"+tb2_age["Age upper"]
tb2_age.sort_values(["Age"], ascending=False)

Unnamed: 0,0,1,2,3,4,5,Age lower,Age upper,Age
68,,6,5,,,,6,5,6-5
67,,6,5,,,,6,5,6-5
66,,6,5,,,,6,5,6-5
65,,6,5,,,,6,5,6-5
64,,6,5,,,,6,5,6-5
...,...,...,...,...,...,...,...,...,...
75,,,,,,,,,
76,,,,,,,,,
77,,,,,,,,,
78,,,,,,,,,


In [None]:
# Renombre las columnas como "sex", "age_lower", "age_upper" según corresponda


In [None]:
# Crea la columna `age` uniendo los valores de las columnas `age_lower` y `age_upper`


In [None]:
# Concatenamos los data frames modificados


In [None]:
# Removemos columnas que ya no son necesarias


## Resultado
Al finalizar, deberías obtener un dataframe similar a este:

![image.png](https://storage.googleapis.com/campus-cvs/lectures/tidyDataChallenge2.PNG)