In [1]:
# this is to see if not having sexes fixes my problem
# in this notebook I am using pandas to transpose a .csv of Canadian life expectancy data to match the formatting for US life expectancy data used in an example from class

In [2]:
import pandas as pd

In [18]:
df = pd.read_csv("data/Canada-Life-Expectancy-2023.csv") 


In [19]:
df

Unnamed: 0,Year,Age,Males,Females,Both Sexes
0,2023,0,79.25,83.79,81.51
1,2022,1,78.63,83.13,80.87
2,2021,2,77.65,82.15,79.90
3,2020,3,76.67,81.16,78.91
4,2019,4,75.68,80.17,77.92
...,...,...,...,...,...
106,1917,106,1.49,1.64,1.63
107,1916,107,1.43,1.57,1.56
108,1915,108,1.38,1.50,1.49
109,1914,109,1.34,1.45,1.45


In [20]:
df.drop(columns=['Both Sexes'])

Unnamed: 0,Year,Age,Males,Females
0,2023,0,79.25,83.79
1,2022,1,78.63,83.13
2,2021,2,77.65,82.15
3,2020,3,76.67,81.16
4,2019,4,75.68,80.17
...,...,...,...,...
106,1917,106,1.49,1.64
107,1916,107,1.43,1.57
108,1915,108,1.38,1.50
109,1914,109,1.34,1.45


In [21]:
# #I'm melting the gender columns, I want a "wide" dataset. 
# df_melt = df.melt(id_vars=["Year", "Age"], var_name="Gender", value_name="LifeExpectancy")

# # Pivoting so that ages become columns
# df_pivot = df_melt.pivot_table(index=["Year", "Gender"], columns="Age", values="LifeExpectancy")

# # didn't work

In [22]:
# Melt the data to convert Males, Females, Both Sexes into a single column
df_melted = df.melt(
    id_vars=["Year", "Age"],
    value_vars=["Males", "Females"],  # Specify these columns
    var_name="sex",      # This will contain "Males", "Females", "Both Sexes"
    value_name="value"   # This will contain the actual values
)
df_melted

Unnamed: 0,Year,Age,sex,value
0,2023,0,Males,79.25
1,2022,1,Males,78.63
2,2021,2,Males,77.65
3,2020,3,Males,76.67
4,2019,4,Males,75.68
...,...,...,...,...
217,1917,106,Females,1.64
218,1916,107,Females,1.57
219,1915,108,Females,1.50
220,1914,109,Females,1.45


In [23]:
# I'm cleaning up the sex column to match my target format (m, f, b)
df_melted['sex'] = df_melted['sex'].map({
    'Males': 'm', 
    'Females': 'f' 
})
df_melted

Unnamed: 0,Year,Age,sex,value
0,2023,0,m,79.25
1,2022,1,m,78.63
2,2021,2,m,77.65
3,2020,3,m,76.67
4,2019,4,m,75.68
...,...,...,...,...
217,1917,106,f,1.64
218,1916,107,f,1.57
219,1915,108,f,1.50
220,1914,109,f,1.45


In [29]:
# Now pivot with Year and sex as index, Age as columns
df_pivot = df_melted.pivot_table(
    index=["Year", "sex"],
    columns="Age",
    values="value",
    aggfunc='first'
).reset_index()

# Immediately drop any unwanted columns
if 'index' in df_pivot.columns:
    df_pivot = df_pivot.drop('index', axis=1)

    
print(df_pivot)

Age  Year sex      0      1      2   3   4   5   6   7  ...  101  102  103  \
0    1913   f    NaN    NaN    NaN NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
1    1913   m    NaN    NaN    NaN NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
2    1914   f    NaN    NaN    NaN NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
3    1914   m    NaN    NaN    NaN NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
4    1915   f    NaN    NaN    NaN NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
..    ...  ..    ...    ...    ...  ..  ..  ..  ..  ..  ...  ...  ...  ...   
217  2021   m    NaN    NaN  77.65 NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
218  2022   f    NaN  83.13    NaN NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
219  2022   m    NaN  78.63    NaN NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
220  2023   f  83.79    NaN    NaN NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
221  2023   m  79.25    NaN    NaN NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   

Age  104  105  106  107  108   109   110  
0    NaN  NaN  NaN  

In [30]:
# Reset index to make Year and sex regular columns
df_pivot = df_pivot.reset_index()

print(df_pivot)

Age  index  Year sex      0      1      2   3   4   5   6  ...  101  102  103  \
0        0  1913   f    NaN    NaN    NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
1        1  1913   m    NaN    NaN    NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
2        2  1914   f    NaN    NaN    NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
3        3  1914   m    NaN    NaN    NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
4        4  1915   f    NaN    NaN    NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
..     ...   ...  ..    ...    ...    ...  ..  ..  ..  ..  ...  ...  ...  ...   
217    217  2021   m    NaN    NaN  77.65 NaN NaN NaN NaN  ...  NaN  NaN  NaN   
218    218  2022   f    NaN  83.13    NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
219    219  2022   m    NaN  78.63    NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
220    220  2023   f  83.79    NaN    NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   
221    221  2023   m  79.25    NaN    NaN NaN NaN NaN NaN  ...  NaN  NaN  NaN   

Age  104  105  106  107  10

In [33]:
# Drop the unwanted "index" column
df_pivot = df_pivot.drop('index', axis=1)

# Then export
df_pivot.to_csv("life.csv", index=False)

In [36]:
df_pivot.to_json('life.json', orient='columns')