# From Tycho2 source to parquet file

##  getting the data

http://tdc-www.harvard.edu/catalogs/tycho2.format.html
https://cdsarc.cds.unistra.fr/cgi-bin/myqcat3?I/259/

## which epoch?

J2000

## Import Tycho2 dat file

In [22]:
import polars as pl

labels = [
    "TYC123", "pflag", "RAmdeg", "DEmdeg", "pmRA", "pmDE", 
    "e_RAmdeg", "e_DEmdeg", "e_pmRA", "e_pmDE", "EpRAm", "EpDEm", 
    "Num", "q_RAmdeg", "q_DEmdeg", "q_pmRA", "q_pmDE", "BTmag", 
    "e_BTmag", "VTmag", "e_VTmag", "prox", "TYC", "HIPCCDM", 
    "RAdeg", "DEdeg", "EpRA-1990", "EpDE-1990", "e_RAdeg", "e_DEdeg", 
    "posflg", "corr"
]

# Assuming the filename is "filename.txt"
df = pl.read_csv('./support/tyc2.dat', separator='|', has_header=False, new_columns=labels, 
                 dtypes={'RAmdeg': pl.Float32, 'DEmdeg': pl.Float32, 'BTmag': pl.Float32, 'e_BTmag': pl.Float32, 'VTmag': pl.Float32,'e_VTmag': pl.Float32, 'HIPCCDM': pl.Utf8})

print(df)

shape: (2_539_913, 32)
┌──────────────┬───────┬────────────┬────────────┬───┬─────────┬─────────┬────────┬──────┐
│ TYC123       ┆ pflag ┆ RAmdeg     ┆ DEmdeg     ┆ … ┆ e_RAdeg ┆ e_DEdeg ┆ posflg ┆ corr │
│ ---          ┆ ---   ┆ ---        ┆ ---        ┆   ┆ ---     ┆ ---     ┆ ---    ┆ ---  │
│ str          ┆ str   ┆ f32        ┆ f32        ┆   ┆ f64     ┆ f64     ┆ str    ┆ f64  │
╞══════════════╪═══════╪════════════╪════════════╪═══╪═════════╪═════════╪════════╪══════╡
│ 0001 00008 1 ┆       ┆ 2.317505   ┆ 2.231843   ┆ … ┆ 88.0    ┆ 100.8   ┆        ┆ -0.2 │
│ 0001 00013 1 ┆       ┆ 1.125582   ┆ 2.267394   ┆ … ┆ 9.3     ┆ 12.7    ┆        ┆ -0.2 │
│ 0001 00016 1 ┆       ┆ 1.056865   ┆ 1.897829   ┆ … ┆ 108.5   ┆ 150.2   ┆        ┆ -0.1 │
│ 0001 00017 1 ┆ P     ┆ 0.050598   ┆ 1.771443   ┆ … ┆ 30.0    ┆ 45.6    ┆ D      ┆ -0.2 │
│ …            ┆ …     ┆ …          ┆ …          ┆ … ┆ …       ┆ …       ┆ …      ┆ …    │
│ 9537 00375 1 ┆       ┆ 345.76767  ┆ -88.284042 ┆ … ┆ 95.0    ┆ 10

## Drop unneeded columns

In [23]:
df = df.drop(columns= [
    "TYC123", "pflag", "pmRA", "pmDE", 
    "e_RAmdeg", "e_DEmdeg", "e_pmRA", "e_pmDE", "EpRAm", "EpDEm", 
    "Num", "q_RAmdeg", "q_DEmdeg", "q_pmRA", "q_pmDE", "prox", "TYC",
    "RAdeg", "DEdeg", "EpRA-1990", "EpDE-1990", "e_RAdeg", "e_DEdeg", 
    "posflg", "corr"
])
print(df)

shape: (2_539_913, 7)
┌────────────┬────────────┬────────┬─────────┬────────┬─────────┬───────────┐
│ RAmdeg     ┆ DEmdeg     ┆ BTmag  ┆ e_BTmag ┆ VTmag  ┆ e_VTmag ┆ HIPCCDM   │
│ ---        ┆ ---        ┆ ---    ┆ ---     ┆ ---    ┆ ---     ┆ ---       │
│ f32        ┆ f32        ┆ f32    ┆ f32     ┆ f32    ┆ f32     ┆ str       │
╞════════════╪════════════╪════════╪═════════╪════════╪═════════╪═══════════╡
│ 2.317505   ┆ 2.231843   ┆ 12.146 ┆ 0.158   ┆ 12.146 ┆ 0.223   ┆           │
│ 1.125582   ┆ 2.267394   ┆ 10.488 ┆ 0.038   ┆ 8.67   ┆ 0.015   ┆           │
│ 1.056865   ┆ 1.897829   ┆ 12.921 ┆ 0.335   ┆ 12.1   ┆ 0.243   ┆           │
│ 0.050598   ┆ 1.771443   ┆ 11.318 ┆ 0.07    ┆ 10.521 ┆ 0.051   ┆           │
│ …          ┆ …          ┆ …      ┆ …       ┆ …      ┆ …       ┆ …         │
│ 345.76767  ┆ -88.284042 ┆ 13.108 ┆ 0.271   ┆ 12.48  ┆ 0.196   ┆           │
│ 341.197632 ┆ -88.538872 ┆ 13.147 ┆ 0.287   ┆ 12.158 ┆ 0.177   ┆           │
│ 337.975433 ┆ -88.762932 ┆ 10.99  ┆ 0.048

In [43]:
print("before cleaning:\n", df.null_count())
print(df.filter(df['BTmag'].is_null()))
print(df.filter(df['VTmag'].is_null()))
# Fill BTmag with VTmag values where BTmag is null
df = df.with_columns(df["BTmag"].fill_null(df["VTmag"]))

# Fill VTmag with BTmag values where VTmag is null
df = df.with_columns(df["VTmag"].fill_null(df["BTmag"]))

# Remove rows where RAmdeg or DEmdeg is null
df = df.filter((df["RAmdeg"].is_not_null()) & (df["DEmdeg"].is_not_null()))

print(df)
print("after cleaning:\n", df.null_count())

before cleaning:
 shape: (1, 7)
┌────────┬────────┬───────┬─────────┬───────┬─────────┬─────────┐
│ RAmdeg ┆ DEmdeg ┆ BTmag ┆ e_BTmag ┆ VTmag ┆ e_VTmag ┆ HIPCCDM │
│ ---    ┆ ---    ┆ ---   ┆ ---     ┆ ---   ┆ ---     ┆ ---     │
│ u32    ┆ u32    ┆ u32   ┆ u32     ┆ u32   ┆ u32     ┆ u32     │
╞════════╪════════╪═══════╪═════════╪═══════╪═════════╪═════════╡
│ 0      ┆ 0      ┆ 0     ┆ 74      ┆ 0     ┆ 20      ┆ 0       │
└────────┴────────┴───────┴─────────┴───────┴─────────┴─────────┘
shape: (0, 7)
┌────────┬────────┬───────┬─────────┬───────┬─────────┬─────────┐
│ RAmdeg ┆ DEmdeg ┆ BTmag ┆ e_BTmag ┆ VTmag ┆ e_VTmag ┆ HIPCCDM │
│ ---    ┆ ---    ┆ ---   ┆ ---     ┆ ---   ┆ ---     ┆ ---     │
│ f32    ┆ f32    ┆ f32   ┆ f32     ┆ f32   ┆ f32     ┆ str     │
╞════════╪════════╪═══════╪═════════╪═══════╪═════════╪═════════╡
└────────┴────────┴───────┴─────────┴───────┴─────────┴─────────┘
shape: (0, 7)
┌────────┬────────┬───────┬─────────┬───────┬─────────┬─────────┐
│ RAmdeg ┆ DEmde

## Calculate real Visual magnitude

### V   = VT -0.090*(BT-VT)
see Tycho2 docs for this formula

In [46]:
#df.map_rows(lambda t: (t[4] - 0.094*(t[2] - t[4]))).alias('Vmag')
df = df.with_columns((df["VTmag"] - 0.090 * (df["BTmag"] - df["VTmag"])).alias("Vmag"))

print(df)

shape: (2_430_468, 8)
┌────────────┬────────────┬────────┬─────────┬────────┬─────────┬───────────┬───────────┐
│ RAmdeg     ┆ DEmdeg     ┆ BTmag  ┆ e_BTmag ┆ VTmag  ┆ e_VTmag ┆ HIPCCDM   ┆ Vmag      │
│ ---        ┆ ---        ┆ ---    ┆ ---     ┆ ---    ┆ ---     ┆ ---       ┆ ---       │
│ f32        ┆ f32        ┆ f32    ┆ f32     ┆ f32    ┆ f32     ┆ str       ┆ f32       │
╞════════════╪════════════╪════════╪═════════╪════════╪═════════╪═══════════╪═══════════╡
│ 2.317505   ┆ 2.231843   ┆ 12.146 ┆ 0.158   ┆ 12.146 ┆ 0.223   ┆           ┆ 12.146    │
│ 1.125582   ┆ 2.267394   ┆ 10.488 ┆ 0.038   ┆ 8.67   ┆ 0.015   ┆           ┆ 8.50638   │
│ 1.056865   ┆ 1.897829   ┆ 12.921 ┆ 0.335   ┆ 12.1   ┆ 0.243   ┆           ┆ 12.026111 │
│ 0.050598   ┆ 1.771443   ┆ 11.318 ┆ 0.07    ┆ 10.521 ┆ 0.051   ┆           ┆ 10.44927  │
│ …          ┆ …          ┆ …      ┆ …       ┆ …      ┆ …       ┆ …         ┆ …         │
│ 345.76767  ┆ -88.284042 ┆ 13.108 ┆ 0.271   ┆ 12.48  ┆ 0.196   ┆           ┆ 

## Write parquet file

In [47]:
df.write_parquet('./support/tyc2.parquet')

# Read parquet file to test

In [48]:
df = pl.read_parquet('./support/tyc2.parquet')
print(df)

shape: (2_430_468, 8)
┌────────────┬────────────┬────────┬─────────┬────────┬─────────┬───────────┬───────────┐
│ RAmdeg     ┆ DEmdeg     ┆ BTmag  ┆ e_BTmag ┆ VTmag  ┆ e_VTmag ┆ HIPCCDM   ┆ Vmag      │
│ ---        ┆ ---        ┆ ---    ┆ ---     ┆ ---    ┆ ---     ┆ ---       ┆ ---       │
│ f32        ┆ f32        ┆ f32    ┆ f32     ┆ f32    ┆ f32     ┆ str       ┆ f32       │
╞════════════╪════════════╪════════╪═════════╪════════╪═════════╪═══════════╪═══════════╡
│ 2.317505   ┆ 2.231843   ┆ 12.146 ┆ 0.158   ┆ 12.146 ┆ 0.223   ┆           ┆ 12.146    │
│ 1.125582   ┆ 2.267394   ┆ 10.488 ┆ 0.038   ┆ 8.67   ┆ 0.015   ┆           ┆ 8.50638   │
│ 1.056865   ┆ 1.897829   ┆ 12.921 ┆ 0.335   ┆ 12.1   ┆ 0.243   ┆           ┆ 12.026111 │
│ 0.050598   ┆ 1.771443   ┆ 11.318 ┆ 0.07    ┆ 10.521 ┆ 0.051   ┆           ┆ 10.44927  │
│ …          ┆ …          ┆ …      ┆ …       ┆ …      ┆ …       ┆ …         ┆ …         │
│ 345.76767  ┆ -88.284042 ┆ 13.108 ┆ 0.271   ┆ 12.48  ┆ 0.196   ┆           ┆ 