In [1]:
from unidecode import unidecode
import pandas as pd
import numpy as np
import os
import glob
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap


sns.set(rc={'figure.figsize': (10, 6)})

In [2]:
df, muta = [pd.read_csv(file_) for file_ in glob.glob(os.path.join('../data/raw/', '*'))]

### Missing Values

In [41]:
df.isna().mean() * 100

GISAID ID                     0.060680
Unnamed: 1                  100.000000
Virus name                    0.060680
FECHA DE COLECCIÓN            0.060680
FECHA DE SUBIDA A GISAID      0.060680
PROVINCIA                     0.060680
CIUDAD                        0.242718
TIPO                          0.910194
Genero                        0.060680
Edad                          0.060680
Linaje                        0.060680
Clado                         0.060680
Mutaciones                    0.060680
dtype: float64

In [42]:
muta.isna().mean() * 100

0I (Alpha, V1) (B.1.1.7)        78.181818
20H (Beta, V2) (B.1.351)        80.000000
20J (Gamma, V3) (P.1)           78.181818
21A (Delta) (B.1.617.2)         83.636364
21B (Kappa) (B.1.617.1)         89.090909
21K (Omicron) (BA.1)            34.545455
21L (Omicron) (BA.2)            43.636364
22A & 22B (Omicron) (BA.4&5)    38.181818
22C (Omicron) (BA.2.12.1)       40.000000
21D (Eta) (B.1.525)             83.636364
21F (Iota) (B.1.526)            89.090909
21G (Lambda) (C.37)             74.545455
21H (Mu) (B.1.621)              83.636364
dtype: float64

### Memory Usage

In [43]:
(df
 .memory_usage(deep=True)
 .pipe(lambda df_:pd.concat([df_, df.dtypes], axis=1))
 .rename(columns={0:'memory', 1:'dtype'})
)

Unnamed: 0,memory,dtype
Index,128,
GISAID ID,119098,object
Unnamed: 1,13184,float64
Virus name,143752,object
FECHA DE COLECCIÓN,110114,object
FECHA DE SUBIDA A GISAID,110381,object
PROVINCIA,110907,object
CIUDAD,106642,object
TIPO,109197,object
Genero,102496,object


### The Data

In [44]:
df.sample(10).T

Unnamed: 0,776,342,1192,902,881,1525,1246,546,1377,203
GISAID ID,EPI_ISL_6367753,EPI_ISL_2492337,EPI_ISL_11012600,EPI_ISL_8183487,EPI_ISL_8183466,EPI_ISL_12508454,EPI_ISL_11048371,EPI_ISL_3505567,EPI_ISL_11290915,EPI_ISL_1896687
Unnamed: 1,,,,,,,,,,
Virus name,hCoV-19/Ecuador/USFQ-2236/2021,hCoV-19/Ecuador/USFQ-1452/2021,hCoV-19/Ecuador/USFQ-2886/2022,hCoV-19/Ecuador/USFQ-2445/2021,hCoV-19/Ecuador/USFQ-2402/2021,hCoV-19/Ecuador/USFQ-UESS-A12/2022,hCoV-19/Ecuador/USFQ-2965/2022,hCoV-19/Ecuador/USFQ-1911/2021,hCoV-19/Ecuador/USFQ-3141/2022,hCoV-19/Ecuador/USFQ-1121/2021
FECHA DE COLECCIÓN,2021-10-28,2021-05-27,2022-02-05,2021-12-18,2021-12-09,2022-01-24,2022-02-09,2021-08-05,2022-02-23,2021-04-14
FECHA DE SUBIDA A GISAID,2021-11-17,2021-06-11,2022-03-14,2021-12-29,2021-12-29,2022-05-04,2022-03-15,2021-08-19,2022-03-22,2021-05-04
PROVINCIA,Pichincha,Esmeraldas,Pichincha,Imbabura,Pichincha,Guayas,Pichincha,Pichincha,Pichincha,El Oro
CIUDAD,QUITO,Esmeraldas,QUITO,IBARRA,QUITO,Guayaquil,QUITO,QUITO,QUITO,Machala
TIPO,Ambulatorio,Hospital,Ambulatorio,Hospital,,Ambulatorio,Ambulatorio,Ambulatorio,Ambulatorio,Hospital
Genero,Female,Female,Female,Female,Male,unknown,Male,Female,Male,Male
Edad,unknown,unknown,unknown,unknown,unknown,unknown,unknown,unknown,unknown,unknown


In [45]:
muta.head().T

Unnamed: 0,0,1,2,3,4
"0I (Alpha, V1) (B.1.1.7)",Principales mutaciones,S:D614G,,S:P681H,S:N501Y
"20H (Beta, V2) (B.1.351)",,S:D614G,S:E484K,,S:N501Y
"20J (Gamma, V3) (P.1)",,S:D614G,S:E484K,,S:N501Y
21A (Delta) (B.1.617.2),,S:D614G,,S:P681R,
21B (Kappa) (B.1.617.1),,S:D614G,S:E484Q,S:P681R,
21K (Omicron) (BA.1),,S:D614G,S:E484A,S:P681H,S:N501Y
21L (Omicron) (BA.2),,S:D614G,S:E484A,S:P681H,S:N501Y
22A & 22B (Omicron) (BA.4&5),,S:D614G,S:E484A,S:P681H,S:N501Y
22C (Omicron) (BA.2.12.1),,S:D614G,S:E484A,S:P681H,S:N501Y
21D (Eta) (B.1.525),,S:D614G,S:E484K,,


#### __Conceptos Importantes__
##### <span style="color:#a11508;"> Linaje </span>
En microbiología, el término linaje se refiere a una rama evolutiva de una especie o un grupo de organismos que comparten una ascendencia común. Se puede pensar en un linaje como un árbol genealógico de una especie, donde las ramas representan diferentes cepas o subespecies que evolucionan a lo largo del tiempo. Los linajes pueden ser identificados por diferentes características, como la secuencia del ADN o la presencia o ausencia de ciertos genes o marcadores bioquímicos. La identificación y seguimiento de los linajes de los microorganismos son importantes en la investigación de enfermedades infecciosas y en la evaluación de la eficacia de los tratamientos y vacunas.

En resumen, un linaje es una rama evolutiva de una especie o grupo de organismos que comparten una ascendencia común.

##### <span style="color:#a11508;"> Clado </span>
En microbiología, un clado es un grupo de organismos que incluyen un ancestro común y todos sus descendientes. Se utiliza para clasificar a los organismos según su relación evolutiva y se representa en un árbol filogenético. Los miembros de un clado tienen características similares y comparten una serie de características derivadas que los distinguen de otros grupos.

En un árbol filogenético, los clados se representan por un nodo, que es el punto donde se bifurca el árbol y se separan los linajes evolutivos. Los clados se forman cuando un grupo de organismos diverge de un ancestro común y desarrollan nuevas características a lo largo del tiempo.

El uso de los clados es importante en la clasificación y nomenclatura de los microorganismos, ya que proporciona una forma sistemática de agrupar y describir a los organismos basados en su historia evolutiva.

En resumen, un clado es un grupo de organismos que incluyen un ancestro común y todos sus descendientes y se utiliza para clasificar a los organismos según su relación evolutiva.

##### <span style="color:#a11508;"> Mutaciones </span>
En microbiología, una mutación es un cambio en la secuencia del ADN que puede ocurrir naturalmente o ser provocado por agentes mutagénicos como la radiación o productos químicos. Las mutaciones pueden ser puntuales o afectar estructuras más complejas, y pueden ser beneficiosas, perjudiciales o neutras para el organismo. Su impacto depende del tipo de cambio que se produce en la secuencia del ADN y de la función de los genes afectados. Las mutaciones son importantes en la evolución de los microorganismos y pueden ser relevantes en la investigación y diagnóstico de enfermedades infecciosas, ya que pueden conferir resistencia a los antimicrobianos o alterar la virulencia del microorganismo.

En resumen, una mutación es un cambio en la secuencia del ADN que puede ser natural o provocado, puede ser beneficioso, perjudicial o neutro para el organismo, y puede ocurrir en diferentes etapas del ciclo de vida del microorganismo. Las mutaciones son importantes en la evolución y en el diagnóstico de enfermedades infecciosas.

### Columns and Index

In [50]:
(df
 .rename(columns=lambda c:unidecode(c.replace(' ', '_').lower()))
 .drop(columns=['gisaid_id', 'unnamed:_1', 'fecha_de_subida_a_gisaid'])
)

Unnamed: 0,virus_name,fecha_de_coleccion,provincia,ciudad,tipo,genero,edad,linaje,clado,mutaciones
0,hCoV-19/Ecuador/HEE-01/2020,2020-03-09,Pichincha,QUITO,Hospital,Male,57,B.55,L,Spike E1207V
1,hCoV-19/Ecuador/HGSQ-USFQ-018/2020,2020-03-30,Pichincha,QUITO,Hospital,Male,27,B.1.1,GR,"(N_R203K,N_G204R,NSP12_P323L,NSP3_L431F,Spike_..."
2,hCoV-19/Ecuador/HGSQ-USFQ-007/2020,2020-03-30,Pichincha,QUITO,Hospital,Male,40,B.1.14,O,"(NSP15_S293T,NS3_Q38P,NS3_V163T,NS3_R122E,NS3_..."
3,hCoV-19/Ecuador/HGSQ-USFQ-010/2020,2020-03-30,Pichincha,QUITO,Hospital,Male,39,B.1.14,O,"(NSP15_S293T,NS3_Q38P,NS3_V163T,NS3_R122E,NS3_..."
4,hCoV-19/Ecuador/USFQ-020/2020,2020-04-17,Los Rios,BABAHOYO,Hospital,Female,50,B.1.67,G,"(NSP12_P323L,Spike_D614G)"
...,...,...,...,...,...,...,...,...,...,...
1643,hCoV-19/Ecuador/USFQ-3477/2022,2022-05-27,Pichincha,Quito,Ambulatorio,Male,42,BA.2,GRA,"(NSP5_P132H,NSP3_G489S,NSP4_T327I,Spike_S373P,..."
1644,hCoV-19/Ecuador/USFQ-3479/2022,2022-05-28,Pichincha,Quito,Ambulatorio,Male,54,BA.2,GRA,"(NSP5_P132H,NSP3_G489S,Spike_L24del,NSP4_T327I..."
1645,hCoV-19/Ecuador/USFQ-3482/2022,2022-05-29,Pichincha,Quito,Ambulatorio,Male,5,BA.2,GRA,"(NSP5_P132H,NSP3_G489S,NSP4_T327I,Spike_S373P,..."
1646,hCoV-19/Ecuador/USFQ-3483/2022,2022-05-25,Pichincha,Quito,Ambulatorio,Male,34,BA.2,GRA,"(NSP5_P132H,Spike_S371F,NSP3_G489S,NSP13_R392C..."


### Datetimes

In [51]:
(df
 .rename(columns=lambda c:unidecode(c.replace(' ', '_').lower()))
 .drop(columns=['gisaid_id', 'unnamed:_1', 'fecha_de_subida_a_gisaid'])
 .assign(fecha_de_coleccion=lambda df_:pd.to_datetime(df_.fecha_de_coleccion))
 .set_index('fecha_de_coleccion')
)

Unnamed: 0_level_0,virus_name,provincia,ciudad,tipo,genero,edad,linaje,clado,mutaciones
fecha_de_coleccion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2020-03-09,hCoV-19/Ecuador/HEE-01/2020,Pichincha,QUITO,Hospital,Male,57,B.55,L,Spike E1207V
2020-03-30,hCoV-19/Ecuador/HGSQ-USFQ-018/2020,Pichincha,QUITO,Hospital,Male,27,B.1.1,GR,"(N_R203K,N_G204R,NSP12_P323L,NSP3_L431F,Spike_..."
2020-03-30,hCoV-19/Ecuador/HGSQ-USFQ-007/2020,Pichincha,QUITO,Hospital,Male,40,B.1.14,O,"(NSP15_S293T,NS3_Q38P,NS3_V163T,NS3_R122E,NS3_..."
2020-03-30,hCoV-19/Ecuador/HGSQ-USFQ-010/2020,Pichincha,QUITO,Hospital,Male,39,B.1.14,O,"(NSP15_S293T,NS3_Q38P,NS3_V163T,NS3_R122E,NS3_..."
2020-04-17,hCoV-19/Ecuador/USFQ-020/2020,Los Rios,BABAHOYO,Hospital,Female,50,B.1.67,G,"(NSP12_P323L,Spike_D614G)"
...,...,...,...,...,...,...,...,...,...
2022-05-27,hCoV-19/Ecuador/USFQ-3477/2022,Pichincha,Quito,Ambulatorio,Male,42,BA.2,GRA,"(NSP5_P132H,NSP3_G489S,NSP4_T327I,Spike_S373P,..."
2022-05-28,hCoV-19/Ecuador/USFQ-3479/2022,Pichincha,Quito,Ambulatorio,Male,54,BA.2,GRA,"(NSP5_P132H,NSP3_G489S,Spike_L24del,NSP4_T327I..."
2022-05-29,hCoV-19/Ecuador/USFQ-3482/2022,Pichincha,Quito,Ambulatorio,Male,5,BA.2,GRA,"(NSP5_P132H,NSP3_G489S,NSP4_T327I,Spike_S373P,..."
2022-05-25,hCoV-19/Ecuador/USFQ-3483/2022,Pichincha,Quito,Ambulatorio,Male,34,BA.2,GRA,"(NSP5_P132H,Spike_S371F,NSP3_G489S,NSP13_R392C..."


### Numerical Types

In [52]:
(df
 .rename(columns=lambda c:unidecode(c.replace(' ', '_').lower()))
 .drop(columns=['gisaid_id', 'unnamed:_1', 'fecha_de_subida_a_gisaid'])
 .drop(index=df[df.Edad.str.contains('months')==True].index)
 .assign(fecha_de_coleccion=lambda df_:pd.to_datetime(df_.fecha_de_coleccion),
         edad=lambda df_:(df_
                          .edad
                          .replace(to_replace=['unknown', 'M'], value=np.nan)), # neither floats nor int are nullable
        )
 .set_index('fecha_de_coleccion')
)

Unnamed: 0_level_0,virus_name,provincia,ciudad,tipo,genero,edad,linaje,clado,mutaciones
fecha_de_coleccion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2020-03-09,hCoV-19/Ecuador/HEE-01/2020,Pichincha,QUITO,Hospital,Male,57,B.55,L,Spike E1207V
2020-03-30,hCoV-19/Ecuador/HGSQ-USFQ-018/2020,Pichincha,QUITO,Hospital,Male,27,B.1.1,GR,"(N_R203K,N_G204R,NSP12_P323L,NSP3_L431F,Spike_..."
2020-03-30,hCoV-19/Ecuador/HGSQ-USFQ-007/2020,Pichincha,QUITO,Hospital,Male,40,B.1.14,O,"(NSP15_S293T,NS3_Q38P,NS3_V163T,NS3_R122E,NS3_..."
2020-03-30,hCoV-19/Ecuador/HGSQ-USFQ-010/2020,Pichincha,QUITO,Hospital,Male,39,B.1.14,O,"(NSP15_S293T,NS3_Q38P,NS3_V163T,NS3_R122E,NS3_..."
2020-04-17,hCoV-19/Ecuador/USFQ-020/2020,Los Rios,BABAHOYO,Hospital,Female,50,B.1.67,G,"(NSP12_P323L,Spike_D614G)"
...,...,...,...,...,...,...,...,...,...
2022-05-27,hCoV-19/Ecuador/USFQ-3477/2022,Pichincha,Quito,Ambulatorio,Male,42,BA.2,GRA,"(NSP5_P132H,NSP3_G489S,NSP4_T327I,Spike_S373P,..."
2022-05-28,hCoV-19/Ecuador/USFQ-3479/2022,Pichincha,Quito,Ambulatorio,Male,54,BA.2,GRA,"(NSP5_P132H,NSP3_G489S,Spike_L24del,NSP4_T327I..."
2022-05-29,hCoV-19/Ecuador/USFQ-3482/2022,Pichincha,Quito,Ambulatorio,Male,5,BA.2,GRA,"(NSP5_P132H,NSP3_G489S,NSP4_T327I,Spike_S373P,..."
2022-05-25,hCoV-19/Ecuador/USFQ-3483/2022,Pichincha,Quito,Ambulatorio,Male,34,BA.2,GRA,"(NSP5_P132H,Spike_S371F,NSP3_G489S,NSP13_R392C..."


### Non-Numeric Types

In [55]:
df.columns

Index(['GISAID ID', 'Unnamed: 1', 'Virus name', 'FECHA DE COLECCIÓN',
       'FECHA DE SUBIDA A GISAID', 'PROVINCIA', 'CIUDAD', 'TIPO', 'Genero',
       'Edad', 'Linaje', 'Clado', 'Mutaciones'],
      dtype='object')

In [69]:
df = \
(df
 .rename(columns=lambda c:unidecode(c.replace(' ', '_').lower()))
 .drop(columns=['gisaid_id', 'unnamed:_1', 'fecha_de_subida_a_gisaid'])
 .drop(index=df[df.Edad.str.contains('months')==True].index)
 .dropna(subset=['linaje', 'clado', 'mutaciones'])
 .applymap(lambda tx: unidecode(tx.title()) if isinstance(tx, str) else tx)
 .assign(fecha_de_coleccion=lambda df_:pd.to_datetime(df_.fecha_de_coleccion),
         edad=lambda df_:(df_
                          .edad
                          .replace(to_replace=['Unknown', 'M'], value=np.nan)), # neither floats nor int are nullable
         virus_name_unidentified=lambda df_:(df_
                                             .virus_name
                                             .str.split('/', expand=True)[2]),
         count_muts=lambda df_:(df_
                                .mutaciones
                                .str.replace(pat='[()]', repl='', regex=True)
                                .str.split(',')
                                .apply(lambda l:len(l) if isinstance(l, list) else l)
                                .astype('uint16'))
        )
 .drop(columns=['virus_name'])
 .set_index('fecha_de_coleccion')
)

In [71]:
df.mutaciones

0                                            Spike E1207V
1       (N_R203K,N_G204R,Nsp12_P323L,Nsp3_L431F,Spike_...
2       (Nsp15_S293T,Ns3_Q38P,Ns3_V163T,Ns3_R122E,Ns3_...
3       (Nsp15_S293T,Ns3_Q38P,Ns3_V163T,Ns3_R122E,Ns3_...
4                               (Nsp12_P323L,Spike_D614G)
                              ...                        
1643    (Nsp5_P132H,Nsp3_G489S,Nsp4_T327I,Spike_S373P,...
1644    (Nsp5_P132H,Nsp3_G489S,Spike_L24Del,Nsp4_T327I...
1645    (Nsp5_P132H,Nsp3_G489S,Nsp4_T327I,Spike_S373P,...
1646    (Nsp5_P132H,Spike_S371F,Nsp3_G489S,Nsp13_R392C...
1647    (Nsp5_P132H,Nsp3_G489S,Spike_L24Del,Nsp4_T327I...
Name: mutaciones, Length: 1645, dtype: object

### Tweak Data

In [4]:
def tweak_covid(df):
    return (df
         .rename(columns=lambda c:unidecode(c.replace(' ', '_').lower()))
         .drop(columns=['gisaid_id', 'unnamed:_1', 'fecha_de_subida_a_gisaid'])
         .drop(index=df[df.Edad.str.contains('months')==True].index)
         .dropna(subset=['linaje', 'clado', 'mutaciones'])
         .applymap(lambda tx: unidecode(tx.title()) if isinstance(tx, str) else tx)
         .assign(fecha_de_coleccion=lambda df_:pd.to_datetime(df_.fecha_de_coleccion),
                 edad=lambda df_:(df_
                                  .edad
                                  .replace(to_replace=['Unknown', 'M'], value=np.nan)), # neither floats nor int are nullable
                 virus_name_unidentified=lambda df_:(df_
                                                     .virus_name
                                                     .str.split('/', expand=True)[2]),
                 count_muts=lambda df_:(df_
                                        .mutaciones
                                        .str.replace(pat='[()]', repl='', regex=True)
                                        .str.split(',')
                                        .apply(lambda l:len(l) if isinstance(l, list) else l)
                                        .astype('uint16'))
                )
         .drop(columns=['virus_name'])
         .set_index('fecha_de_coleccion')
        )

In [17]:
def check_memory(df):
    print(df.memory_usage(deep=True).sum() / 1000000)
    return df

def get_shape(df):
    print(df.shape)
    return df

In [None]:
# @TODOS
# @ add column named concern = True if lineage/variant is of concern### Anomalies
# @ add column named count_muts = count of the number of mutations
# @ add column named avg_muts = average of the number per variant
# @