In [21]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

### Descriptive statistic

### Variables

**Catalog Number:** Es un identificador

**Calendar date:** Fecha del evento, *Tipo de dato -> [Categórica]*

**Eclipse Time:** Hora del evento. *Tipo de dato -> [Numerica]*

**Delta T(s):** Es la diferencia de tiempo obtenida al restar el Tiempo Universal del Tiempo Terrestre. *Tipo de dato -> [Numerica]*

**Lunation number:** El Número de Lunación es el número de meses sinódicos desde la Luna Nueva de 2000 Ene 06. *Tipo de dato -> [Numerica]*

**Saros number:** Es un periodo de tiempo de 223 lunas (meses sinódicos), lo que equivale a 6585.32 días. *Tipo de dato -> [Numérica]*

**Eclypse Type:** Tipos de eclipses solares. *Tipo de dato -> [Categorica]*
    
     P = Eclipse Parcial.
     A = Eclipse anular.
     T = Eclipse total.
     H = Eclipse híbrido o anular/total.

    Segundo carácter del Tipo de Eclipse:
     "m" = Eclipse central de la serie Saros.
     "n" = Eclipse central sin límite norte.
     "s" = Eclipse central sin límite sur.
     "+" = Eclipse no central sin límite norte.
     "-" = Eclipse no central sin límite sur.
     "2" = La trayectoria híbrida comienza total y termina anular.
     "3" = La trayectoria híbrida comienza anular y termina total.
     "b" = Comienza la serie Saros (primer eclipse de la serie).
     "e" = La serie Saros termina (último eclipse de la serie).
   
**Gamma:** De un eclipse describe la centralidad con la que la sombra de la Luna o de la Tierra incide sobre el otro cuerpo. *Tipo de dato -> [Numérica]*

**Eclipse Magnitude:** Es la fracción del diámetro angular de un cuerpo celeste que se eclipse. *Tipo de dato -> [Numérica]*

**Latitude:** Es la distancia angular entre la línea ecuatorial (el ecuador). *Tipo de dato -> [Numerica]*

**Longitude:** Es un concepto métrico definible para entidades geométricas sobre las que se ha definido una distancia. *Tipo de dato -> [Numerica]*

**Sun Altitude:** Es el ángulo del sol en relación con el horizonte de la Tierra, y se mide en grados. La altitud es nula al amanecer y al atardecer, y puede alcanzar un máximo de 90 grados (directamente por encima) al mediodía en latitudes cercanas al ecuador. *Tipo de dato -> [Numerica]*

**Sun Azimuth:** Es el ángulo entre la proyección del centro del sol sobre el plano horizontal y la dirección sur. *Tipo de dato -> [Numerica]*

**Path Width (km):** Anchura de la trayectoria de la totalidad. *Tipo de dato -> [Numérica]*

**Central Duration:** Tiempo que dura el eclipse en el centro del otro cuerpo. *Tipo de dato -> [Numérica]*

![image.png](./resources/download.png)

In [10]:
solar_eclipses = pd.read_csv("data/solar_clean.csv")
solar_eclipses.head()

Unnamed: 0,Calendar Date,Eclipse Time,Delta T (s),Lunation Number,Saros Number,Eclipse Type,Gamma,Eclipse Magnitude,Latitude,Longitude,Sun Altitude,Sun Azimuth,Path Width (km),Central Duration
0,-1999 June 12,03:14:51,46438,-49456,5,T,-0.2701,1.0733,6.0,-33.3,74,344,247.0,397.0
1,-1999 December 5,23:45:23,46426,-49450,10,A,-0.2317,0.9382,-32.9,10.8,76,21,236.0,404.0
2,-1998 June 1,18:09:16,46415,-49444,15,T,0.4994,1.0284,46.2,83.4,60,151,111.0,135.0
3,-1998 November 25,05:57:03,46403,-49438,20,A,-0.9045,0.9806,-67.8,-143.8,25,74,162.0,74.0
4,-1997 April 22,13:19:56,46393,-49433,-13,P,-1.467,0.1611,-60.6,-106.4,0,281,,


In [35]:
solar_eclipses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11898 entries, 0 to 11897
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Calendar Date      11898 non-null  object 
 1   Eclipse Time       11898 non-null  object 
 2   Delta T (s)        11898 non-null  int64  
 3   Lunation Number    11898 non-null  int64  
 4   Saros Number       11898 non-null  int64  
 5   Eclipse Type       11898 non-null  object 
 6   Gamma              11898 non-null  float64
 7   Eclipse Magnitude  11898 non-null  float64
 8   Latitude           11898 non-null  float64
 9   Longitude          11898 non-null  float64
 10  Sun Altitude       11898 non-null  int64  
 11  Sun Azimuth        11898 non-null  int64  
 12  Path Width (km)    7517 non-null   float64
 13  Central Duration   7604 non-null   float64
dtypes: float64(6), int64(5), object(3)
memory usage: 1.3+ MB


## Numerical data

In [31]:
def get_measures(data, column,print_results=False):
    average = data[column].mean()
    median = data[column].median()
    standard_deviation = data[column].std()
    min_value = data[column].min()
    max_value = data[column].max()
    skewness = data[column].skew(axis = 0)
    kurt = data[column].kurt(axis = 0)
    if print_results:
        print(f"Valor mínimo: {min_value}")
        print(f"Promedio: {average}")
        print(f"Mediana: {average}")
        print(f"Valor máximo: {max_value}")
        print(f"Desviación estandar: {average}")
        print(f"Asimetría: {skewness}")
        print(f"Curtosis: {kurt}")
    return average, median, standard_deviation

def plot_blox_plot(data, column):
    fig = px.box(data, y=column)
    fig.show()

def plot_histogram(data, column):
    fig = px.histogram(data, x=column)
    fig.show()

### Delta T(s)

In [34]:
get_measures(solar_eclipses, "Delta T (s)", print_results=True)
plot_blox_plot(solar_eclipses, "Delta T (s)")
plot_histogram(solar_eclipses, "Delta T (s)")

Valor mínimo: -6
Promedio: 12142.172802151623
Mediana: 12142.172802151623
Valor máximo: 46438
Desviación estandar: 12142.172802151623
Asimetría: 1.0009616201574247
Curtosis: -0.2870084750684221


### Lunation number

In [36]:
get_measures(solar_eclipses, "Lunation Number", print_results=True)
plot_blox_plot(solar_eclipses, "Lunation Number")
plot_histogram(solar_eclipses, "Lunation Number")

Valor mínimo: -49456
Promedio: -18546.959320894268
Mediana: -18546.959320894268
Valor máximo: 12378
Desviación estandar: -18546.959320894268
Asimetría: 0.0023909975675530004
Curtosis: -1.2018066512419334


### Saros number

In [38]:
get_measures(solar_eclipses, "Saros Number", print_results=True)
plot_blox_plot(solar_eclipses, "Saros Number")
plot_histogram(solar_eclipses, "Saros Number")

Valor mínimo: -13
Promedio: 87.48319045217684
Mediana: 87.48319045217684
Valor máximo: 190
Desviación estandar: 87.48319045217684
Asimetría: 0.020359755844367187
Curtosis: -1.0465888711152702


### Gamma

In [40]:
get_measures(solar_eclipses, "Gamma", print_results=True)
plot_blox_plot(solar_eclipses, "Gamma")
plot_histogram(solar_eclipses, "Gamma")

Valor mínimo: -1.569
Promedio: -0.0024688435031097657
Mediana: -0.0024688435031097657
Valor máximo: 1.5706
Desviación estandar: -0.0024688435031097657
Asimetría: 0.0017267562396691795
Curtosis: -1.2122804042321962


### Eclipse Magnitude

In [42]:
get_measures(solar_eclipses, "Eclipse Magnitude", print_results=True)
plot_blox_plot(solar_eclipses, "Eclipse Magnitude")
plot_histogram(solar_eclipses, "Eclipse Magnitude")

Valor mínimo: 0.0
Promedio: 0.8127483610690872
Mediana: 0.8127483610690872
Valor máximo: 1.0813
Desviación estandar: 0.8127483610690872
Asimetría: -1.3148718489928883
Curtosis: 0.35213734499728133


### Latitude

In [45]:
get_measures(solar_eclipses, "Latitude", print_results=True)
plot_blox_plot(solar_eclipses, "Latitude")
plot_histogram(solar_eclipses, "Latitude")

Valor mínimo: -88.5
Promedio: 0.06402756765843
Mediana: 0.06402756765843
Valor máximo: 89.5
Desviación estandar: 0.06402756765843
Asimetría: -0.005713653007210327
Curtosis: -1.4265752903609334


### Longitude

In [47]:
get_measures(solar_eclipses, "Longitude", print_results=True)
plot_blox_plot(solar_eclipses, "Longitude")
plot_histogram(solar_eclipses, "Longitude")

Valor mínimo: -179.9
Promedio: 0.22633215666498577
Mediana: 0.22633215666498577
Valor máximo: 180.0
Desviación estandar: 0.22633215666498577
Asimetría: -0.002760532159060752
Curtosis: -1.2008651049646575


### Longitud

In [49]:
get_measures(solar_eclipses, "Longitude", print_results=True)
plot_blox_plot(solar_eclipses, "Longitude")
plot_histogram(solar_eclipses, "Longitude")

Valor mínimo: -179.9
Promedio: 0.22633215666498577
Mediana: 0.22633215666498577
Valor máximo: 180.0
Desviación estandar: 0.22633215666498577
Asimetría: -0.002760532159060752
Curtosis: -1.2008651049646575
