# Práctica 2 - Estimación de parámetros

# Problema - ¿Dónde está todo el mundo?


## Background: La Paradoja de Fermi

En 1950, mientras trabajaba en el Proyecto Manhattan, Enrico Fermi formuló la siguiente pregunta: Con la cantidad de estrellas que hay en la Vía Láctea, muchas de las cuales sin duda albergando planetas a su alrededor, seguro que hay una proporción significativa de los mismos con condiciones similares a las de la Tierra. De estos, habrá una proporción que, además, albergarán vida inteligente. Si es así, ¿cómo es que no hemos contactado con nadie? Este adagio es conocido como la Paradoja de Fermi y se considera una paradoja porque la observación empírica (cero extraterretres) contradice la intuición de que, a juzagar por los datos, la Vía Láctea debería rebosar de vida y, en particular, la Especie Humana debería encontrarse en medio de un enjambre de civilizaciones que van de aquí para allá.

Se han propuesto diversas soluciones a la paradoja, desde la más conservadora de que, simplemente, nuestro juicio de los datos es incorrecto hasta las más extravagantes, que sugieren que hay muchas formas de vida pero que la gran mayoría no son computables por nuestros sentidos; pasando por algunas algo ominosas, como que toda civilización debe superar, llegado cierto punto, una suerte de filtro cósmico que suele dar como resultado la extinción en la mayoría de los casos.

En esta actividad vamos a hacer uso de algunos datos para dar una posible respuesta a la Paradoja de Fermi.

## Parte 1: ¿Es la Tierra un planeta común en la Vía Láctea?

Descárgate el fichero planets.csv. En él hallarás datos sobre planetas extrasolares. Establecer una métrica de similitud entre la Tierra y otro planeta es complicado, pero para no forzar demasiado la máquina vamos a trabajar con un modelo muy simplificado. Supondremos que un planeta es homologable a la Tierra si sus valores para los siguientes parámetros no son más de un 10% distintos a los de la Tierra:
1. Periodo orbital (en días)
2. Masa (en masas de Júpiter)
3. Radio (en radios de Júpiter)
4. Temperatura estelar efectiva (en grados Kelvin)

La condición 4 resulta de relevancia evidente para nuestra supervivencia. La 1 puede o no ser relevante, pero cuanto más parecida a la de la Tierra menos probabilidad de fluctuaciones caóticas en el clima. La 3 y la 4 tienen que ver con la gravedad en la superfície del planeta, esta sí, de críticas consecuencias para una vida homologable a la humana.

Los valores de la Tierra son los siguientes:
1. 365.256 días
2. 0.0031453 masas de Júpiter
3. 0.08856 radios de Júpiter
4. 5500 K

A partir del fichero de datos, estima la media y la desviación de estas 4 métricas para todos los planetas de la Via Láctea. Suponiendo que todas ellas siguen una distribución normal con los parámetros obtenidos y que se trata de medidas independientes, calcula la probabilidad de que un planeta de la Vía Láctea escogido al azar sea similar a la Tierra.

In [None]:
# Guardamos los datos de la Tierra
earth_orbital_period = 365.256
earth_mass = 0.0031453
earth_radius =  0.08856
earth_temperature = 5500

In [None]:
# Importamos librerías
import io
import numpy as np
import pandas as pd
from scipy.stats import norm

In [None]:
# Cargamos el csv de planetas
from google.colab import files

uploaded = files.upload()

Saving planets.csv to planets.csv


In [None]:
# Leemos los datos
path = io.BytesIO(uploaded['planets.csv'])
df = pd.read_csv(path, skiprows = 15, index_col = 'rowid')
df

Unnamed: 0_level_0,pl_orbper,pl_orbsmax,pl_orbeccen,pl_orbincl,pl_bmassj,pl_radj,pl_dens,st_dist,st_teff,st_mass,st_rad
rowid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,326.030000,1.290000,0.2310,,19.4000,,,110.62,4742.0,2.70,19.00
2,516.220000,1.540000,0.0800,,10.5000,,,119.47,4340.0,1.80,24.08
3,185.840000,0.830000,0.0000,,4.8000,,,76.39,4813.0,2.20,11.00
4,1773.400000,2.770000,0.3690,,4.6400,,,18.15,5311.0,0.90,
5,798.500000,1.681000,0.6810,,1.6800,,,21.41,5674.0,0.99,
...,...,...,...,...,...,...,...,...,...,...,...
3560,305.500000,1.170000,0.0310,,20.6000,,,92.51,4388.0,2.30,26.80
3561,4.617033,0.059222,0.0215,,0.6876,,,13.47,,1.30,1.56
3562,241.258000,0.827774,0.2596,,1.9810,,,13.47,,1.30,1.56
3563,1276.460000,2.513290,0.2987,,4.1320,,,13.47,,1.30,1.56


Vamos a estimar la media y la desviación de estas 4 métricas (periodo orbital, masa, radio y temperatura estelar efectiva) para todos los planetas de la Via Láctea:

In [None]:
# Periodo orbital
orbital_period_mean = df['pl_orbper'].mean()
orbital_period_std = df['pl_orbper'].std()

print(f"Media empírica {orbital_period_mean} con desviación estándar {orbital_period_std}")

Media empírica 2549.070110928647 con desviación estándar 124104.19983504961


In [None]:
# Masa
mass_mean = df['pl_bmassj'].mean()
mass_std = df['pl_bmassj'].std()

print(f"Media empírica {mass_mean} con desviación estándar {mass_std}")

Media empírica 2.5725768198944974 con desviación estándar 4.2310240795487735


Para el radio los primeros y últimos valores que vemos son desconocidos, así que vamos a mirar cuántos hay conocidos:

In [None]:
df[~df['pl_radj'].isna()].size

30855

In [None]:
# Radio
radius_mean = df['pl_radj'].mean()
radius_std = df['pl_radj'].std()

print(f"Media empírica {radius_mean} con desviación estándar {radius_std}")

Media empírica 0.35942139037433196 con desviación estándar 0.4113419498239171


In [None]:
# Temperatura
temperature_mean = df['st_teff'].mean()
temperature_std = df['st_teff'].std()

print(f"Media empírica {temperature_mean} con desviación estándar {temperature_std}")

Media empírica 5519.407851851852 con desviación estándar 1741.7199882034047


Supongamos ahora que el periodo orbital $X \sim \mathcal{N}(\mu = 2549.07,\,\sigma^{2} = 124104.20)$. Hay que ver que probabilidad hay que el periodo orbital sea similar al de la Tierra, es decir,
$$P( 365.256 - 10\% < X < 365.256 + 10 \%) = P(X < 365.256 + 10 \%) -  P(X < 365.256 - 10\%)$$

In [None]:
# Probabilidad periodo orbital similar
upper_value = earth_orbital_period * 1.1
lower_value = earth_orbital_period * 0.9

p_similar_orbital_period = norm(orbital_period_mean, orbital_period_std).cdf(upper_value) - norm(orbital_period_mean, orbital_period_std).cdf(lower_value)
p_similar_orbital_period

0.00023479221747263468

Hagamos lo mismo para el resto de variables:

In [None]:
# Probabilidad masa similar
upper_value = earth_mass * 1.1
lower_value = earth_mass * 0.9

p_similar_mass = norm(mass_mean, mass_std).cdf(upper_value) - norm(mass_mean, mass_std).cdf(lower_value)
p_similar_mass

4.932580448430146e-05

In [None]:
# Probabilidad radio similar
upper_value = earth_radius * 1.1
lower_value = earth_radius * 0.9

p_similar_radius = norm(radius_mean, radius_std).cdf(upper_value) - norm(radius_mean, radius_std).cdf(lower_value)
p_similar_radius

0.013829320842754567

In [None]:
# Probabilidad temperatura similar
upper_value = earth_temperature * 1.1
lower_value = earth_temperature * 0.9

p_similar_temperature = norm(temperature_mean, temperature_std).cdf(upper_value) - norm(temperature_mean, temperature_std).cdf(lower_value)
p_similar_temperature

0.24781547230372913

Así pues, la probabilidad de que un planeta de la Vía Láctea escogido al azar sea similar a la Tierra es baja en todos los casos, tanto si comparamos las temperaturas como si tomamos el periodo orbital. Si multiplicamos estas 4 probabilidades obtenidas, tenemos que la probabilidad es:

In [None]:
p_similar_planet = p_similar_orbital_period * p_similar_mass * p_similar_radius * p_similar_temperature
p_similar_planet

3.969055256001258e-11

## Parte 2: La Tierra, ¿dónde queda?

Usa métodos de estimación para dilucidar, con una confianza del 99%, cuál es la distancia media entre la Tierra y un planeta cualquiera de la Vía Láctea. ¿Es la Tierra un lugar remoto de la galaxia?

Vamos a calcular el intervalo de confianza:

In [None]:
alpha = 0.01

empiric_mean = df['st_dist'].mean()
empiric_std = df['st_dist'].std()

z = norm.ppf(1. - alpha / 2.) # Función que nos devuelve el punto percentual para una N(0,1)
correction = z * np.sqrt(empiric_std / len(df['st_dist']))
IC_dist = empiric_mean - correction, empiric_mean + correction

print('Intervalo de confianza del 99% para la distancia entre un planeta al azar respecto a la Tierra:', IC_dist)

Intervalo de confianza del 99% para la distancia entre un planeta al azar respecto a la Tierra: (631.6176954556325, 634.1197652556992)


Vamos a ver dónde esta la Tierra respecto la distancia con otros países, calculando la mediana:

In [None]:
df['st_dist'].median()

494.5

La mediana es inferior al intervalo de confianza calculado, así que podemos decir que la Tierra no es un lugar remoto de la galaxia, ya que la mitad de los planetas están más cerca.

## Parte 3: Pues eso, que dónde está todo el mundo.

Aquí la distancia se da en pársecs, que equivalen a 3.1 años luz. Un año luz es la distancia cubierta por un fotón durante un año viajando por el vacío. En km equivale a un número absurdamente grande en términos humanamente cotidianos. Las leyes de la física impiden moverse a velocidades cercanas a la luz sin sufrir efectos extravagantes y desagradables, así que vamos a suponer que, en el mejor de los casos, una especie lo suficientemente avanzada puede viajar al 20% de la velocidad de la luz. Vamos a suponer también que el Universo tiene una topología lo bastante regular como para que no se puedan hacer trampas como atravesar agujeros de gusano, teletransportarse u obrar cualquier otro tipo de magia.






### a) 
Suponiendo que el Homo Sapiens tiene una antigüedad de 200.000 años, estima el tiempo medio que tardaremos en contactar con una especie extraterrestre que emprendiera su viaje hacia la Tierra justo cuando nosotros comenzamos a pulular por el planeta.

Calculemos la velocidad máxima de la nave:

In [None]:
# Velocidad de la nave en pársecs por año
ship_speed = 0.2 / 3.1 
ship_speed

0.06451612903225806

Añadimos una nueva columna en el DataFrame calculando el tiempo que tardaría en llegar la supuesta nave:

In [None]:
df['contact_time'] = df['st_dist'] / ship_speed
contact_time_mean = df.contact_time.mean()
contact_time_mean

9809.465320512818

Dividamos el intervalo de confianza para la distancia entre la velocidad de la nave para dar un intervalo de confianza del 99% para los años que tardarían en llegar:

In [None]:
IC_time = tuple(i / ship_speed for i in IC_dist)
IC_time

(9790.074279562305, 9828.856361463339)

### b) 

Suponiendo, además, que dicha especie no tiene modo de saber a priori si un planeta albergará anfitriones y, por lo tanto, escoge uno al azar de entre los que tienen potencial, recalcula tu estimación sobre tiempo que tardaremos en recibir a alguien por casa.

Si además suponemos que dicha especie no tiene modo de saber a priori si un planeta albergará vida y, por lo tanto, escoge uno al azar de entre los que tienen potencial, entonces tardarían:

In [None]:
IC_time_random = tuple(i / p_similar_planet for i in IC_time)
IC_time_random

(246660065131610.28, 247637176292821.62)

### c)
Reflexiona sobre los resultados y razona hasta qué punto nos encontramos ante una paradoja. ¿Respaldan los datos la idea de que deberíamos haber contactado con otras civilizaciones extraterrestres?

La civilización extraterrestre que bajo estos supuestos pudiese llegar a contactarnos escogiendo un planeta al azar tardaría más de 246 trillones de años en hacerlo con un 99% de probabilidad. Teniendo en cuenta que el Homo Sapiens tiene una antigüedad de 200.000 años por suerte o por desgracia nunca los veremos llegar.