<h1><center>  <font color='red'> Bases de Datos </font></center></h1>

## GRANDES BASES DE DATOS

- Bases de datos actuales:
  - Pueden llegar a contener miles de millones de objetos. 
  - El análisis empieza a representar un reto, aún cuando las operaciones que se realicen escalen linealmente con el tamaño de la base de datos. 
  - Parte de la estadística a realizar es interactiva, por lo que es deseable poder realizarla en tiempos que permitan que siga siendo así (descriptiva) 
  - Otros análisis estadísticos (inferencia) se vuelve mas compleja pues es iterativa o no escala linealmente con el tamaño de las bases de datos. 

- Importante a tomar en cuenta al elegir un método y/o técnica de análisis: 
  - No sacrificar la exactitud del análisis al usar aproximaciones. 
  - Desempeño computacional y desempeño del análisis estadístico van de la mano.
  - Capacidad de probar modelos mas complejos y/o inferir parámetros para cada modelo, que deriven directamente en mejores ajustes y predicciones. 

## Recordatorio: Tipos de datos
  - Categóricos : Descripciones, Atributos, pueden o no estar ordenados 
    -  Nominal. E.g tipo de galaxia, genero.
    -  Ordinal. E.g. Clasificación espectral estelar,      Escolaridad,  Nivel de satisfacción del cliente. 
    
  - Numéricos: Tipicamente son resultado de mediciones cuantitativas, usualmente tienen un error asociado. Los valores pueden ser asociados a distribuciones de probabilidad (mas adelante entraremos en detalle). 
    - Discretos 
    - Continuos
    - Intervalos

## Bases de datos
 - Relacionales (RDBMS- Relational Database Management Systems) : 
   - Datos organizados en colecciones de tablas (filas y columnas) con esquemas que representan atributos fijos y tipo de datos. 
   - Diseñadas para acceso tipo SQL (Structured Query Language) aunque muchos otros lenguajes tienen sus propias herramientas, e.g. PANDAS...  
 - No Relacionales:
   - Alternativa a las RDBMS, surgen para cubrir necesidades de aplicaciones web. Pueden tener diferentes formas, la mayor diferencia es que no es un esquema rígido. En las RDBMs insertar datos debe ser de acuerdo al tipo y estructura original, mientras que en las no relacionales permiten almacenar y manipular datos de forma no estructurada, o semiestructurada.
   - tipicamente organizada en pares: identificador-valor.

- [Artículo interesante sobre bases de datos ](https://www.alooma.com/blog/types-of-modern-databases)

- Las bases de datos tradicionales no cubrirán las necesidades futuras, en particular de los sondeos astronómicos. Involucran la creación de grandes conjuntos de datos, algunos con formatos de arreglos, y relaciones entre ellos (multidimensionales).
- Investigación y desarrollo de arquitecturas de bases de datos eficientes. 
    - E.g. [SciDB](https://dbdb.io/db/scidb) (Inspirada en las necesidades de almacenamiento de datos y procesamiento del [Rubin Observatory, LSST](https://www.lsst.org). 
        - 10-años del Legacy Survey of Space and Time (LSST).
        - LSST plano focal: 3.2 mil millones pixels
        - Para desplegar una imagen completa se requería de ~1500 pantallas de alta definición. 
        - Espera entregar 500 PB de imágenes y productos. 
        - Procesará más de 20TB de datos por noche.
        - VER https://docushare.lsst.org/docushare/dsweb/Get/Document-14554

## Formatos comunes de archivos en bases de datos 

- CSV (comma-separated values)
  - Leíble y fácil de editar manualmente
  - Compacto.
  - No hace diferencia entre tipos de columnas. 
  - Archivos pesados, no pueden ser binarios. 
  - No hay estándar. 
- JSON (JavaScript object notation)
  - Leíble y relativamente fácil de editar manualmente.
  - Formato parcialmente estructurado.
  - Estructura Jerárquica.
  - Soporta el uso de listas
  - Muy usado para bases que no requieren SQL

### En astronomía y cosmología
- FITS (Flexible Image Transport System)
    - Endorsado por la NASA y la IAU.
    - Formato de arreglos multidimensionales (incluye imágenes) o tablas.
    - Incluye Metadata
    - Archivos binarios
    - En python se pueden manipular con las librerías [fitsio](https://github.com/esheldon/fitsio), [astropy.io.fits](https://docs.astropy.org/en/stable/io/fits/)
- HDF5 https://www.hdfgroup.org/about-us/
    - conjuntos de datos multidimensionales, cada elemento puede ser en si mismo un objeto complejo...
    - Incluye Metadata
    - Archivos Binarios 
    - En python se pueden manipular con la librería [h5py](https://www.h5py.org) 

In [146]:
##Ejemplos en Astronomía/Cosmología
import fitsio
#Descargado de http://skyserver.sdss.org/dr13/en/tools/search/sql.aspx

file='/Users/almagonzalez/Documents/cursos/DataAnalysis/DCIDA2020II/data/Skyserver_Radial10_2_2020_3_06_34_PM.fits' 
data=fitsio.FITS(file)
print(data)


  file: /Users/almagonzalez/Documents/cursos/DataAnalysis/DCIDA2020II/data/Skyserver_Radial10_2_2020_3_06_34_PM.fits
  mode: READONLY
  extnum hdutype         hduname[v]
  0      IMAGE_HDU       
  1      BINARY_TBL      


In [147]:
#Se puede acceder a cada elemento ya sea por numero de extension o por nombre. 
print(data[0])
print(data[1])


  file: /Users/almagonzalez/Documents/cursos/DataAnalysis/DCIDA2020II/data/Skyserver_Radial10_2_2020_3_06_34_PM.fits
  extension: 0
  type: IMAGE_HDU
  image info:
    data type: u1
    dims: []

  file: /Users/almagonzalez/Documents/cursos/DataAnalysis/DCIDA2020II/data/Skyserver_Radial10_2_2020_3_06_34_PM.fits
  extension: 1
  type: BINARY_TBL
  rows: 10
  column info:
    objid               i8  
    ra                  f8  
    dec                 f8  
    u                   f4  
    g                   f4  
    r                   f4  
    i                   f4  
    z                   f4  
    run                 i2  
    rerun               i2  
    camcol              u1  
    field               i2  
    specobjid           i8  
    class              S32  
    redshift            f4  
    plate               i2  
    mjd                 i4  
    fiberid             i2  


In [148]:
print(data[1]['class'])


  file: /Users/almagonzalez/Documents/cursos/DataAnalysis/DCIDA2020II/data/Skyserver_Radial10_2_2020_3_06_34_PM.fits
  extension: 1
  type: BINARY_TBL
  rows: 10
  column subset:
    class              S32  array[32]


In [149]:
print(data[1]['class'].read())  


['GALAXY' 'GALAXY' 'GALAXY' 'GALAXY' 'GALAXY' 'GALAXY' 'STAR' 'STAR'
 'STAR' 'STAR']


In [150]:
print(data[1])


  file: /Users/almagonzalez/Documents/cursos/DataAnalysis/DCIDA2020II/data/Skyserver_Radial10_2_2020_3_06_34_PM.fits
  extension: 1
  type: BINARY_TBL
  rows: 10
  column info:
    objid               i8  
    ra                  f8  
    dec                 f8  
    u                   f4  
    g                   f4  
    r                   f4  
    i                   f4  
    z                   f4  
    run                 i2  
    rerun               i2  
    camcol              u1  
    field               i2  
    specobjid           i8  
    class              S32  
    redshift            f4  
    plate               i2  
    mjd                 i4  
    fiberid             i2  


In [151]:
print(data[1].get_colnames())

['objid', 'ra', 'dec', 'u', 'g', 'r', 'i', 'z', 'run', 'rerun', 'camcol', 'field', 'specobjid', 'class', 'redshift', 'plate', 'mjd', 'fiberid']


In [152]:
#Podemos asignar cada elemento a una nueva variable para después manipularla

data_T=data[1].read()
print(data_T)
print(data_T['objid'])

[(1237645879551066262, 348.90253017, 1.27188625, 19.389048, 18.244959, 17.587278, 17.208069, 16.909048,  94, 301, 6,  94,  430194949951088640, 'GALAXY',  3.2124542e-02,  382, 51816, 368)
 (1237645879578460255,  51.443695  , 1.27007272, 19.528076, 17.965414, 17.034931, 16.537539, 16.141544,  94, 301, 6, 512,  466235292731336704, 'GALAXY',  1.2131510e-01,  414, 51869, 410)
 (1237645942905438473,  57.02533658, 0.208845  , 17.614443, 16.171253, 15.521305, 15.155643, 14.869958, 109, 301, 4, 149, 1398488404370417664, 'GALAXY',  2.5474695e-02, 1242, 52901, 439)
 (1237645943976493256,  50.9079312 , 0.99125872, 19.398417, 18.404636, 18.17116 , 18.037088, 17.935434, 109, 301, 6, 108, 1198049078458476544, 'GALAXY',  2.2200702e-02, 1064, 52577, 333)
 (1237645943978590400,  55.59362538, 1.0000282 , 19.205717, 18.09703 , 17.647383, 17.322699, 17.136513, 109, 301, 6, 140,  468497811810314240, 'GALAXY',  7.2298594e-02,  416, 51811, 449)
 (1237645943978590386,  55.58549933, 1.02147552, 18.802794, 17.16

In [153]:
data.close()

In [154]:
##Podemos hacer exactamente lo mismo con astropy
##Ejemplos en Astronomía/Cosmología
import astropy.io.fits as apfits
#Descargado de http://skyserver.sdss.org/dr13/en/tools/search/sql.aspx

file='/Users/almagonzalez/Documents/cursos/DataAnalysis/DCIDA2020II/data/Skyserver_Radial10_2_2020_3_06_34_PM.fits' 
hdul=apfits.open(file)
##hdul: Header Data Unit List
print(hdul)

[<astropy.io.fits.hdu.image.PrimaryHDU object at 0x7ff60d6b6f10>, <astropy.io.fits.hdu.table.BinTableHDU object at 0x7ff60d6ae110>]


In [155]:
#Obten informaciín del archivo. 
hdul.info()

Filename: /Users/almagonzalez/Documents/cursos/DataAnalysis/DCIDA2020II/data/Skyserver_Radial10_2_2020_3_06_34_PM.fits
No.    Name      Ver    Type      Cards   Dimensions   Format
  0  PRIMARY       1 PrimaryHDU       4   ()      
  1                1 BinTableHDU     45   10R x 18C   [1K, 1D, 1D, 1E, 1E, 1E, 1E, 1E, 1I, 1I, 1B, 1I, 1K, 32A, 1E, 1I, 1J, 1I]   


In [156]:
print(hdul[0].data)
print(hdul[1].data)

None
[(1237645879551066262, 348.90253017, 1.27188625, 19.389048, 18.244959, 17.587278, 17.208069, 16.909048,  94, 301, 6,  94,  430194949951088640, 'GALAXY',  3.2124542e-02,  382, 51816, 368)
 (1237645879578460255,  51.443695  , 1.27007272, 19.528076, 17.965414, 17.034931, 16.537539, 16.141544,  94, 301, 6, 512,  466235292731336704, 'GALAXY',  1.2131510e-01,  414, 51869, 410)
 (1237645942905438473,  57.02533658, 0.208845  , 17.614443, 16.171253, 15.521305, 15.155643, 14.869958, 109, 301, 4, 149, 1398488404370417664, 'GALAXY',  2.5474695e-02, 1242, 52901, 439)
 (1237645943976493256,  50.9079312 , 0.99125872, 19.398417, 18.404636, 18.17116 , 18.037088, 17.935434, 109, 301, 6, 108, 1198049078458476544, 'GALAXY',  2.2200702e-02, 1064, 52577, 333)
 (1237645943978590400,  55.59362538, 1.0000282 , 19.205717, 18.09703 , 17.647383, 17.322699, 17.136513, 109, 301, 6, 140,  468497811810314240, 'GALAXY',  7.2298594e-02,  416, 51811, 449)
 (1237645943978590386,  55.58549933, 1.02147552, 18.802794, 

In [157]:
data=hdul[1]
print(data.columns)

ColDefs(
    name = 'objid'; format = '1K'
    name = 'ra'; format = '1D'
    name = 'dec'; format = '1D'
    name = 'u'; format = '1E'
    name = 'g'; format = '1E'
    name = 'r'; format = '1E'
    name = 'i'; format = '1E'
    name = 'z'; format = '1E'
    name = 'run'; format = '1I'
    name = 'rerun'; format = '1I'
    name = 'camcol'; format = '1B'
    name = 'field'; format = '1I'
    name = 'specobjid'; format = '1K'; null = -9223372036854775808
    name = 'class'; format = '32A'
    name = 'redshift'; format = '1E'
    name = 'plate'; format = '1I'
    name = 'mjd'; format = '1J'
    name = 'fiberid'; format = '1I'
)


In [158]:
#Podemos visualizarlo como tabla, y usar operaciones definidas para las tablas de astropy
from astropy.table import Table
data_T=Table(data.data)
print(data_T)


       objid                ra                 dec         ...  mjd  fiberid
------------------- ------------------ ------------------- ... ----- -------
1237645879551066262  348.9025301715727  1.2718862493294594 ... 51816     368
1237645879578460255 51.443695002614845   1.270072717958609 ... 51869     410
1237645942905438473  57.02533657806703 0.20884499634774015 ... 52901     439
1237645943976493256    50.907931201466  0.9912587244753006 ... 52577     333
1237645943978590400  55.59362538435397  1.0000282044924411 ... 51811     449
1237645943978590386  55.58549932777862  1.0214755217255564 ... 51811     445
1237645943978590282 55.635176604308754  1.0464132374708153 ... 56658     864
1237645943978590279 55.632466041338944  0.9121718325276191 ... 52201     458
1237645943978590229  55.59012356048663  0.8963164575347443 ... 52619     401
1237645943978524767  55.54596331976563  0.8667006911424032 ... 56658     835


In [159]:
#Podemos cerrar el archivo
hdul.close()

In [160]:
#Cuando sabemos que dentro del archivo .fits hay una tabla en particular 
#con la que vamos a trabajar podríamos usar astropy.Table

data= Table.read(file)
data

objid,ra,dec,u,g,r,i,z,run,rerun,camcol,field,specobjid,class,redshift,plate,mjd,fiberid
int64,float64,float64,float32,float32,float32,float32,float32,int16,int16,uint8,int16,int64,bytes32,float32,int16,int32,int16
1237645879551066262,348.9025301715727,1.2718862493294594,19.389048,18.244959,17.587278,17.208069,16.909048,94,301,6,94,430194949951088640,GALAXY,0.03212454,382,51816,368
1237645879578460255,51.443695002614845,1.270072717958609,19.528076,17.965414,17.034931,16.537539,16.141544,94,301,6,512,466235292731336704,GALAXY,0.1213151,414,51869,410
1237645942905438473,57.02533657806703,0.2088449963477401,17.614443,16.171253,15.521305,15.155643,14.869958,109,301,4,149,1398488404370417664,GALAXY,0.025474695,1242,52901,439
1237645943976493256,50.907931201466,0.9912587244753006,19.398417,18.404636,18.17116,18.037088,17.935434,109,301,6,108,1198049078458476544,GALAXY,0.022200702,1064,52577,333
1237645943978590400,55.59362538435397,1.0000282044924411,19.205717,18.09703,17.647383,17.322699,17.136513,109,301,6,140,468497811810314240,GALAXY,0.072298594,416,51811,449
1237645943978590386,55.58549932777862,1.0214755217255564,18.802794,17.160578,16.466654,16.056725,15.765658,109,301,6,140,468496712298686464,GALAXY,0.037585422,416,51811,445
1237645943978590282,55.635176604308754,1.0464132374708153,18.52349,17.489754,16.904943,16.734407,16.590076,109,301,6,140,8254209823278501888,STAR,-0.00073576847,7331,56658,864
1237645943978590279,55.632466041338944,0.9121718325276192,19.428385,17.754522,17.113958,16.888033,16.73496,109,301,6,140,804018464493692928,STAR,2.3624645e-05,714,52201,458
1237645943978590229,55.59012356048663,0.8963164575347443,19.167492,18.552994,17.697626,17.344303,17.09744,109,301,6,140,1195815971047106560,STAR,4.7686382e-05,1062,52619,401
1237645943978524767,55.54596331976563,0.8667006911424032,18.100332,16.870993,16.690332,16.645224,16.623785,109,301,6,139,8254201851819200512,STAR,-2.6287858e-05,7331,56658,835


- Ejercicio: Ir al notebook eboss_qso_DR14.ipynb

- Tarea: 
  - Explora un poco el lenguaje SQL, hay muchos tutoriales en linea por ejemplo: https://www.tutorialspoint.com/sql/index.html 
  
  - Puedes usar un lenguaje SQL desde python, e incluso combinarlo con pandas e.g  https://www.dataquest.io/blog/python-pandas-databases/
  - Aplica algunos de los ejemplos que encuentres a la base de datos con que has estado trabajando. Ya sea repitiendo algo que ya habías hecho sin usar SQL, o bien añadiendo selecciones más complejas.           