<img src="https://www.unir.net/wp-content/uploads/2019/11/Unir_2021_logo.svg" width="240" height="240" align="right"/>

## 02 - Uso de Jupyter Notebook y Fuentes de datos

<figure><center>
  <img src="https://jupyter.org/assets/homepage/main-logo.svg" alt="jupyter.org" width=150 height=150/>
  <figcaption>jupyter.org</figcaption>
</figure><center>

---

## Cargar una función desde otro Jupyter Notebook

Es posible llamar y cargar funciones de otros notebooks que se encuentran en el misma carpeta usando la siguientes pasos:

1. Instalar `ipynb` con `pip install ipynb` en la linea de comandos (cmd). Desde ANACONDA.NAVIGATOR se puede usar `CMD.exe Prompt`. 
2. Sea `archivo1.ipynb`, el archivo que tiene la función de interés `funcion`, el cuál se guarda en la misma carpeta del notebook desde donde lo vamos a llamar.
3. Llamamos la función `funcion` desde el archivo notebook en el que estamos trabajando mediante `from ipynb.fs.full.archivo1 import funcion`.
4. Utilizamos la función `funcion(argumentos)`

 Ejemplo:
 
Hemos construido la función `factorial` y la hemos guardado  con el nombre de `funciones` en la misma carpeta de este notebook. 
```
def factorial(n):
    if n < 2:
       return 1
     else:
       return n * factorial(n-1)
        
```
la llamamos con:

```
from ipynb.fs.full.funciones import factorial
factorial(3)
```

In [None]:
#Ejemplo función factorial
from ipynb.fs.full.funciones import factorial
factorial(3)

## Algunas funciones "mágicas"

Las celdas de código de Jupyter Notebook pueden contener comandos especiales que no son código de Python válido pero que pueden mejorar el desempeño del cuaderno. A estos comandos se les conoce como funciones o comandos mágicos.

El comando `%lsmagic` lista los comandos mágicos disponibles. Por su parte  `%magic` los lista y describe su funcionalidad con ejemplos. Para saber lo que hace uno de estos comandos se puede usar `?` al final de este.

In [None]:
%lsmagic

In [None]:
%magic

In [None]:
# %run seguido del nombre de un archivo Python, podemos ejecutarlo y utilizar sus funciones y objetos. 
%run funciones1.ipynb

factorial (3)

In [None]:
%run?

In [None]:
# %pwd para recordar el directorio actual
%pwd

In [None]:
# %timeit devuelve el tiempo de ejecución promedio de pequeños fragmentos de código
%timeit S = [n ** 2 for n in range(1000)]

In [None]:
# %time Establece un estimativo del tiempo de ejecución.
%time S = [n ** 2 for n in range(1000)]

In [None]:
'''%whos genera una lista de todas las variables definidas en el notebook. Incluye información extra como el tipo,
el tamaño, entre otros.'''
%whos

In [None]:
# %who_ls solo lista las variables definidas en el notebook
%who_ls

<u>Ocultar salidas o warnings:</u>  

+ %%capture (al comienzo de la celda) oculta salidas o mensajes de error que resultan de las líneas de código de una celda.

+ Añade ; al final de la celda para ocultar la salida de esa celda.

+ Para ocultar warnings: 

> import warnings <br>
> warnings.filterwarnings('ignore')


>> Puedes crear tus propias funciones mágicas [magics](https://ipython.readthedocs.io/en/stable/interactive/magics.html)


## Documentación de funciones

Una función es un bloque de código organizado y reutilizable que se utiliza para realizar una tarea específica o un grupo de tareas relacionadas. A una función se le pide de entrada valores conocidos como parámetros o argumentos y devuelve,  en la mayoría de casos, objetos o valores como resultado.
Una de la tareas más importantes en el trabajo con datos es la **documentación**, lo que debe hacerse también en el caso de las funciones. 
Debemos indicar lo que hace la función, los tipos y restricciones que deben tener los parámetros de entrada, y los valores devueltos.

Para esto se sugiere seguir la suigiente esttructura:

>```` 
def function(Parámetros)
     '''
     Descripción de lo que hace la función
     Parameters
     ----------
     Parámetros 1: tipo
                   Decripción
     Parámetros 2: tipo
                   Decripción
     ...
     Return
     ------
     Tipo
         Desripción     
     Precondiciones (o restricciones)
     --------------
     Desripción    
     Example
     -------
     '>>>function(Parámetros)
     Result
     '''
     Construcción de la función
     return resultados(s))

Ejemplo:               

In [None]:
def sum_n_naturales(n):
    """
    Esta función suma los primeros n números naturales
    Parameters
    ----------
    n : int
    Corresponde al número natural n al que le debemos calcular la suma
    
    Return
    ------
    int
    devuelve la suma de los primeros n números naturales
    
    Precondition
    ------------
    n > 0
    Example
    -------
    >>>sum_n_naturales(3)
    6
    """
    ntriag = (n * (n +1)) // 2
    return ntriag

sum_n_naturales(3)
print(sum_n_naturales(3))
help(sum_n_naturales)

## Algunas Extensiones para Jupyter


Las extensiones a los notebooks de Jupyter (plug-ins-Nbextensions) nos ayudan a personalizar y a trabajar con mayor fluidez en esta herramienta. Con seguridad mejora nuestra experiencia en Jupyter. Lo mejor es instalarlas,junto con las extensiones, incluyendo el `Configurador de Nbextensions de Jupyter`. Esta instalación añadirá una pestaña, donde se pueden habilitar y deshabilitar las extensiones que se deseen. Enla web encontraremos nuevas extensiones que se irán instalando y añadiendo al conjunto disponible.

![image.png](attachment:image.png)

Para instalar `Nbextensions` se puede con Anaconda desde la línea de comandos con:

```
conda install -c conda-forge jupyter_contrib_nbextensions 
conda install -c conda-forge jupyter_nbextensions_configurator
jupyter contrib nbextension install --user
```
O a través de `pip` con:
```
pip install jupyter_contrib_nbextensions
pip install jupyter_nbextensions_configurator
jupyter contrib nbextension install --user 
jupyter nbextensions_configurator enable --user
```
A continuación, se describen algunas extensiones que podrían llegar a ser útiles.

Mayor información sobre la lista de extensiones disponibles en este [enlace](https://jupyter-contrib-nbextensions.readthedocs.io/en/latest/nbextensions.html).

### Execute time

Esta extensión muestra una línea en la parte inferior de tu celda de código con la fecha y la hora de la última ejecución, u asu vez, el tiempo que tardó en ejecutarse. Esta opción es una alternativa al uso de la función mágica `%Time`.

### Notify

Extensión del cuaderno Jupyter para mostrar una notificación web que avise cuando el kernel queda inactivo. 
Inicialmente, se muestra en la barra de herramientas un botón [$\checkmark$] para solicitar permisos de notificación. Una vez concedidos los permisos de notificación, este botón se sustituye por un menú desplegable con cinco opciones: Desactivado, 0, 5, 10 y 30 segundos. Se selecciona el tiempo mínimo necesario de ocupación del kernel para activar una notificación (por ejemplo, si selecciona 5, sólo se mostrará una notificación si el kernel estuvo ocupado durante más de 5 segundos). 

Ejemplo:
```
Si habilitamos 5 segundos para el código:
S = [n ** 2 for n in range(10000)]
```
Tenemos un mensaje como este:



In [None]:
# Ejemplo de Execute Time y Notify
S = [n ** 2 for n in range(10000)]

### Scratchpad 

Permite probar código por fuera de las celdas del notebook en el que se está trabajando. 
Una vez habilitado, el `Scratchpad` actúa como un cuaderno de notas donde se puede ejecutar código sin tener que modificar el notebook. Las celdas del Bloc de notas se ejecutan usando el ícono en la parte inferior derecha de la pantalla, o el atajo de teclado `Ctrl+B`.

 Ejemplo:
 
 El siguiente código se ha ejecutado desde el `Scratchpad`.
 
 ![image-2.png](attachment:image-2.png)
 
 Se ejecuta una serie de sentencias sin afectar el código de las celdas de los notebooks.
 

### Tabla de contenido (Table of Contents (2))

Esta extensión muestra el índice de las secciones y subsecciones en una ventana flotante, por lo general en la parte superior izquierda del notebook. La extensión incluye la opción de añadir una celda de tabla de contenido en la parte superior del cuaderno. Se puede utilizar la tabla de contenido para desplazarse por el notebook, ir a secciones específicas y contraer las secciones.

### RISE

RISE permite convertir instantáneamente sus notebooks Jupyter en una presentación de diapositivas. La instalación se realiza con `pip install RISE`o `conda install -c conda-forge rise`. Más información en este [enlace](https://rise.readthedocs.io/en/stable/) o en este [enlace](https://www.blopig.com/blog/2020/10/from-jupyter-to-slides-using-rise/).

### Calico document tools

Permite la inclusión de citas y referencias bibliográficas.  Para esto se puede habilitar la extensión con:

```
jupyter nbextension install https://bitbucket.org/ipre/calico/downloads/calico-document-tools-1.0.zip
jupyter nbextension enable calico-document-tools
```

Se genera un boton de `Generate References`, que añadirá una sección de referencias al final del notebook, siempre que se hayan realizado las citas correspondientes. Se generarán enlaces que llevan de la cita a la Referencia y de la Referencia a la cita.

Para citar se debe utlizar las siguiente estructura: Ej. `<a name="ref-1"/>[(UNDEFINED)](#cite-nombreref)`. En donde `nombreref` es el nombre de la referencia en formato bibtex.

Más información en este [enlace](https://jupyter.brynmawr.edu/services/public/dblank/jupyter.cs/Examples/Calico%20Document%20Tools%20and%20Bibtex.ipynb) o en este [enlace](https://jupyter.brynmawr.edu/services/public/dblank/Jupyter%20Notebook%20Users%20Manual.ipynb).

Veamos como aparece la cita en este ejemplo <a name="ref-2"/>[(P&eacute;rez and Granger, 2007)](#cite-PER-GRA:2007) o en este <a name="ref-3"/>[(Kepps, 2002)](#cite-calicoww2:2).

Las referencias en formato bibtex se debe incluir en alguna celda markdown del notebook. Para el ejemplo, la estructura es la siguiente:

```
<!--bibtex

@Article{PER-GRA:2007,
  Author    = {P\'erez, Fernando and Granger, Brian E.},
  Title     = {{IP}ython: a System for Interactive Scientific Computing},
  Journal   = {Computing in Science and Engineering},
  Volume    = {9},
  Number    = {3},
  Pages     = {21--29},
  month     = may,
  year      = 2007,
  url       = "http://ipython.org",
  ISSN      = "1521-9615",
  doi       = {10.1109/MCSE.2007.53},
  publisher = {IEEE Computer Society},
}

@book{calicoww2:2,
    title = {Rebuilding Calico After Japanese Occupation},
    author = {Kepps, Milo },
    year = {2002},
    publisher = {Python Books}
}
... Otras referencias Bibtex aquí.

-->
```

<!--bibtex

@Article{PER-GRA:2007,
  Author    = {P\'erez, Fernando and Granger, Brian E.},
  Title     = {{IP}ython: a System for Interactive Scientific Computing},
  Journal   = {Computing in Science and Engineering},
  Volume    = {9},
  Number    = {3},
  Pages     = {21--29},
  month     = may,
  year      = 2007,
  url       = "http://ipython.org",
  ISSN      = "1521-9615",
  doi       = {10.1109/MCSE.2007.53},
  publisher = {IEEE Computer Society},
}

@book{calicoww2:2,
    title = {Rebuilding Calico After Japanese Occupation},
    author = {Kepps, Milo },
    year = {2002},
    publisher = {Python Books}
}
... Otras referencias Bibtex aquí.

-->

### Autopep8-Black:

Existen diferentes herramientas para ayudar a dar formato automático al código. Dos de ellas son `Autopep8` y `Black`. La primera se instala con `pip install autopep8` y la segunda con `pip install nb-black`.

La primera genera una extensión que debe ser habilitada: 

 [$\checkmark$] Autopep8.    

La segunda, se habilita con `%load_ext lab_black`. 

 Ejemplo: (Formatear el siguiente código). 

```
def foo():
 return 2021
 
Diccionario= {"brand": "Ford", "model": "Mustang", "year": 1964, "brand": "Bmw", "model": "M3", "year": 1980} `
    

In [None]:
'''
%load_ext lab_black  

def foo():
 return 2021
 
Diccionario= {"brand": "Ford", "model": "Mustang", "year": 1964, "brand": "Bmw", "model": "M3", "year": 1980}
'''

##  Algunas fuentes de datos (Datasets) dentro de las librerias de Python

A continuación fuentes de datos disponibles en algunas de las principales librerias de Python y en una muestra de entidades con datasets de acceso abierto.

### Datasets en Librerias de Python

* En [PyDataset](https://github.com/iamaziz/PyDataset)

In [None]:
from pydataset import data
import pandas as pd
pd.options.display.max_rows = None
data()
data('titanic', show_doc=True)
data('titanic').head()

* En [Seaborn](https://github.com/mwaskom/seaborn-data)

In [None]:
# Import seaborn
import seaborn as sns
# Check out available datasets
print(sns.get_dataset_names())

# Load as a dataframe
df = sns.load_dataset('iris')
df.info()
df.head()

* En [Sklearn](https://scikit-learn.org/stable/datasets.html)

In [None]:
# Import package
from sklearn.datasets import fetch_california_housing
# Load data (will download the data if it's the first time loading)
housing = fetch_california_housing(as_frame=True)
# Create a dataframe
df = housing['data'].join(housing['target'])
df.info()

In [None]:
print(housing.DESCR)

* En [Statmodels](https://www.statsmodels.org/devel/datasets/index.html)

In [None]:
# Import package
import statsmodels.api as sm
# Load data as a dataframe
df = sm.datasets.macrodata.load_pandas()['data']
df.info()
df1 = sm.datasets.longley.load_pandas()['data']
df1.info()

* En [OpenML](https://www.openml.org/)

In [None]:
#! pip install openml
import openml
import pandas as pd
datasets_df = openml.datasets.list_datasets(output_format="dataframe")
datasets_df.head()
print("First 10 of %s datasets..." % len(datasets_df))
print(datasets_df[:10][['did','name','NumberOfInstances','NumberOfFeatures']])

In [None]:
# OpenML
#traer en enlace de la versión csv
import pandas as pd 
#url = "https://www.openml.org/data/get_csv/16826755/phpMYEkMl"
#url="https://www.openml.org/data/get_csv/61/dataset_61_iris.arff"
url="https://www.openml.org/data/get_csv/4600907/BNG(credit-g).arff"
data = pd.read_csv(url)
data.head()

* En [GitHub](https://github.com/)

In [None]:
#desde GitHub version raw
import pandas as pd
import requests
url='https://raw.githubusercontent.com/cs109/2014_data/master/mtcars.csv'
c=pd.read_csv(url)
c.head()

In [None]:
import pandas as pd
url = 'https://raw.githubusercontent.com/hxchua/datadoubleconfirm/master/datasets/arrivals2018.csv'
df = pd.read_csv(url)
df.head()

### Fuentes de datos de acceso abierto

A continuación otra pequeña muestra de fuentes de datos de acceso abierto: 
      
+ [Kaggle](https://www.kaggle.com/datasets). Se creó para ayudar a las empresas a organizar concursos de ciencia de datos para resolver problemas complejos utilizando datos. 
+ [FiveThirtyEight](https://data.fivethirtyeight.com/). Datos de periodismo. Datos detras de las noticias de política, ciencia, cultura, deportes, entre otros. Principalmente contiene información de Estados Unidos.
+ [Banco Mundial](https://datos.bancomundial.org/). Información de diferentes paises y aspectos que buscan ayudar a mejorar la calidad de vida a través de los datos.
+ [Repositorio UCI ML](https://archive.ics.uci.edu/ml/datasets.php). El repositorio UCI Machine Learning alberga una colección de bases de datos y datasets que son utilizados por la comunidad para el análisis empírico de algoritmos de Machine Learning.Actualmente alberga más de 500 conjuntos de datos. Para citarlo: https://archive.ics.uci.edu/ml/citation_policy.html.
+ [Datos abiertos del Ayuntamiento de Madrid](https://datos.madrid.es/portal/site/egob).  Portal de Datos Abiertos dedicado a promover el acceso a los datos del gobierno municipal e impulsar el desarrollo de herramientas creativas para atraer y servir a la ciudadanía de Madrid. Al menos 500 Datasets.
+ [Datos abiertos del Gobierno de España](https://datos.gob.es/#slide-0). Mas de 50.000 conjuntos de datos de Gobernabilidad, Sector público, demografía, ciencia y tecnología, deportes, salud y bienestar, medio ambiente, legislación, entre otros. Busca promocionar la apertura de la información pública y el desarrollo de servicios avanzados basados en datos. Es promovida por el Ministerio de Asuntos Económicos y Transformación Digital y la Entidad Pública Empresarial Red.es.
+ [Portal de Datos Abiertos de Esri España](https://opendata.esri.es/). Ofrece datos tratados por Esri España y también es una recopilación de los diferentes portales Open Data desarrollados con tecnología Esri existentes en la actualidad. La tecnología de Esri permite poner a disposición de los usuarios tecnología espacial basada en mapas interactivos que capacitan a los profesionales de información para la toma de decisiones estratégicas. Encuentras datasets de salud, ciencia, sociodemográficos, comercio, empresa y negocios, educación, economía, transporte, entre otros.
+ [Repositorio de datos del Gobierno de Navarra](https://gobiernoabierto.navarra.es/es/open-data/que-es-open-data/open-data-espana). Presenta un repositorio de las diferentes entidades públicas que permiten el acceso abierto a datasets de ambito nacional, comunidades autonómicas, diputaciones y entidades locales.

In [None]:
#https://github.com/Kaggle/kaggle-api
#! pip install kaggle
import os
 
os.environ['KAGGLE_USERNAME'] = 'milljanny'
os.environ['KAGGLE_KEY'] = '8472313da4cf313a40744fa06032e81d'
 
from kaggle.api.kaggle_api_extended import KaggleApi
 
dataset = 'rashikrahmanpritom/heart-attack-analysis-prediction-dataset'
path = 'datasets/heart-attack'
 
api = KaggleApi()
api.authenticate()
 
api.dataset_download_files(dataset, path)
 
api.dataset_download_file(dataset, 'heart.csv', path)

api.dataset_download_file(dataset, 'o2Saturation.csv', path)

import pandas as pd

df = pd.read_csv(r"datasets/heart-attack/heart.csv")

df.head()

---

# References

<a name="cite-PER-GRA:2007"/><sup>[^](#ref-2) </sup>P&eacute;rez, Fernando and Granger, Brian E.. 2007. _IPython: a System for Interactive Scientific Computing_. [URL](http://ipython.org)

<a name="cite-calicoww2:2"/><sup>[^](#ref-3) </sup>Kepps, Milo . 2002. _Rebuilding Calico After Japanese Occupation_.

