# I. Introducción a Python para data science y big data

## Evaluación de las necesidades de big data

Se tiene que analizar si realmente necesitamos big data. En muchas ocasiones, big data es inevitable. Así, es necesario tomar en cuenta la capacidad del ordenador por lo que hay que considerar los siguientes parámetros: 

* **Memoria RAM:** Determina cuánta información podemos procesar al mismo tiempo.
* **Memoria en disco:** Determina el volumen total de información que podemos llegar a gestionar con el código adecuado.
* **Memoria en disco:** Número de procesadores de los cuáles disponemos que determinarán la rapidez en la cual se ejecute el código.

Antes de procesar todos los datos de golpe, se recomienda seleccionar solo una fracción de todos ellos, buscando observar la respuesta del ordenador ante la ejecución del código seleccionado.

## Instalar Jupyter Notebook

Cuando se compila una celda, el *output* sale en la celda inmediata.

#### ***Comandos con teclado:***
* Para comentar varias líneas, basta con seleccionarlas y oprimir el comando: *ctrl + ]*

* Para correr la indetación a la derecha: *tab*

* Para correr la indetación a la izquierda: *shift + tab*

#### ***Instalación de nuevos paquetes en anaconda:***

* En el buscador se teclea **Anaconda Prompt**
* Se coloca: **conda install nombre_paquete**

## Instalar PySpark

Se sugiere obervar el siguiente video: https://www.youtube.com/watch?v=U-kHrMF3b-A&list=PLYFBiuYObvKB_k0bnkI41biMjD12t44GN&index=2

In [5]:
import findspark 
findspark.init() #Esto solo se usa la primera vez

import pyspark

In [2]:
from pyspark.sql import SparkSession

In [3]:
spark = SparkSession.builder.getOrCreate()
spark

## Evaluar la eficiencia de nuestro código

Para esto, se recurre a dos paqueterías de Python: ***time*** y ***datatime***. Se utiliza la siguiente sintaxis:

* import time as tm
* start = tm.time()
* #Código
* end = tm.time()
* print("Tiempo de ejecución: ",end-start)

A continuación se presenta un ejemplo en el que se quiere estimar la esperanza del lanzamiento de un dado. Se proponen dos métodos, veámos cuál es más eficiente en tiempo.

#### ***Paquetería time***

In [101]:
# Primero cargamos las paqueterías necesarias
import time as tm
import random as rd
import math as ma
import numpy as np

#Función que me genera un lanzamiento. Así, los posibles resultados son: 1, 2, ..., 6
def f():
  return ( ma.floor( 6 * rd.random() ) + 1 )


n = 10**6
l1 = []
l2 = [0]*n

In [102]:
#Método I. Función append
start_1 = tm.time()

for i in range(n):
    l1.append(f())

end_1 = tm.time()

print("La esperanza del lanzamiento de un dado es: %2.2f"%np.mean(l1))
print("El tiempo de ejecución fue de: %2.5f"%(end_1-start_1))

La esperanza del lanzamiento de un dado es: 3.50
El tiempo de ejecución fue de: 0.77507


In [103]:
#Método II. Asignando el resultado de un lanzamiento a cada entrada del vector l2
start_2 = tm.time()

for i in range(n):
    l2[i] = f()

end_2 = tm.time()

print("La esperanza del lanzamiento de un dado es: %2.2f"%np.mean(l2))
print("El tiempo de ejecución del 'Método II' fue de: %2.5f"%(end_2-start_2))

La esperanza del lanzamiento de un dado es: 3.50
El tiempo de ejecución del 'Método II' fue de: 0.67005


**Observación:** Como se puede apreciar en los Métodos I y II, el código más eficiente fue el II pues tuvo un menor tiempo de ejecución.

Es necesario mencionar que el código a ejecutar es sencillo por lo que la diferencia entre tiempos de ejecución no es significativa.

#### ***Paquetería time***

In [104]:
# Primero cargamos las paqueterías necesarias
import time as tm
from datetime import timedelta as tim

n = 10**6
l1 = []
l2 = [0]*n

In [106]:
#Método I. Función append
start_1 = tm.monotonic()

for i in range(n):
    l1.append(f())

end_1 = tm.monotonic()

print("La esperanza del lanzamiento de un dado es: %2.2f"%np.mean(l1))
print("El tiempo de ejecución del 'Método I' fue de:",tim(seconds = end_1-start_1))

La esperanza del lanzamiento de un dado es: 3.50
El tiempo de ejecución del 'Método I' fue de: 0:00:00.844000


In [107]:
#Método II. Asignando el resultado de un lanzamiento a cada entrada del vector l2
start_2 = tm.monotonic()

for i in range(n):
    l2[i] = f()

end_2 = tm.monotonic()

print("La esperanza del lanzamiento de un dado es: %2.2f"%np.mean(l2))
print("El tiempo de ejecución del 'Método I' fue de:",tim(seconds = end_1-start_1))

print(end_1-start_1 > end_2-start_2)

La esperanza del lanzamiento de un dado es: 3.50
El tiempo de ejecución del 'Método I' fue de: 0:00:00.844000
True


**Observación:** A través de la funciónn **datatime**, el tiempo de ejecución del código fue de **0 horas , 0 minutos, 0.84 segundos**. Dado que el tiempo de ejecución del Método I es mayor que el del Método II, decimos que el segundo código es más eficiente