![Título](Images/cisco.png)

# Práctica de laboratorio: análisis de datos del contador de Internet 

### Objetivos
<li>**Parte 1: Recopilar y guardar los datos**</li>
<li>**Parte 2: Manipular los datos**</li>
### Aspectos básicos/situación
En esta práctica de laboratorio, usted adquirirá estadísticas de la velocidad de Internet y almacenar los datos en vivo en los valores separados por comas (csv) Archivo. También cargará los datos almacenados del archivo csv a una estructura de datos de Python, el 'DataFrame' de Panda, y utilizará sus funcionalidades para explorar los datos y para manipularlos de manera que sean fácilmente legibles.
### Recursos necesarios
* 1 computadora con acceso a Internet
* Raspberry Pi versión 2 o superior
* Bibliotecas de Python: datetime, csv, subprocess, pandas, numpy
* Archivos de datos: rpi_data_long.csv

## Parte 1: Recopilar y guardar los datos
<p>El objetivo de esta primera parte de la práctica de laboratorio es reunir mediciones de la velocidad de Internet a través de Raspberry Pi. Se recogerán tres tipos de mediciones:
1. Velocidad de ping
2. Velocidad de descarga
3. Velocidad de carga

#### Paso 1: Instalar Speedtest e importar las bibliotecas de Python.
En este paso, instalará Speedtest e importará las bibliotecas de Python.
<p>Speedtest-cli es un script de Python que mide la velocidad de carga y de descarga de la conexión a Internet. Para obtener más información sobre speedtest, vaya a https://github.com/sivel/speedtest-cli.

a) Instale 'speedtest-cli'.

In [None]:
# Code cell 1
!pip install speedtest-cli

Este cli permite que la notebook de Jupyter se conecte a la página web y guarde los datos.

b) Importe las bibliotecas de Python necesarias.

In [None]:
# Code cell 2
# Python library to manage date and time data
import datetime
# Python library to read and write csv files
import csv
# Python library to execute bash commands from the notebook.
# If you want to know more about this, check this resource: 
# http://www.pythonforbeginners.com/os/subprocess-for-system-administrators
import subprocess

#### Paso 2: Generar las marcas de hora mediante el paquete 'datetime'.
En esta práctica de laboratorio, se generarán mediciones de las estadísticas de la velocidad de Internet. Un paso crucial en la adquisición de datos para la mayoría de las aplicaciones de análisis de datos es asociar una marca de hora a las mediciones. 

a) Para generar una marca de hora, utilice la función 'datetime.now' del paquete 'datetime': 

In [None]:
# Code cell 3
date_time = datetime.datetime.now()
print(date_time, type(date_time))

b) Una instancia de la clase 'datetime' no se puede escribir directamente en forma de texto. La función 'strftime' analiza la información de fecha en una cadena. Los argumentos de esta función determinan el formato del sting de salida. Una descripción de estos parámetros se encuentra en la documentación de la función 'strftime' en https://docs.python.org/2/library/time.html. 

In [None]:
# Code cell 4
date_time.strftime('%a, %d %b %Y %H:%M:%S')

Después de leer la documentación de la función 'strftime', genere una marca de hora y analícela en una cadena con el siguiente formato: AAAA-MM-DD HH:MM:SS.

In [None]:
# Code cell 5
# enter your code


#### Paso 3: Ejecutar el proceso y recopilar la salida con Python.

El comando 'speedtest-cli', si se ejecuta desde un terminal, devuelve una cadena con las velocidades de carga y descarga. Para ejecutar el comando de la computadora portátil, es necesario utilizar el 'subproceso' del módulo de Python, que permite la ejecución de un proceso directamente de las celdas de código de la computadora portátil. 

a) Ejecute una prueba de velocidad mediante el comando 'speedtest-cli' de Python. La salida se almacenará en la variable process_output.

In [None]:
# Code cell 6
# This string contains the command line to interface with speedtest.net
speedtest_cmd = "speedtest-cli --simple"
# Execute the process
process = subprocess.Popen(speedtest_cmd.split(), stdout=subprocess.PIPE)
# Collect the command output
process_output = process.communicate()[0]

b) Imprima la salida del proceso. Observe el tipo para la variable 'process_output'.

In [None]:
# Code cell 7
print(process_output, type(process_output))

c) El resultado de la prueba de velocidad se divide, y una marca de hora se adjunta a los resultados.

In [None]:
# Code cell 8
# Store the time at which the speedtest was executed
date_time = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
process_output = process_output.split()
process_output.append(date_time)
print(process_output, type(process_output))

d) La función speedtest() se crea para devolver los resultados del comando speedtest-cli.

In [None]:
# Code cell 9
# function to excute the speed test
def speedtest():
    # We need to store the time at which the speedtest was executed
    date_time = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    # This is a string that contains what we would write on the command line 
    #to interface with speedtest.net
    speedtest_cmd = "speedtest-cli --simple"
    # We now execute the process: 
    process = subprocess.Popen(speedtest_cmd.split(), stdout=subprocess.PIPE)
    process_output = process.communicate()[0]
    process_output = process_output.split()
    # and we add the date and time 
    process_output.append(date_time)
    return process_output

¿Qué devuelve la función speedtest()? ¿Cuál es el código para ver resultados de la función speedtest()?

In [None]:
# Code cell 10 
# Code to view the results from speedtest() function


Paso 4: Guardar la salida de la función 'speedtest()'.

Los valores separados por comas (csv) son el formato de importación y exportación más común para las hojas de cálculo y las bases de datos. Para obtener más información sobre el trabajo con los csv en Python, navegue a https://docs.python.org/2/library/csv.html.

a) Cree un archivo denominado test.txt en el directorio /tmp y escriba "test_msg" en el archivo.

In [None]:
# Code cell 11
with open("/tmp/test.txt",'w') as f:
    f.write('test_msg')

b) Use el comando de Linux 'cat' para verificar la creación y el contenido del archivo.

In [None]:
# Code cell 12
!cat /tmp/test.txt

c) Para verificar que el archivo se haya abierto correctamente:

In [None]:
# Code cell 13
with open("/tmp/test.txt",'r') as f:
   str = f.read()
print(str)

d) La comprensión del significado de la declaración 'with', especialmente en combinación con 'try' y 'except' no es necesaria para el resto de esta práctica de laboratorio, pero se incluye un recurso útil sobre esto en http://effbot.org/zone/python-with-statement.htm.
<p>
Para escribir en el archivo 'csv', es necesario crear un objeto 'csv.writer'. Verifique https://docs.python.org/2/library/csv.html y descubra qué función del objeto 'csv.writer' se puede utilizar para agregar una fila al archivo 'csv'.

In [None]:
# Code cell 14
# function to save data to csv
def save_to_csv(data, filename):
    try:
        # If the file exists, we want to append a new line to it, with the 
        #results of the current experiment
        with open(filename + '.csv', 'a') as f:
            wr = csv.writer(f)
            wr.writerow(data)
    except:
        # If it does not exist, create the file first
        with open(filename + '.csv', 'w') as f:
            # Hint: This is similar to appending new lines to a file.
            # Create a csv writer object
            # ADD CODE HERE
            # Save (write) to file
            # ADD CODE HERE

#### Paso 5: Verificar los datos recolectados.
Escriba una función para abrir un archivo csv e imprima su contenido en la pantalla. Puede encontrar un ejemplo en la sección 13.1.5 de https://docs.python.org/2/library/csv.html

In [None]:
# Code cell 15
def print_from_csv(filename): 
    with open(filename + '.csv', 'r') as f:
            re = csv.reader(f)
            # 1. Loop over the rows
            # 2. print

Ahora, todas las funciones necesarias para recopilar y almacenar los datos de la velocidad de Internet han finalizado.
#### Paso 6: Ejecutar varias veces Speedtest y guardar los datos.
a) Escriba un bucle 'for' que ejecute speedtest 5 veces, imprima la salida de las pruebas y guarde los datos en un archivo csv.

In [None]:
# Code cell 16
for i in range(5):
    speedtest_output = speedtest()
    print('Test number {}'.format(i))
    print(speedtest_output)
    save_to_csv(speedtest_output, '/tmp/rpi_data_test')
    

b) Muestre el archivo para verificar que los datos se hayan guardado correctamente.

In [None]:
# Code cell 17
print_from_csv('/tmp/rpi_data_test')


Si un conjunto de datos más grande es necesario, speedtest puede ejecutarse en segundo plano para más muestras.

¿Cómo cambiaría el código si quisiera ejecutar el código 100 veces?

In [None]:
# Code cell 18
# Code to run 100 times
# for i in xrange(100):
#     speedtest_output = speedtest()
#     print 'Test number: {}'.format(i)
#     print speedtest_output
#     save_to_csv(speedtest_output, '/tmp/rpi_data')

## Parte 2: Manipular los datos

Los biblioteca de Python 'pandas' es muy útil para trabajar con datos estructurados. La documentación completa se encuentra aquí: http://pandas.pydata.org/pandas-docs/version/0.14.1/</font>

Se utilizará un conjunto de datos más grande recopilado de antemano para esta parte de la práctica de laboratorio. El nombre de archivo es 'rpi_data_long.csv'.

#### Paso 1: Importar las bibliotecas de Python.

Importe 'pandas' y otras bibliotecas utilizadas para las siguientes tareas.

In [None]:
# Code cell 19
import datetime
import csv
import pandas as pd
# NumPy is a library that adds support for large, multi-dimensional arrays and matrices
# along with high-level mathematical functions to operate on these arrays
import numpy as np

#### Paso 2: Cargar el archivo 'csv' en un objeto 'DataFrame' mediante el uso de 'pandas'.

Un 'pandas DataFrame' es una estructura de datos etiquetada de 2 dimensiones con columnas de tipos potencialmente diferentes. Puede verlo como una hoja de cálculo o una tabla de SQL. La función de la biblioteca pandas 'read_csv' convierte automáticamente un archivo 'csv' en un objeto 'DataFrame'.

Lea la documentación de 'read_csv' en http://pandas.pydata.org/pandas-docs/version/0.14.1/generated/pandas.read_csv.html.
Esta función contiene muchos parámetros. El único no opcional es 'filepath', es decir, la ubicación del archivo 'csv'. Todos los demás parámetros son opcionales.

En este paso, importará y verá el contenido del archivo csv, 'rpi_data_long.csv'. Esto archivo csv se encuentra en el mismo directorio que esta notebook de Jupyter.

a) Asigne el archivo 'rpi_data_long.csv' a la variable 'data_file'.

In [None]:
# Code cell 20
data_file = './Data/rpi_data_long.csv'

b) Utilice el comando 'head' de Linux para ver las primeras 10 líneas del archivo csv.

In [None]:
# Code cell 21
!head -n 5 ./Data/rpi_data_long.csv

c) Utilice el parámetro 'names' de la función 'read_csv' para especificar el nombre de las columnas de 'DataFrame'.

In [None]:
# Code cell 22
column_names = [ 'Type A', 'Measure A', 'Units A',
                 'Type B', 'Measure B', 'Units B',
                 'Type C', 'Measure C', 'Units C', 
                 'Datetime']

d) Utilice la función 'read_csv' para leer de 'data_file' y asigne 'column_names' como los nombres de columna en el marco de datos.

In [None]:
# Code cell 23
with open(data_file, 'r') as f:
    df_redundant = pd.read_csv(f, names = column_names)

e) El comando 'head()' muestra las primeras filas del marco de datos.

In [None]:
# Code cell 24
# You can specify the number of rows you want to print to screen: 
# you do so passing the number as an argument to the function
# (e.g., head(10))
df_redundant.head()

¿Cuál es el código para leer las primeras 20 líneas del archivo csv?

#### Paso 3: Crear una representación concisa.
En este paso, creará una representación más compacta mediante una copia del marco de datos 'df_redundant'.

a) Copie 'df_redundant' en otro marco de datos llamado 'df_compact' mediante 'copy()'.

In [None]:
# Code cell 25
df_compact = df_redundant.copy()

b) Cambie el nombre de las columnas en relación con las medidas como se muestra:

    Medida A -> Ping (ms)
    Medida B -> Descargar (Mbit/s)
    Medida C -> Cargar (Mbit/s)

In [None]:
# Code cell 26
df_compact.rename(columns={'Measure A':'Ping (ms)', 
                           'Measure B': 'Download (Mbit/s)',
                           'Measure C': 'Upload (Mbit/s)'}, inplace=True)
df_compact.head(3)

c) Como las columnas de los tipos y las unidades ya no son necesarias, estas columnas pueden descartarse.

In [None]:
# Code cell 27
df_compact.drop(['Type A', 'Type B', 'Type C',
         'Units A', 'Units B', 'Units C'], axis=1, inplace=True)
df_compact.head()

En la tabla anterior, el campo 'Datetime' es una cadena. Los pandas y Python ofrecen varias operaciones para trabajar con la fecha y la hora que pueden ser muy útiles.

En el siguiente paso, la cadena de la columna 'Datetime' se separará en dos columnas nuevas.

#### Paso 4: Separar los datos en dos columnas.
En este paso, utilizará Pandas para generar las columnas 'Date' y 'Time' a partir de la columna 'Datetime' y luego descartará la columna 'Datetime'.
<p>Se utiliza la función 'lambda' para crear dos funciones anónimas que recuperen solo la fecha y la hora de un objeto 'datetime', respectivamente. Luego, utilice la función de 'pandas' 'apply' para aplicar esta función a una columna completa (en la práctica, 'apply' define implícitamente un bucle 'for' y pasa las filas una a una hasta nuestra función 'lambda'). Guarde el resultado de las funciones 'apply' en dos nuevas columnas del 'DataFrame'.

a) Aplique la función 'lambda' para iterar a través del marco de datos y dividir la fecha de la columna 'Datetime'.

In [None]:
# Code cell 28
df_compact['Date'] = df_compact['Datetime'].apply(lambda dt_str: pd.to_datetime(dt_str).date())

b) Repita el paso a) para dividir la hora de la columna 'Datetime'. 

In [None]:
# Code cell 29
# Please note, this requires an intermediate step, because of how NaT are treated by the time() function.
# Reference: https://github.com/pandas-dev/pandas/issues/11453
temp = df_compact['Datetime'].apply(lambda dt_str: pd.to_datetime(dt_str))
df_compact['Time'] = temp.dt.time

c) Toda la información de la columna 'Datetime' se ha copiado ahora a las columnas 'Date' y 'Time'. La columna 'Datetime' carece de propósito. La columna 'Datetime' se puede descartar del marco de datos.
<p>Ingrese el código para descartar la columna 'Datetime' en la celda a continuación.

In [None]:
# Code cell 30


Ingrese el código para imprimir las primeras 3 filas del marco de datos para verificar los cambios.

In [None]:
# Code cell 31


d) Utilice la función 'type' para imprimir el tipo de variable de los valores en las columnas 'Date' y 'Time'.

In [None]:
# Code cell 32
print(df_compact['Date'][0], type(df_compact['Date'][0]) )
print(df_compact['Time'][0], type(df_compact['Time'][0]) )

#### Paso 5: Guardar el nuevo marco de datos.
Guarde el marco de datos de pandas 'df_compact' como un archivo csv llamado 'rpi_data_compact':

In [None]:
# Code cell 33
df_compact.to_csv('./Data/rpi_data_compact.csv')

<font size='0.5'>&copy; 2017 Cisco y/o sus filiales. Todos los derechos reservados. Este documento es información pública de Cisco.<font>