
![](CintillaTecNM-ITD.png)


# Analítica de Datos en las Organizaciones

# Docente: José Gabriel Rodríguez Rivas


# Unidad II   Introducción a los Datos


## Práctica de laboratorio: Contador de la velocidad de Internet

In [1]:
import datetime
import csv
import subprocess

import pandas as pd
# NumPy is a library that adds support for large, multi-dimensional arrays and matrices
# along with high-level mathematical functions to operate on these arrays
import numpy as np

#### NOTA
Una **instancia de la clase datetime** no se puede escribir directamente en forma de texto. La función **strftime** analiza la información de fecha en una cadena. Los argumentos de esta función determinan el formato del string de salida. Una descripción de estos parámetros se encuentra en la documentación de lafunción strftime en
https://docs.python.org/2/library/time.html (https://docs.python.org/2/library/time.html)

#### Paso 2: Generar las marcas de hora mediante el paquete 'datetime'.

En esta práctica de laboratorio, se generarán mediciones de las estadísticas de la velocidad de Internet. Un paso crucial en la adquisición de datos para la mayoría de las aplicaciones de análisis de datos es asociar una marca de hora a las mediciones. 

In [2]:
fecha_hora = datetime.datetime.now()
print(fecha_hora, type(fecha_hora))

2022-10-05 16:11:22.265118 <class 'datetime.datetime'>


In [3]:
fecha_hora.strftime('%a, %d %b %Y %H:%M:%S')


'Wed, 05 Oct 2022 16:11:22'

In [4]:
fecha_hora.strftime('%Y-%m-%d %H:%M:%S')

'2022-10-05 16:11:22'

#### Paso 3: Ejecutar el proceso y recopilar la salida con Python.

El comando **speedtest-cli**, si se ejecuta desde una terminal, **devuelve una cadena con las velocidades de carga y descarga**. Para ejecutar el comando es necesario utilizar un subproceso del módulo de Python, que permite la ejecución de un proceso directamente en las celdas de código de la computadora.

In [5]:
# This string contains the command line to interface with speedtest.net
speedtest_cmd = "speedtest-cli --simple"
# Execute the process
process = subprocess.Popen(speedtest_cmd.split(), stdout=subprocess.PIPE)
# Collect the command output
process_output = process.communicate()[0]

In [6]:
print(process_output, type(process_output))

# Debe salir algo asi:
#  b'Ping: 66.571 ms\r\nDownload: 71.47 Mbit/s\r\nUpload: 38.49 Mbit/s\r\n' <class 'bytes'>

b'' <class 'bytes'>


In [7]:
# Code cell 8
# Store the time at which the speedtest was executed
date_time = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
process_output = process_output.split()
process_output.append(date_time)
print(process_output, type(process_output))

# debe salir algo asi:
#    [b'Ping:', b'66.571', b'ms', b'Download:', b'71.47', b'Mbit/s', b'Upload:',
#          b'38.49', b'Mbit/s', '2017-09-15 11:57:36'] <class 'list'>


['2022-10-05 16:11:36'] <class 'list'>


In [8]:
# Code cell 9
# function to excute the speed test
def speedtest():
    # We need to store the time at which the speedtest was executed
    date_time = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    # This is a string that contains what we would write on the command line 
    #to interface with speedtest.net
    speedtest_cmd = "speedtest-cli --simple"
    # We now execute the process: 
    process = subprocess.Popen(speedtest_cmd.split(), stdout=subprocess.PIPE)
    process_output = process.communicate()[0]
    process_output = process_output.split()
    # and we add the date and time 
    process_output.append(date_time)
    return process_output



In [9]:
speedtest()

['2022-10-05 16:11:38']

#### Paso 4: Guardar la salida de la función 'speedtest()'.

Los valores separados por comas (csv) son el formato de importación y exportación más común para las hojas de cálculo y las bases de datos. Para obtener más información sobre el trabajo con los csv en Python, navegue a https://docs.python.org/2/library/csv.html.

In [10]:
#  a) Cree un archivo denominado test.txt en el directorio /tmp y 
#   escriba "test_msg" en el archivo.
with open("test.txt",'w') as f:
    f.write('test_msg')



In [11]:
# c) Para verificar que el archivo se haya abierto correctamente: 
with open("test.txt",'r') as f:
   str = f.read()
print(str)

test_msg


d) La comprensión del significado de la declaración 'with', especialmente en combinación con 'try' y 'except' no es necesaria para el resto de esta práctica de laboratorio, pero se incluye un recurso útil sobre esto en http://effbot.org/zone/python-with-statement.htm.
<p>
Para escribir en el archivo 'csv', es necesario crear un objeto 'csv.writer'. Verifique https://docs.python.org/2/library/csv.html y descubra qué función del objeto 'csv.writer' se puede utilizar para agregar una fila al archivo 'csv'.

In [12]:
def save_to_csv(data, filename):
    try:
        # If the file exists, append a new line to it, with the 
        with open(filename + '.csv', 'a') as f:
            # Create a csv writer object 
            wr = csv.writer(f)
            # Save (write) to file
            wr.writerow(data)
    except:
        # If it does not exist, create the file first
        with open(filename + '.csv', 'w') as f:
            wr = csv.writer(f)
            # Save (write) to file
            wr.writerow(data)
            

#### Función para abrir un archivo csv e imprimir su contenido en la pantall

In [13]:
# Code cell 15
def print_from_csv(filename): 
    with open(filename + '.csv', 'r') as f:
        re = csv.reader(f)
        for row in re:
            print(', '.join(row))



#### Paso 6: Ejecutar varias veces Speedtest y guardar los datos.  
a) Escriba un bucle 'for' que ejecute speedtest 5 veces, imprima la salida de las pruebas y guarde los datos en un archivo csv.

In [14]:
for i in range(5):
    # Measure internet speed (speedtest_output) using the speedtest() created earlier
    speedtest_output = speedtest()
    # Print the test number
    print('Test number {}'.format(i))
    # Print the result (The needed variable is speedtest_output)
    # ADD CODE HERE for printing the results
    print(speedtest_output)
    save_to_csv(speedtest_output, 'rpi_data_test')



Test number 0
['2022-10-05 16:11:48']
Test number 1
['2022-10-05 16:11:49']
Test number 2
[b'Ping:', b'61.816', b'ms', b'Download:', b'25.05', b'Mbit/s', b'Upload:', b'17.04', b'Mbit/s', '2022-10-05 16:11:50']
Test number 3
[b'Ping:', b'7.741', b'ms', b'Download:', b'25.85', b'Mbit/s', b'Upload:', b'19.48', b'Mbit/s', '2022-10-05 16:12:45']
Test number 4
['2022-10-05 16:13:41']


In [15]:
#  b) Muestre el archivo para verificar que los datos se hayan guardado correctamente.

print_from_csv('rpi_data_test')

2022-10-05 15:54:41

2022-10-05 15:54:42

2022-10-05 15:54:43

2022-10-05 15:54:45

2022-10-05 15:54:46

2022-10-05 16:11:48

2022-10-05 16:11:49

b'Ping:', b'61.816', b'ms', b'Download:', b'25.05', b'Mbit/s', b'Upload:', b'17.04', b'Mbit/s', 2022-10-05 16:11:50

b'Ping:', b'7.741', b'ms', b'Download:', b'25.85', b'Mbit/s', b'Upload:', b'19.48', b'Mbit/s', 2022-10-05 16:12:45

2022-10-05 16:13:41



## Parte 2: Manipular los datos

Los biblioteca de Python 'pandas' es muy útil para trabajar con datos estructurados. La documentación completa se encuentra aquí: http://pandas.pydata.org/pandas-docs/version/0.14.1/</font>

Se utilizará un conjunto de datos más grande recopilado de antemano para esta parte de la práctica de laboratorio. El nombre de archivo es 'rpi_data_long.csv'.

#### Paso 1: Importar las bibliotecas de Python.

Importe 'pandas' y otras bibliotecas utilizadas para las siguientes tareas.

#### Paso 2: Cargar el archivo 'csv' en un objeto 'DataFrame' mediante el uso de 'pandas'.

Un 'pandas DataFrame' es una estructura de datos etiquetada de 2 dimensiones con columnas de tipos potencialmente diferentes. Puede verlo como una hoja de cálculo o una tabla de SQL. La función de la biblioteca pandas 'read_csv' convierte automáticamente un archivo 'csv' en un objeto 'DataFrame'.

Lea la documentación de 'read_csv' en http://pandas.pydata.org/pandas-docs/version/0.14.1/generated/pandas.read_csv.html.
Esta función contiene muchos parámetros. El único no opcional es 'filepath', es decir, la ubicación del archivo 'csv'. Todos los demás parámetros son opcionales.

En este paso, importará y verá el contenido del archivo csv, 'rpi_data_long.csv'. Esto archivo csv se encuentra en el mismo directorio que esta notebook de Jupyter.

In [16]:
# a) Asigne el archivo 'rpi_data_long.csv' a la variable 'data_file'.

data_file = 'rpi_data_long.csv'

In [17]:
#  c) Utilice el parámetro 'names' de la función 'read_csv' para especificar el 
#  nombre de las columnas de 'DataFrame'.

column_names = [ 'Type A', 'Measure A', 'Units A',
                 'Type B', 'Measure B', 'Units B',
                 'Type C', 'Measure C', 'Units C', 
                 'Datetime']

In [18]:
# d) Utilice la función 'read_csv' para leer de 'data_file' y asigne 'column_names' como los
#  nombres de columna en el marco de datos.

with open(data_file, 'r') as f:
    df_redundant = pd.read_csv(f, names = column_names)

In [19]:
df_redundant.head()

Unnamed: 0,Type A,Measure A,Units A,Type B,Measure B,Units B,Type C,Measure C,Units C,Datetime
0,Ping:,26.992,ms,Download:,91.8,Mbit/s,Upload:,14.31,Mbit/s,24/11/2016 13:36
1,Ping:,24.532,ms,Download:,88.19,Mbit/s,Upload:,14.12,Mbit/s,24/11/2016 13:36
2,Ping:,20.225,ms,Download:,59.86,Mbit/s,Upload:,14.11,Mbit/s,24/11/2016 13:37
3,Ping:,19.332,ms,Download:,91.81,Mbit/s,Upload:,14.22,Mbit/s,24/11/2016 13:37
4,Ping:,22.494,ms,Download:,92.05,Mbit/s,Upload:,14.08,Mbit/s,24/11/2016 13:38


#### Paso 3: Crear una representación concisa.
En este paso, creará una representación más compacta mediante una copia del marco de datos 'df_redundant'.

a) Copie 'df_redundant' en otro marco de datos llamado 'df_compact' mediante 'copy()'.

In [29]:
df_compact = df_redundant.copy()

b) Cambie el nombre de las columnas en relación con las medidas como se muestra:

    Medida A -> Ping (ms)
    Medida B -> Descargar (Mbit/s)
    Medida C -> Cargar (Mbit/s)

In [30]:
df_compact.rename(columns={'Measure A':'Ping (ms)', 
                           'Measure B': 'Download (Mbit/s)',
                           'Measure C': 'Upload (Mbit/s)'}, inplace=True)
df_compact.head(3)



Unnamed: 0,Type A,Ping (ms),Units A,Type B,Download (Mbit/s),Units B,Type C,Upload (Mbit/s),Units C,Datetime
0,Ping:,26.992,ms,Download:,91.8,Mbit/s,Upload:,14.31,Mbit/s,24/11/2016 13:36
1,Ping:,24.532,ms,Download:,88.19,Mbit/s,Upload:,14.12,Mbit/s,24/11/2016 13:36
2,Ping:,20.225,ms,Download:,59.86,Mbit/s,Upload:,14.11,Mbit/s,24/11/2016 13:37


En la tabla anterior, el campo 'Datetime' es una cadena. Los pandas y Python ofrecen varias operaciones para trabajar con la fecha y la hora que pueden ser muy útiles.

En el siguiente paso, la cadena de la columna 'Datetime' se separará en dos columnas nuevas.

#### Paso 4: Separar los datos en dos columnas.
En este paso, utilizará Pandas para generar las columnas 'Date' y 'Time' a partir de la columna 'Datetime' y luego descartará la columna 'Datetime'.
<p>Se utiliza la función 'lambda' para crear dos funciones anónimas que recuperen solo la fecha y la hora de un objeto 'datetime', respectivamente. Luego, utilice la función de 'pandas' 'apply' para aplicar esta función a una columna completa (en la práctica, 'apply' define implícitamente un bucle 'for' y pasa las filas una a una hasta nuestra función 'lambda'). Guarde el resultado de las funciones 'apply' en dos nuevas columnas del 'DataFrame'.

a) Aplique la función 'lambda' para iterar a través del marco de datos y dividir la fecha de la columna 'Datetime'.

In [31]:
df_compact.drop(['Type A', 'Type B', 'Type C',
         'Units A', 'Units B', 'Units C'], axis=1, inplace=True)
df_compact.head()

Unnamed: 0,Ping (ms),Download (Mbit/s),Upload (Mbit/s),Datetime
0,26.992,91.8,14.31,24/11/2016 13:36
1,24.532,88.19,14.12,24/11/2016 13:36
2,20.225,59.86,14.11,24/11/2016 13:37
3,19.332,91.81,14.22,24/11/2016 13:37
4,22.494,92.05,14.08,24/11/2016 13:38


c) Como las columnas de los tipos y las unidades ya no son necesarias, estas columnas pueden descartarse.

In [32]:
# Code cell 28

df_compact['Date'] = df_compact['Datetime'].apply(lambda dt_str: pd.to_datetime(dt_str).date())

b) Repita el paso a) para dividir la hora de la columna 'Datetime'. 

In [33]:
# Code cell 29
# Please note, this requires an intermediate step, because of how NaT are treated by the time() function.
# Reference: https://github.com/pandas-dev/pandas/issues/11453
temp = df_compact['Datetime'].apply(lambda dt_str: pd.to_datetime(dt_str))
df_compact['Time'] = temp.dt.time

c) Toda la información de la columna 'Datetime' se ha copiado ahora a las columnas 'Date' y 'Time'. La columna 'Datetime' carece de propósito. La columna 'Datetime' se puede descartar del marco de datos.
<p>Ingrese el código para descartar la columna 'Datetime' en la celda a continuación.

In [34]:
# Code cell 30
df_compact.drop('Datetime', axis=1, inplace=True)

Ingrese el código para imprimir las primeras 3 filas del marco de datos para verificar los cambios.

In [35]:
# Code cell 31
df_compact.head(3)

Unnamed: 0,Ping (ms),Download (Mbit/s),Upload (Mbit/s),Date,Time
0,26.992,91.8,14.31,2016-11-24,13:36:00
1,24.532,88.19,14.12,2016-11-24,13:36:00
2,20.225,59.86,14.11,2016-11-24,13:37:00


d) Utilice la función 'type' para imprimir el tipo de variable de los valores en las columnas 'Date' y 'Time'.

In [36]:
# Code cell 32
print(df_compact['Date'][0], type(df_compact['Date'][0]) )
print(df_compact['Time'][0], type(df_compact['Time'][0]) )

2016-11-24 <class 'datetime.date'>
13:36:00 <class 'datetime.time'>


#### Paso 5: Guardar el nuevo marco de datos.
Guarde el marco de datos de pandas 'df_compact' como un archivo csv llamado 'rpi_data_compact':

In [38]:
# Code cell 33
df_compact.to_csv('rpi_data_compact.csv')

In [39]:
df_compact

Unnamed: 0,Ping (ms),Download (Mbit/s),Upload (Mbit/s),Date,Time
0,26.992,91.80,14.31,2016-11-24,13:36:00
1,24.532,88.19,14.12,2016-11-24,13:36:00
2,20.225,59.86,14.11,2016-11-24,13:37:00
3,19.332,91.81,14.22,2016-11-24,13:37:00
4,22.494,92.05,14.08,2016-11-24,13:38:00
...,...,...,...,...,...
667,23.073,83.97,14.18,2016-11-24,19:15:00
668,20.952,88.67,14.35,2016-11-24,19:15:00
669,19.397,84.86,14.35,2016-11-24,19:16:00
670,20.117,84.99,14.33,2016-11-24,19:16:00
