In [1]:
import pandas as pd  #  type: ignore

# Propiedad de pandas que indica que las respuestas se
# mostrarán en formato de texto.
pd.set_option("display.notebook_repr_html", False)

In [2]:
# Carga del archivo desde un repo en GitHub
# Debido a que el libro tiene su propio ambiente de python,
# la ruta de acceso se encuentra en homework, usammos ".."
# al principio de la ruta para salir del directorio actual
# y acceder desde la raiz del proyecto al archivo que se
# encuentra en la carpeta files/input.
truck_events = pd.read_csv("../files/input/truck_event_text_partition.csv")

# Cabecera del archivo
truck_events.head()

   driverId  truckId eventTime eventType  longitude  latitude  \
0        14       25   59:21.4    Normal     -94.58     37.03   
1        18       16   59:21.7    Normal     -89.66     39.78   
2        27      105   59:21.7    Normal     -90.21     38.65   
3        11       74   59:21.7    Normal     -90.20     38.65   
4        22       87   59:21.7    Normal     -90.04     35.19   

                     eventKey  CorrelationId       driverName     routeId  \
0   14|25|9223370572464814373   3.660000e+18       Adis Cesir   160405074   
1   18|16|9223370572464814089   3.660000e+18        Grant Liu  1565885487   
2  27|105|9223370572464814070   3.660000e+18  Mark Lochbihler  1325562373   
3   11|74|9223370572464814123   3.660000e+18   Jamie Engesser  1567254452   
4   22|87|9223370572464814101   3.660000e+18    Nadeem Asghar  1198242881   

                                routeName      eventDate  
0           Joplin to Kansas City Route 2  2016-05-27-22  
1           Springfield to K

In [3]:
# Obtención de un subconjunto de registros
# Hace una copia slice de las primeras 10 filas del Dataframe
# como las filas no tienen un índice único, se usa el por defecto
# que es un rango de 0 a n-1, donde n es el número de filas
# del Dataframe. En este caso, el rango es de 0 a 9.
truck_events_subset = truck_events[0:10]
truck_events_subset

   driverId  truckId eventTime eventType  longitude  latitude  \
0        14       25   59:21.4    Normal     -94.58     37.03   
1        18       16   59:21.7    Normal     -89.66     39.78   
2        27      105   59:21.7    Normal     -90.21     38.65   
3        11       74   59:21.7    Normal     -90.20     38.65   
4        22       87   59:21.7    Normal     -90.04     35.19   
5        22       87   59:22.3    Normal     -90.37     35.21   
6        23       68   59:22.4    Normal     -89.91     40.86   
7        11       74   59:22.5    Normal     -89.74     39.10   
8        20       41   59:22.5    Normal     -93.36     41.69   
9        32       42   59:22.5    Normal     -90.37     35.21   

                     eventKey  CorrelationId       driverName     routeId  \
0   14|25|9223370572464814373   3.660000e+18       Adis Cesir   160405074   
1   18|16|9223370572464814089   3.660000e+18        Grant Liu  1565885487   
2  27|105|9223370572464814070   3.660000e+18  Mark Lo

In [4]:
# Obtención de un subconjunto de columnas
# Usando la copia slice del Dataframe definida anteriormente, seleccionamos
# las columnas que nos interesan, pasándole una lista de nombres de columnas.
specific_columns = truck_events_subset[["driverId", "eventTime", "eventType"]]
specific_columns

   driverId eventTime eventType
0        14   59:21.4    Normal
1        18   59:21.7    Normal
2        27   59:21.7    Normal
3        11   59:21.7    Normal
4        22   59:21.7    Normal
5        22   59:22.3    Normal
6        23   59:22.4    Normal
7        11   59:22.5    Normal
8        20   59:22.5    Normal
9        32   59:22.5    Normal

In [5]:
# Obtención de un subconjunto de filas y columnas
# Si lo que queremos es un subconjunto de filas y columnas, podemos usar el
# operador .loc[], que recibe como primer argumento el rango de filas y como 
# segundo argumento una lista de nombres de columnas.

# Hay que tener en cuenta que el rango de filas es inclusivo, por lo que
# si queremos las primeras 10 filas, debemos usar el rango 0:10, ya que
# el último número se incluye en el rango.
new_sub_set = truck_events.loc[0:10, ["driverId", "eventTime", "eventType"]]
new_sub_set

    driverId eventTime eventType
0         14   59:21.4    Normal
1         18   59:21.7    Normal
2         27   59:21.7    Normal
3         11   59:21.7    Normal
4         22   59:21.7    Normal
5         22   59:22.3    Normal
6         23   59:22.4    Normal
7         11   59:22.5    Normal
8         20   59:22.5    Normal
9         32   59:22.5    Normal
10        27   59:22.6    Normal

In [6]:
# Obtención de un campo de un registro en particular
# Usamos la función .iloc[] para acceder a un registro en particular, esto
# nos devuelve un pandas.Series, que es una estructura de datos unidimensional
# que puede contener cualquier tipo de datos, representando una fila del
# Dataframe. Los índices empiezan en 0.
truck_events.iloc[1]

driverId                                    18
truckId                                     16
eventTime                              59:21.7
eventType                               Normal
longitude                               -89.66
latitude                                 39.78
eventKey             18|16|9223370572464814089
CorrelationId            3660000000000000000.0
driverName                           Grant Liu
routeId                             1565885487
routeName        Springfield to KC Via Hanibal
eventDate                        2016-05-27-22
Name: 1, dtype: object

In [7]:
# Podemos obtener un campo en particular de un registro dado usando el
# nombre de la columna y la función .iloc[] para acceder al registro.	
truck_events.iloc[1].eventKey
# Convención de pandas para acceder si los nombres de las columnas no
# siguen las convenciones de nombres de variables de python, por ejemplo
# teniendo espacios o caracteres especiales.
truck_events.iloc[1]["eventKey"]

'18|16|9223370572464814089'

In [8]:
# Escritura de la tabla en el disco
import os

# Si no existe la carpeta de salida, la creamos
if not os.path.exists("../files/output/"):
    os.makedirs("../files/output/")

# Guarda el DataFrame modificado en un archivo CSV, con especificaciones
# dadas.
specific_columns.to_csv(
    "../files/output/specific-columns.csv",
    sep=",",
    header=True,
    index=False,
)