# Operaciones básicas con Pandas

* *60:00 min* | Última modificación: Agosto 11, 2021 | YouTube

Pandas es una librería de alto desempeño para el manejo y análisis de datos en Python ampliamente utilizada en Analítica y Ciencia de Datos, por lo que su dominio resulta fundamental. Pandas se especializa en estructuras "tidy", es decir, tablas de datos donde cada fila es un registro y cada columna es un atributo.

Este tutorial esta basado en https://es.hortonworks.com/tutorial/beginners-guide-to-apache-pig/

Al finalizar este documento usted estará en capcidad de: 

* Cargar datos almacenados en un archivo CSV. 

* Visualizar los registros.

* Obtener un subconjunto de registros.

* Obtener un subconjunto de columnas.

* Obtener un subconjunto de filas y columnas.

* Extraer los datos de un registro particular.

* Guardar una tabla en disco usando el formato CSV.

## Preparación

In [2]:
import pandas as pd
import numpy as np

pd.set_option("display.notebook_repr_html", False)

## Carga de los datos de los eventos de los conductores

En el siguiente código se crea crea un DataFrame de eventos de los conductores en el sistema.

In [3]:
#
# Carga del archivo ddesde un repo en GitHub
#
truck_events = pd.read_csv(
    "https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/drivers/truck_event_text_partition.csv",
    sep=",",  
    thousands=None, 
    decimal=".",
)

#
# Total de registros leídos
#
len(truck_events)

17075

In [4]:
#
# Columnas ordenadas alfabeticamente
#
sorted(truck_events.columns)

['CorrelationId',
 'driverId',
 'driverName',
 'eventDate',
 'eventKey',
 'eventTime',
 'eventType',
 'latitude',
 'longitude',
 'routeId',
 'routeName',
 'truckId']

In [5]:
#
# Estadísticos de las columnas numéricas
#
truck_events.describe()

           driverId       truckId     longitude      latitude  CorrelationId  \
count  17075.000000  17075.000000  17075.000000  17075.000000   1.707500e+04   
mean      21.043104     55.424480    -91.798316     38.846300   5.373716e+17   
std        6.612549     28.936049      2.236992      2.378946   1.295419e+18   
min       10.000000     10.000000    -97.370000     34.750000   1.000000e+03   
25%       15.000000     27.000000    -93.580000     37.030000   1.000000e+03   
50%       21.000000     55.000000    -91.380000     38.970000   1.000000e+03   
75%       27.000000     81.000000    -90.150000     41.540000   1.000000e+03   
max       32.000000    109.000000    -87.660000     42.250000   3.660000e+18   

            routeId  
count  1.707500e+04  
mean   1.034766e+09  
std    6.233880e+08  
min    2.492948e+07  
25%    3.711828e+08  
50%    1.198243e+09  
75%    1.565885e+09  
max    1.962262e+09  

## Visualización de la tabla

In [6]:
#
# Cabecera del archivo
#
truck_events.head(10)

   driverId  truckId eventTime eventType  longitude  latitude  \
0        14       25   59:21.4    Normal     -94.58     37.03   
1        18       16   59:21.7    Normal     -89.66     39.78   
2        27      105   59:21.7    Normal     -90.21     38.65   
3        11       74   59:21.7    Normal     -90.20     38.65   
4        22       87   59:21.7    Normal     -90.04     35.19   
5        22       87   59:22.3    Normal     -90.37     35.21   
6        23       68   59:22.4    Normal     -89.91     40.86   
7        11       74   59:22.5    Normal     -89.74     39.10   
8        20       41   59:22.5    Normal     -93.36     41.69   
9        32       42   59:22.5    Normal     -90.37     35.21   

                     eventKey  CorrelationId       driverName     routeId  \
0   14|25|9223370572464814373   3.660000e+18       Adis Cesir   160405074   
1   18|16|9223370572464814089   3.660000e+18        Grant Liu  1565885487   
2  27|105|9223370572464814070   3.660000e+18  Mark Lo

In [7]:
#
# Cola del archivo
#
truck_events.tail(10)

       driverId  truckId eventTime eventType  longitude  latitude  \
17065        21      105   12:22.0    Normal     -91.38     34.83   
17066        11       27   12:22.2    Normal     -89.74     39.10   
17067        30       95   12:23.8    Normal     -89.74     39.10   
17068        31       48   12:22.5    Normal     -89.60     41.76   
17069        22       24   12:22.9    Normal     -91.32     41.71   
17070        11       27   12:23.1    Normal     -90.20     38.65   
17071        16       46   12:24.0    Normal     -94.35     38.33   
17072        18       49   12:23.7    Normal     -90.52     39.71   
17073        10       39   12:23.8    Normal     -93.34     37.21   
17074        19      100   12:24.0    Normal     -97.37     36.79   

                         eventKey  CorrelationId         driverName  \
17065  21|105|9223370571956433811         1000.0       Jeff Markham   
17066   11|27|9223370571956433631         1000.0     Jamie Engesser   
17067   30|95|9223370571956

In [8]:
#
# Porción intermedia del archivo
#
truck_events.head(20).tail(10)

    driverId  truckId eventTime eventType  longitude  latitude  \
10        27      105   59:22.6    Normal     -90.41     38.75   
11        17       15   59:23.2    Normal     -90.55     38.81   
12        14       25   59:23.3    Normal     -94.31     37.31   
13        28       39   59:23.3    Normal     -89.96     39.74   
14        15       51   59:23.4    Normal     -90.68     35.12   
15        16       12   59:23.4    Normal     -90.29     40.96   
16        31       18   59:23.5    Normal     -94.31     37.31   
17        25       96   59:23.5    Normal     -90.24     38.00   
18        14       25   59:24.2    Normal     -94.30     37.66   
19        22       87   59:24.2    Normal     -90.94     35.03   

                      eventKey  CorrelationId            driverName  \
10  27|105|9223370572464813205   3.660000e+18       Mark Lochbihler   
11   17|15|9223370572464812585   3.660000e+18           Eric Mizell   
12   14|25|9223370572464812526   3.660000e+18            Adi

## Visualización de una columna

In [9]:
truck_events.routeName.head()

0             Joplin to Kansas City Route 2
1             Springfield to KC Via Hanibal
2    Springfield to KC Via Columbia Route 2
3             Saint Louis to Memphis Route2
4             Saint Louis to Chicago Route2
Name: routeName, dtype: object

## Obtención de un subconjunto de registros

En hive es posible un subconjunto de datos y almacenarlo en una nueva tabla a partir de una consulta que permita obtener los datos deseados. En el siguiente código, se crea la tabla `truck_events_subset` con los primeros 100 registros de la tabla `truck_events`.

In [10]:
truck_events_subset = truck_events[0:10]
truck_events_subset

   driverId  truckId eventTime eventType  longitude  latitude  \
0        14       25   59:21.4    Normal     -94.58     37.03   
1        18       16   59:21.7    Normal     -89.66     39.78   
2        27      105   59:21.7    Normal     -90.21     38.65   
3        11       74   59:21.7    Normal     -90.20     38.65   
4        22       87   59:21.7    Normal     -90.04     35.19   
5        22       87   59:22.3    Normal     -90.37     35.21   
6        23       68   59:22.4    Normal     -89.91     40.86   
7        11       74   59:22.5    Normal     -89.74     39.10   
8        20       41   59:22.5    Normal     -93.36     41.69   
9        32       42   59:22.5    Normal     -90.37     35.21   

                     eventKey  CorrelationId       driverName     routeId  \
0   14|25|9223370572464814373   3.660000e+18       Adis Cesir   160405074   
1   18|16|9223370572464814089   3.660000e+18        Grant Liu  1565885487   
2  27|105|9223370572464814070   3.660000e+18  Mark Lo

## Obtención de un subconjunto de columnas

En el siguiente código se obtienen algunas columnas de la tabla `truck_events_subset` para ser almacenadas en una tabla diferente.

In [11]:
specific_columns = truck_events_subset[["driverId", "eventTime", "eventType"]]
specific_columns

   driverId eventTime eventType
0        14   59:21.4    Normal
1        18   59:21.7    Normal
2        27   59:21.7    Normal
3        11   59:21.7    Normal
4        22   59:21.7    Normal
5        22   59:22.3    Normal
6        23   59:22.4    Normal
7        11   59:22.5    Normal
8        20   59:22.5    Normal
9        32   59:22.5    Normal

Un subconjunto tambien puede ser obtenido a partir de la función filter().

In [12]:
#
# Selección usando los nombres de las columnas.
#
truck_events_subset.filter(items=["driverId", "eventTime", "eventType"])

   driverId eventTime eventType
0        14   59:21.4    Normal
1        18   59:21.7    Normal
2        27   59:21.7    Normal
3        11   59:21.7    Normal
4        22   59:21.7    Normal
5        22   59:22.3    Normal
6        23   59:22.4    Normal
7        11   59:22.5    Normal
8        20   59:22.5    Normal
9        32   59:22.5    Normal

In [13]:
#
# Selección de las columnas cuyo nombre termina 
# en 'e'.
#
truck_events_subset.filter(regex='e$', axis=1)

  eventTime eventType  longitude  latitude       driverName  \
0   59:21.4    Normal     -94.58     37.03       Adis Cesir   
1   59:21.7    Normal     -89.66     39.78        Grant Liu   
2   59:21.7    Normal     -90.21     38.65  Mark Lochbihler   
3   59:21.7    Normal     -90.20     38.65   Jamie Engesser   
4   59:21.7    Normal     -90.04     35.19    Nadeem Asghar   
5   59:22.3    Normal     -90.37     35.21    Nadeem Asghar   
6   59:22.4    Normal     -89.91     40.86        Adam Diaz   
7   59:22.5    Normal     -89.74     39.10   Jamie Engesser   
8   59:22.5    Normal     -93.36     41.69     Chris Harris   
9   59:22.5    Normal     -90.37     35.21   Ryan Templeton   

                                routeName      eventDate  
0           Joplin to Kansas City Route 2  2016-05-27-22  
1           Springfield to KC Via Hanibal  2016-05-27-22  
2  Springfield to KC Via Columbia Route 2  2016-05-27-22  
3           Saint Louis to Memphis Route2  2016-05-27-22  
4          

In [14]:
#
# Selección de las columnas que contienen 'ent'
#
truck_events_subset.filter(like='ent', axis=1)

  eventTime eventType                    eventKey      eventDate
0   59:21.4    Normal   14|25|9223370572464814373  2016-05-27-22
1   59:21.7    Normal   18|16|9223370572464814089  2016-05-27-22
2   59:21.7    Normal  27|105|9223370572464814070  2016-05-27-22
3   59:21.7    Normal   11|74|9223370572464814123  2016-05-27-22
4   59:21.7    Normal   22|87|9223370572464814101  2016-05-27-22
5   59:22.3    Normal   22|87|9223370572464813486  2016-05-27-22
6   59:22.4    Normal   23|68|9223370572464813450  2016-05-27-22
7   59:22.5    Normal   11|74|9223370572464813355  2016-05-27-22
8   59:22.5    Normal   20|41|9223370572464813344  2016-05-27-22
9   59:22.5    Normal   32|42|9223370572464813296  2016-05-27-22

## Obtención de un subconjunto de filas y columnas

In [11]:
new_sub_set = truck_events.loc[0:10, ["driverId", "eventTime", "eventType"]]
new_sub_set

    driverId eventTime eventType
0         14   59:21.4    Normal
1         18   59:21.7    Normal
2         27   59:21.7    Normal
3         11   59:21.7    Normal
4         22   59:21.7    Normal
5         22   59:22.3    Normal
6         23   59:22.4    Normal
7         11   59:22.5    Normal
8         20   59:22.5    Normal
9         32   59:22.5    Normal
10        27   59:22.6    Normal

## Obtención de un campo de un registro en particular

In [12]:
truck_events.iloc[1]

driverId                                    18
truckId                                     16
eventTime                              59:21.7
eventType                               Normal
longitude                               -89.66
latitude                                 39.78
eventKey             18|16|9223370572464814089
CorrelationId                         3.66e+18
driverName                           Grant Liu
routeId                             1565885487
routeName        Springfield to KC Via Hanibal
eventDate                        2016-05-27-22
Name: 1, dtype: object

In [13]:
truck_events.iloc[1].eventKey

'18|16|9223370572464814089'

In [14]:
truck_events.iloc[1]["eventKey"]

'18|16|9223370572464814089'

## Escritura de la tabla en el disco

In [15]:
specific_columns.to_csv("/tmp/specific-columns.csv", sep=",", header=True, index=False)

In [16]:
#
# Se visualiza el contenido del directorio
#
!ls /tmp/

specific-columns.csv


In [17]:
#
# Se visualiza la parte final del archivo
#
!cat /tmp/specific-columns.csv

driverId,eventTime,eventType
14,59:21.4,Normal
18,59:21.7,Normal
27,59:21.7,Normal
11,59:21.7,Normal
22,59:21.7,Normal
22,59:22.3,Normal
23,59:22.4,Normal
11,59:22.5,Normal
20,59:22.5,Normal
32,59:22.5,Normal
