# Operaciones básicas con Pandas

* *60 min* | Última modificación: Junio 22, 2019.

Este tutorial esta basado en https://es.hortonworks.com/tutorial/beginners-guide-to-apache-pig/

En este tutorial se ejemplifica: 

* La carga de datos. 

* La selección básica de datos.

* La exportación de resultados.

## Preparación

In [1]:
## importa la librería
import pandas as pd
import numpy as np

pd.set_option("display.notebook_repr_html", False)

## Carga de los datos de los eventos de los conductores

En el siguiente código se crea crea un DataFrame de eventos de los conductores en el sistema.

In [2]:
truck_events = pd.read_csv(
    "https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/drivers/truck_event_text_partition.csv",
    sep=",",  # separador de campos
    thousands=None,  #  separador de miles para números
    decimal=".",
)  #  separador de los decimales para números

Se verifican las propiedades de la tabla después de la carga de datos.

In [3]:
len(truck_events)

17075

In [4]:
truck_events.columns

Index(['driverId', 'truckId', 'eventTime', 'eventType', 'longitude',
       'latitude', 'eventKey', 'CorrelationId', 'driverName', 'routeId',
       'routeName', 'eventDate'],
      dtype='object')

In [5]:
truck_events.describe()

           driverId       truckId     longitude      latitude  CorrelationId  \
count  17075.000000  17075.000000  17075.000000  17075.000000   1.707500e+04   
mean      21.043104     55.424480    -91.798316     38.846300   5.373716e+17   
std        6.612549     28.936049      2.236992      2.378946   1.295419e+18   
min       10.000000     10.000000    -97.370000     34.750000   1.000000e+03   
25%       15.000000     27.000000    -93.580000     37.030000   1.000000e+03   
50%       21.000000     55.000000    -91.380000     38.970000   1.000000e+03   
75%       27.000000     81.000000    -90.150000     41.540000   1.000000e+03   
max       32.000000    109.000000    -87.660000     42.250000   3.660000e+18   

            routeId  
count  1.707500e+04  
mean   1.034766e+09  
std    6.233880e+08  
min    2.492948e+07  
25%    3.711828e+08  
50%    1.198243e+09  
75%    1.565885e+09  
max    1.962262e+09  

## Visualización de datos

In [6]:
truck_events.head(10)

   driverId  truckId eventTime eventType  longitude  latitude  \
0        14       25   59:21.4    Normal     -94.58     37.03   
1        18       16   59:21.7    Normal     -89.66     39.78   
2        27      105   59:21.7    Normal     -90.21     38.65   
3        11       74   59:21.7    Normal     -90.20     38.65   
4        22       87   59:21.7    Normal     -90.04     35.19   
5        22       87   59:22.3    Normal     -90.37     35.21   
6        23       68   59:22.4    Normal     -89.91     40.86   
7        11       74   59:22.5    Normal     -89.74     39.10   
8        20       41   59:22.5    Normal     -93.36     41.69   
9        32       42   59:22.5    Normal     -90.37     35.21   

                     eventKey  CorrelationId       driverName     routeId  \
0   14|25|9223370572464814373   3.660000e+18       Adis Cesir   160405074   
1   18|16|9223370572464814089   3.660000e+18        Grant Liu  1565885487   
2  27|105|9223370572464814070   3.660000e+18  Mark Lo

## Obtención de un subconjunto de registros

En hive es posible un subconjunto de datos y almacenarlo en una nueva tabla a partir de una consulta que permita obtener los datos deseados. En el siguiente código, se crea la tabla `truck_events_subset` con los primeros 100 registros de la tabla `truck_events`.

In [7]:
truck_events_subset = truck_events[0:10]
truck_events_subset

   driverId  truckId eventTime eventType  longitude  latitude  \
0        14       25   59:21.4    Normal     -94.58     37.03   
1        18       16   59:21.7    Normal     -89.66     39.78   
2        27      105   59:21.7    Normal     -90.21     38.65   
3        11       74   59:21.7    Normal     -90.20     38.65   
4        22       87   59:21.7    Normal     -90.04     35.19   
5        22       87   59:22.3    Normal     -90.37     35.21   
6        23       68   59:22.4    Normal     -89.91     40.86   
7        11       74   59:22.5    Normal     -89.74     39.10   
8        20       41   59:22.5    Normal     -93.36     41.69   
9        32       42   59:22.5    Normal     -90.37     35.21   

                     eventKey  CorrelationId       driverName     routeId  \
0   14|25|9223370572464814373   3.660000e+18       Adis Cesir   160405074   
1   18|16|9223370572464814089   3.660000e+18        Grant Liu  1565885487   
2  27|105|9223370572464814070   3.660000e+18  Mark Lo

## Obtención de un subconjunto de columnas

En el siguiente código se obtienen algunas columnas de la tabla `truck_events_subset` para ser almacenadas en una tabla diferente.

In [8]:
specific_columns = truck_events_subset[["driverId", "eventTime", "eventType"]]
specific_columns

   driverId eventTime eventType
0        14   59:21.4    Normal
1        18   59:21.7    Normal
2        27   59:21.7    Normal
3        11   59:21.7    Normal
4        22   59:21.7    Normal
5        22   59:22.3    Normal
6        23   59:22.4    Normal
7        11   59:22.5    Normal
8        20   59:22.5    Normal
9        32   59:22.5    Normal

## Obtención de un subconjunto de filas y columnas

In [9]:
new_sub_set = truck_events.loc[0:10, ["driverId", "eventTime", "eventType"]]
new_sub_set

    driverId eventTime eventType
0         14   59:21.4    Normal
1         18   59:21.7    Normal
2         27   59:21.7    Normal
3         11   59:21.7    Normal
4         22   59:21.7    Normal
5         22   59:22.3    Normal
6         23   59:22.4    Normal
7         11   59:22.5    Normal
8         20   59:22.5    Normal
9         32   59:22.5    Normal
10        27   59:22.6    Normal

## Obtención de un campo de un registro en particular

In [10]:
truck_events.iloc[1]

driverId                                    18
truckId                                     16
eventTime                              59:21.7
eventType                               Normal
longitude                               -89.66
latitude                                 39.78
eventKey             18|16|9223370572464814089
CorrelationId                         3.66e+18
driverName                           Grant Liu
routeId                             1565885487
routeName        Springfield to KC Via Hanibal
eventDate                        2016-05-27-22
Name: 1, dtype: object

In [11]:
truck_events.iloc[1].eventKey

'18|16|9223370572464814089'

In [12]:
truck_events.iloc[1]["eventKey"]

'18|16|9223370572464814089'

## Escritura de la tabla en el disco

Seguidamente, se procede a escribir el contenido de la tabla en el directorio `tmp/` de la carpeta actual.

In [13]:
!mkdir -p tmp

In [14]:
specific_columns.to_csv("tmp/specific-columns.csv", sep=",", header=True, index=False)

In [15]:
##
## Se visualiza el contenido del directorio
##
!ls tmp/

specific-columns.csv


In [16]:
##
## Se visualiza la parte final del archivo
##
!cat tmp/specific-columns.csv

driverId,eventTime,eventType
14,59:21.4,Normal
18,59:21.7,Normal
27,59:21.7,Normal
11,59:21.7,Normal
22,59:21.7,Normal
22,59:22.3,Normal
23,59:22.4,Normal
11,59:22.5,Normal
20,59:22.5,Normal
32,59:22.5,Normal


---

In [17]:
!rm -rf tmp/