# Utilizando archivos de datos del CMS en formato CSV en Jupyter

Los datos recolectados por el detector CMS pueden ser manipulados en muchos formatos de archivo diferentes. Una manera fácil de manipular datos es en archivos CSV (comma-separated values: valores separados por comas). Un archivo CSV es básicamente un archivo regular de texto que incluye valores separados por comas y líneas. 

### Leyendo el archivo CSV

Los archivos CSV pueden ser leídos, por ejemplo, con la función _read_\__csv( )_ del módulo _pandas_. Vamos a leer el archivo _Zmumu_\__Run2011A.csv_ que está en el folder _Data_. Vamos a guardar el contenido del archivo a la variable  _dataset_.

En el archivo que estamos usando han sido seleccionados eventos del set de datos primario del CMS [1] con criterios específicos [2]. 

<br>
<br>
<br>
[1] CMS collaboration (2016). DoubleMu primary dataset in AOD format from RunA of 2011 (/DoubleMu/Run2011A-12Oct2013-v1/AOD). CERN Open Data Portal. DOI: [10.7483/OPENDATA.CMS.RZ34.QR6N](http://doi.org/10.7483/OPENDATA.CMS.RZ34.QR6N).
<br>
[2] Thomas McCauley (2016). Jpsimumu. Jupyter Notebook file. https://github.com/tpmccauley/cmsopendata-jupyter/blob/hst-0.1/Jpsimumu.ipynb.

In [1]:
import pandas

dataset = pandas.read_csv('Datos/Zmumu_Run2011A.csv')

Podemos revisar qué información incluye el archivo que leímos. Vamos a usar el comando _head( )_ del módulo _pandas_ el cual muestra las primeras cinco líneas de la variable escrita antes del comando ([pandas documentation](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.head.html)).

In [2]:
dataset.head()

Unnamed: 0,Run,Event,pt1,eta1,phi1,Q1,dxy1,iso1,pt2,eta2,phi2,Q2,dxy2,iso2
0,165617,74969122,54.7055,-0.432396,2.57421,1,-0.074544,0.499921,34.2464,-0.98848,-0.498704,-1,0.071222,3.42214
1,165617,75138253,24.5872,-2.0522,2.86657,-1,-0.055437,0.0,28.5389,0.385163,-1.99117,1,0.051477,0.0
2,165617,75887636,31.7386,-2.25945,-1.33229,-1,0.087917,0.0,30.2344,-0.468419,1.88331,1,-0.087639,0.0
3,165617,75779415,39.7394,-0.712338,-0.312266,1,0.058481,0.0,48.279,-0.195625,2.97032,-1,-0.049201,0.0
4,165617,75098104,41.2998,-0.157055,-3.04077,1,-0.030463,1.22804,43.4508,0.590958,-0.042756,-1,0.044175,0.0


<br>
Observe que hay más lineas en la variable _dataset_ que las cinco que hemos mostrado. Podemos revisar el número de líneas con la función _len( )_ que nos dice el tamaño de la variable que se le pasa como argumento. 


In [3]:
len(dataset)

10583

### Observando y seleccionando los valores

Del punto anterior podemos ver que el contenido del archivo que hemos leído fue salvado a la tabla (DataFrame tabular data structure). Las líneas de la tabla representan diferentes eventos de colisión y las columnas incluyen diferentes valores que han sido guardados para cada evento. Algunos de estos valores son medidos por el detector y otros han sido calculados con la ayuda de otros valores medidos.

Valores en la tabla pueden ser accesados utilizando el módulo _pandas_. Por ejemplo, los datos que estamos utilizando incluye la carga de dos muones marcada como _Q1_ y _Q2_. Podemos seleccionar la carga del primer muon para todos los eventos escribiendo lo siguiente:

In [4]:
dataset['Q1']

0        1
1       -1
2       -1
3        1
4        1
5       -1
6       -1
7       -1
8        1
9       -1
10      -1
11       1
12       1
13      -1
14       1
15      -1
16       1
17      -1
18       1
19       1
20      -1
21       1
22      -1
23      -1
24       1
25       1
26       1
27       1
28      -1
29       1
        ..
10553    1
10554   -1
10555    1
10556   -1
10557   -1
10558   -1
10559    1
10560    1
10561   -1
10562    1
10563    1
10564    1
10565    1
10566   -1
10567   -1
10568   -1
10569   -1
10570   -1
10571    1
10572   -1
10573    1
10574    1
10575   -1
10576    1
10577    1
10578   -1
10579    1
10580   -1
10581    1
10582    1
Name: Q1, dtype: int64

Se imprimieron los valores de la columna _Q1_ de la variable _dataset_. Por supuesto, no todos los valores serán mostrados (hay más de 10000 de ellos). 

Los números a la izquierda dan el índice o número de la línea y los números a la derecha son los valores de la carga. Reemplazando el valor _Q1_ en el código es posible seleccionar cualquier columna de la variable _dataset_ (por ejemplo, _pt1_, _eta1_, _phi2_, ...).

Si por ejemplo, queremos seleccionar solo los primeros diez valores de la carga, puede hacerse usando el método _.ix_. En el método los corchetes primero incluyen los índices de las líneas que se quiere seleccionar (líneas 0-10) y luego de eso el nombre de la columna de donde las líneas se van a seleccionar (_Q1_). 

In [5]:
dataset.ix[0:10, 'Q1']

0     1
1    -1
2    -1
3     1
4     1
5    -1
6    -1
7    -1
8     1
9    -1
10   -1
Name: Q1, dtype: int64

### Otras notas

- Hay también otras opciones para seleccionar los valores. Por ejemplo el siguiente link incluye otras posibilidades del módulo _pandas_:  [Stack Overflow link](http://stackoverflow.com/questions/31593201/pandas-iloc-vs-ix-vs-loc-explanation). Los archivos CSV también pueden ser leídos utilizando otros módulos o librerias. There are also other options for selecting the values.
- Hay que notar que diferentes archivos CSV incluyen diferentes datos dependiendo del tipo de eventos de colisión desde el cual el archivo fue creado. Siempre se puede revisar el contenido del archivo abriéndolo en Jupyter o en un editor de texto. 