# Tutorial de Panda

Pandas es una librería que proporciona estructuras de datos flexibles y permite trabajar con la información de forma eficiente

http://pandas.pydata.org

Pandas ofrece varias estructuras de datos que nos resultarán de mucha utilidad. Todas las posibles estructuras son:

 Series (y TimeSeries), DataFrame, Panel, Panel4D, PanelND

### Series

En una instancia de la clase Series podremos almacenar arrays o vectores con índice o etiqueta, incluso funciones. Si no usamos índice o etiqueta nos lo numerará con un índice de forma interna. La forma básica de crear una Series sería:

In [13]:
import numpy as np #Importamos la librería numpy
import pandas as pd #Importamos la librería pandas


# Ejemplo de serie con índices automáticos
serie = pd.Series(np.random.randn(10))
print(u'Serie con índices automáticos')
print(format(serie))
print(type(serie))

Serie con índices automáticos
0    1.831633
1    1.003166
2   -1.884045
3   -0.405001
4    1.683828
5   -0.157700
6   -0.525094
7   -0.640867
8    1.138279
9    0.211142
dtype: float64
<class 'pandas.core.series.Series'>


En la anterior serie, dejamos que pandas colocara los indices de manera automática, ahora se va a hacer de manera "manual"

In [16]:
# Note que ya no importe ni numpy ni pandas, puesto que ya estan cargadas al entorno. 

serie = pd.Series(np.random.randn(4),
                  index = ['1ro','2do','3ro','4to'])
print(u'Serie con índices definidos')
print(format(serie))

Serie con índices definidos
1ro   -1.136332
2do   -0.063574
3ro    1.803323
4to    1.257083
dtype: float64
<class 'pandas.core.series.Series'>


En el siguiente ejemplo vamos a usar fechas para los indices

In [17]:
# serie(serie temporal) con índices que son fechas
serie = pd.Series(np.random.randn(31),
                  index = pd.date_range('2016/10/15', periods = 31))
print(u'Serie temporal con índices de fechas')
print(serie)

Serie temporal con índices de fechas
2016-10-15    0.252587
2016-10-16   -0.220168
2016-10-17   -0.262677
2016-10-18   -0.267347
2016-10-19    0.559145
2016-10-20    0.937291
2016-10-21   -0.685493
2016-10-22   -0.947191
2016-10-23    0.961502
2016-10-24    0.178869
2016-10-25    0.598649
2016-10-26   -2.165758
2016-10-27   -1.347345
2016-10-28   -1.967871
2016-10-29    0.393055
2016-10-30   -0.529388
2016-10-31    1.316892
2016-11-01   -0.923217
2016-11-02    0.478994
2016-11-03    1.671387
2016-11-04   -0.363334
2016-11-05   -0.171606
2016-11-06   -0.590254
2016-11-07   -1.295299
2016-11-08   -0.965223
2016-11-09    0.502541
2016-11-10    0.609455
2016-11-11    0.211901
2016-11-12   -0.553484
2016-11-13    1.271707
2016-11-14   -1.418531
Freq: D, dtype: float64


Como se dijo anteriormente una serie puede ser hecha de cualquier cosa

In [24]:
serie_lista = pd.Series([i*i for i in range(10)])
print('Serie a partir de una lista')
print(serie_lista)
print('__________________________________________________')

dicc = {'cuadrado de {}'.format(i) : i*i for i in range(10)}
serie_dicc = pd.Series(dicc)
print('Serie a partir de un diccionario')
print(serie_dicc)
print('__________________________________________________')

serie_serie = pd.Series(serie_dicc.values)
print('Serie a partir de los valores de otra (pandas)serie ')
print(serie_serie)
print('__________________________________________________')
serie_cte = pd.Series(-1234, index = np.arange(10))
print('Serie a partir de un valor constante')
print(serie_cte)

Serie a partir de una lista
0     0
1     1
2     4
3     9
4    16
5    25
6    36
7    49
8    64
9    81
dtype: int64
__________________________________________________
Serie a partir de un diccionario
cuadrado de 0     0
cuadrado de 1     1
cuadrado de 2     4
cuadrado de 3     9
cuadrado de 4    16
cuadrado de 5    25
cuadrado de 6    36
cuadrado de 7    49
cuadrado de 8    64
cuadrado de 9    81
dtype: int64
__________________________________________________
Serie a partir de los valores de otra (pandas)serie 
0     0
1     1
2     4
3     9
4    16
5    25
6    36
7    49
8    64
9    81
dtype: int64
__________________________________________________
Serie a partir de un valor constante
0   -1234
1   -1234
2   -1234
3   -1234
4   -1234
5   -1234
6   -1234
7   -1234
8   -1234
9   -1234
dtype: int64


Podemos llamar los elementos de las series como si fuera un diccionario o un arreglo


In [33]:
print(serie_dicc['cuadrado de 5'])
print(serie_lista[9])

25
81


Las operaciones están 'vectorizadas' y se hacen elemento a elemento con los elementos alineados en función del índice. Si se hace, por ejemplo, una suma de dos series, si en una de las dos series no existe un elemento, entonces el resultado para ese índice será nan.

In [35]:
X= pd.Series([i*i for i in range(10)])
Y= pd.Series([j+j for j in range(8)])
print(X+Y)

0     0.0
1     3.0
2     8.0
3    15.0
4    24.0
5    35.0
6    48.0
7    63.0
8     NaN
9     NaN
dtype: float64


### DataFrame

Un DataFrame se puede ver como si fuera una tabla con índices para las filas y las columnas

In [44]:
# cada columna es separada por comas
df_lista = pd.DataFrame({'a': [11,12,13], 'b': [21,22,23]})
print('DataFrame a partir de un diccionario de listas')
print(df_lista)

DataFrame a partir de un diccionario de listas
    a   b
0  11  21
1  12  22
2  13  23


También se pueden generar a partit de otras estructuras de python

In [41]:
df_np = pd.DataFrame({'a': np.arange(3)**2, 'b': np.random.randn(3)})
print('DataFrame a partir de un diccionario de un ndarrays')
print(df_np)

DataFrame a partir de un diccionario de un ndarrays
   a         b
0  0 -0.217069
1  1  0.257260
2  4  0.151527


In [53]:
df_np2D = pd.DataFrame(np.empty((5,3)),index = ['primero','segundo','tercero','cuarto','quinto'],columns = ['velocidad', 'temperatura','presion'])
print('DataFrame a partir de un 2D ndarray')
print(df_np2D)

DataFrame a partir de un 2D ndarray
         velocidad  temperatura  presion
primero        0.0          0.0      0.0
segundo        0.0          0.0      0.0
tercero        0.0          0.0      0.0
cuarto         0.0          0.0      0.0
quinto         0.0          0.0      0.0


In [54]:
df_df = pd.DataFrame(df_np2D, index = ['primero','segundo','tercero'])
df_df.index = ['first','second','third']
print('DataFrame a partir de los valores de otro (pandas)DataFrame')
print(df_df)

DataFrame a partir de los valores de otro (pandas)DataFrame
        velocidad  temperatura  presion
first         0.0          0.0      0.0
second        0.0          0.0      0.0
third         0.0          0.0      0.0


## Lectura y Escritura de Archivos


Pandas es capaz de leer datos de ficheros csv, excel, HDF5, sql, json, html,...

Para practicar los datos descargados de esta pagina
http://www.sample-videos.com/download-sample-csv.php

In [65]:
os.listdir()

['.ipynb_checkpoints',
 'new_func.py',
 'Pandas.ipynb',
 'registrations_oct-22.xlsx',
 'Repaso-Algoritmos_y_Programacion.ipynb',
 'resultado.txt',
 'Untitled.ipynb',
 '__pycache__']

In [104]:
xl = pd.ExcelFile("registrations_oct-22.xlsx")

Aquí lo que se hizo fué cargar los datos del archivo excel en el objeto x1, lo siguiente es ver cuales hojas tiene (en este caso 1)

In [105]:
xl.sheet_names

['Sheet1']

Ahora cargo los datos de la hoja, y muestro la cabecera

In [106]:
df = xl.parse("Sheet1")
df.head()

Unnamed: 0,ID,Name,Title,First Name,Last Name,Email Address,Affiliation,Position,Country,Contribution_type,Contribution abstract,Contribution title,Funding support,Address,Phone Number,Registration date,Registration state
0,33,Alexis Aguirre,,Alexis,Aguirre,alejoda67@hotmail.com,Universidad de Nariño,,Colombia,Poster,Se presenta un tratamiento canónico de la ecua...,Tratamiento canónico de la ecuación de Proca,Yes,,,"30 Aug 2016, 23:36",Completed
1,7,Aftab Ahmad,Dr.,Aftab,Ahmad,aftab.gu@gmail.com,"Department of Physics, Gomal University, Pakis...","Lecturer (Gomal University, Pakistan) and rese...",Pakistan,Talk,We evaluate the impact of an external magnetic...,Inverse magnetic catalysis and confinement wit...,Yes,,,"1 Jul 2016, 18:52",Completed
2,13,Heisman Duvolfan Arcila Arboleda,Mr.,Heisman Duvolfan,Arcila Arboleda,heisman.arcila@udea.edu.co,Universidad de Antioquia,student,Colombia,,,,Yes,,,"28 Jul 2016, 22:01",Completed
3,37,Danilo Alejandro Arturo Rodríguez,Mr.,Danilo Alejandro,Arturo Rodríguez,danilolead1109@gmail.com,Universidad de Nariño,Student,Colombia,,.,,Yes,,,"9 Sep 2016, 17:03",Completed
4,72,Diego Barón,Mr.,Diego,Barón,diegoa_baronm@hotmail.com,Universidad de Antioquia,Cathedra Proffesor,Colombia,Poster,In our work we show how to calculate the Sagna...,Sagnac Effect with path integrals.,Yes,,,"20 Oct 2016, 22:29",Completed


De acá en adelante pueden seguir explorando, utilizando el operador "." sobre el objeto Hoja, o sobre el objeto excel. Por ejemplo leer la columna Contribution_type para ver cuales de ellos son presentan poster.

In [107]:
indice=[] #Para guardar los indices de los estudiantes
for i in range(df.Contribution_type.first_valid_index(),df.Contribution_type.last_valid_index()):
    if df.Contribution_type.get_value(i) == "Poster":
        indice.append(i)
    

### Actividad 

1) De los asistentes que presentan poster, cuales son los nombres de los que vivien en Colombia?

2) y cuantos asistentes Colombianos con poster piden ayuda.

Podemos guardar en otro archivo lo que queramos usando el operador ".to_excel", hay muchas otras posibilidades.

In [109]:
df.to_excel('Titulo.xlsx')

## Utilidades Generales 

Generemos un set de datos aleatorio de prueba

In [114]:
df = pd.DataFrame(np.random.randn(5,3),
                       index = ['primero','segundo','tercero','cuarto','quinto'],
                       columns = ['velocidad', 'temperatura','presion'])
print(df)


         velocidad  temperatura   presion
primero  -0.767273     1.061980 -0.657995
segundo   1.093620     0.500940 -2.163514
tercero  -0.705949     0.063516 -0.316575
cuarto   -0.033902     0.588237  0.292650
quinto    0.406155    -1.425972 -1.358436


A estos datos podemos adicionar, una columna.

In [115]:
df['velocidad_maxima'] = np.random.randn(df.shape[0])
print(df)

         velocidad  temperatura   presion  velocidad_maxima
primero  -0.767273     1.061980 -0.657995         -1.535681
segundo   1.093620     0.500940 -2.163514         -0.609931
tercero  -0.705949     0.063516 -0.316575         -0.355511
cuarto   -0.033902     0.588237  0.292650          0.614520
quinto    0.406155    -1.425972 -1.358436         -0.076098


In [116]:
#Guardamos la columna en una variable, y luego la borramos del arreglo
columna = df['velocidad_maxima']
del df['velocidad_maxima']

Ahora la incertamos en la posición que quiero

In [117]:
df.insert(1, 'velocidad_maxima', columna)
print(df)

         velocidad  velocidad_maxima  temperatura   presion
primero  -0.767273         -1.535681     1.061980 -0.657995
segundo   1.093620         -0.609931     0.500940 -2.163514
tercero  -0.705949         -0.355511     0.063516 -0.316575
cuarto   -0.033902          0.614520     0.588237  0.292650
quinto    0.406155         -0.076098    -1.425972 -1.358436


Para que sirven estos comandos:

1) df.ix['tercero':'quinto']

2) df.xs('tercero')

3) df[df['temperatura' > 0]['velocidad']

4) Investiguen los métodos .loc(), .iloc(), .select()