# Introduccion a manejo de datos con Pandas

**Pandas** es una librería de manipulación de datos. Es probablemente una de las más extendidas en el campo. 
Se recomienda revisar la página oficial para acceder a la documentación de funcionamiento.
Incluye funciones para la visualización exploratoria de los datos que emplearemos en estos ejercicios.

- Página oficial de documentación: https://pandas.pydata.org/pandas-docs/stable/index.html
- En "10 minutes to pandas" realiza un resumen rápido de las características más importantes (en la asignatura sólo veremos unas pocas): https://pandas.pydata.org/pandas-docs/stable/10min.html

A continuación se muestran ejemplos de las funcionalidades que más se puede necesitar encontrar. Los ejemplos se basan en el tutorial de "10 minutes to pandas".

Adicionalmente, se emplea en algunos apartados la librería **Numpy** (para computación matemática). No se emplea de forma exhaustiva, pero de ser necesario, se puede encontrar la referencia de la misma aquí: https://docs.scipy.org/doc/numpy/reference/

En todos los casos, lo primero que se hace en el script es importar las librerías que se van a emplear:

In [0]:
import pandas as pd #Librería para el manejo de datos en Python. Permite realizar visualizaciones sencillas.
import numpy as np #Librería para computación numérica en Python.

## Crear Objetos de Datos

En pandas emplearemos en estos ejercicios principalmente 2 tipos de estructuras:
 - Series: Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similares a los [diccionarios](https://docs.python.org/2/tutorial/datastructures.html#dictionaries). Pueden generarse a partir de diccionarios o de [listas](https://docs.python.org/2/tutorial/datastructures.html#more-on-lists).
 - DataFrame: Son estructuras de datos similares a las tablas de bases de datos relacionales como SQL. 
 Los DataFrame contienen siempre un índice (que identifica cada entrada / fila) y generalmente varias columnas (identifican cada dato en la(s) entrada(s)). El índice será siempre de tipo 'Serie'. 
 Pueden emplearse índices temporales (timestamps) o índices numéricos.
 
 Una introducción a este tipo de estructuras se recoge aquí: https://pandas.pydata.org/pandas-docs/stable/dsintro.html

In [2]:
# Generacion de una Serie numérica
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [3]:
# Generacion de una Serie temporal
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [4]:
# Generacion de un DataFrame que emplea la serie temporal como índice
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,-0.121563,0.09075,0.111614,-0.03551
2013-01-02,0.386863,0.302264,1.190419,2.285006
2013-01-03,-0.261577,1.224907,0.710806,-1.81421
2013-01-04,1.044745,-0.128365,1.417077,-0.052537
2013-01-05,1.338138,2.107938,-0.395382,1.58906
2013-01-06,-1.263301,-0.742873,0.44341,-1.386831


## Mostrar datos

In [5]:
# X primeros elementos (segun el indice)
df.head(2)

Unnamed: 0,A,B,C,D
2013-01-01,-0.121563,0.09075,0.111614,-0.03551
2013-01-02,0.386863,0.302264,1.190419,2.285006


In [6]:
# X ultimos elementos (segun el indice)
df.tail(2)

Unnamed: 0,A,B,C,D
2013-01-05,1.338138,2.107938,-0.395382,1.58906
2013-01-06,-1.263301,-0.742873,0.44341,-1.386831


In [7]:
# Mostrar índice
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [8]:
# Mostrar valores
df.values

array([[-0.1215634 ,  0.09075049,  0.11161404, -0.03551012],
       [ 0.38686339,  0.30226377,  1.19041902,  2.28500588],
       [-0.26157711,  1.22490655,  0.7108062 , -1.81421003],
       [ 1.04474454, -0.12836531,  1.41707655, -0.05253698],
       [ 1.33813803,  2.10793807, -0.39538157,  1.58905975],
       [-1.26330112, -0.74287282,  0.44341003, -1.38683093]])

In [9]:
# Mostrar columnas
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [10]:
# Breve descripción
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.187217,0.47577,0.579657,0.097496
std,0.948746,1.025046,0.675252,1.606736
min,-1.263301,-0.742873,-0.395382,-1.81421
25%,-0.226574,-0.073586,0.194563,-1.053257
50%,0.13265,0.196507,0.577108,-0.044024
75%,0.880274,0.994246,1.070516,1.182917
max,1.338138,2.107938,1.417077,2.285006


In [11]:
# Ordenar datos en el eje horizontal (columnas)
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-0.03551,0.111614,0.09075,-0.121563
2013-01-02,2.285006,1.190419,0.302264,0.386863
2013-01-03,-1.81421,0.710806,1.224907,-0.261577
2013-01-04,-0.052537,1.417077,-0.128365,1.044745
2013-01-05,1.58906,-0.395382,2.107938,1.338138
2013-01-06,-1.386831,0.44341,-0.742873,-1.263301


In [12]:
# Ordenar datos en el eje vertical (columna B)
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-06,-1.263301,-0.742873,0.44341,-1.386831
2013-01-04,1.044745,-0.128365,1.417077,-0.052537
2013-01-01,-0.121563,0.09075,0.111614,-0.03551
2013-01-02,0.386863,0.302264,1.190419,2.285006
2013-01-03,-0.261577,1.224907,0.710806,-1.81421
2013-01-05,1.338138,2.107938,-0.395382,1.58906


## Selección de datos

Selección de columnas.  
La selección incluye también el índice, si no se indica lo contrario.

In [13]:
df['A']

2013-01-01   -0.121563
2013-01-02    0.386863
2013-01-03   -0.261577
2013-01-04    1.044745
2013-01-05    1.338138
2013-01-06   -1.263301
Freq: D, Name: A, dtype: float64

Para obtener solo los valores de una columna, se deben solicitar éstos

In [14]:
df['A'].values

array([-0.1215634 ,  0.38686339, -0.26157711,  1.04474454,  1.33813803,
       -1.26330112])

In [15]:
df.A

2013-01-01   -0.121563
2013-01-02    0.386863
2013-01-03   -0.261577
2013-01-04    1.044745
2013-01-05    1.338138
2013-01-06   -1.263301
Freq: D, Name: A, dtype: float64

Seleccion de filas (deben ser contigüas en la tabla)

In [16]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,-0.121563,0.09075,0.111614,-0.03551
2013-01-02,0.386863,0.302264,1.190419,2.285006
2013-01-03,-0.261577,1.224907,0.710806,-1.81421


### Selection por Etiquetas

Se puede seleccionar una fila por medio de su indice

In [17]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [18]:
df.loc[dates[0]]

A   -0.121563
B    0.090750
C    0.111614
D   -0.035510
Name: 2013-01-01 00:00:00, dtype: float64

In [19]:
df.loc[:,['A','B']] # Los : significan 'todos los datos en este eje'. En este caso se selecciona 'todas las filas' y 2 columnas

Unnamed: 0,A,B
2013-01-01,-0.121563,0.09075
2013-01-02,0.386863,0.302264
2013-01-03,-0.261577,1.224907
2013-01-04,1.044745,-0.128365
2013-01-05,1.338138,2.107938
2013-01-06,-1.263301,-0.742873


In [20]:
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,0.386863,0.302264
2013-01-03,-0.261577,1.224907
2013-01-04,1.044745,-0.128365


### Seleccion por Posicion

In [21]:
df.iloc[3]

A    1.044745
B   -0.128365
C    1.417077
D   -0.052537
Name: 2013-01-04 00:00:00, dtype: float64

In [22]:
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,1.044745,-0.128365
2013-01-05,1.338138,2.107938


In [23]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,0.386863,0.302264,1.190419,2.285006
2013-01-03,-0.261577,1.224907,0.710806,-1.81421


In [24]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,0.386863,1.190419
2013-01-03,-0.261577,0.710806
2013-01-05,1.338138,-0.395382


## Valores no definidos

Comprobamos cómo se puede trabajar para eliminar / obviar la inclusión de valores no definidos en los conjuntos de datos.

In [25]:
# Se genera un conjunto de datos que incluya no definidos. Por ejemplo incluyendo una nueva columna 'E'

df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Unnamed: 0,A,B,C,D,E
2013-01-01,-0.121563,0.09075,0.111614,-0.03551,1.0
2013-01-02,0.386863,0.302264,1.190419,2.285006,1.0
2013-01-03,-0.261577,1.224907,0.710806,-1.81421,
2013-01-04,1.044745,-0.128365,1.417077,-0.052537,


Podemos realizar varias operaciones:
- Eliminar del conjunto los valores indefinidos
- Incluir un valor por defecto (con cuidado de no variar en exceso el conjunto de datos)

In [26]:
# Eliminación de elementos no definidos
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,E
2013-01-01,-0.121563,0.09075,0.111614,-0.03551,1.0
2013-01-02,0.386863,0.302264,1.190419,2.285006,1.0


In [27]:
# Relleno de elementos
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,E
2013-01-01,-0.121563,0.09075,0.111614,-0.03551,1.0
2013-01-02,0.386863,0.302264,1.190419,2.285006,1.0
2013-01-03,-0.261577,1.224907,0.710806,-1.81421,5.0
2013-01-04,1.044745,-0.128365,1.417077,-0.052537,5.0


In [28]:
# Relleno de la columna 'E' con la media de los valores de esa columna
df1.fillna(value = df1['E'].mean())

Unnamed: 0,A,B,C,D,E
2013-01-01,-0.121563,0.09075,0.111614,-0.03551,1.0
2013-01-02,0.386863,0.302264,1.190419,2.285006,1.0
2013-01-03,-0.261577,1.224907,0.710806,-1.81421,1.0
2013-01-04,1.044745,-0.128365,1.417077,-0.052537,1.0


## Operaciones

### Agrupaciones

In [29]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three',
                          'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
df

Unnamed: 0,A,B,C,D
0,foo,one,0.11219,-0.163551
1,bar,one,0.599325,-0.166225
2,foo,two,-1.091836,-0.339986
3,bar,three,-0.945124,0.75643
4,foo,two,-1.914203,0.799329
5,bar,two,0.551742,-1.120471
6,foo,one,-0.121055,-0.329376
7,foo,three,-2.727514,-0.048251


In [30]:
df.groupby('A').count()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,3,3,3
foo,5,5,5


In [31]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.599325,-0.166225
bar,three,-0.945124,0.75643
bar,two,0.551742,-1.120471
foo,one,-0.008865,-0.492927
foo,three,-2.727514,-0.048251
foo,two,-3.006039,0.459342


### Aplicar Funciones

Se pueden definir al vuelo funciones lambda (anónimas) que se aplican a todas (o un subconjunto) de las columnas de la tabla.   
Resultan muy útiles para obtener campos calculados a partir de los datos originales.

In [32]:
df1.apply(lambda x: x.max() - x.min())

A    1.306322
B    1.353272
C    1.305463
D    4.099216
E    0.000000
dtype: float64

### Mezclas

#### Concatenación (horizontal)

In [33]:
# Se genera un conjunto de datos aleatorio (grande)
df = pd.DataFrame(np.random.randn(10, 4))
df

Unnamed: 0,0,1,2,3
0,-1.142056,-1.271974,-0.448725,-0.631449
1,-1.870928,-0.874934,1.179091,1.16175
2,-0.642096,0.174524,1.241795,-1.1477
3,-1.098905,-0.73956,1.187311,1.321875
4,-0.994478,0.844855,-0.688054,-1.283656
5,-0.817512,0.25615,1.28365,-0.182683
6,-0.654513,-0.984439,-1.117056,-1.642887
7,-0.763017,-0.54812,-0.525425,0.243098
8,-0.989294,-1.974179,0.388451,-0.699945
9,1.206418,-0.283482,-1.121995,0.535862


In [34]:
# Se reparte en varios trozos
pieces = [df[:3], df[3:7], df[7:]]
pieces

[          0         1         2         3
 0 -1.142056 -1.271974 -0.448725 -0.631449
 1 -1.870928 -0.874934  1.179091  1.161750
 2 -0.642096  0.174524  1.241795 -1.147700,
           0         1         2         3
 3 -1.098905 -0.739560  1.187311  1.321875
 4 -0.994478  0.844855 -0.688054 -1.283656
 5 -0.817512  0.256150  1.283650 -0.182683
 6 -0.654513 -0.984439 -1.117056 -1.642887,
           0         1         2         3
 7 -0.763017 -0.548120 -0.525425  0.243098
 8 -0.989294 -1.974179  0.388451 -0.699945
 9  1.206418 -0.283482 -1.121995  0.535862]

In [35]:
# Se constuye otro DataFrame que contiene las piezas concatenadas
df2 = pd.concat(pieces)
df2

Unnamed: 0,0,1,2,3
0,-1.142056,-1.271974,-0.448725,-0.631449
1,-1.870928,-0.874934,1.179091,1.16175
2,-0.642096,0.174524,1.241795,-1.1477
3,-1.098905,-0.73956,1.187311,1.321875
4,-0.994478,0.844855,-0.688054,-1.283656
5,-0.817512,0.25615,1.28365,-0.182683
6,-0.654513,-0.984439,-1.117056,-1.642887
7,-0.763017,-0.54812,-0.525425,0.243098
8,-0.989294,-1.974179,0.388451,-0.699945
9,1.206418,-0.283482,-1.121995,0.535862


In [36]:
# Se puede comprobar que son iguales
df == df2

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True
4,True,True,True,True
5,True,True,True,True
6,True,True,True,True
7,True,True,True,True
8,True,True,True,True
9,True,True,True,True


### Join (vertical)

In [37]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [38]:
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [39]:
# Se mezcla empleando como clave la columna ('key')
# Se generan todos los emparejamientos de los elementos 2 a 2 (al repetirse el valor de 'key')
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


Otro ejemplo:

In [40]:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
left

Unnamed: 0,key,lval
0,foo,1
1,bar,2


In [41]:
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
right

Unnamed: 0,key,rval
0,foo,4
1,bar,5


In [42]:
 pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


## Entrada / Salida en ficheros

### Lectura de datos

In [43]:
df = pd.read_csv('./data/FIFA18_Sample25.csv', index_col=0)
#df = df.drop('Unnamed: 0',axis=1) # Se elimina la 1ª columna, que no incluye información relevante (es el propio indice)
df.head(5)

FileNotFoundError: ignored

### Escritura de datos

In [0]:
df2 = df.iloc[0:5,[0,1,3,5]]
df2

Unnamed: 0,Unnamed: 0.1,Name,Photo,Flag
17020,17020,J. Capacho,https://cdn.sofifa.org/48/18/players/239658.png,https://cdn.sofifa.org/flags/56.png
5979,5979,T. Makino,https://cdn.sofifa.org/48/18/players/194361.png,https://cdn.sofifa.org/flags/163.png
10520,10520,A. Vincent,https://cdn.sofifa.org/48/18/players/227492.png,https://cdn.sofifa.org/flags/18.png
6231,6231,Paulo Daineiro,https://cdn.sofifa.org/48/18/players/236165.png,https://cdn.sofifa.org/flags/54.png
3096,3096,Alex Berenguer,https://cdn.sofifa.org/48/18/players/225201.png,https://cdn.sofifa.org/flags/45.png


In [0]:
df2.to_csv('./First5.csv') # Se puede comprobar que se genera un fichero en formato csv con los datos de df2