# Introduccion a manejo de datos con Pandas

**Pandas** es una librería de manipulación de datos. Es probablemente una de las más extendidas en el campo. 
Se recomienda revisar la página oficial para acceder a la documentación de funcionamiento.
Incluye funciones para la visualización exploratoria de los datos que emplearemos en estos ejercicios.

- Página oficial de documentación: https://pandas.pydata.org/pandas-docs/stable/index.html
- En "10 minutes to pandas" realiza un resumen rápido de las características más importantes (en la asignatura sólo veremos unas pocas): https://pandas.pydata.org/pandas-docs/stable/10min.html

A continuación se muestran ejemplos de las funcionalidades que más se puede necesitar encontrar. Los ejemplos se basan en el tutorial de "10 minutes to pandas".

Adicionalmente, se emplea en algunos apartados la librería **Numpy** (para computación matemática). No se emplea de forma exhaustiva, pero de ser necesario, se puede encontrar la referencia de la misma aquí: https://docs.scipy.org/doc/numpy/reference/

En todos los casos, lo primero que se hace en el script es importar las librerías que se van a emplear:

In [0]:
import pandas as pd #Librería para el manejo de datos en Python. Permite realizar visualizaciones sencillas.
import numpy as np #Librería para computación numérica en Python.

## Crear Objetos de Datos

En pandas emplearemos en estos ejercicios principalmente 2 tipos de estructuras:
 - Series: Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similares a los [diccionarios](https://docs.python.org/2/tutorial/datastructures.html#dictionaries). Pueden generarse a partir de diccionarios o de [listas](https://docs.python.org/2/tutorial/datastructures.html#more-on-lists).
 - DataFrame: Son estructuras de datos similares a las tablas de bases de datos relacionales como SQL. 
 Los DataFrame contienen siempre un índice (que identifica cada entrada / fila) y generalmente varias columnas (identifican cada dato en la(s) entrada(s)). El índice será siempre de tipo 'Serie'. 
 Pueden emplearse índices temporales (timestamps) o índices numéricos.
 
 Una introducción a este tipo de estructuras se recoge aquí: https://pandas.pydata.org/pandas-docs/stable/dsintro.html

In [0]:
# Generacion de una Serie numérica
s = pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [0]:
# Generacion de una Serie temporal
dates = pd.date_range('20130101', periods=6)
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [0]:
# Generacion de un DataFrame que emplea la serie temporal como índice
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2013-01-01,0.407875,0.613833,1.085321,-1.059496
2013-01-02,-0.703462,1.084399,-1.808749,1.125869
2013-01-03,-1.047285,1.387736,-0.810255,-1.027657
2013-01-04,-0.331057,-0.006956,-1.045402,-0.369908
2013-01-05,0.356486,0.545373,-1.177599,-0.238338
2013-01-06,0.536877,-0.592833,-0.199576,-0.337726


## Mostrar datos

In [0]:
# X primeros elementos (segun el indice)
df.head(2)

Unnamed: 0,A,B,C,D
2013-01-01,0.407875,0.613833,1.085321,-1.059496
2013-01-02,-0.703462,1.084399,-1.808749,1.125869


In [0]:
# X ultimos elementos (segun el indice)
df.tail(2)

Unnamed: 0,A,B,C,D
2013-01-05,0.356486,0.545373,-1.177599,-0.238338
2013-01-06,0.536877,-0.592833,-0.199576,-0.337726


In [0]:
# Mostrar índice
df.index

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [0]:
# Mostrar valores
df.values

array([[ 0.40787468,  0.613833  ,  1.08532087, -1.05949616],
       [-0.70346214,  1.08439914, -1.80874856,  1.1258693 ],
       [-1.04728454,  1.38773597, -0.81025549, -1.02765696],
       [-0.33105694, -0.00695613, -1.04540215, -0.36990799],
       [ 0.35648603,  0.54537292, -1.17759889, -0.23833799],
       [ 0.53687652, -0.59283282, -0.1995763 , -0.33772583]])

In [0]:
# Mostrar columnas
df.columns

# Mostrar columnas
df.columns

In [0]:
# Breve descripción
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,-0.130094,0.505259,-0.659377,-0.317876
std,0.660514,0.720519,1.001676,0.793425
min,-1.047285,-0.592833,-1.808749,-1.059496
25%,-0.610361,0.131126,-1.14455,-0.86322
50%,0.012715,0.579603,-0.927829,-0.353817
75%,0.395028,0.966758,-0.352246,-0.263185
max,0.536877,1.387736,1.085321,1.125869


In [0]:
# Ordenar datos en el eje horizontal (columnas)
df.sort_index(axis=1, ascending=False)

Unnamed: 0,D,C,B,A
2013-01-01,-1.059496,1.085321,0.613833,0.407875
2013-01-02,1.125869,-1.808749,1.084399,-0.703462
2013-01-03,-1.027657,-0.810255,1.387736,-1.047285
2013-01-04,-0.369908,-1.045402,-0.006956,-0.331057
2013-01-05,-0.238338,-1.177599,0.545373,0.356486
2013-01-06,-0.337726,-0.199576,-0.592833,0.536877


In [0]:
# Ordenar datos en el eje vertical (columna B)
df.sort_values(by='B')

Unnamed: 0,A,B,C,D
2013-01-06,0.536877,-0.592833,-0.199576,-0.337726
2013-01-04,-0.331057,-0.006956,-1.045402,-0.369908
2013-01-05,0.356486,0.545373,-1.177599,-0.238338
2013-01-01,0.407875,0.613833,1.085321,-1.059496
2013-01-02,-0.703462,1.084399,-1.808749,1.125869
2013-01-03,-1.047285,1.387736,-0.810255,-1.027657


## Selección de datos

Selección de columnas.  
La selección incluye también el índice, si no se indica lo contrario.

In [0]:
df['A']

2013-01-01    0.407875
2013-01-02   -0.703462
2013-01-03   -1.047285
2013-01-04   -0.331057
2013-01-05    0.356486
2013-01-06    0.536877
Freq: D, Name: A, dtype: float64

Para obtener solo los valores de una columna, se deben solicitar éstos

In [0]:
df['A'].values

array([ 0.40787468, -0.70346214, -1.04728454, -0.33105694,  0.35648603,
        0.53687652])

In [0]:
df.A

2013-01-01    0.407875
2013-01-02   -0.703462
2013-01-03   -1.047285
2013-01-04   -0.331057
2013-01-05    0.356486
2013-01-06    0.536877
Freq: D, Name: A, dtype: float64

Seleccion de filas (deben ser contigüas en la tabla)

In [0]:
df[0:3]

Unnamed: 0,A,B,C,D
2013-01-01,0.407875,0.613833,1.085321,-1.059496
2013-01-02,-0.703462,1.084399,-1.808749,1.125869
2013-01-03,-1.047285,1.387736,-0.810255,-1.027657


### Selection por Etiquetas

Se puede seleccionar una fila por medio de su indice

In [0]:
dates

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [0]:
df.loc[dates[0]]

A    0.407875
B    0.613833
C    1.085321
D   -1.059496
Name: 2013-01-01 00:00:00, dtype: float64

In [0]:
df.loc[:,['A','B']] # Los : significan 'todos los datos en este eje'. En este caso se selecciona 'todas las filas' y 2 columnas

Unnamed: 0,A,B
2013-01-01,0.407875,0.613833
2013-01-02,-0.703462,1.084399
2013-01-03,-1.047285,1.387736
2013-01-04,-0.331057,-0.006956
2013-01-05,0.356486,0.545373
2013-01-06,0.536877,-0.592833


In [0]:
df.loc['20130102':'20130104',['A','B']]

Unnamed: 0,A,B
2013-01-02,-0.703462,1.084399
2013-01-03,-1.047285,1.387736
2013-01-04,-0.331057,-0.006956


### Seleccion por Posicion

In [0]:
df.iloc[3]

A   -0.331057
B   -0.006956
C   -1.045402
D   -0.369908
Name: 2013-01-04 00:00:00, dtype: float64

In [0]:
df.iloc[3:5,0:2]

Unnamed: 0,A,B
2013-01-04,-0.331057,-0.006956
2013-01-05,0.356486,0.545373


In [0]:
df.iloc[1:3,:]

Unnamed: 0,A,B,C,D
2013-01-02,-0.703462,1.084399,-1.808749,1.125869
2013-01-03,-1.047285,1.387736,-0.810255,-1.027657


In [0]:
df.iloc[[1,2,4],[0,2]]

Unnamed: 0,A,C
2013-01-02,-0.703462,-1.808749
2013-01-03,-1.047285,-0.810255
2013-01-05,0.356486,-1.177599


## Valores no definidos

Comprobamos cómo se puede trabajar para eliminar / obviar la inclusión de valores no definidos en los conjuntos de datos.

In [0]:
# Se genera un conjunto de datos que incluya no definidos. Por ejemplo incluyendo una nueva columna 'E'

df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1],'E'] = 1
df1

Unnamed: 0,A,B,C,D,E
2013-01-01,0.407875,0.613833,1.085321,-1.059496,1.0
2013-01-02,-0.703462,1.084399,-1.808749,1.125869,1.0
2013-01-03,-1.047285,1.387736,-0.810255,-1.027657,
2013-01-04,-0.331057,-0.006956,-1.045402,-0.369908,


Podemos realizar varias operaciones:
- Eliminar del conjunto los valores indefinidos
- Incluir un valor por defecto (con cuidado de no variar en exceso el conjunto de datos)

In [0]:
# Eliminación de elementos no definidos
df1.dropna(how='any')

Unnamed: 0,A,B,C,D,E
2013-01-01,0.407875,0.613833,1.085321,-1.059496,1.0
2013-01-02,-0.703462,1.084399,-1.808749,1.125869,1.0


In [0]:
# Relleno de elementos
df1.fillna(value=5)

Unnamed: 0,A,B,C,D,E
2013-01-01,0.407875,0.613833,1.085321,-1.059496,1.0
2013-01-02,-0.703462,1.084399,-1.808749,1.125869,1.0
2013-01-03,-1.047285,1.387736,-0.810255,-1.027657,5.0
2013-01-04,-0.331057,-0.006956,-1.045402,-0.369908,5.0


In [0]:
# Relleno de la columna 'E' con la media de los valores de esa columna
df1.fillna(value = df1['E'].mean())

Unnamed: 0,A,B,C,D,E
2013-01-01,0.407875,0.613833,1.085321,-1.059496,1.0
2013-01-02,-0.703462,1.084399,-1.808749,1.125869,1.0
2013-01-03,-1.047285,1.387736,-0.810255,-1.027657,1.0
2013-01-04,-0.331057,-0.006956,-1.045402,-0.369908,1.0


## Operaciones

### Agrupaciones

In [0]:
df = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                          'foo', 'bar', 'foo', 'foo'],
                   'B' : ['one', 'one', 'two', 'three',
                          'two', 'two', 'one', 'three'],
                   'C' : np.random.randn(8),
                   'D' : np.random.randn(8)})
df

Unnamed: 0,A,B,C,D
0,foo,one,0.220983,1.026264
1,bar,one,-1.311326,0.241693
2,foo,two,-1.702331,0.26746
3,bar,three,0.041153,-1.294492
4,foo,two,0.201829,0.566725
5,bar,two,-0.021131,0.104485
6,foo,one,-0.075704,-0.170614
7,foo,three,-1.284916,-0.050867


In [0]:
df.groupby('A').count()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,3,3,3
foo,5,5,5


In [0]:
df.groupby(['A','B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-1.311326,0.241693
bar,three,0.041153,-1.294492
bar,two,-0.021131,0.104485
foo,one,0.145279,0.855649
foo,three,-1.284916,-0.050867
foo,two,-1.500502,0.834184


### Aplicar Funciones

Se pueden definir al vuelo funciones lambda (anónimas) que se aplican a todas (o un subconjunto) de las columnas de la tabla.   
Resultan muy útiles para obtener campos calculados a partir de los datos originales.

In [0]:
df1.apply(lambda x: x.max() - x.min())

A    1.455159
B    1.394692
C    2.894069
D    2.185365
E    0.000000
dtype: float64

### Mezclas

#### Concatenación (horizontal)

In [0]:
# Se genera un conjunto de datos aleatorio (grande)
df = pd.DataFrame(np.random.randn(10, 4))
df

Unnamed: 0,0,1,2,3
0,0.161899,-1.141201,1.201792,-1.004481
1,0.225881,0.222387,-1.894205,-1.507622
2,-0.483131,-1.264452,1.033769,-1.668793
3,0.763242,0.825401,0.925516,1.065897
4,1.303707,0.294912,-0.732772,-0.160312
5,0.462175,-2.160462,0.69235,0.943378
6,-1.184434,-0.41421,-1.165065,-0.700778
7,0.040001,0.931418,0.197966,-0.313724
8,0.989607,-0.629782,-0.184272,0.172765
9,-0.080125,0.303317,-2.317679,0.013869


In [0]:
# Se reparte en varios trozos
pieces = [df[:3], df[3:7], df[7:]]
pieces

[          0         1         2         3
 0  0.161899 -1.141201  1.201792 -1.004481
 1  0.225881  0.222387 -1.894205 -1.507622
 2 -0.483131 -1.264452  1.033769 -1.668793,
           0         1         2         3
 3  0.763242  0.825401  0.925516  1.065897
 4  1.303707  0.294912 -0.732772 -0.160312
 5  0.462175 -2.160462  0.692350  0.943378
 6 -1.184434 -0.414210 -1.165065 -0.700778,
           0         1         2         3
 7  0.040001  0.931418  0.197966 -0.313724
 8  0.989607 -0.629782 -0.184272  0.172765
 9 -0.080125  0.303317 -2.317679  0.013869]

In [0]:
# Se constuye otro DataFrame que contiene las piezas concatenadas
df2 = pd.concat(pieces)
df2

Unnamed: 0,0,1,2,3
0,0.161899,-1.141201,1.201792,-1.004481
1,0.225881,0.222387,-1.894205,-1.507622
2,-0.483131,-1.264452,1.033769,-1.668793
3,0.763242,0.825401,0.925516,1.065897
4,1.303707,0.294912,-0.732772,-0.160312
5,0.462175,-2.160462,0.69235,0.943378
6,-1.184434,-0.41421,-1.165065,-0.700778
7,0.040001,0.931418,0.197966,-0.313724
8,0.989607,-0.629782,-0.184272,0.172765
9,-0.080125,0.303317,-2.317679,0.013869


In [0]:
# Se puede comprobar que son iguales
df == df2

Unnamed: 0,0,1,2,3
0,True,True,True,True
1,True,True,True,True
2,True,True,True,True
3,True,True,True,True
4,True,True,True,True
5,True,True,True,True
6,True,True,True,True
7,True,True,True,True
8,True,True,True,True
9,True,True,True,True


### Join (vertical)

In [0]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [0]:
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


In [0]:
# Se mezcla empleando como clave la columna ('key')
# Se generan todos los emparejamientos de los elementos 2 a 2 (al repetirse el valor de 'key')
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


Otro ejemplo:

In [0]:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
left

Unnamed: 0,key,lval
0,foo,1
1,bar,2


In [0]:
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
right

Unnamed: 0,key,rval
0,foo,4
1,bar,5


In [0]:
 pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


## Entrada / Salida en ficheros

### Lectura de datos

In [0]:
df = pd.read_csv('./data/FIFA18_Sample25.csv', index_col=0)
#df = df.drop('Unnamed: 0',axis=1) # Se elimina la 1ª columna, que no incluye información relevante (es el propio indice)
df.head(5)

Unnamed: 0,Unnamed: 0.1,Name,Age,Photo,Nationality,Flag,Overall,Potential,Club,Club Logo,...,RB,RCB,RCM,RDM,RF,RM,RS,RW,RWB,ST
17020,17020,J. Capacho,19,https://cdn.sofifa.org/48/18/players/239658.png,Colombia,https://cdn.sofifa.org/flags/56.png,54,67,Atlético Bucaramanga,https://cdn.sofifa.org/24/18/teams/112992.png,...,34.0,30.0,43.0,32.0,52.0,49.0,53.0,51.0,35.0,53.0
5979,5979,T. Makino,30,https://cdn.sofifa.org/48/18/players/194361.png,Japan,https://cdn.sofifa.org/flags/163.png,69,69,Urawa Red Diamonds,https://cdn.sofifa.org/24/18/teams/111575.png,...,66.0,68.0,62.0,67.0,57.0,61.0,56.0,58.0,66.0,56.0
10520,10520,A. Vincent,23,https://cdn.sofifa.org/48/18/players/227492.png,France,https://cdn.sofifa.org/flags/18.png,65,73,AJ Auxerre,https://cdn.sofifa.org/24/18/teams/57.png,...,43.0,35.0,58.0,42.0,65.0,64.0,64.0,65.0,46.0,64.0
6231,6231,Paulo Daineiro,33,https://cdn.sofifa.org/48/18/players/236165.png,Brazil,https://cdn.sofifa.org/flags/54.png,69,69,Associação Chapecoense de Futebol,https://cdn.sofifa.org/24/18/teams/112476.png,...,52.0,42.0,62.0,49.0,68.0,70.0,63.0,70.0,55.0,63.0
3096,3096,Alex Berenguer,21,https://cdn.sofifa.org/48/18/players/225201.png,Spain,https://cdn.sofifa.org/flags/45.png,73,81,Torino,https://cdn.sofifa.org/24/18/teams/54.png,...,71.0,65.0,68.0,68.0,71.0,73.0,68.0,72.0,72.0,68.0


### Escritura de datos

In [0]:
df2 = df.iloc[0:5,[0,1,3,5]]
df2

Unnamed: 0,Unnamed: 0.1,Name,Photo,Flag
17020,17020,J. Capacho,https://cdn.sofifa.org/48/18/players/239658.png,https://cdn.sofifa.org/flags/56.png
5979,5979,T. Makino,https://cdn.sofifa.org/48/18/players/194361.png,https://cdn.sofifa.org/flags/163.png
10520,10520,A. Vincent,https://cdn.sofifa.org/48/18/players/227492.png,https://cdn.sofifa.org/flags/18.png
6231,6231,Paulo Daineiro,https://cdn.sofifa.org/48/18/players/236165.png,https://cdn.sofifa.org/flags/54.png
3096,3096,Alex Berenguer,https://cdn.sofifa.org/48/18/players/225201.png,https://cdn.sofifa.org/flags/45.png


In [0]:
df2.to_csv('./First5.csv') # Se puede comprobar que se genera un fichero en formato csv con los datos de df2