# Guía Definitiva para Pandas

In [1]:
# Carga de librerías necesarias

import pandas as pd
import numpy as np


import matplotlib.pyplot as plt
from matplotlib.dates import DateFormatter
from matplotlib.pylab import rcParams
import matplotlib.dates as mdates
import matplotlib
matplotlib.style.use('ggplot')

from matplotlib.ticker import (MultipleLocator, FormatStrFormatter,
                               AutoMinorLocator)

Pandas es una librería de python que añade una funcionalidad que, a diferencia de R, python no trae en su distribución base: los dataframes. Estos son estructuras similares a las encontradas en las tablas de bases de datos relacionales, en donde los datos se almacenan por filas (registros) y columnas (variables). 

In [2]:
# Creacion de datos desde un dictionary
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy', 'Richy', 'Josh'], 
        'last_name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Recarey','Brown'], 
        'age': [42, 52, 36, 24, 73,12,19], 
        'preTestScore': [4, 24, 31, 2, 3,21,9],
        'postTestScore': [25, 94, 57, 62, 70,21,10],
        'school_ID': [10,12,3,4,5,2,1],
        'Birthday':['1994-02-19','1982-02-07','1987-09-11','1992-08-02','1994-05-04', '1992-03-03','2000-09-12']}

# La creacion es directa, con los nombres de la columna inferido
# Ambas versiones son correctas
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'preTestScore', 'postTestScore', 'Birthday'])
df = pd.DataFrame(raw_data)
df

Unnamed: 0,first_name,last_name,age,preTestScore,postTestScore,school_ID,Birthday
0,Jason,Miller,42,4,25,10,1994-02-19
1,Molly,Jacobson,52,24,94,12,1982-02-07
2,Tina,Ali,36,31,57,3,1987-09-11
3,Jake,Milner,24,2,62,4,1992-08-02
4,Amy,Cooze,73,3,70,5,1994-05-04
5,Richy,Recarey,12,21,21,2,1992-03-03
6,Josh,Brown,19,9,10,1,2000-09-12


### Comandos básicos de información sobre el DataFrame

In [3]:
# Forma
print(df.shape)

# Nombre de las columnas
print(df.columns)

(7, 7)
Index(['first_name', 'last_name', 'age', 'preTestScore', 'postTestScore',
       'school_ID', 'Birthday'],
      dtype='object')


#### Metadata sobre las columnas

In [4]:
# Tipos de las columnas
print(df.age.dtype)
print(df.Birthday.dtype)

df.Birthday = pd.to_datetime(df.Birthday, format = '%Y-%m-%d')

print(df.age.dtype)
print(df.Birthday.dtype)

int64
object
int64
datetime64[ns]


In [5]:
# Transponer
df.T

Unnamed: 0,0,1,2,3,4,5,6
first_name,Jason,Molly,Tina,Jake,Amy,Richy,Josh
last_name,Miller,Jacobson,Ali,Milner,Cooze,Recarey,Brown
age,42,52,36,24,73,12,19
preTestScore,4,24,31,2,3,21,9
postTestScore,25,94,57,62,70,21,10
school_ID,10,12,3,4,5,2,1
Birthday,1994-02-19 00:00:00,1982-02-07 00:00:00,1987-09-11 00:00:00,1992-08-02 00:00:00,1994-05-04 00:00:00,1992-03-03 00:00:00,2000-09-12 00:00:00


In [6]:
# Obtenemos un array de arrays, donde cada array va una FILA!
print(df.values, '\n\n')
print(type(df.values))

[['Jason' 'Miller' 42 4 25 10 Timestamp('1994-02-19 00:00:00')]
 ['Molly' 'Jacobson' 52 24 94 12 Timestamp('1982-02-07 00:00:00')]
 ['Tina' 'Ali' 36 31 57 3 Timestamp('1987-09-11 00:00:00')]
 ['Jake' 'Milner' 24 2 62 4 Timestamp('1992-08-02 00:00:00')]
 ['Amy' 'Cooze' 73 3 70 5 Timestamp('1994-05-04 00:00:00')]
 ['Richy' 'Recarey' 12 21 21 2 Timestamp('1992-03-03 00:00:00')]
 ['Josh' 'Brown' 19 9 10 1 Timestamp('2000-09-12 00:00:00')]] 


<class 'numpy.ndarray'>


# Slicing básico

In [7]:
# Acceder a unha columna:
## Los datos en si mismos, como clase pd.Series!
print(df.first_name)

## Que tipo de datos nos dió dicho slice:
print(type(df.first_name))

print(df.first_name.dtype)

0    Jason
1    Molly
2     Tina
3     Jake
4      Amy
5    Richy
6     Josh
Name: first_name, dtype: object
<class 'pandas.core.series.Series'>
object


In [8]:
# Acceder a unha columna:
## Los datos en si mismos:
print(df.age)

## Que tipo de datos nos dió dicho slice:
print(type(df.age))



0    42
1    52
2    36
3    24
4    73
5    12
6    19
Name: age, dtype: int64
<class 'pandas.core.series.Series'>


### Slicing básico, estilo R

Coge filas por defecto, y por posición como en R.

In [9]:
# De la segunda fila, incluido, al final
print(df[2:],'\n\n')

# Del principio hasta la 5ª, sin incluir
print(df[:5], '\n\n')

# Solo una file
print(df[1:2],'\n\n')

# Serie horizontal, por fila, y por posición de columna tambien
print(df.iloc[2:, 1:4],'\n\n')


print(type(df.iloc[1]), "\n")

# Si la queremos por etiqueta en vez de posición
print(df.loc[[1,2,5]])

  first_name last_name  age  preTestScore  postTestScore  school_ID   Birthday
2       Tina       Ali   36            31             57          3 1987-09-11
3       Jake    Milner   24             2             62          4 1992-08-02
4        Amy     Cooze   73             3             70          5 1994-05-04
5      Richy   Recarey   12            21             21          2 1992-03-03
6       Josh     Brown   19             9             10          1 2000-09-12 


  first_name last_name  age  preTestScore  postTestScore  school_ID   Birthday
0      Jason    Miller   42             4             25         10 1994-02-19
1      Molly  Jacobson   52            24             94         12 1982-02-07
2       Tina       Ali   36            31             57          3 1987-09-11
3       Jake    Milner   24             2             62          4 1992-08-02
4        Amy     Cooze   73             3             70          5 1994-05-04 


  first_name last_name  age  preTestScore  pos

In [10]:
# Accediendo a una Serie por un indice normal
df.first_name[1:3]

1    Molly
2     Tina
Name: first_name, dtype: object

In [11]:
# Indexamos cada 2!
df.age[::2]

0    42
2    36
4    73
6    19
Name: age, dtype: int64

### More advanced slicing:

- Slicing normal va por posición, y filtra por toda la fila. Una vez hecho, se pueden coger determinadas columnas a mano.
- Con .loc se permiten boleans, o etiquetas
- Con .iloc NO se permiten boleans, y va por posición


In [12]:
print(df[df.age == 19], '\n\n')

#Se utiliza el operador bitewise "&" en pandas!
print(df[(df.age > 19) & (df.postTestScore > 10)])

  first_name last_name  age  preTestScore  postTestScore  school_ID   Birthday
6       Josh     Brown   19             9             10          1 2000-09-12 


  first_name last_name  age  preTestScore  postTestScore  school_ID   Birthday
0      Jason    Miller   42             4             25         10 1994-02-19
1      Molly  Jacobson   52            24             94         12 1982-02-07
2       Tina       Ali   36            31             57          3 1987-09-11
3       Jake    Milner   24             2             62          4 1992-08-02
4        Amy     Cooze   73             3             70          5 1994-05-04


### Esto sería lo mismo

In [13]:
print(df.iloc[1:3,:])
df[1:3]

  first_name last_name  age  preTestScore  postTestScore  school_ID   Birthday
1      Molly  Jacobson   52            24             94         12 1982-02-07
2       Tina       Ali   36            31             57          3 1987-09-11


Unnamed: 0,first_name,last_name,age,preTestScore,postTestScore,school_ID,Birthday
1,Molly,Jacobson,52,24,94,12,1982-02-07
2,Tina,Ali,36,31,57,3,1987-09-11


### Esto también sería lo mismo, ya que loc permite boleans:

In [14]:
print(df[df.age > 40])

  first_name last_name  age  preTestScore  postTestScore  school_ID   Birthday
0      Jason    Miller   42             4             25         10 1994-02-19
1      Molly  Jacobson   52            24             94         12 1982-02-07
4        Amy     Cooze   73             3             70          5 1994-05-04


In [15]:
print(df.loc[df.age > 40,:])

  first_name last_name  age  preTestScore  postTestScore  school_ID   Birthday
0      Jason    Miller   42             4             25         10 1994-02-19
1      Molly  Jacobson   52            24             94         12 1982-02-07
4        Amy     Cooze   73             3             70          5 1994-05-04


In [16]:
# No onstante loc nos permite coger columnas!!
print(df.loc[df.age > 40,['age','Team']])

   age  Team
0   42   NaN
1   52   NaN
4   73   NaN


Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_tuple(key)


### Slicing con %in% bitewise

In [17]:
# Pandas permite operaciones del estilo
print(df.age == 19)

0    False
1    False
2    False
3    False
4    False
5    False
6     True
Name: age, dtype: bool


In [18]:
# Pero no del estilo:
print(df.age in [18,19,20,21,22,23,24,25])

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [None]:
# Esa se haría de forma:
print(df.age.isin([18,19,20,21,22,23,24,25]))

# Nota sobre el rendimiento de '.isin' vs 'in'

In [None]:
%timeit df[df.age.isin([18,19,20,21,22,23,24,25])]

In [None]:
%timeit df[[i in [18,19,20,21,22,23,24,25] for i in df.age]]

##### Información sobre el índice:

In [None]:
print(df.index)

print(type(df.index))

data = pd.Series([0.25, 0.5, 0.75, 1.0], index = ['a', 'b', 'c', 'd'])

# Ya no es el por defecto
print(data.index)

print(type(data.index))

In [None]:
# Los objetos de tipo Index son inmutables: Más info sobre ellos:
print(df.index.size, df.index.shape, df.index.ndim, df.index.dtype)

# iloc vs loc

In [None]:
df.index = [1,0,4,5,2,3,6]
print(df, "\n")
# loc: Etiquetas y booleans por fila: A por Jason
print(df.loc[[1,2]], "\n") # Fila con el indice 1 o 2!
print(df.loc[(df.index == 1) | (df.index == 2)], "\n") # Igual
# Filas con las posicion 1 y 2
print(df[1:3])

In [None]:
print(df.iloc[1])

In [None]:
print(df, '\n')
print(df.iloc[0:3, 0:2])
df.loc[0:3, ['first_name', 'last_name']]

In [None]:
print(df.iloc[2])
df.loc[df.age == 42, 'age']


In [None]:
# Booleans en columnas con loc
print(df.loc[1:5,:]) # Todas las columnas entre la etiqueta 1 y 5
# queremos las columnas tal que age es 24

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 5, 3])
print(data)

In [None]:
# Slicing por indice
print(data[1])

In [None]:
# loc permite indexar mediante índice normal
print(data.loc[1])
print(data.loc[1])

In [None]:
# iloc permite indexar de manera convencional
print(data.iloc[0])

In [None]:
print(data.loc[data == 'a'])
print(data[data == 'a'])
print(data == 'a')

##### iloc permite slicing como el de R, con loc hai que ser congruente

In [None]:
print(df.loc[1,'age'])
# print(df[1,'age']) # ERROR!
print(df.iloc[1,2])

In [None]:
# Para este tipo de indexado se utiliza iloc
df.iloc[1:2,2]

# Group by

In [None]:
df

In [None]:
df["Team"] = np.where(df.age < 40, 1, 0)

#### Automaticamente elige las que puede sumar, y las coge todas

In [None]:
df.groupby("Team").agg("sum")

### Seleccionamos las que queremos agregar únicamente

In [None]:
df.groupby("Team").agg({"age" : np.average, "postTestScore" : np.sum})

#### O incluso poner mas de una para un campo

In [None]:
df.groupby("Team").agg({"age" : [np.average,np.sum]})

In [None]:
df.groupby("Team").agg({"age" : [np.average,'sum']})

### Writing your own functions

In [None]:
def my_agg(serie):
    return serie.sum()

def my_agg2(serie):
    return serie['age'].sum()

In [None]:
df.groupby("Team").agg(my_agg)

In [None]:
df.groupby("Team").agg(my_agg)

# Analisis del objeto groupby

In [None]:
print(type(df.groupby("Team")), "\n")
print(df.head(2))

In [None]:
df.groupby("Team").Birthday
df.groupby("Team").first_name
# etc = EXISTEN y ya estan agrupados!

In [None]:
pd.Series(df.groupby("Team").Birthday)

### Queda pendiente de mejorar el principio de la notebook y este final

In [None]:
def my_agg3(series):
    return series.sum()

In [None]:
df.groupby("Team").agg({'age':my_agg3})

In [None]:
df.groupby("Team").agg(my_agg3)

https://theplopfactor.wordpress.com/2016/07/22/custom-aggregate-functions-in-pandas/

# Joins! 

Imaginemos que queremos agregar el nombre del colegio haciendo lookup con el siguiente diccionario.

In [None]:
dict_lu = {1 : "Nombre1",
           2 : "Nombre2",
           3 : "Nombre3",
           4 : "Nombre4",
           5 : "Nombre5",
           6 : "Nombre6",
           7 : "Nombre7",
           8 : "Nombre8",
           9 : "Nombre9",
           10 : "Nombre10",
           11 : "Nombre11",
           12 : "Nombre12"}

In [None]:
df

In [None]:
%timeit df['Nombre'] = df.school_ID.map(dict_lu)

In [None]:
%timeit df['Nombre1'] = df.school_ID.apply(lambda x: dict_lu[x])

In [None]:
%%timeit 
aux = pd.DataFrame.from_dict(dict_lu, orient = 'index', columns = ["Nombre"])
df.merge(aux, left_on = 'school_ID', right_index = True)