# Modulo 27: Pandas

#### Series


In [1]:
import pandas as pd

In [2]:
serie1 = pd.Series([3,5,7])

In [3]:
serie1

0    3
1    5
2    7
dtype: int64

In [4]:
#Vemos que los elementos están indexados

In [5]:
serie1[1]

5

In [6]:
#Si no indicamos nada, los indices se harán por defecto del 0 en adelante, pero también los podemos definir nosotros

In [7]:
asignaturas = ['matematicas','historia','fisica','literatura']
notas = [8,6,9,7]

serie_notas_daniel = pd.Series(notas,index=asignaturas)

In [8]:
serie_notas_daniel

matematicas    8
historia       6
fisica         9
literatura     7
dtype: int64

In [9]:
serie_notas_daniel[serie_notas_daniel>=8]

matematicas    8
fisica         9
dtype: int64

In [10]:
serie_notas_daniel>=8

matematicas     True
historia       False
fisica          True
literatura     False
dtype: bool

In [11]:
serie_notas_daniel.name = "Notas de Daniel"

In [12]:
serie_notas_daniel

matematicas    8
historia       6
fisica         9
literatura     7
Name: Notas de Daniel, dtype: int64

In [13]:
serie_notas_daniel.index.name = "Asignaturas"

In [14]:
serie_notas_daniel

Asignaturas
matematicas    8
historia       6
fisica         9
literatura     7
Name: Notas de Daniel, dtype: int64

In [15]:
#Podemos pasar la serie a un diccionario:

In [16]:
diccionario = serie_notas_daniel.to_dict()

In [17]:
diccionario

{'matematicas': 8, 'historia': 6, 'fisica': 9, 'literatura': 7}

In [18]:
#También se puede hacer lo contrario; de diccionario a Serie:

In [19]:
serie = pd.Series(diccionario)

In [20]:
serie

matematicas    8
historia       6
fisica         9
literatura     7
dtype: int64

In [24]:
notas_ana = [7,8,5,9]

In [25]:
serie_notas_ana = pd.Series(notas_ana,index=asignaturas)

In [26]:
serie_notas_ana

matematicas    7
historia       8
fisica         5
literatura     9
dtype: int64

In [28]:
suma_notas_clase = (serie_notas_daniel + serie_notas_ana) / 2

In [29]:
suma_notas_clase

Asignaturas
matematicas    7.5
historia       7.0
fisica         7.0
literatura     8.0
dtype: float64

#### DataFrames

In [30]:
import webbrowser #Para importar datos de la Wikipedia

In [31]:
website = "https://es.wikipedia.org/wiki/Anexo:Campeones_de_la_NBA"

In [32]:
webbrowser.open(website)

True

In [33]:
dataframe_nba = pd.read_clipboard()

In [34]:
dataframe_nba

Unnamed: 0,Año,Campeón,del,Oeste,Resultado,Campeón.1,del.1,Este,Ref.
0,1950,Minneapolis,Lakersn.,2​,4–2,Syracuse,Nationals†,19​18​,
1,1951,Rochester,Royals,4–3,New,York,Knicks,20​,
2,1952,Minneapolis,Lakers,4–3,New,York,Knicks,21​,
3,1953,Minneapolis,Lakers†,4–1,New,York,Knicks,22​,
4,1954,Minneapolis,Lakers†,4–3,Syracuse,Nationals,23​,,
5,1955,Ft.,Wayne,Pistons,3–4,Syracuse,Nationals†,24​,
6,1956,Ft.,Wayne,Pistons,1–4,Philadelphia,Warriors†,25​,
7,1957,St.,Louis,Hawks,3–4,Boston,Celtics†,26​,
8,1958,St.,Louis,Hawks,4–2,Boston,Celtics†,27​,
9,1959,Minneapolis,Lakers,0–4,Boston,Celtics†,28​,,


In [36]:
dataframe_nba.columns

Index(['Año', 'Campeón', 'del', 'Oeste', 'Resultado', 'Campeón.1', 'del.1',
       'Este', 'Ref.'],
      dtype='object')

In [38]:
dataframe_nba['Campeón']

0     Minneapolis
1       Rochester
2     Minneapolis
3     Minneapolis
4     Minneapolis
5             Ft.
6             Ft.
7             St.
8             St.
9     Minneapolis
10            St.
Name: Campeón, dtype: object

In [39]:
dataframe_nba.loc[5]

Año                1955
Campeón             Ft.
del               Wayne
Oeste           Pistons
Resultado           3–4
Campeón.1      Syracuse
del.1        Nationals†
Este                24​
Ref.                NaN
Name: 5, dtype: object

In [40]:
dataframe_nba.head(3) #Enseña las primeras X (3) filas

Unnamed: 0,Año,Campeón,del,Oeste,Resultado,Campeón.1,del.1,Este,Ref.
0,1950,Minneapolis,Lakersn.,2​,4–2,Syracuse,Nationals†,19​18​,
1,1951,Rochester,Royals,4–3,New,York,Knicks,20​,
2,1952,Minneapolis,Lakers,4–3,New,York,Knicks,21​,


In [42]:
dataframe_nba.tail(2)  #Enseña las últimas X (2) filas

Unnamed: 0,Año,Campeón,del,Oeste,Resultado,Campeón.1,del.1,Este,Ref.
9,1959,Minneapolis,Lakers,0–4,Boston,Celtics†,28​,,
10,1960,St.,Louis,Hawks,3–4,Boston,Celtics†,29​,


In [43]:
#Vamos a crear un diccionario a partir de un dataframe

In [44]:
lista_asignaturas = ['matematicas','historia','fisica']
notas = [8,7,9]
diccionario = {'Asignaturas':lista_asignaturas,'Notas':notas}

In [45]:
diccionario

{'Asignaturas': ['matematicas', 'historia', 'fisica'], 'Notas': [8, 7, 9]}

In [46]:
dataframe_notas = pd.DataFrame(diccionario)

In [47]:
dataframe_notas

Unnamed: 0,Asignaturas,Notas
0,matematicas,8
1,historia,7
2,fisica,9


#### Indices

In [48]:
lista_valores = [1,2,3]
lista_indices = ['a','b','c']
serie = pd.Series(lista_valores, index=lista_indices)

In [49]:
serie

a    1
b    2
c    3
dtype: int64

In [50]:
serie.index[0]

'a'

In [51]:
#Estos indices no se pueden cambiar:
serie.index[0] = 'z'

TypeError: Index does not support mutable operations

In [52]:
#Indices en un DataFrame

In [53]:
lista_valores = [(6,7,8),(8,9,5),(6,9,7)]
lista_indices = ['matematicas','historia','fisica']
lista_nombres = ['Antonio','Maria','Pedro']

In [55]:
dataframe = pd.DataFrame(lista_valores, index=lista_indices, columns = lista_nombres)

In [56]:
dataframe

Unnamed: 0,Antonio,Maria,Pedro
matematicas,6,7,8
historia,8,9,5
fisica,6,9,7


In [58]:
dataframe.index

Index(['matematicas', 'historia', 'fisica'], dtype='object')

In [59]:
dataframe.columns

Index(['Antonio', 'Maria', 'Pedro'], dtype='object')

#### Eliminar elementos

In [63]:
import pandas as pd
import numpy as np

In [66]:
np.arange(4)

array([0, 1, 2, 3])

In [68]:
serie = pd.Series(np.arange(4), index = ['a','b','c','d'])

In [69]:
serie

a    0
b    1
c    2
d    3
dtype: int64

In [70]:
serie.drop('c')

a    0
b    1
d    3
dtype: int64

In [71]:
#Se elimina el registro del índice "c" 

In [72]:
#Ahora veremos como eliminarlo en un DataFrame

In [73]:
#1º creamos un DataFrame a partir de una lista de valores, indices y columnas

In [74]:
valores = np.arange(9).reshape(3,3) #Creamos una matriz de 3x3

In [75]:
valores

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [76]:
indices = ['a','b','c']

In [77]:
columnas = ['c1','c2','c3']

In [78]:
dataframe = pd.DataFrame(valores, index=indices, columns = columnas)

In [79]:
dataframe

Unnamed: 0,c1,c2,c3
a,0,1,2
b,3,4,5
c,6,7,8


In [80]:
#borramos la fila "b"

In [81]:
dataframe.drop("b")

Unnamed: 0,c1,c2,c3
a,0,1,2
c,6,7,8


In [82]:
#Para borrar la columna "c2"

In [83]:
dataframe.drop("c2",axis=1)

Unnamed: 0,c1,c3
a,0,2
b,3,5
c,6,8


In [84]:
#Vuelve a tener la fila "b" en el resultado porque no estamos guardando los resultados en ninguna variable
#Los cambios no están siendo permanentes 

#### Seleccionar datos en Series

In [85]:
lista_valores = np.arange(3)

In [86]:
lista_valores

array([0, 1, 2])

In [93]:
lista_indices = ['i1','i2','i3']

In [94]:
serie = pd.Series(lista_valores, index= lista_indices)
serie

i1    0
i2    1
i3    2
dtype: int64

In [95]:
#Una serie se puede multiplicar por un valor:

In [96]:
serie = serie * 2
serie

i1    0
i2    2
i3    4
dtype: int64

In [97]:
#Acceder al valor 2:

In [98]:
serie['i2']

2

In [99]:
serie[1]

2

In [100]:
serie[2]

4

In [101]:
serie[0:2]

i1    0
i2    2
dtype: int64

In [102]:
serie[serie>3]

i3    4
dtype: int64

In [103]:
serie[serie>3] = 6

In [104]:
serie

i1    0
i2    2
i3    6
dtype: int64

#### Seleccionar entradas para DataFrames

In [1]:
import pandas as pd
import numpy as np

In [4]:
valores = np.arange(25).reshape(5,5)
valores

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [5]:
indices = ['i1','i2','i3','i4','i5']

In [7]:
columnas = ['c1','c2','c3','c4','c5']

In [8]:
dataframe = pd.DataFrame(valores, index=indices, columns = columnas)
dataframe

Unnamed: 0,c1,c2,c3,c4,c5
i1,0,1,2,3,4
i2,5,6,7,8,9
i3,10,11,12,13,14
i4,15,16,17,18,19
i5,20,21,22,23,24


In [11]:
dataframe['c2']

i1     1
i2     6
i3    11
i4    16
i5    21
Name: c2, dtype: int64

In [12]:
dataframe['c2']['i2']

6

In [14]:
#Seleccionar varias columnas (3 y 4)

dataframe[['c3','c4']]

Unnamed: 0,c3,c4
i1,2,3
i2,7,8
i3,12,13
i4,17,18
i5,22,23


In [18]:
#Seleccionar varias columnas por valor

dataframe[dataframe['c2']>15]

Unnamed: 0,c1,c2,c3,c4,c5
i4,15,16,17,18,19
i5,20,21,22,23,24


In [19]:
dataframe

Unnamed: 0,c1,c2,c3,c4,c5
i1,0,1,2,3,4
i2,5,6,7,8,9
i3,10,11,12,13,14
i4,15,16,17,18,19
i5,20,21,22,23,24


In [20]:
dataframe > 20

Unnamed: 0,c1,c2,c3,c4,c5
i1,False,False,False,False,False
i2,False,False,False,False,False
i3,False,False,False,False,False
i4,False,False,False,False,False
i5,False,True,True,True,True


In [21]:
dataframe.loc['i3']  #Para seleccionar por índice hay que usar el método ".loc"

c1    10
c2    11
c3    12
c4    13
c5    14
Name: i3, dtype: int64

In [22]:
dataframe.loc['i3'] ['c4']

13

#### Operaciones sobre series y dataframes

In [23]:
serie1 = pd.Series([0,1,2], index=['a','b','c'])

In [24]:
serie1

a    0
b    1
c    2
dtype: int64

In [25]:
serie2 = pd.Series([3,4,5,6], index = ['a','b','c','d'])

In [26]:
serie2

a    3
b    4
c    5
d    6
dtype: int64

In [27]:
serie1 + serie2

a    3.0
b    5.0
c    7.0
d    NaN
dtype: float64

In [28]:
#Vemos que aquellas filas con mismo índice sí se suman: (0+3-->3, 1 + 4--> 5 y 2 + 5 ---> 7) pero para aquel valor
# que no coincide el índice, pone NaN (Not a Number)

In [29]:
lista_valores = np.arange(4).reshape(2,2)

In [30]:
lista_valores

array([[0, 1],
       [2, 3]])

In [31]:
lista_indices = list('ab')

In [32]:
lista_indices

['a', 'b']

In [41]:
lista_columnas = list('12')

In [34]:
lista_columnas

['1', '2']

In [35]:
dataframe = pd.DataFrame(lista_valores, index= lista_indices, columns = lista_columnas)

In [36]:
dataframe

Unnamed: 0,1,2
a,0,1
b,2,3


In [37]:
lista_valores2 = np.arange(9).reshape(3,3)

In [38]:
lista_valores2

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [39]:
lista_indices2 = list('abc')

In [42]:
lista_columnas2 = list('123')

In [44]:
dataframe2 = pd.DataFrame(lista_valores2, index=lista_indices2, columns = lista_columnas2)

In [45]:
dataframe2

Unnamed: 0,1,2,3
a,0,1,2
b,3,4,5
c,6,7,8


In [46]:
dataframe + dataframe2

Unnamed: 0,1,2,3
a,0.0,2.0,
b,5.0,7.0,
c,,,


In [47]:
#Al no tener valores para sumar en los índices no coincidentes, los deja como NaN

In [48]:
dataframe3 = dataframe + dataframe2

In [49]:
dataframe3[dataframe3>=0]

Unnamed: 0,1,2,3
a,0.0,2.0,
b,5.0,7.0,
c,,,


In [50]:
#Nos siguen apareciendo nulos...

In [51]:
#Usamos el metodo add, sumamos con un add y, en aquellos valores que no exista, que ponga un 0

In [52]:
dataframe.add(dataframe2,fill_value = 0)

Unnamed: 0,1,2,3
a,0.0,2.0,2.0
b,5.0,7.0,5.0
c,6.0,7.0,8.0


#### Ordenar y clasificar las series

In [56]:
valores = range(4)

In [61]:
indices = list('CABD')

In [62]:
serie = pd.Series(valores, index=indices)

In [63]:
serie

C    0
A    1
B    2
D    3
dtype: int64

In [64]:
#Podemos ordenar estos valores por los índices:

In [65]:
serie.sort_index()

A    1
B    2
C    0
D    3
dtype: int64

In [66]:
serie.sort_values() #Ordena por los valores

C    0
A    1
B    2
D    3
dtype: int64

In [67]:
#Ranking:

In [68]:
serie

C    0
A    1
B    2
D    3
dtype: int64

In [69]:
serie.rank()

C    1.0
A    2.0
B    3.0
D    4.0
dtype: float64

In [72]:
serie2 = pd.Series(np.random.randn(10))

In [73]:
serie2

0   -1.726573
1   -0.176454
2   -1.314960
3   -0.601194
4   -0.284135
5   -2.167180
6    3.371782
7   -1.443845
8   -0.099907
9    0.710161
dtype: float64

In [74]:
serie2.rank()

0     2.0
1     7.0
2     4.0
3     5.0
4     6.0
5     1.0
6    10.0
7     3.0
8     8.0
9     9.0
dtype: float64

In [75]:
#Situa a cada elemento su posición en cuanto a mayor a menor.
#Podemos comprobarlo ordenando por valores y viendo como los índices coinciden

In [76]:
serie2.sort_values() #Saldo que esto va de menor a mayor (y rank de mayor a menor)

5   -2.167180
0   -1.726573
7   -1.443845
2   -1.314960
3   -0.601194
4   -0.284135
1   -0.176454
8   -0.099907
9    0.710161
6    3.371782
dtype: float64

### Estadisticas en DataFrame

In [77]:
array = np.array([[1,8,3],[5,6,7]])

In [78]:
array

array([[1, 8, 3],
       [5, 6, 7]])

In [81]:
dataframe = pd.DataFrame(array, index = ['a','b'], columns = list('123'))

In [82]:
dataframe

Unnamed: 0,1,2,3
a,1,8,3
b,5,6,7


In [83]:
dataframe.sum() #suma por columnas, suma todos los elementos de cada columna

1     6
2    14
3    10
dtype: int64

In [84]:
dataframe.sum(axis=1) #Para sumar por filas

a    12
b    18
dtype: int64

In [86]:
dataframe.min() #Da el valor mínimo por columnas

1    1
2    6
3    3
dtype: int64

In [87]:
dataframe.max()

1    5
2    8
3    7
dtype: int64

In [88]:
dataframe.max(axis=1)

a    8
b    7
dtype: int64

In [90]:
dataframe.idxmin()

1    a
2    b
3    a
dtype: object

In [91]:
#Te da el índice de la fila que contiene el menor valor en cada columna

In [92]:
dataframe.describe()

Unnamed: 0,1,2,3
count,2.0,2.0,2.0
mean,3.0,7.0,5.0
std,2.828427,1.414214,2.828427
min,1.0,6.0,3.0
25%,2.0,6.5,4.0
50%,3.0,7.0,5.0
75%,4.0,7.5,6.0
max,5.0,8.0,7.0


#### Valores nulos - NaN

In [93]:
valores = ['1','2',np.nan,'4']

In [94]:
valores

['1', '2', nan, '4']

In [96]:
serie = pd.Series(valores, index=list('abcd'))

In [97]:
serie

a      1
b      2
c    NaN
d      4
dtype: object

In [98]:
serie.isnull()

a    False
b    False
c     True
d    False
dtype: bool

In [99]:
#Para borrar los valores nulos:

In [101]:
serie.dropna() #Aunque esto elimina la fila

a    1
b    2
d    4
dtype: object

In [102]:
#Vemos lo mismo para DataFrame

In [103]:
valores = [[1,2,3],[4,np.nan,5],[6,7,np.nan]]

In [104]:
valores

[[1, 2, 3], [4, nan, 5], [6, 7, nan]]

In [105]:
indices = list('123')

In [108]:
columnas = list('ABC')

In [109]:
dataframe = pd.DataFrame(valores, index=indices, columns = columnas)
dataframe

Unnamed: 0,A,B,C
1,1,2.0,3.0
2,4,,5.0
3,6,7.0,


In [110]:
dataframe.isnull()

Unnamed: 0,A,B,C
1,False,False,False
2,False,True,False
3,False,False,True


In [111]:
dataframe.dropna()

Unnamed: 0,A,B,C
1,1,2.0,3.0


In [112]:
#Pero, como vemos, sólo deja las filas que no tengan ningún elemento nulo

In [113]:
#Otra opción es rellenar ese nulo con algún valor:
dataframe.fillna(0)

Unnamed: 0,A,B,C
1,1,2.0,3.0
2,4,0.0,5.0
3,6,7.0,0.0


#### Jerarquía de los índices

In [114]:
import pandas as pd
import numpy as np

In [115]:
valores = np.random.rand(6)
valores

array([0.83060828, 0.07846914, 0.54485797, 0.59144773, 0.7641079 ,
       0.12606909])

In [118]:
indices = [[1,1,1,2,2,2],['a','b','c','a','b','c']]

In [119]:
indices

[[1, 1, 1, 2, 2, 2], ['a', 'b', 'c', 'a', 'b', 'c']]

In [120]:
series = pd.Series(valores, index=indices)

In [121]:
series

1  a    0.830608
   b    0.078469
   c    0.544858
2  a    0.591448
   b    0.764108
   c    0.126069
dtype: float64

In [122]:
#Tenemos un índice superior (1 y 2), e indice inferior, o de segundo nivel, (a, b y c)

In [123]:
series[1]

a    0.830608
b    0.078469
c    0.544858
dtype: float64

In [126]:
series[1]['b']

0.07846913530129884

In [127]:
#A partir de una serie con doble índice podemos usarlo para crear un DataFrame
# Empleando el primer índice como el índice y el secundario como columnas

In [128]:
dataframe = series.unstack()

In [129]:
dataframe

Unnamed: 0,a,b,c
1,0.830608,0.078469,0.544858
2,0.591448,0.764108,0.126069


In [130]:
#Podemos hacer el proceso inverso, pasar de un dataframe a una serie de indice doble

In [131]:
valores2 = np.arange(16).reshape(4,4)
indices2 = list('1234')
columnas2 = list('abcd')

In [132]:
dataframe2 = pd.DataFrame(valores2, index=indices2, columns=columnas2)
dataframe2

Unnamed: 0,a,b,c,d
1,0,1,2,3
2,4,5,6,7
3,8,9,10,11
4,12,13,14,15


In [133]:
serie2 = dataframe2.stack()

In [134]:
serie2

1  a     0
   b     1
   c     2
   d     3
2  a     4
   b     5
   c     6
   d     7
3  a     8
   b     9
   c    10
   d    11
4  a    12
   b    13
   c    14
   d    15
dtype: int64