<a href="https://colab.research.google.com/github/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/pandas_4_indices_ts.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [24]:
import pandas as pd
import numpy as np

# Index

## Creacion y manipulacion

### Creacion de un índice

In [25]:
# Crear un índice a partir de una lista
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un índice a partir de un rango
indices = pd.RangeIndex(start=0, stop=5, step=1)

indices

RangeIndex(start=0, stop=5, step=1)

In [26]:
# Crear un índice a partir de un array NumPy
array = np.array([10, 20, 30, 40, 50])
indices = pd.Index(array)
indices

Index([10, 20, 30, 40, 50], dtype='int64')

### Acceder a elementos de un indice

In [27]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Acceder al primer elemento
print(indices[0])

# Acceder a un rango de elementos
print(indices[1:4])

A
Index(['B', 'C', 'D'], dtype='object')


### Combinar índices

In [28]:
# Crear dos índices
indices1 = pd.Index(['A', 'B', 'C'])
indices2 = pd.Index(['D', 'E', 'F'])

# Combinar los dos índices
indices = indices1.append(indices2)

# Otra forma de combinar los dos índices
indices = pd.Index(['A', 'B', 'C', 'D', 'E', 'F'])
indices

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

## Funcionalidades Avanzadas

### Union e interseccion

In [29]:
# Crear dos índices
indices1 = pd.Index(['A', 'B', 'C', 'D', 'E'])
indices2 = pd.Index(['C', 'D', 'E', 'F', 'G'])

# Intersección de los dos índices
print(indices1.intersection(indices2))

# Unión de los dos índices
print(indices1.union(indices2))

# Diferencia simétrica de los dos índices
print(indices1.symmetric_difference(indices2))

Index(['C', 'D', 'E'], dtype='object')
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
Index(['A', 'B', 'F', 'G'], dtype='object')


## Silice booleano

In [30]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear una serie booleana a partir del índice
serie_booleana = indices.isin(['B', 'D', 'F'])
print(serie_booleana)
# Seleccionar los elementos de la serie que son verdaderos
print(serie_booleana[serie_booleana == True])

[False  True False  True False]
[ True  True]


### Ordenacion

In [31]:
# Crear un índice
indices = pd.Index(['B', 'A', 'C', 'E', 'D'])

# Ordenar el índice de forma ascendente
indices_ordenados = indices.sort_values()
indices_ordenados


Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [32]:
# Ordenar el índice de forma descendente
indices_ordenados = indices.sort_values(ascending=False)
indices_ordenados

Index(['E', 'D', 'C', 'B', 'A'], dtype='object')

## Funciones avanzadas en DataFrame

### Idexiacion booleana

### Reindexacion

In [33]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice
datos = {'Columna1': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data=datos, index=indices)
df


Unnamed: 0,Columna1
A,1
B,2
C,3
D,4
E,5


In [34]:
# Reindexar el DataFrame con un nuevo índice
print(df)
nuevo_indices = pd.Index(['A', 'BB', 'CC', 'D', 'E', 'F'])
df = df.reindex(index=nuevo_indices, fill_value=0)
df

   Columna1
A         1
B         2
C         3
D         4
E         5


Unnamed: 0,Columna1
A,1
BB,0
CC,0
D,4
E,5
F,0


### Creacion con indice

In [35]:
# Crear un índice personalizado
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice personalizado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos, index=indices)

print(df)

   Columna1 Columna2
A         1        a
B         2        b
C         3        c
D         4        d
E         5        e


### Seleccion con indices

In [36]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
df

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [37]:
# Seleccionar la fila con índice 2
print(df.loc[2])

# Seleccionar las filas con índices del 2 al 4
df.loc[2:4]

Columna1    3
Columna2    c
Name: 2, dtype: object


Unnamed: 0,Columna1,Columna2
2,3,c
3,4,d
4,5,e


In [38]:
# Seleccionar la columna con etiqueta 'Columna1'
print(df['Columna1'])

0    1
1    2
2    3
3    4
4    5
Name: Columna1, dtype: int64


In [39]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df[['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [40]:
# Crear un índice personalizado
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice personalizado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos, index=indices)
df

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


In [41]:
# Seleccionar la fila con índice 2
df.loc[['A']]

Unnamed: 0,Columna1,Columna2
A,1,a


In [42]:
# Seleccionar las filas con índices del 2 al 4
df.loc[['A', 'D']]

Unnamed: 0,Columna1,Columna2
A,1,a
D,4,d


In [43]:
# Seleccionar la columna con etiqueta 'Columna1'
df.loc['A','Columna1']

1

In [44]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df[['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


In [45]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df.loc[:,['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


### Asignacion de Valores con Indices

In [46]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
print(df)
# Asignar el valor 10 a la celda (2, 'Columna1')
df.loc[2, 'Columna1'] = 10

# Asignar el valor 'f' a la celda (4, 'Columna2')
df.loc[4, 'Columna2'] = 'f'
df

   Columna1 Columna2
0         1        a
1         2        b
2         3        c
3         4        d
4         5        e


Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,10,c
3,4,d
4,5,f


### Eliminacion de filas y columnas

In [47]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
df

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [48]:
# Eliminar la fila con índice 2
# Pueden agregar inplace=True o df=df.drop(2)
df.drop(2).reset_index()

Unnamed: 0,index,Columna1,Columna2
0,0,1,a
1,1,2,b
2,3,4,d
3,4,5,e


In [49]:
# Eliminar la columna con etiqueta 'Columna2'
df.drop('Columna2', axis=1)

Unnamed: 0,Columna1
0,1
1,2
2,3
3,4
4,5


### Ordenacion

In [50]:
# Crear un DataFrame con un índice desordenado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
indices = pd.Index([3, 5, 1, 2, 4])
df = pd.DataFrame(data=datos, index=indices)

df

Unnamed: 0,Columna1,Columna2
3,1,a
5,2,b
1,3,c
2,4,d
4,5,e


In [51]:
# Ordenar el índice en orden ascendente
df = df.sort_index()
df

Unnamed: 0,Columna1,Columna2
1,3,c
2,4,d
3,1,a
4,5,e
5,2,b


In [52]:
# Ordenar el índice en orden descendente
df = df.sort_index(ascending=False)
df

Unnamed: 0,Columna1,Columna2
5,2,b
4,5,e
3,1,a
2,4,d
1,3,c


## Indices Jerarquicos

Los indices tambien pueden ser tuplas, o contener varios niveles. Estos suelen aparecer cuando usamos funciones como `groupby`

In [53]:
# Crear un índice jerárquico con dos niveles
indice = pd.MultiIndex.from_product([['A', 'B'], ['X', 'Y']])

# Crear un DataFrame con el índice jerárquico
datos = {'Columna1': [1, 2, 3, 4], 'Columna2': [5, 6, 7, 8]}
df = pd.DataFrame(data=datos, index=indice)
print(df)
print(df.index)
# Seleccionar un elemento con el índice jerárquico
df.loc[('A', 'X'), 'Columna1']

     Columna1  Columna2
A X         1         5
  Y         2         6
B X         3         7
  Y         4         8
MultiIndex([('A', 'X'),
            ('A', 'Y'),
            ('B', 'X'),
            ('B', 'Y')],
           )


1

### Indexacion y Seleccion con multindex

In [54]:
# Crear un DataFrame con MultiIndex
datos = {'Columna1': [1, 2, 3, 4, 5],
         'Columna2': ['a', 'b', 'c', 'd', 'e'],
         'Columna3': [0.1, 0.2, 0.3, 0.4, 0.5]}
multi_indices = pd.MultiIndex.from_tuples([('A', 1), ('A', 2), ('B', 1), ('B', 2), ('C', 1)])
df = pd.DataFrame(data=datos, index=multi_indices)

df

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,1,1,a,0.1
A,2,2,b,0.2
B,1,3,c,0.3
B,2,4,d,0.4
C,1,5,e,0.5


In [55]:
# Seleccionar la fila con índices ('A', 2)
df.loc[[('A', 2),('C',1)]]

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,2,2,b,0.2
C,1,5,e,0.5


In [56]:
# Seleccionar las filas con el primer nivel de índices igual a 'B'
df.loc['B']

Unnamed: 0,Columna1,Columna2,Columna3
1,3,c,0.3
2,4,d,0.4


In [57]:
# Seleccionar las filas con el primer nivel de índices igual a 'A' y el segundo nivel de índices igual a 1 o 2
df.loc[('B', slice(None))]

Unnamed: 0,Columna1,Columna2,Columna3
1,3,c,0.3
2,4,d,0.4


In [58]:
# Seleccionar las filas con el primer nivel de índices igual a 'A' o 'C'
df.loc[['A', 'C']]

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,1,1,a,0.1
A,2,2,b,0.2
C,1,5,e,0.5


In [59]:
# Seleccionar la columna con etiqueta 'Columna3' para las filas con el primer nivel de índices igual a 'B'
df.loc[('B', slice(None)), ['Columna3']]

Unnamed: 0,Unnamed: 1,Columna3
B,1,0.3
B,2,0.4


# Serie de Tiempo con Indices

## Creacion

In [60]:
# Crear un índice de fecha y hora para una serie de tiempo con una frecuencia horaria
dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='H')
dti


  dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='H')


DatetimeIndex(['2022-01-01 00:00:00', '2022-01-01 01:00:00',
               '2022-01-01 02:00:00', '2022-01-01 03:00:00',
               '2022-01-01 04:00:00', '2022-01-01 05:00:00',
               '2022-01-01 06:00:00', '2022-01-01 07:00:00',
               '2022-01-01 08:00:00', '2022-01-01 09:00:00',
               '2022-01-01 10:00:00', '2022-01-01 11:00:00',
               '2022-01-01 12:00:00', '2022-01-01 13:00:00',
               '2022-01-01 14:00:00', '2022-01-01 15:00:00',
               '2022-01-01 16:00:00', '2022-01-01 17:00:00',
               '2022-01-01 18:00:00', '2022-01-01 19:00:00',
               '2022-01-01 20:00:00', '2022-01-01 21:00:00',
               '2022-01-01 22:00:00', '2022-01-01 23:00:00',
               '2022-01-02 00:00:00'],
              dtype='datetime64[ns]', freq='h')

In [61]:
# Crear una serie de tiempo con valores aleatorios y el índice de fecha y hora
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)
serie_tiempo

2022-01-01 00:00:00    0.521075
2022-01-01 01:00:00    1.006122
2022-01-01 02:00:00   -2.022822
2022-01-01 03:00:00   -0.239023
2022-01-01 04:00:00    1.251031
2022-01-01 05:00:00    0.076465
2022-01-01 06:00:00   -0.735441
2022-01-01 07:00:00    0.197318
2022-01-01 08:00:00    0.716762
2022-01-01 09:00:00    0.984764
2022-01-01 10:00:00   -0.759359
2022-01-01 11:00:00   -0.301122
2022-01-01 12:00:00    0.885994
2022-01-01 13:00:00   -0.823991
2022-01-01 14:00:00    0.958946
2022-01-01 15:00:00   -0.848628
2022-01-01 16:00:00    0.043428
2022-01-01 17:00:00   -0.039795
2022-01-01 18:00:00   -1.952731
2022-01-01 19:00:00    0.552129
2022-01-01 20:00:00   -1.174154
2022-01-01 21:00:00    0.714984
2022-01-01 22:00:00    0.053251
2022-01-01 23:00:00    0.043972
2022-01-02 00:00:00   -1.254158
Freq: h, dtype: float64

## Indexacion

In [62]:
# Crear una serie de tiempo
dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='H')
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)

serie_tiempo.head()

  dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='H')


2022-01-01 00:00:00    1.565653
2022-01-01 01:00:00    0.314911
2022-01-01 02:00:00   -0.796595
2022-01-01 03:00:00    1.088766
2022-01-01 04:00:00   -0.978314
Freq: h, dtype: float64

In [63]:
# Seleccionar el valor correspondiente al 2022-01-01 02:00:00
serie_tiempo.loc['2022-01-01 02:00:00']

-0.7965953192635277

In [64]:
# Seleccionar los valores correspondientes al 2022-01-01
serie_tiempo.loc['2022-01-01']

2022-01-01 00:00:00    1.565653
2022-01-01 01:00:00    0.314911
2022-01-01 02:00:00   -0.796595
2022-01-01 03:00:00    1.088766
2022-01-01 04:00:00   -0.978314
2022-01-01 05:00:00   -1.508688
2022-01-01 06:00:00   -0.214391
2022-01-01 07:00:00   -0.282804
2022-01-01 08:00:00   -0.954586
2022-01-01 09:00:00    0.103355
2022-01-01 10:00:00    2.114612
2022-01-01 11:00:00   -0.286580
2022-01-01 12:00:00    0.128118
2022-01-01 13:00:00   -1.010518
2022-01-01 14:00:00   -1.451575
2022-01-01 15:00:00    0.482155
2022-01-01 16:00:00    0.074841
2022-01-01 17:00:00    0.365466
2022-01-01 18:00:00   -1.057081
2022-01-01 19:00:00   -0.131462
2022-01-01 20:00:00   -0.266801
2022-01-01 21:00:00    0.682947
2022-01-01 22:00:00    1.111959
2022-01-01 23:00:00    0.183971
Freq: h, dtype: float64

In [65]:
# Seleccionar los valores correspondientes al primer día de cada mes
serie_tiempo.loc[serie_tiempo.index.is_month_start]

2022-01-01 00:00:00    1.565653
2022-01-01 01:00:00    0.314911
2022-01-01 02:00:00   -0.796595
2022-01-01 03:00:00    1.088766
2022-01-01 04:00:00   -0.978314
2022-01-01 05:00:00   -1.508688
2022-01-01 06:00:00   -0.214391
2022-01-01 07:00:00   -0.282804
2022-01-01 08:00:00   -0.954586
2022-01-01 09:00:00    0.103355
2022-01-01 10:00:00    2.114612
2022-01-01 11:00:00   -0.286580
2022-01-01 12:00:00    0.128118
2022-01-01 13:00:00   -1.010518
2022-01-01 14:00:00   -1.451575
2022-01-01 15:00:00    0.482155
2022-01-01 16:00:00    0.074841
2022-01-01 17:00:00    0.365466
2022-01-01 18:00:00   -1.057081
2022-01-01 19:00:00   -0.131462
2022-01-01 20:00:00   -0.266801
2022-01-01 21:00:00    0.682947
2022-01-01 22:00:00    1.111959
2022-01-01 23:00:00    0.183971
Freq: h, dtype: float64

## Resampling y Downsampling

In [66]:
# Crear una serie de tiempo con una frecuencia horaria
dti = pd.date_range(start='2022-01-01', end='2022-01-31', freq='H')
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)
serie_tiempo.head()

  dti = pd.date_range(start='2022-01-01', end='2022-01-31', freq='H')


2022-01-01 00:00:00    0.853816
2022-01-01 01:00:00    0.907459
2022-01-01 02:00:00   -0.978146
2022-01-01 03:00:00   -1.354785
2022-01-01 04:00:00    1.157476
Freq: h, dtype: float64

In [67]:
# Resample a una frecuencia diaria utilizando la media
serie_diaria = serie_tiempo.resample('D').mean()
serie_diaria

2022-01-01   -0.153434
2022-01-02   -0.022635
2022-01-03    0.041203
2022-01-04    0.080444
2022-01-05   -0.037568
2022-01-06   -0.230195
2022-01-07   -0.259235
2022-01-08    0.362766
2022-01-09    0.028335
2022-01-10    0.107894
2022-01-11   -0.034539
2022-01-12    0.036593
2022-01-13   -0.203127
2022-01-14   -0.365342
2022-01-15    0.294540
2022-01-16    0.023651
2022-01-17    0.152391
2022-01-18    0.353379
2022-01-19    0.077988
2022-01-20    0.004152
2022-01-21   -0.477786
2022-01-22   -0.176623
2022-01-23    0.213370
2022-01-24    0.151330
2022-01-25   -0.086333
2022-01-26    0.377561
2022-01-27   -0.059550
2022-01-28   -0.424289
2022-01-29   -0.025798
2022-01-30    0.089951
2022-01-31    1.205075
Freq: D, dtype: float64

In [68]:

# Downsampling a una frecuencia de 6 horas utilizando la suma
serie_6horas = serie_tiempo.resample('6H').sum()
serie_6horas

  serie_6horas = serie_tiempo.resample('6H').sum()


2022-01-01 00:00:00    0.264667
2022-01-01 06:00:00   -2.612862
2022-01-01 12:00:00    0.035131
2022-01-01 18:00:00   -1.369347
2022-01-02 00:00:00    1.744285
                         ...   
2022-01-30 00:00:00   -1.084190
2022-01-30 06:00:00    3.092087
2022-01-30 12:00:00    2.825549
2022-01-30 18:00:00   -2.674628
2022-01-31 00:00:00    1.205075
Freq: 6h, Length: 121, dtype: float64

# Multiindex in columns: multi-levels

Tambien pueden existir multiindex en las columnas. Pueden aparecer cuando usamos la funcion `agg` con el `groupby`

## Creacion

In [69]:
df = pd.DataFrame({
    ('Grupo 1', 'A'): [1, 2, 3],
    ('Grupo 1', 'B'): [4, 5, 6],
    ('Grupo 2', 'C'): [7, 8, 9],
    ('Grupo 2', 'D'): [10, 11, 12]
})
df

Unnamed: 0_level_0,Grupo 1,Grupo 1,Grupo 2,Grupo 2
Unnamed: 0_level_1,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [70]:
df.columns.droplevel(0)

Index(['A', 'B', 'C', 'D'], dtype='object')

In [71]:
# Removemos un nivel del índice de columnas
df.columns = df.columns.droplevel(0)
df

Unnamed: 0,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


## Slicing

In [72]:
arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])]

df = pd.DataFrame(np.random.randn(4, 8), index=['A', 'B', 'C', 'D'], columns=arrays)
df

Unnamed: 0_level_0,bar,bar,baz,baz,foo,foo,qux,qux
Unnamed: 0_level_1,one,two,one,two,one,two,one,two
A,-0.198142,0.64109,0.313385,2.488164,-0.594591,0.592522,-0.287427,-1.041544
B,0.254318,-0.288215,-1.882618,-1.824812,0.849409,1.348904,0.56692,0.557685
C,-0.821227,-0.594201,-0.130751,-0.696134,-1.614286,-0.89709,0.847126,1.804747
D,1.009456,2.209143,0.24622,-0.692392,0.604835,-0.17375,1.297361,1.474157


In [73]:
df.loc[df['baz', 'one'] >= 0.5, :]

Unnamed: 0_level_0,bar,bar,baz,baz,foo,foo,qux,qux
Unnamed: 0_level_1,one,two,one,two,one,two,one,two


In [74]:
df.loc[:, ('bar', 'one')]

A   -0.198142
B    0.254318
C   -0.821227
D    1.009456
Name: (bar, one), dtype: float64

In [75]:
df.loc[:, ('bar', )]

Unnamed: 0,one,two
A,-0.198142,0.64109
B,0.254318,-0.288215
C,-0.821227,-0.594201
D,1.009456,2.209143
