<a href="https://colab.research.google.com/github/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/pandas_4_indices_ts.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [25]:
import pandas as pd
import numpy as np

# Index

## Creacion y manipulacion

### Creacion de un índice

In [26]:
# Crear un índice a partir de una lista
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un índice a partir de un rango
indices = pd.RangeIndex(start=0, stop=5, step=1)

indices

RangeIndex(start=0, stop=5, step=1)

In [27]:
# Crear un índice a partir de un array NumPy
array = np.array([10, 20, 30, 40, 50])
indices = pd.Index(array)
indices

Index([10, 20, 30, 40, 50], dtype='int64')

### Acceder a elementos de un indice

In [28]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Acceder al primer elemento
print(indices[0])

# Acceder a un rango de elementos
print(indices[1:4])

A
Index(['B', 'C', 'D'], dtype='object')


### Combinar índices

In [29]:
# Crear dos índices
indices1 = pd.Index(['A', 'B', 'C'])
indices2 = pd.Index(['D', 'E', 'F'])

# Combinar los dos índices
indices = indices1.append(indices2)

# Otra forma de combinar los dos índices
indices = pd.Index(['A', 'B', 'C', 'D', 'E', 'F'])
indices

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

## Funcionalidades Avanzadas

### Union e interseccion

In [30]:
# Crear dos índices
indices1 = pd.Index(['A', 'B', 'C', 'D', 'E'])
indices2 = pd.Index(['C', 'D', 'E', 'F', 'G'])

# Intersección de los dos índices
print(indices1.intersection(indices2))

# Unión de los dos índices
print(indices1.union(indices2))

# Diferencia simétrica de los dos índices
print(indices1.symmetric_difference(indices2))

Index(['C', 'D', 'E'], dtype='object')
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
Index(['A', 'B', 'F', 'G'], dtype='object')


## Silice booleano

In [31]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear una serie booleana a partir del índice
serie_booleana = indices.isin(['B', 'D', 'F'])
print(serie_booleana)
# Seleccionar los elementos de la serie que son verdaderos
print(serie_booleana[serie_booleana == True])

[False  True False  True False]
[ True  True]


### Ordenacion

In [32]:
# Crear un índice
indices = pd.Index(['B', 'A', 'C', 'E', 'D'])

# Ordenar el índice de forma ascendente
indices_ordenados = indices.sort_values()
indices_ordenados


Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [33]:
# Ordenar el índice de forma descendente
indices_ordenados = indices.sort_values(ascending=False)
indices_ordenados

Index(['E', 'D', 'C', 'B', 'A'], dtype='object')

## Funciones avanzadas en DataFrame

### Idexiacion booleana

### Reindexacion

In [34]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice
datos = {'Columna1': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data=datos, index=indices)
df


Unnamed: 0,Columna1
A,1
B,2
C,3
D,4
E,5


In [35]:
# Reindexar el DataFrame con un nuevo índice
print(df)
nuevo_indices = pd.Index(['A', 'BB', 'CC', 'D', 'E', 'F'])
df = df.reindex(index=nuevo_indices, fill_value=0)
df

   Columna1
A         1
B         2
C         3
D         4
E         5


Unnamed: 0,Columna1
A,1
BB,0
CC,0
D,4
E,5
F,0


### Creacion con indice

In [36]:
# Crear un índice personalizado
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice personalizado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos, index=indices)

print(df)

   Columna1 Columna2
A         1        a
B         2        b
C         3        c
D         4        d
E         5        e


### Seleccion con indices

In [37]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
df

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [24]:
# Seleccionar la fila con índice 2
print(df.loc[2])

# Seleccionar las filas con índices del 2 al 4
df.loc[2:4]

Columna1    3
Columna2    c
Name: 2, dtype: object


Unnamed: 0,Columna1,Columna2
2,3,c
3,4,d
4,5,e


In [21]:
# Seleccionar la columna con etiqueta 'Columna1'
print(df['Columna1'])

0    1
1    2
2    3
3    4
4    5
Name: Columna1, dtype: int64


In [22]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df[['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [38]:
# Crear un índice personalizado
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice personalizado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos, index=indices)
df

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


In [39]:
# Seleccionar la fila con índice 2
df.loc[['A']]

Unnamed: 0,Columna1,Columna2
A,1,a


In [40]:
# Seleccionar las filas con índices del 2 al 4
df.loc[['A', 'D']]

Unnamed: 0,Columna1,Columna2
A,1,a
D,4,d


In [41]:
# Seleccionar la columna con etiqueta 'Columna1'
df.loc['A','Columna1']

1

In [48]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df[['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


In [49]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df.loc[:,['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


### Asignacion de Valores con Indices

In [50]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
print(df)
# Asignar el valor 10 a la celda (2, 'Columna1')
df.loc[2, 'Columna1'] = 10

# Asignar el valor 'f' a la celda (4, 'Columna2')
df.loc[4, 'Columna2'] = 'f'
df

   Columna1 Columna2
0         1        a
1         2        b
2         3        c
3         4        d
4         5        e


Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,10,c
3,4,d
4,5,f


### Eliminacion de filas y columnas

In [51]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
df

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [52]:
# Eliminar la fila con índice 2
# Pueden agregar inplace=True o df=df.drop(2)
df.drop(2).reset_index()

Unnamed: 0,index,Columna1,Columna2
0,0,1,a
1,1,2,b
2,3,4,d
3,4,5,e


In [53]:
# Eliminar la columna con etiqueta 'Columna2'
df.drop('Columna2', axis=1)

Unnamed: 0,Columna1
0,1
1,2
2,3
3,4
4,5


### Ordenacion

In [54]:
# Crear un DataFrame con un índice desordenado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
indices = pd.Index([3, 5, 1, 2, 4])
df = pd.DataFrame(data=datos, index=indices)

df

Unnamed: 0,Columna1,Columna2
3,1,a
5,2,b
1,3,c
2,4,d
4,5,e


In [55]:
# Ordenar el índice en orden ascendente
df = df.sort_index()
df

Unnamed: 0,Columna1,Columna2
1,3,c
2,4,d
3,1,a
4,5,e
5,2,b


In [36]:
# Ordenar el índice en orden descendente
df = df.sort_index(ascending=False)
df

Unnamed: 0,Columna1,Columna2
5,2,b
4,5,e
3,1,a
2,4,d
1,3,c


## Indices Jerarquicos

Los indices tambien pueden ser tuplas, o contener varios niveles. Estos suelen aparecer cuando usamos funciones como `groupby`

In [60]:
# Crear un índice jerárquico con dos niveles
indice = pd.MultiIndex.from_product([['A', 'B'], ['X', 'Y']])

# Crear un DataFrame con el índice jerárquico
datos = {'Columna1': [1, 2, 3, 4], 'Columna2': [5, 6, 7, 8]}
df = pd.DataFrame(data=datos, index=indice)
print(df)
print(df.index)
# Seleccionar un elemento con el índice jerárquico
df.loc[('A', 'X'), 'Columna1']

     Columna1  Columna2
A X         1         5
  Y         2         6
B X         3         7
  Y         4         8
MultiIndex([('A', 'X'),
            ('A', 'Y'),
            ('B', 'X'),
            ('B', 'Y')],
           )


1

### Indexacion y Seleccion con multindex

In [61]:
# Crear un DataFrame con MultiIndex
datos = {'Columna1': [1, 2, 3, 4, 5],
         'Columna2': ['a', 'b', 'c', 'd', 'e'],
         'Columna3': [0.1, 0.2, 0.3, 0.4, 0.5]}
multi_indices = pd.MultiIndex.from_tuples([('A', 1), ('A', 2), ('B', 1), ('B', 2), ('C', 1)])
df = pd.DataFrame(data=datos, index=multi_indices)

df

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,1,1,a,0.1
A,2,2,b,0.2
B,1,3,c,0.3
B,2,4,d,0.4
C,1,5,e,0.5


In [62]:
# Seleccionar la fila con índices ('A', 2)
df.loc[[('A', 2),('C',1)]]

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,2,2,b,0.2
C,1,5,e,0.5


In [63]:
# Seleccionar las filas con el primer nivel de índices igual a 'B'
df.loc['B']

Unnamed: 0,Columna1,Columna2,Columna3
1,3,c,0.3
2,4,d,0.4


In [64]:
# Seleccionar las filas con el primer nivel de índices igual a 'A' y el segundo nivel de índices igual a 1 o 2
df.loc[('B', slice(None))]

Unnamed: 0,Columna1,Columna2,Columna3
1,3,c,0.3
2,4,d,0.4


In [65]:
# Seleccionar las filas con el primer nivel de índices igual a 'A' o 'C'
df.loc[['A', 'C']]

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,1,1,a,0.1
A,2,2,b,0.2
C,1,5,e,0.5


In [66]:
# Seleccionar la columna con etiqueta 'Columna3' para las filas con el primer nivel de índices igual a 'B'
df.loc[('B', slice(None)), ['Columna3']]

Unnamed: 0,Unnamed: 1,Columna3
B,1,0.3
B,2,0.4


# Serie de Tiempo con Indices

## Creacion

In [69]:
# Crear un índice de fecha y hora para una serie de tiempo con una frecuencia horaria
dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='h')
dti


DatetimeIndex(['2022-01-01 00:00:00', '2022-01-01 01:00:00',
               '2022-01-01 02:00:00', '2022-01-01 03:00:00',
               '2022-01-01 04:00:00', '2022-01-01 05:00:00',
               '2022-01-01 06:00:00', '2022-01-01 07:00:00',
               '2022-01-01 08:00:00', '2022-01-01 09:00:00',
               '2022-01-01 10:00:00', '2022-01-01 11:00:00',
               '2022-01-01 12:00:00', '2022-01-01 13:00:00',
               '2022-01-01 14:00:00', '2022-01-01 15:00:00',
               '2022-01-01 16:00:00', '2022-01-01 17:00:00',
               '2022-01-01 18:00:00', '2022-01-01 19:00:00',
               '2022-01-01 20:00:00', '2022-01-01 21:00:00',
               '2022-01-01 22:00:00', '2022-01-01 23:00:00',
               '2022-01-02 00:00:00'],
              dtype='datetime64[ns]', freq='h')

In [70]:
# Crear una serie de tiempo con valores aleatorios y el índice de fecha y hora
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)
serie_tiempo

2022-01-01 00:00:00   -0.577653
2022-01-01 01:00:00   -0.421451
2022-01-01 02:00:00   -0.680743
2022-01-01 03:00:00    2.564805
2022-01-01 04:00:00   -0.925149
2022-01-01 05:00:00    1.473687
2022-01-01 06:00:00   -0.792654
2022-01-01 07:00:00   -2.459752
2022-01-01 08:00:00    1.328270
2022-01-01 09:00:00   -0.073141
2022-01-01 10:00:00    0.811958
2022-01-01 11:00:00    0.502733
2022-01-01 12:00:00    1.096838
2022-01-01 13:00:00   -0.208305
2022-01-01 14:00:00    1.249561
2022-01-01 15:00:00    0.189721
2022-01-01 16:00:00    1.666958
2022-01-01 17:00:00   -0.539107
2022-01-01 18:00:00   -0.809203
2022-01-01 19:00:00   -0.400204
2022-01-01 20:00:00    0.473994
2022-01-01 21:00:00   -1.217599
2022-01-01 22:00:00    0.383081
2022-01-01 23:00:00   -1.267668
2022-01-02 00:00:00   -0.361717
Freq: h, dtype: float64

## Indexacion

In [73]:
# Crear una serie de tiempo
dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='h')
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)

serie_tiempo.head()

2022-01-01 00:00:00    1.207615
2022-01-01 01:00:00    0.918598
2022-01-01 02:00:00   -0.202650
2022-01-01 03:00:00   -0.153893
2022-01-01 04:00:00    0.022080
Freq: h, dtype: float64

In [74]:
# Seleccionar el valor correspondiente al 2022-01-01 02:00:00
serie_tiempo.loc['2022-01-01 02:00:00']

-0.20264966774229928

In [77]:
# Seleccionar los valores correspondientes al 2022-01-01
serie_tiempo.loc['2022-01-01']

2022-01-01 00:00:00    1.207615
2022-01-01 01:00:00    0.918598
2022-01-01 02:00:00   -0.202650
2022-01-01 03:00:00   -0.153893
2022-01-01 04:00:00    0.022080
2022-01-01 05:00:00   -1.045460
2022-01-01 06:00:00    0.389949
2022-01-01 07:00:00    0.341296
2022-01-01 08:00:00   -0.951254
2022-01-01 09:00:00    0.180309
2022-01-01 10:00:00   -1.394237
2022-01-01 11:00:00   -1.360581
2022-01-01 12:00:00    0.259168
2022-01-01 13:00:00   -0.670984
2022-01-01 14:00:00   -0.634506
2022-01-01 15:00:00    1.169876
2022-01-01 16:00:00    1.049864
2022-01-01 17:00:00   -1.047317
2022-01-01 18:00:00    0.424713
2022-01-01 19:00:00    0.439712
2022-01-01 20:00:00   -1.178660
2022-01-01 21:00:00   -0.134066
2022-01-01 22:00:00    0.533001
2022-01-01 23:00:00   -0.830280
Freq: h, dtype: float64

In [78]:
# Seleccionar los valores correspondientes al primer día de cada mes
serie_tiempo.loc[serie_tiempo.index.is_month_start]

2022-01-01 00:00:00    1.207615
2022-01-01 01:00:00    0.918598
2022-01-01 02:00:00   -0.202650
2022-01-01 03:00:00   -0.153893
2022-01-01 04:00:00    0.022080
2022-01-01 05:00:00   -1.045460
2022-01-01 06:00:00    0.389949
2022-01-01 07:00:00    0.341296
2022-01-01 08:00:00   -0.951254
2022-01-01 09:00:00    0.180309
2022-01-01 10:00:00   -1.394237
2022-01-01 11:00:00   -1.360581
2022-01-01 12:00:00    0.259168
2022-01-01 13:00:00   -0.670984
2022-01-01 14:00:00   -0.634506
2022-01-01 15:00:00    1.169876
2022-01-01 16:00:00    1.049864
2022-01-01 17:00:00   -1.047317
2022-01-01 18:00:00    0.424713
2022-01-01 19:00:00    0.439712
2022-01-01 20:00:00   -1.178660
2022-01-01 21:00:00   -0.134066
2022-01-01 22:00:00    0.533001
2022-01-01 23:00:00   -0.830280
Freq: h, dtype: float64

## Resampling y Downsampling

In [80]:
# Crear una serie de tiempo con una frecuencia horaria
dti = pd.date_range(start='2022-01-01', end='2022-01-31', freq='h')
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)
serie_tiempo.head()

2022-01-01 00:00:00   -1.450872
2022-01-01 01:00:00    0.858065
2022-01-01 02:00:00   -0.351928
2022-01-01 03:00:00   -1.350870
2022-01-01 04:00:00    0.644440
Freq: h, dtype: float64

In [81]:
# Resample a una frecuencia diaria utilizando la media
serie_diaria = serie_tiempo.resample('D').mean()
serie_diaria

2022-01-01   -0.294542
2022-01-02    0.185082
2022-01-03    0.113739
2022-01-04   -0.364555
2022-01-05   -0.170937
2022-01-06   -0.044540
2022-01-07   -0.041208
2022-01-08   -0.211224
2022-01-09    0.095901
2022-01-10   -0.039387
2022-01-11    0.056536
2022-01-12   -0.208944
2022-01-13    0.109700
2022-01-14    0.070372
2022-01-15    0.214527
2022-01-16    0.082923
2022-01-17   -0.125543
2022-01-18    0.007150
2022-01-19    0.389900
2022-01-20    0.280055
2022-01-21    0.144370
2022-01-22   -0.319451
2022-01-23   -0.136354
2022-01-24    0.315253
2022-01-25   -0.024414
2022-01-26    0.260305
2022-01-27    0.186710
2022-01-28   -0.362130
2022-01-29    0.127664
2022-01-30   -0.025698
2022-01-31   -0.420244
Freq: D, dtype: float64

In [82]:

# Downsampling a una frecuencia de 6 horas utilizando la suma
serie_6horas = serie_tiempo.resample('6h').sum()
serie_6horas

2022-01-01 00:00:00   -2.676901
2022-01-01 06:00:00   -1.421804
2022-01-01 12:00:00    0.204699
2022-01-01 18:00:00   -3.175011
2022-01-02 00:00:00   -0.165896
                         ...   
2022-01-30 00:00:00   -0.985479
2022-01-30 06:00:00   -2.169938
2022-01-30 12:00:00    1.447405
2022-01-30 18:00:00    1.091270
2022-01-31 00:00:00   -0.420244
Freq: 6h, Length: 121, dtype: float64

# Multiindex in columns: multi-levels

Tambien pueden existir multiindex en las columnas. Pueden aparecer cuando usamos la funcion `agg` con el `groupby`

## Creacion

In [83]:
df = pd.DataFrame({
    ('Grupo 1', 'A'): [1, 2, 3],
    ('Grupo 1', 'B'): [4, 5, 6],
    ('Grupo 2', 'C'): [7, 8, 9],
    ('Grupo 2', 'D'): [10, 11, 12]
})
df

Unnamed: 0_level_0,Grupo 1,Grupo 1,Grupo 2,Grupo 2
Unnamed: 0_level_1,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [84]:
df.columns.droplevel(0)

Index(['A', 'B', 'C', 'D'], dtype='object')

In [85]:
# Removemos un nivel del índice de columnas
df.columns = df.columns.droplevel(0)
df

Unnamed: 0,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


## Slicing

In [86]:
arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])]

df = pd.DataFrame(np.random.randn(4, 8), index=['A', 'B', 'C', 'D'], columns=arrays)
df

Unnamed: 0_level_0,bar,bar,baz,baz,foo,foo,qux,qux
Unnamed: 0_level_1,one,two,one,two,one,two,one,two
A,-1.437727,1.378591,0.020682,1.329991,-0.79962,1.978123,-0.582202,0.291888
B,1.852684,-0.341601,-0.457931,-0.402275,-0.498171,-1.542298,-1.628467,0.341803
C,-0.657728,-0.639528,0.81366,0.967486,-0.397003,-0.37633,-0.897171,-1.645805
D,-1.024886,-0.662287,-0.31954,-0.698424,-0.822754,0.068796,0.302684,-1.084075


In [87]:
df.loc[df['baz', 'one'] >= 0.5, :]

Unnamed: 0_level_0,bar,bar,baz,baz,foo,foo,qux,qux
Unnamed: 0_level_1,one,two,one,two,one,two,one,two
C,-0.657728,-0.639528,0.81366,0.967486,-0.397003,-0.37633,-0.897171,-1.645805


In [88]:
df.loc[:, ('bar', 'one')]

A   -1.437727
B    1.852684
C   -0.657728
D   -1.024886
Name: (bar, one), dtype: float64

In [89]:
df.loc[:, ('bar', )]

Unnamed: 0,one,two
A,-1.437727,1.378591
B,1.852684,-0.341601
C,-0.657728,-0.639528
D,-1.024886,-0.662287
