<a href="https://colab.research.google.com/github/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/pandas_4_indices_ts.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import pandas as pd
import numpy as np

# Index

## Creacion y manipulacion

### Creacion de un índice

In [2]:
# Crear un índice a partir de una lista
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un índice a partir de un rango
indices = pd.RangeIndex(start=0, stop=5, step=1)

indices

RangeIndex(start=0, stop=5, step=1)

In [3]:
# Crear un índice a partir de un array NumPy
array = np.array([10, 20, 30, 40, 50])
indices = pd.Index(array)
indices

Int64Index([10, 20, 30, 40, 50], dtype='int64')

### Acceder a elementos de un indice

In [4]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Acceder al primer elemento
print(indices[0])

# Acceder a un rango de elementos
print(indices[1:4])

A
Index(['B', 'C', 'D'], dtype='object')


### Combinar índices

In [5]:
# Crear dos índices
indices1 = pd.Index(['A', 'B', 'C'])
indices2 = pd.Index(['D', 'E', 'F'])

# Combinar los dos índices
indices = indices1.append(indices2)

# Otra forma de combinar los dos índices
indices = pd.Index(['A', 'B', 'C', 'D', 'E', 'F'])
indices

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

## Funcionalidades Avanzadas

### Union e interseccion

In [6]:
# Crear dos índices
indices1 = pd.Index(['A', 'B', 'C', 'D', 'E'])
indices2 = pd.Index(['C', 'D', 'E', 'F', 'G'])

# Intersección de los dos índices
print(indices1.intersection(indices2))

# Unión de los dos índices
print(indices1.union(indices2))

# Diferencia simétrica de los dos índices
print(indices1.symmetric_difference(indices2))

Index(['C', 'D', 'E'], dtype='object')
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
Index(['A', 'B', 'F', 'G'], dtype='object')


## Silice booleano

In [8]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear una serie booleana a partir del índice
serie_booleana = indices.isin(['B', 'D', 'F'])
print(serie_booleana)
# Seleccionar los elementos de la serie que son verdaderos
print(serie_booleana[serie_booleana == True])

[False  True False  True False]
[ True  True]


### Ordenacion

In [9]:
# Crear un índice
indices = pd.Index(['B', 'A', 'C', 'E', 'D'])

# Ordenar el índice de forma ascendente
indices_ordenados = indices.sort_values()
indices_ordenados


Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [10]:
# Ordenar el índice de forma descendente
indices_ordenados = indices.sort_values(ascending=False)
indices_ordenados

Index(['E', 'D', 'C', 'B', 'A'], dtype='object')

## Funciones avanzadas en DataFrame

### Idexiacion booleana

### Reindexacion

In [15]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice
datos = {'Columna1': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data=datos, index=indices)
df


Unnamed: 0,Columna1
A,1
B,2
C,3
D,4
E,5


In [16]:
# Reindexar el DataFrame con un nuevo índice
print(df)
nuevo_indices = pd.Index(['A', 'BB', 'CC', 'D', 'E', 'F'])
df = df.reindex(index=nuevo_indices, fill_value=0)
df

   Columna1
A         1
B         2
C         3
D         4
E         5


Unnamed: 0,Columna1
A,1
BB,0
CC,0
D,4
E,5
F,0


### Creacion con indice

In [18]:
# Crear un índice personalizado
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice personalizado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos, index=indices)

print(df)

   Columna1 Columna2
A         1        a
B         2        b
C         3        c
D         4        d
E         5        e


### Seleccion con indices

In [19]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
df

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [20]:
# Seleccionar la fila con índice 2
print(df.loc[2])

# Seleccionar las filas con índices del 2 al 4
df.loc[2:4]

Columna1    3
Columna2    c
Name: 2, dtype: object


Unnamed: 0,Columna1,Columna2
2,3,c
3,4,d
4,5,e


In [21]:
# Seleccionar la columna con etiqueta 'Columna1'
print(df['Columna1'])

0    1
1    2
2    3
3    4
4    5
Name: Columna1, dtype: int64


In [22]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df[['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [23]:
# Crear un índice personalizado
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice personalizado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos, index=indices)
df

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


In [25]:
# Seleccionar la fila con índice 2
df.loc[['A']]

Unnamed: 0,Columna1,Columna2
A,1,a


In [None]:
# Seleccionar las filas con índices del 2 al 4
df.loc[['A', 'D']]

Unnamed: 0,Columna1,Columna2
A,1,a
D,4,d


In [26]:
# Seleccionar la columna con etiqueta 'Columna1'
df.loc['A','Columna1']

1

In [27]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df.loc[['Columna1', 'Columna2']]

KeyError: "None of [Index(['Columna1', 'Columna2'], dtype='object')] are in the [index]"

In [28]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df.loc[:,['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


### Asignacion de Valores con Indices

In [29]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
print(df)
# Asignar el valor 10 a la celda (2, 'Columna1')
df.loc[2, 'Columna1'] = 10

# Asignar el valor 'f' a la celda (4, 'Columna2')
df.loc[4, 'Columna2'] = 'f'
df

   Columna1 Columna2
0         1        a
1         2        b
2         3        c
3         4        d
4         5        e


Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,10,c
3,4,d
4,5,f


### Eliminacion de filas y columnas

In [30]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
df

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [32]:
# Eliminar la fila con índice 2
# Pueden agregar inplace=True o df=df.drop(2)
df.drop(2).reset_index()

Unnamed: 0,index,Columna1,Columna2
0,0,1,a
1,1,2,b
2,3,4,d
3,4,5,e


In [33]:
# Eliminar la columna con etiqueta 'Columna2'
df.drop('Columna2', axis=1)

Unnamed: 0,Columna1
0,1
1,2
2,3
3,4
4,5


### Ordenacion

In [34]:
# Crear un DataFrame con un índice desordenado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
indices = pd.Index([3, 5, 1, 2, 4])
df = pd.DataFrame(data=datos, index=indices)

df

Unnamed: 0,Columna1,Columna2
3,1,a
5,2,b
1,3,c
2,4,d
4,5,e


In [35]:
# Ordenar el índice en orden ascendente
df = df.sort_index()
df

Unnamed: 0,Columna1,Columna2
1,3,c
2,4,d
3,1,a
4,5,e
5,2,b


In [36]:
# Ordenar el índice en orden descendente
df = df.sort_index(ascending=False)
df

Unnamed: 0,Columna1,Columna2
5,2,b
4,5,e
3,1,a
2,4,d
1,3,c


## Indices Jerarquicos

Los indices tambien pueden ser tuplas, o contener varios niveles. Estos suelen aparecer cuando usamos funciones como `groupby`

In [37]:
# Crear un índice jerárquico con dos niveles
indice = pd.MultiIndex.from_product([['A', 'B'], ['X', 'Y']])

# Crear un DataFrame con el índice jerárquico
datos = {'Columna1': [1, 2, 3, 4], 'Columna2': [5, 6, 7, 8]}
df = pd.DataFrame(data=datos, index=indice)
print(df)
print(df.index)
# Seleccionar un elemento con el índice jerárquico
df.loc[('A', 'X'), 'Columna1']

     Columna1  Columna2
A X         1         5
  Y         2         6
B X         3         7
  Y         4         8
MultiIndex([('A', 'X'),
            ('A', 'Y'),
            ('B', 'X'),
            ('B', 'Y')],
           )


1

### Indexacion y Seleccion con multindex

In [38]:
# Crear un DataFrame con MultiIndex
datos = {'Columna1': [1, 2, 3, 4, 5],
         'Columna2': ['a', 'b', 'c', 'd', 'e'],
         'Columna3': [0.1, 0.2, 0.3, 0.4, 0.5]}
multi_indices = pd.MultiIndex.from_tuples([('A', 1), ('A', 2), ('B', 1), ('B', 2), ('C', 1)])
df = pd.DataFrame(data=datos, index=multi_indices)

df

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,1,1,a,0.1
A,2,2,b,0.2
B,1,3,c,0.3
B,2,4,d,0.4
C,1,5,e,0.5


In [44]:
# Seleccionar la fila con índices ('A', 2)
df.loc[[('A', 2),('C',1)]]

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,2,2,b,0.2
C,1,5,e,0.5


In [40]:
# Seleccionar las filas con el primer nivel de índices igual a 'B'
df.loc['B']

Unnamed: 0,Columna1,Columna2,Columna3
1,3,c,0.3
2,4,d,0.4


In [41]:
# Seleccionar las filas con el primer nivel de índices igual a 'A' y el segundo nivel de índices igual a 1 o 2
df.loc[('B', slice(None))]

Unnamed: 0,Columna1,Columna2,Columna3
1,3,c,0.3
2,4,d,0.4


In [42]:
# Seleccionar las filas con el primer nivel de índices igual a 'A' o 'C'
df.loc[['A', 'C']]

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,1,1,a,0.1
A,2,2,b,0.2
C,1,5,e,0.5


In [46]:
# Seleccionar la columna con etiqueta 'Columna3' para las filas con el primer nivel de índices igual a 'B'
df.loc[('B', slice(None)), ['Columna3']]

Unnamed: 0,Unnamed: 1,Columna3
B,1,0.3
B,2,0.4


# Serie de Tiempo con Indices

## Creacion

In [3]:
# Crear un índice de fecha y hora para una serie de tiempo con una frecuencia horaria
dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='H')
dti


DatetimeIndex(['2022-01-01 00:00:00', '2022-01-01 01:00:00',
               '2022-01-01 02:00:00', '2022-01-01 03:00:00',
               '2022-01-01 04:00:00', '2022-01-01 05:00:00',
               '2022-01-01 06:00:00', '2022-01-01 07:00:00',
               '2022-01-01 08:00:00', '2022-01-01 09:00:00',
               '2022-01-01 10:00:00', '2022-01-01 11:00:00',
               '2022-01-01 12:00:00', '2022-01-01 13:00:00',
               '2022-01-01 14:00:00', '2022-01-01 15:00:00',
               '2022-01-01 16:00:00', '2022-01-01 17:00:00',
               '2022-01-01 18:00:00', '2022-01-01 19:00:00',
               '2022-01-01 20:00:00', '2022-01-01 21:00:00',
               '2022-01-01 22:00:00', '2022-01-01 23:00:00',
               '2022-01-02 00:00:00'],
              dtype='datetime64[ns]', freq='H')

In [4]:
# Crear una serie de tiempo con valores aleatorios y el índice de fecha y hora
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)
serie_tiempo

2022-01-01 00:00:00   -0.311775
2022-01-01 01:00:00   -0.288501
2022-01-01 02:00:00    1.023706
2022-01-01 03:00:00   -0.423673
2022-01-01 04:00:00    0.269440
2022-01-01 05:00:00   -0.205878
2022-01-01 06:00:00   -0.186279
2022-01-01 07:00:00    1.417302
2022-01-01 08:00:00   -0.452404
2022-01-01 09:00:00   -0.630867
2022-01-01 10:00:00    0.731374
2022-01-01 11:00:00    1.507768
2022-01-01 12:00:00    0.951185
2022-01-01 13:00:00   -0.124815
2022-01-01 14:00:00   -0.460918
2022-01-01 15:00:00   -0.032748
2022-01-01 16:00:00   -0.632710
2022-01-01 17:00:00    0.137893
2022-01-01 18:00:00   -2.182615
2022-01-01 19:00:00   -0.351639
2022-01-01 20:00:00   -1.603097
2022-01-01 21:00:00   -0.333668
2022-01-01 22:00:00   -1.775902
2022-01-01 23:00:00   -0.535965
2022-01-02 00:00:00    0.368682
Freq: H, dtype: float64

## Indexacion

In [None]:
# Crear una serie de tiempo
dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='H')
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)

serie_tiempo.head()

2022-01-01 00:00:00    0.379645
2022-01-01 01:00:00    0.831812
2022-01-01 02:00:00   -0.193350
2022-01-01 03:00:00   -0.127881
2022-01-01 04:00:00   -0.435696
Freq: H, dtype: float64

In [5]:
# Seleccionar el valor correspondiente al 2022-01-01 02:00:00
serie_tiempo.loc['2022-01-01 02:00:00']

1.023705756567276

In [6]:
# Seleccionar los valores correspondientes al 2022-01-01
serie_tiempo.loc['2022-01-01']

2022-01-01 00:00:00   -0.311775
2022-01-01 01:00:00   -0.288501
2022-01-01 02:00:00    1.023706
2022-01-01 03:00:00   -0.423673
2022-01-01 04:00:00    0.269440
2022-01-01 05:00:00   -0.205878
2022-01-01 06:00:00   -0.186279
2022-01-01 07:00:00    1.417302
2022-01-01 08:00:00   -0.452404
2022-01-01 09:00:00   -0.630867
2022-01-01 10:00:00    0.731374
2022-01-01 11:00:00    1.507768
2022-01-01 12:00:00    0.951185
2022-01-01 13:00:00   -0.124815
2022-01-01 14:00:00   -0.460918
2022-01-01 15:00:00   -0.032748
2022-01-01 16:00:00   -0.632710
2022-01-01 17:00:00    0.137893
2022-01-01 18:00:00   -2.182615
2022-01-01 19:00:00   -0.351639
2022-01-01 20:00:00   -1.603097
2022-01-01 21:00:00   -0.333668
2022-01-01 22:00:00   -1.775902
2022-01-01 23:00:00   -0.535965
Freq: H, dtype: float64

In [7]:
# Seleccionar los valores correspondientes al primer día de cada mes
serie_tiempo.loc[serie_tiempo.index.is_month_start]

2022-01-01 00:00:00   -0.311775
2022-01-01 01:00:00   -0.288501
2022-01-01 02:00:00    1.023706
2022-01-01 03:00:00   -0.423673
2022-01-01 04:00:00    0.269440
2022-01-01 05:00:00   -0.205878
2022-01-01 06:00:00   -0.186279
2022-01-01 07:00:00    1.417302
2022-01-01 08:00:00   -0.452404
2022-01-01 09:00:00   -0.630867
2022-01-01 10:00:00    0.731374
2022-01-01 11:00:00    1.507768
2022-01-01 12:00:00    0.951185
2022-01-01 13:00:00   -0.124815
2022-01-01 14:00:00   -0.460918
2022-01-01 15:00:00   -0.032748
2022-01-01 16:00:00   -0.632710
2022-01-01 17:00:00    0.137893
2022-01-01 18:00:00   -2.182615
2022-01-01 19:00:00   -0.351639
2022-01-01 20:00:00   -1.603097
2022-01-01 21:00:00   -0.333668
2022-01-01 22:00:00   -1.775902
2022-01-01 23:00:00   -0.535965
Freq: H, dtype: float64

## Resampling y Downsampling

In [8]:
# Crear una serie de tiempo con una frecuencia horaria
dti = pd.date_range(start='2022-01-01', end='2022-01-31', freq='H')
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)
serie_tiempo.head()

2022-01-01 00:00:00    0.340190
2022-01-01 01:00:00    2.111537
2022-01-01 02:00:00   -1.871371
2022-01-01 03:00:00    1.834145
2022-01-01 04:00:00    1.234348
Freq: H, dtype: float64

In [9]:
# Resample a una frecuencia diaria utilizando la media
serie_diaria = serie_tiempo.resample('D').mean()
serie_diaria

2022-01-01    0.178676
2022-01-02   -0.102253
2022-01-03   -0.217324
2022-01-04   -0.300002
2022-01-05    0.386802
2022-01-06   -0.052539
2022-01-07    0.224505
2022-01-08    0.093337
2022-01-09   -0.285293
2022-01-10    0.343094
2022-01-11    0.312868
2022-01-12    0.056747
2022-01-13   -0.189649
2022-01-14    0.021406
2022-01-15   -0.209978
2022-01-16    0.363152
2022-01-17    0.282877
2022-01-18   -0.113377
2022-01-19   -0.119671
2022-01-20    0.236504
2022-01-21    0.068350
2022-01-22   -0.099212
2022-01-23    0.190126
2022-01-24   -0.126879
2022-01-25    0.042634
2022-01-26   -0.048836
2022-01-27   -0.216172
2022-01-28   -0.064485
2022-01-29   -0.229032
2022-01-30   -0.240466
2022-01-31    0.593918
Freq: D, dtype: float64

In [10]:

# Downsampling a una frecuencia de 6 horas utilizando la suma
serie_6horas = serie_tiempo.resample('6H').sum()
serie_6horas

2022-01-01 00:00:00    1.901679
2022-01-01 06:00:00    1.569190
2022-01-01 12:00:00    0.829645
2022-01-01 18:00:00   -0.012299
2022-01-02 00:00:00   -0.453409
                         ...   
2022-01-30 00:00:00    2.861728
2022-01-30 06:00:00   -2.229414
2022-01-30 12:00:00   -4.320113
2022-01-30 18:00:00   -2.083385
2022-01-31 00:00:00    0.593918
Freq: 6H, Length: 121, dtype: float64

# Multiindex in columns: multi-levels

Tambien pueden existir multiindex en las columnas. Pueden aparecer cuando usamos la funcion `agg` con el `groupby`

## Creacion

In [14]:
df = pd.DataFrame({
    ('Grupo 1', 'A'): [1, 2, 3],
    ('Grupo 1', 'B'): [4, 5, 6],
    ('Grupo 2', 'C'): [7, 8, 9],
    ('Grupo 2', 'D'): [10, 11, 12]
})
df

Unnamed: 0_level_0,Grupo 1,Grupo 1,Grupo 2,Grupo 2
Unnamed: 0_level_1,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


In [17]:
df.columns.droplevel(0)

Index(['A', 'B', 'C', 'D'], dtype='object')

In [12]:
# Removemos un nivel del índice de columnas
df.columns = df.columns.droplevel(0)
df

Unnamed: 0,A,B,C,D
0,1,4,7,10
1,2,5,8,11
2,3,6,9,12


## Slicing

In [22]:
arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])]

df = pd.DataFrame(np.random.randn(4, 8), index=['A', 'B', 'C', 'D'], columns=arrays)
df

Unnamed: 0_level_0,bar,bar,baz,baz,foo,foo,qux,qux
Unnamed: 0_level_1,one,two,one,two,one,two,one,two
A,1.434396,-0.595647,0.212708,-0.746904,0.799812,1.281941,1.390865,-1.382106
B,0.742789,0.710915,-0.160912,0.640262,0.276052,1.573416,0.19795,1.261113
C,-0.380378,-0.75151,-0.71934,0.001074,-0.432397,3.134887,-0.118844,2.235047
D,0.828916,1.111485,-1.949256,1.06445,0.816672,-0.196231,-0.672583,-0.796942


In [23]:
df.loc[df['baz', 'one'] >= 0.5, :]

Unnamed: 0_level_0,bar,bar,baz,baz,foo,foo,qux,qux
Unnamed: 0_level_1,one,two,one,two,one,two,one,two


In [24]:
df.loc[:, ('bar', 'one')]

A    1.434396
B    0.742789
C   -0.380378
D    0.828916
Name: (bar, one), dtype: float64

In [25]:
df.loc[:, ('bar', )]

Unnamed: 0,one,two
A,1.434396,-0.595647
B,0.742789,0.710915
C,-0.380378,-0.75151
D,0.828916,1.111485
