<a href="https://colab.research.google.com/github/sonder-art/fdd_prim_2023/blob/main/codigo/pandas/pandas_4_indices_ts.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import pandas as pd
import numpy as np

# Index

## Creacion y manipulacion

### Creacion de un índice

In [3]:
# Crear un índice a partir de una lista
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un índice a partir de un rango
indices = pd.RangeIndex(start=0, stop=5, step=1)

indices

RangeIndex(start=0, stop=5, step=1)

In [4]:
# Crear un índice a partir de un array NumPy
array = np.array([10, 20, 30, 40, 50])
indices = pd.Index(array)
indices

Int64Index([10, 20, 30, 40, 50], dtype='int64')

### Acceder a elementos de un indice

In [5]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Acceder al primer elemento
print(indices[0])

# Acceder a un rango de elementos
print(indices[1:4])

A
Index(['B', 'C', 'D'], dtype='object')


### Combinar índices

In [7]:
# Crear dos índices
indices1 = pd.Index(['A', 'B', 'C'])
indices2 = pd.Index(['D', 'E', 'F'])

# Combinar los dos índices
indices = indices1.append(indices2)

# Otra forma de combinar los dos índices
indices = pd.Index(['A', 'B', 'C', 'D', 'E', 'F'])
indices

Index(['A', 'B', 'C', 'D', 'E', 'F'], dtype='object')

## Funcionalidades Avanzadas

### Union e interseccion

In [14]:
# Crear dos índices
indices1 = pd.Index(['A', 'B', 'C', 'D', 'E'])
indices2 = pd.Index(['C', 'D', 'E', 'F', 'G'])

# Intersección de los dos índices
print(indices1.intersection(indices2))

# Unión de los dos índices
print(indices1.union(indices2))

# Diferencia simétrica de los dos índices
print(indices1.symmetric_difference(indices2))

Index(['C', 'D', 'E'], dtype='object')
Index(['A', 'B', 'C', 'D', 'E', 'F', 'G'], dtype='object')
Index(['A', 'B', 'F', 'G'], dtype='object')


## Silice booleano

In [15]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear una serie booleana a partir del índice
serie_booleana = indices.isin(['B', 'D', 'F'])

# Seleccionar los elementos de la serie que son verdaderos
print(serie_booleana[serie_booleana == True])

[ True  True]


### Ordenacion

In [17]:
# Crear un índice
indices = pd.Index(['B', 'A', 'C', 'E', 'D'])

# Ordenar el índice de forma ascendente
indices_ordenados = indices.sort_values()
indices_ordenados


Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [19]:
# Ordenar el índice de forma descendente
indices_ordenados = indices.sort_values(ascending=False)
indices_ordenados

Index(['E', 'D', 'C', 'B', 'A'], dtype='object')

## Funciones avanzadas en DataFrame

### Idexiacion booleana

In [20]:
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice
datos = {'Columna1': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data=datos, index=indices)

# Seleccionar los elementos del DataFrame que cumplen una condición
print(df[df['Columna1'] > 3])

   Columna1
D         4
E         5


### Reindexacion

In [12]:
# Crear un índice
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice
datos = {'Columna1': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data=datos, index=indices)
df


Unnamed: 0,Columna1
A,1
B,2
C,3
D,4
E,5


In [13]:
# Reindexar el DataFrame con un nuevo índice
nuevo_indices = pd.Index(['A', 'B', 'C', 'D', 'E', 'F'])
df = df.reindex(index=nuevo_indices, fill_value=0)
df

Unnamed: 0,Columna1
A,1
B,2
C,3
D,4
E,5
F,0


### Creacion con indice

In [21]:
# Crear un índice personalizado
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice personalizado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos, index=indices)

print(df)

   Columna1 Columna2
A         1        a
B         2        b
C         3        c
D         4        d
E         5        e


### Seleccion con indices

In [27]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
df

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [29]:
# Seleccionar la fila con índice 2
print(df.loc[2])

# Seleccionar las filas con índices del 2 al 4
df.loc[2:4]

Columna1    3
Columna2    c
Name: 2, dtype: object


Unnamed: 0,Columna1,Columna2
2,3,c
3,4,d
4,5,e


In [33]:
# Seleccionar la columna con etiqueta 'Columna1'
print(df['Columna1'])

0    1
1    2
2    3
3    4
4    5
Name: Columna1, dtype: int64


In [32]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df[['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [34]:
# Crear un índice personalizado
indices = pd.Index(['A', 'B', 'C', 'D', 'E'])

# Crear un DataFrame con el índice personalizado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos, index=indices)
df

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


In [35]:
# Seleccionar la fila con índice 2
df.loc['A']

Columna1    1
Columna2    a
Name: A, dtype: object

In [36]:
# Seleccionar las filas con índices del 2 al 4
df.loc[['A', 'D']]

Unnamed: 0,Columna1,Columna2
A,1,a
D,4,d


In [39]:
# Seleccionar la columna con etiqueta 'Columna1'
df.loc['A','Columna1']

1

In [40]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df.loc[['Columna1', 'Columna2']]

KeyError: ignored

In [41]:
# Seleccionar las columnas con etiquetas 'Columna1' y 'Columna2'
df.loc[:,['Columna1', 'Columna2']]

Unnamed: 0,Columna1,Columna2
A,1,a
B,2,b
C,3,c
D,4,d
E,5,e


### Asignacion de Valores con Indices

In [44]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
print(df)
# Asignar el valor 10 a la celda (2, 'Columna1')
df.loc[2, 'Columna1'] = 10

# Asignar el valor 'f' a la celda (4, 'Columna2')
df.loc[4, 'Columna2'] = 'f'
df

   Columna1 Columna2
0         1        a
1         2        b
2         3        c
3         4        d
4         5        e


Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,10,c
3,4,d
4,5,f


### Eliminacion de filas y columnas

In [47]:
# Crear un DataFrame
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data=datos)
df

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e


In [48]:
# Eliminar la fila con índice 2
# Pueden agregar inplace=True o df=df.drop(2)
df.drop(2)

Unnamed: 0,Columna1,Columna2
0,1,a
1,2,b
3,4,d
4,5,e


In [49]:
# Eliminar la columna con etiqueta 'Columna2'
df.drop('Columna2', axis=1)

Unnamed: 0,Columna1
0,1
1,2
2,3
3,4
4,5


### Ordenacion

In [60]:
# Crear un DataFrame con un índice desordenado
datos = {'Columna1': [1, 2, 3, 4, 5], 'Columna2': ['a', 'b', 'c', 'd', 'e']}
indices = pd.Index([3, 5, 1, 2, 4])
df = pd.DataFrame(data=datos, index=indices)

df

Unnamed: 0,Columna1,Columna2
3,1,a
5,2,b
1,3,c
2,4,d
4,5,e


In [61]:
# Ordenar el índice en orden ascendente
df = df.sort_index()
df

Unnamed: 0,Columna1,Columna2
1,3,c
2,4,d
3,1,a
4,5,e
5,2,b


In [59]:
# Ordenar el índice en orden descendente
df = df.sort_index(ascending=False)
df

Unnamed: 0,Columna1,Columna2
5,2,b
4,5,e
3,1,a
2,4,d
1,3,c


## Indices Jerarquicos

In [10]:
# Crear un índice jerárquico con dos niveles
indice = pd.MultiIndex.from_product([['A', 'B'], ['X', 'Y']])

# Crear un DataFrame con el índice jerárquico
datos = {'Columna1': [1, 2, 3, 4], 'Columna2': [5, 6, 7, 8]}
df = pd.DataFrame(data=datos, index=indice)
print(df)
print(df.index)
# Seleccionar un elemento con el índice jerárquico
df.loc[('A', 'X'), 'Columna1']

     Columna1  Columna2
A X         1         5
  Y         2         6
B X         3         7
  Y         4         8
MultiIndex([('A', 'X'),
            ('A', 'Y'),
            ('B', 'X'),
            ('B', 'Y')],
           )


1

### Indexacion y Seleccion con multindex

In [50]:
# Crear un DataFrame con MultiIndex
datos = {'Columna1': [1, 2, 3, 4, 5],
         'Columna2': ['a', 'b', 'c', 'd', 'e'],
         'Columna3': [0.1, 0.2, 0.3, 0.4, 0.5]}
multi_indices = pd.MultiIndex.from_tuples([('A', 1), ('A', 2), ('B', 1), ('B', 2), ('C', 1)])
df = pd.DataFrame(data=datos, index=multi_indices)

df

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,1,1,a,0.1
A,2,2,b,0.2
B,1,3,c,0.3
B,2,4,d,0.4
C,1,5,e,0.5


In [52]:
# Seleccionar la fila con índices ('A', 2)
df.loc[('A', 2)]

Columna1      2
Columna2      b
Columna3    0.2
Name: (A, 2), dtype: object

In [53]:
# Seleccionar las filas con el primer nivel de índices igual a 'B'
df.loc['B']

Unnamed: 0,Columna1,Columna2,Columna3
1,3,c,0.3
2,4,d,0.4


In [54]:
# Seleccionar las filas con el primer nivel de índices igual a 'A' y el segundo nivel de índices igual a 1 o 2
df.loc[('A', slice(None))]

Unnamed: 0,Columna1,Columna2,Columna3
1,1,a,0.1
2,2,b,0.2


In [55]:
# Seleccionar las filas con el primer nivel de índices igual a 'A' o 'C'
df.loc[['A', 'C']]

Unnamed: 0,Unnamed: 1,Columna1,Columna2,Columna3
A,1,1,a,0.1
A,2,2,b,0.2
C,1,5,e,0.5


In [56]:
# Seleccionar la columna con etiqueta 'Columna3' para las filas con el primer nivel de índices igual a 'B'
df.loc[('B', slice(None)), 'Columna3']

B  1    0.3
   2    0.4
Name: Columna3, dtype: float64

# Serie de Tiempo con Indices

## Creacion

In [64]:
# Crear un índice de fecha y hora para una serie de tiempo con una frecuencia horaria
dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='H')
dti


DatetimeIndex(['2022-01-01 00:00:00', '2022-01-01 01:00:00',
               '2022-01-01 02:00:00', '2022-01-01 03:00:00',
               '2022-01-01 04:00:00', '2022-01-01 05:00:00',
               '2022-01-01 06:00:00', '2022-01-01 07:00:00',
               '2022-01-01 08:00:00', '2022-01-01 09:00:00',
               '2022-01-01 10:00:00', '2022-01-01 11:00:00',
               '2022-01-01 12:00:00', '2022-01-01 13:00:00',
               '2022-01-01 14:00:00', '2022-01-01 15:00:00',
               '2022-01-01 16:00:00', '2022-01-01 17:00:00',
               '2022-01-01 18:00:00', '2022-01-01 19:00:00',
               '2022-01-01 20:00:00', '2022-01-01 21:00:00',
               '2022-01-01 22:00:00', '2022-01-01 23:00:00',
               '2022-01-02 00:00:00'],
              dtype='datetime64[ns]', freq='H')

In [63]:
# Crear una serie de tiempo con valores aleatorios y el índice de fecha y hora
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)
serie_tiempo

2022-01-01 00:00:00    0.423697
2022-01-01 01:00:00    0.328774
2022-01-01 02:00:00   -0.685168
2022-01-01 03:00:00   -0.127633
2022-01-01 04:00:00   -0.029941
2022-01-01 05:00:00   -1.142536
2022-01-01 06:00:00   -0.648207
2022-01-01 07:00:00   -0.083683
2022-01-01 08:00:00   -0.062865
2022-01-01 09:00:00    0.391409
2022-01-01 10:00:00    0.492024
2022-01-01 11:00:00    0.577839
2022-01-01 12:00:00   -0.360401
2022-01-01 13:00:00   -0.149118
2022-01-01 14:00:00   -0.390463
2022-01-01 15:00:00    0.610511
2022-01-01 16:00:00    1.158851
2022-01-01 17:00:00   -0.613565
2022-01-01 18:00:00   -1.414891
2022-01-01 19:00:00    0.331521
2022-01-01 20:00:00    0.327356
2022-01-01 21:00:00    0.475828
2022-01-01 22:00:00   -0.110600
2022-01-01 23:00:00   -0.134721
2022-01-02 00:00:00   -1.808835
Freq: H, dtype: float64

## Indexacion

In [66]:
# Crear una serie de tiempo
dti = pd.date_range(start='2022-01-01', end='2022-01-02', freq='H')
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)

serie_tiempo.head()

2022-01-01 00:00:00    0.379645
2022-01-01 01:00:00    0.831812
2022-01-01 02:00:00   -0.193350
2022-01-01 03:00:00   -0.127881
2022-01-01 04:00:00   -0.435696
Freq: H, dtype: float64

In [67]:
# Seleccionar el valor correspondiente al 2022-01-01 02:00:00
serie_tiempo.loc['2022-01-01 02:00:00']

-0.19335005972812752

In [68]:
# Seleccionar los valores correspondientes al 2022-01-01
serie_tiempo.loc['2022-01-01']

2022-01-01 00:00:00    0.379645
2022-01-01 01:00:00    0.831812
2022-01-01 02:00:00   -0.193350
2022-01-01 03:00:00   -0.127881
2022-01-01 04:00:00   -0.435696
2022-01-01 05:00:00   -0.133518
2022-01-01 06:00:00    0.292182
2022-01-01 07:00:00    1.073596
2022-01-01 08:00:00   -1.568699
2022-01-01 09:00:00    0.488495
2022-01-01 10:00:00   -1.690597
2022-01-01 11:00:00   -1.801088
2022-01-01 12:00:00    1.350666
2022-01-01 13:00:00    0.693096
2022-01-01 14:00:00    1.566389
2022-01-01 15:00:00    1.892289
2022-01-01 16:00:00   -1.466446
2022-01-01 17:00:00    0.329841
2022-01-01 18:00:00   -1.523115
2022-01-01 19:00:00    0.313087
2022-01-01 20:00:00    2.784757
2022-01-01 21:00:00    1.495824
2022-01-01 22:00:00    0.332136
2022-01-01 23:00:00    0.207751
Freq: H, dtype: float64

In [69]:
# Seleccionar los valores correspondientes al primer día de cada mes
serie_tiempo.loc[serie_tiempo.index.is_month_start]

2022-01-01 00:00:00    0.379645
2022-01-01 01:00:00    0.831812
2022-01-01 02:00:00   -0.193350
2022-01-01 03:00:00   -0.127881
2022-01-01 04:00:00   -0.435696
2022-01-01 05:00:00   -0.133518
2022-01-01 06:00:00    0.292182
2022-01-01 07:00:00    1.073596
2022-01-01 08:00:00   -1.568699
2022-01-01 09:00:00    0.488495
2022-01-01 10:00:00   -1.690597
2022-01-01 11:00:00   -1.801088
2022-01-01 12:00:00    1.350666
2022-01-01 13:00:00    0.693096
2022-01-01 14:00:00    1.566389
2022-01-01 15:00:00    1.892289
2022-01-01 16:00:00   -1.466446
2022-01-01 17:00:00    0.329841
2022-01-01 18:00:00   -1.523115
2022-01-01 19:00:00    0.313087
2022-01-01 20:00:00    2.784757
2022-01-01 21:00:00    1.495824
2022-01-01 22:00:00    0.332136
2022-01-01 23:00:00    0.207751
Freq: H, dtype: float64

### Resampling y Downsampling

In [70]:
# Crear una serie de tiempo con una frecuencia horaria
dti = pd.date_range(start='2022-01-01', end='2022-01-31', freq='H')
serie_tiempo = pd.Series(data=np.random.randn(len(dti)), index=dti)
serie_tiempo.head()

2022-01-01 00:00:00   -0.139036
2022-01-01 01:00:00    0.681372
2022-01-01 02:00:00    1.368106
2022-01-01 03:00:00   -2.063529
2022-01-01 04:00:00   -0.853235
Freq: H, dtype: float64

In [71]:
# Resample a una frecuencia diaria utilizando la media
serie_diaria = serie_tiempo.resample('D').mean()
serie_diaria

2022-01-01   -0.135419
2022-01-02    0.452474
2022-01-03   -0.190047
2022-01-04   -0.116938
2022-01-05    0.434162
2022-01-06   -0.260373
2022-01-07   -0.005200
2022-01-08   -0.087687
2022-01-09    0.284766
2022-01-10    0.032200
2022-01-11   -0.179170
2022-01-12   -0.241551
2022-01-13    0.057716
2022-01-14   -0.245168
2022-01-15    0.311658
2022-01-16   -0.061394
2022-01-17   -0.402443
2022-01-18   -0.011354
2022-01-19    0.158948
2022-01-20   -0.162123
2022-01-21    0.126354
2022-01-22    0.301368
2022-01-23   -0.241820
2022-01-24    0.352234
2022-01-25   -0.051977
2022-01-26    0.249539
2022-01-27    0.284604
2022-01-28   -0.091989
2022-01-29   -0.097235
2022-01-30   -0.027586
2022-01-31    0.970477
Freq: D, dtype: float64

In [72]:

# Downsampling a una frecuencia de 6 horas utilizando la suma
serie_6horas = serie_tiempo.resample('6H').sum()
serie_6horas

2022-01-01 00:00:00   -1.352334
2022-01-01 06:00:00   -2.482019
2022-01-01 12:00:00    1.285291
2022-01-01 18:00:00   -0.700982
2022-01-02 00:00:00    1.722592
                         ...   
2022-01-30 00:00:00   -0.197396
2022-01-30 06:00:00   -0.554055
2022-01-30 12:00:00    1.261097
2022-01-30 18:00:00   -1.171700
2022-01-31 00:00:00    0.970477
Freq: 6H, Length: 121, dtype: float64