# Pandas

![](https://miro.medium.com/max/481/1*cxfqR8NAj8HGal8CVOZ7hg.png)

Pandas es una herramienta de manipulación de datos de alto nivel desarrollada por Wes McKinney. Esta desarrollado sobre el paquete Numpy y su estructura de datos clave es llamada el DataFrame. El DataFrame permite almacenar y manipular datos tabulados en filas de observaciones y columnas de variables. Se puede conceptualizar como una hoja de cálculo, pero con esteroides.

La [documentación de pandas](https://pandas.pydata.org/pandas-docs/stable/index.html) es muy extensa y muy bien redactada (con ejemplos, inclusive), por lo que vale la pena tenerla a la mano.

Luis A. Muñoz

In [2]:
import pandas as pd

## Series
Las series son estructuras unidimensionales de datos etiquetados con valores numéricos (como una lista) o etiquetas (como un diccionario). Es básicamente una columna en una hoja de cálculo.

In [37]:
data = pd.Series(['Data1', 'Data2', 'Data3'])
print(type(data))
print(data)

<class 'pandas.core.series.Series'>
0    Data1
1    Data2
2    Data3
dtype: object


Como se observa, se ha creado una Serie de datos a partir de una lista. Cada uno de los datos (`object` signfica que son `str`) esta etiquetado con un número a lo largo del `index`. La indexación puede consistir en etiquetas:

In [38]:
data.index = ['A', 'B', 'C']
print(data)

A    Data1
B    Data2
C    Data3
dtype: object


Se puede acceder a cada uno de los valores por medio de la notación `[]` utilizando indices númericos de posición o el índice actual, o utilizando el método `at` solamente con los indices actuales:

In [4]:
print("data[0] =", data[0])
print("data[-1] =", data[-1])
print("data['A'] =", data['A'])
print("data.at['B'] =", data.at['B'])

data[0] = Data1
data[-1] = Data3
data['A'] = Data1
data.at['B'] = Data2


Se pueden especificar tanto los datos como los índices al momento de generar la Serie:

In [39]:
data = pd.Series(data=['Audi', 'Porsche', 'Bugatti', 'Lotus'], 
                 index=['C1', 'C2', 'C3', 'C4'], 
                 name='Autos')
print(data)

C1       Audi
C2    Porsche
C3    Bugatti
C4      Lotus
Name: Autos, dtype: object


Los datos asociados a una serie se pueden obtener con las propiedades `index`, `data` y `name`:

In [40]:
print(data.index)
print(data.values)    # Por qué 'values' en lugar de 'data'???
print(data.name)

Index(['C1', 'C2', 'C3', 'C4'], dtype='object')
['Audi' 'Porsche' 'Bugatti' 'Lotus']
Autos


Una de las cosas a notar es que los índices están emparejados a los datos (como sucede con el par llave-valor en un diccionario). Por ejemplo, si se aplica el método `sort_values` sobre una Serie:

In [41]:
data.sort_values()

C1       Audi
C3    Bugatti
C4      Lotus
C2    Porsche
Name: Autos, dtype: object

Se observa que los valores se ordenan alfabéticamante, llevandose a sus índices consigo (así estos no se hayan especificado y sean valores numéricos). Por lo tanto, el dato `data['C3']` sigue siendo *Bugatti*.

¿Qué sucede si se ingresa una Serie a un iterador como `for`?

In [42]:
for item in data:
    print(item)

Audi
Porsche
Bugatti
Lotus


Obtendermos los valores (y no lo índices, como sucedía con un diccionario). Esto es una característica de las Series a recordar.

### pandas y operaciones `inplace`
Otra cosa que debe de observar que escapa a la vista: ¡los datos que han sido iterados de la Serie `data` ya no están ordenados! ¿Esto quiere decir que la operación anterior `data.sort_values()` se deshizo? La explicación a esto esta ascociada al hecho de que cuando se ejecuto esta instrucción en una celda se observó una serie ordenada por sus valores. Esto sólo es posible si `data.sort_values()` retornase una Serie nueva (si ordenara la Serie misma no se vería ninguna impresión). Esta es la forma como casi todos los métodos en una Serie y un Dataframe operan: generan nuevos objetos (como sucede con los `str`). Así que, si se quiere que los cambios se realicen sobre la Serie misma se puede hacer: `data = data.sort_values()`, aunque lo común es especificar la propiedad `inplace=True`:

In [43]:
data.sort_values(inplace=True)

In [44]:
print(data)

C1       Audi
C3    Bugatti
C4      Lotus
C2    Porsche
Name: Autos, dtype: object


### `loc` y `iloc`
Retornemos a los índices. Una Serie soporta *index-slicing*?

In [45]:
print(data[::-1])

C2    Porsche
C4      Lotus
C3    Bugatti
C1       Audi
Name: Autos, dtype: object


Uno de los inconvenientes de pandas es que hay muchas formas de hacer las mismas cosas, por lo que lo mejor es tener una metodología para realizar algunas acciones que se podrían realizar de varias maneras. Por ejemplo, respecto a la indexación no se suele utilizar directamente la notación `[]` ya que genera confusión en el código al sugerír que se esta frente a una lista. En lugar de esto se utiliza con los atributos `loc` y `iloc`:

In [48]:
print("data.loc['C1'] =", data.loc['C1'])
print("data.iloc[0] =", data.iloc[0])

data.loc['C1'] = Audi
data.iloc[0] = Audi


Como se observa, `loc` especifica que se quiere el dato en una *localización* según la etiqueta del índice, miestras que `iloc` especifica que se quiere el dato en una *localización* según el índice de posición. (Si no se ha especificado valores para los índices se tendrá la misma información para ambos casos). Respecto al *index-slicing*:

In [49]:
print("data.loc['C1'::2] =\n", data.loc['C1'::2])
print("\ndata.iloc[::-2] =\n", data.iloc[::-2])

data.loc['C1'::2] =
 C1     Audi
C4    Lotus
Name: Autos, dtype: object

data.iloc[::-2] =
 C2    Porsche
C3    Bugatti
Name: Autos, dtype: object


Como se observa, se soporta *index-slicing* tanto con índices de posicion como con las etiquetas. Así que seguiremos la buena costumbre de utilizar `loc` y `iloc` cuando utilicemos pandas.

### Operaciones con Series
Las Series también soportan operaciones que dependerán del tipo de datos:

In [50]:
data = pd.Series([1, 2, 3])
data * 2

0    2
1    4
2    6
dtype: int64

In [51]:
data + data

0    2
1    4
2    6
dtype: int64

In [52]:
data = pd.Series(['A', 'B', 'C'])
data + '0'

0    A0
1    B0
2    C0
dtype: object

### Indexación booleana
Los Series también soportan indexación booleana:

In [53]:
data = pd.Series([1, 3, 12, 15, 20, 25, 30, 16, 21, 7, 33])
print(data)

0      1
1      3
2     12
3     15
4     20
5     25
6     30
7     16
8     21
9      7
10    33
dtype: int64


In [54]:
data % 2 == 0

0     False
1     False
2      True
3     False
4      True
5     False
6      True
7      True
8     False
9     False
10    False
dtype: bool

La operación anterior (una Serie con una operación relacional) retorna una Serie con datos booleanos. Una Serie Booleana se puede utilizar como "máscara" para seleccionar los datos de un Serie que cumplen con la condición de la máscara:

In [55]:
data[data % 2 == 0]

2    12
4    20
6    30
7    16
dtype: int64

### Gestión de índices
Los índices también se pueden manipular en una Serie:

In [56]:
data = pd.Series([80, 76, 66])
data.index = ['Elvio', 'Dina', 'Elmer']
data

Elvio    80
Dina     76
Elmer    66
dtype: int64

In [57]:
data.sort_index()

Dina     76
Elmer    66
Elvio    80
dtype: int64

Se puede renombrar los índices utiliando `Series.rename`, utilizando ya sea un diccionario de la forma *{indice_antiguo: indice_nuevo}*, o con una función que tome como argumento de entrada el índice actual:

In [58]:
data.rename({'Dina': 'Dina Mita', 'Elmer': 'Elmer Curio', 'Elvio': 'Elvio Lado'})

Elvio Lado     80
Dina Mita      76
Elmer Curio    66
dtype: int64

In [25]:
data.rename(lambda x: "Dr. " + x)       # data.rename(func)

Dr. Elvio    80
Dr. Dina     76
Dr. Elmer    66
dtype: int64

### Gestion de los valores NaN
Al momento de importar valores a una Serie o un Dataframe, es común que algunos factores no puedan interpretarse correctamente. Ante esta circunstancia, pandas convierte estos valores en NaN (Not a Number).

In [59]:
import numpy as np

data = pd.Series([1, 10, np.nan, 12, 22, np.nan])
print(data)

0     1.0
1    10.0
2     NaN
3    12.0
4    22.0
5     NaN
dtype: float64


Una de las primeras tareas al momento de trabajar con los datos es saber si existen valores NaN, ya que estos pueden afectar los calculos a realizar. Una vez detectados, se pueden reemplazar o eliminar de la Serie:

In [61]:
# Hay valores NaN en la Serie?
any(data.isna())

True

In [62]:
# Reemplazar estos valores con 0 ("inplace=True" si se quiere fijar!)
data.fillna(0)

0     1.0
1    10.0
2     0.0
3    12.0
4    22.0
5     0.0
dtype: float64

In [63]:
# Eliminar los valores que sean NaN
data.dropna()

0     1.0
1    10.0
3    12.0
4    22.0
dtype: float64

### Algunos métodos de una Serie
Existe una gran cantidad de métodos para realizar operaciones sobre una Serie (o un Dataframe). Es preferible usar siempre los métodos del objeto de pandas en lugar de las BIFs de Python. Por ejemplo, se puede utilizar el BIF `len` tanto como consultar la propiedad `Series.size` para conocer el número de elementos de una Serie:

In [64]:
data = pd.Series([1, 10, np.nan, 12, 22, np.nan])
print(len(data))
print(data.size)

6
6


Pero no puede decirse o mismo del BIF `sum` y el método `Series.sum()`:

In [65]:
print(sum(data))
print(data.sum())

nan
45.0


Con esta aclaración, se presentan algunos métodos útiles:

In [70]:
data = pd.Series([30, 13, 16, 20, 39, 22, 16, 17])
data

0    30
1    13
2    16
3    20
4    39
5    22
6    16
7    17
dtype: int64

In [71]:
# Todos los métodos no consideran los valores NaN en sus operaciones
print("Numero de elementos:", data.count())
print("Suma de los elementos:", data.sum())
print("Promedio de los elementos:", data.mean())
print("Valor medio de los elementos:", data.median())
print("Valor mínimo:", data.min())
print("Valor máximo:", data.max())
print("Indice valor mínimo:", data.argmin())
print("Indice valor máximo:", data.argmax())

Numero de elementos: 8
Suma de los elementos: 173
Promedio de los elementos: 21.625
Valor medio de los elementos: 18.5
Valor mínimo: 13
Valor máximo: 39
Indice valor mínimo: 1
Indice valor máximo: 4


Cuando se quiere cambiar los datos de una serie por una operación, se puede utilizar el método `Series.apply()` para aplicar una función sobre los valores:

In [72]:
data.apply(lambda x: float(x))         #data.apply(func)

0    30.0
1    13.0
2    16.0
3    20.0
4    39.0
5    22.0
6    16.0
7    17.0
dtype: float64

Esto es más que suficiente con las Series de pandas. Ayudará mucho a entender con mayor facilidad lo que es un DataFrame, el tipo de datos más común en pandas. Asi que antes de continuar, hay que procesar la información...

![](https://1.bp.blogspot.com/-GskJF4leDDM/U2fqYXRZa2I/AAAAAAAADu8/XJMQskW6rvs/s1600/bb.png)

## DataFrame
Un Dataframe es una estructura tabular bidimensional: una hoja de cálculo, con filas y columnas. Si se consideraba una Serie como una columna en una hoja de cálculo, un DataFrame será una colección de Series.

In [89]:
df = pd.DataFrame(['A', 'B', 'C'])
df

Unnamed: 0,0
0,A
1,B
2,C


Como se puede observar, un DataFrame consiste en una coleccion de Series, donde cada uno de estas tiene una etiqueta, es decir el nombre de la columna (aqui es donde tiene sentido que una Serie tenga un nombre entre sus propiedades y un DataFrame no).

Definamos un DataFrame como una lista de listas:

In [90]:
df = pd.DataFrame([['A', 'B', 'C'], ['D', 'E', 'F'], ['G', 'H', 'I']])
df

Unnamed: 0,0,1,2
0,A,B,C
1,D,E,F
2,G,H,I


Aquí se ve con mayor claridad que un DataFrame es una tabla. Se suele definir un DataFrame siendo más explicito con los nombres de las propiedades:

In [91]:
df = pd.DataFrame(data=[['A', 'B', 'C'], ['D', 'E', 'F'], ['G', 'H', 'I']], 
                  columns=['C1', 'C2', 'C3'], 
                  index=['I1', 'I2', 'I3'])
df

Unnamed: 0,C1,C2,C3
I1,A,B,C
I2,D,E,F
I3,G,H,I


### Indexación
Como sucede con las listas de listas, en un DataFrame la indexación puede ser más complicada... pero si utilizamos `loc` y `iloc` todo se vuelve mucho más sencillo. Si se utiliza `loc` con la etiqueta de un índice, retornará la fila asociada a ese índice:

In [92]:
df.loc['I1']

C1    A
C2    B
C3    C
Name: I1, dtype: object

In [77]:
df.loc['I3'::-1]

Unnamed: 0,C1,C2,C3
I3,G,H,I
I2,D,E,F
I1,A,B,C


Por otro lado, con `iloc` puede especificar los indices de los datos de forma bidimensional (como si fuera un `array`):

In [93]:
df.iloc[0]

C1    A
C2    B
C3    C
Name: I1, dtype: object

In [94]:
df.iloc[0, 1:]

C2    B
C3    C
Name: I1, dtype: object

Considerando que un DataFrame es una colección de Series, es decir de columnas, utilizar directamente la indexación con `[]` da acceso a las columnas. En este formato no tenemos *index-slicing*, por lo que deberémos esoecificar una lista de etiquetas de columnas para obtener un sub DataFrame:

In [95]:
df['C2']

I1    B
I2    E
I3    H
Name: C2, dtype: object

In [96]:
df[['C2', 'C3']]

Unnamed: 0,C2,C3
I1,B,C
I2,E,F
I3,H,I


Pero esto mismo se puede realizar con `loc`, si se considerán dos etiquetas de índices de la forma `[fila, columna]`:

In [97]:
df.loc[:, 'C2':]

Unnamed: 0,C2,C3
I1,B,C
I2,E,F
I3,H,I


Así que sigue siendo una buena regla utilizar `loc` y `iloc`: el primero con índices de posición, y el segundo con etiquetas de filas y columnas con soporte de *index-slicing*.

### DataFrame como iterable
¿Y qué pasará si se ingresa un DataFrame a un iterador como un lazo for?:

In [98]:
for item in df:
    print(item)

C1
C2
C3


Solo devolverá las columnas. ¿Tiene sentido? Si se considera que un DataFrame es una coleccion de columnas, si. Se puede utilizar la siguiente contrucción de código con el metodo `DataFrame.get()` (homólogo de `Series.at()` para una serie), por ejemplo:

In [99]:
for col in df:
    print(df.get(col))

I1    A
I2    D
I3    G
Name: C1, dtype: object
I1    B
I2    E
I3    H
Name: C2, dtype: object
I1    C
I2    F
I3    I
Name: C3, dtype: object


### Eliminar datos en un DataFrame
En una estructura bidimensional, al momento de eliminar valores, se debe de eliminar filas o columnas completas. Para esto utilizamos el método `DataFrame.drop()`:

In [100]:
df = pd.DataFrame(data=[['A', 'B', 'C'], ['D', 'E', 'F'], ['G', 'H', 'I']], 
                  columns=['C1', 'C2', 'C3'], 
                  index=['I1', 'I2', 'I3'])
df

Unnamed: 0,C1,C2,C3
I1,A,B,C
I2,D,E,F
I3,G,H,I


In [86]:
df.drop(index='I2')      # df.drop('I2', axis=0)

Unnamed: 0,C1,C2,C3
I1,A,B,C
I3,G,H,I


In [87]:
df.drop(columns='C2')

Unnamed: 0,C1,C3
I1,A,C
I2,D,F
I3,G,I


In [88]:
df.drop(columns=['C1', 'C3'])

Unnamed: 0,C2
I1,B
I2,E
I3,H


Al igual que en las Series, estas operaciones retornan un nuevo DataFrame, por lo que si se quiere modificar el mismo DataFrame será necesario especificar el atributo `inplace=True`.

Existe una excepción a esto: `DataFrame.pop()`, que extrae una columna de un DataFrame, lo que resulta lógico ya que al extraer la columna y retornarla como resutado, la elimina del DataFrame.

In [101]:
fil = df.pop('C2')
print(fil)
print(df)

I1    B
I2    E
I3    H
Name: C2, dtype: object
   C1 C3
I1  A  C
I2  D  F
I3  G  I


## Importación de datos
Una de las grandes ventajas de la librería pandas es la capacidad de importación de datos desde diversas fuentes. Vamos a trabajar con algunas fuentes de datos:

### CSV

In [102]:
df = pd.read_csv("dataset_la_liga.csv")

In [103]:
df.head()    # Se muestran las primeras filas (por defecto, 5)

Unnamed: 0,season,club,home_win,away_win,home_loss,away_loss,matches_won,matches_lost,matches_drawn,total_matches,points,home_goals,away_goals,goals_scored,goals_conceded,goal_difference
0,1970-71,Real Zaragoza,3,0,5,13,3,18,9,30,18,14,8,22,54,-32
1,1970-71,Elche,4,0,5,11,4,16,10,30,22,17,8,25,46,-21
2,1970-71,Las Palmas,5,0,3,12,5,15,10,30,25,25,8,33,42,-9
3,1970-71,Sabadell,8,0,3,14,8,17,5,30,29,19,9,28,49,-21
4,1970-71,Espanyol,7,1,4,9,8,13,9,30,33,13,5,18,25,-7


In [104]:
df.tail()     # Se muestras las últimas filas (por defecto, 5)

Unnamed: 0,season,club,home_win,away_win,home_loss,away_loss,matches_won,matches_lost,matches_drawn,total_matches,points,home_goals,away_goals,goals_scored,goals_conceded,goal_difference
903,2016-17,Villarreal,11,8,4,5,19,9,10,38,67,35,21,56,33,23
904,2016-17,Sevilla,14,7,1,7,21,8,9,38,72,39,30,69,49,20
905,2016-17,Atletico de Madrid,14,9,3,3,23,6,9,38,78,40,30,70,27,43
906,2016-17,Barcelona,15,13,1,3,28,4,6,38,90,64,52,116,37,79
907,2016-17,Real Madrid,14,15,1,2,29,3,6,38,93,48,58,106,41,65


### JSON
Un archivo JSON se puede importar hacia un DataFrame utilizando el método `DataFrame.read_json(json_file)` siempre y cuando tenga la siguiente estructura:
    
    {columna1: 
        {
            fila1: data, 
            fila2, data, ...
        }, 
     columna2: 
        {
            fila1: data, 
            fila2: data, ...
        }, ...
    }
    
De lo contrario, se se podrá "aplanar" los datos en una tabla.

Si se quieren leer los datos de un archivo JSON con una estrutura anidada, se debe de navegar por la estructura del archivo para extraer estructuras aplanadas que puedan ser trasladadas a una estructura tabular, y utilizar el método `DataFrame.from_dict()` ya que se tendrá un diccionario:

In [105]:
import json

with open("covid_data.json") as file:
    data = json.load(file)

df = pd.DataFrame.from_dict(data['Peru'])     # tambien se puede utilizar from_records

In [106]:
df.head()

Unnamed: 0,date,confirmed,deaths,recovered
0,2020-1-22,0,0,0
1,2020-1-23,0,0,0
2,2020-1-24,0,0,0
3,2020-1-25,0,0,0
4,2020-1-26,0,0,0


In [107]:
df.tail()

Unnamed: 0,date,confirmed,deaths,recovered
260,2020-10-8,835662,33009,728216
261,2020-10-9,838614,33098,728216
262,2020-10-10,846088,33223,733000
263,2020-10-11,849371,33305,738189
264,2020-10-12,851171,33357,743969


### Excel
Se pueden importar datos de un archivo Excel hacia un DataFrame:

In [108]:
df = pd.read_excel("SampleData.xlsx", sheet_name="SalesOrders")

In [109]:
df.head()

Unnamed: 0,OrderDate,Region,Rep,Item,Units,Unit Cost,Total
0,2019-01-06,East,Jones,Pencil,95,1.99,189.05
1,2019-01-23,Central,Kivell,Binder,50,19.99,999.5
2,2019-02-09,Central,Jardine,Pencil,36,4.99,179.64
3,2019-02-26,Central,Gill,Pen,27,19.99,539.73
4,2019-03-15,West,Sorvino,Pencil,56,2.99,167.44


In [110]:
df.tail()

Unnamed: 0,OrderDate,Region,Rep,Item,Units,Unit Cost,Total
38,2020-10-14,West,Thompson,Binder,57,19.99,1139.43
39,2020-10-31,Central,Andrews,Pencil,14,1.29,18.06
40,2020-11-17,Central,Jardine,Binder,11,4.99,54.89
41,2020-12-04,Central,Jardine,Binder,94,19.99,1879.06
42,2020-12-21,Central,Andrews,Binder,28,4.99,139.72


### HTML
Si se tiene una fuente web con una tabla incrustada (es decir, con etiquetas <tb>, <tr>, <td>), pandas puede importar los datos hacia un DataFrame:

In [3]:
URL = "https://finance.yahoo.com/quote/BTC-USD/history?p=BTC-USD"
data = pd.read_html(URL)

Si se observa el resultado obtenido se verá que es una lista que contendrá todos los bloques del recurso web con información relevante.

In [4]:
print(type(data))
print(len(data))

<class 'list'>
1


Para este caso, el elemento de índice 3 es el que tiene la información relevante, por lo que ajustamos nuestra instrucción:

In [5]:
df = data[0]
df.head()

Unnamed: 0,Date,Open,High,Low,Close*,Adj Close**,Volume
0,"Feb 08, 2021",39169.54,44269.26,38080.92,44269.26,44269.26,92605095936
1,"Feb 07, 2021",39250.19,39621.84,37446.15,38903.44,38903.44,65500641143
2,"Feb 06, 2021",38138.39,40846.55,38138.39,39266.01,39266.01,71326033653
3,"Feb 05, 2021",36931.55,38225.91,36658.76,38144.31,38144.31,58598066402
4,"Feb 04, 2021",37475.11,38592.18,36317.5,36926.07,36926.07,68838074392


In [6]:
df.tail()

Unnamed: 0,Date,Open,High,Low,Close*,Adj Close**,Volume
96,"Nov 04, 2020",13950.49,14218.77,13580.47,14133.71,14133.71,35116364962
97,"Nov 03, 2020",13550.45,13984.98,13325.44,13950.30,13950.30,29869951617
98,"Nov 02, 2020",13737.03,13808.32,13243.16,13550.49,13550.49,30771455468
99,"Nov 01, 2020",13781.00,13862.03,13628.38,13737.11,13737.11,24453857900
100,*Close price adjusted for splits.**Adjusted cl...,*Close price adjusted for splits.**Adjusted cl...,*Close price adjusted for splits.**Adjusted cl...,*Close price adjusted for splits.**Adjusted cl...,*Close price adjusted for splits.**Adjusted cl...,*Close price adjusted for splits.**Adjusted cl...,*Close price adjusted for splits.**Adjusted cl...


## Exportar datos
Un DataFrame se puede exportar a una de las fuentes anteriores. Los detalles de estas operaciones escapan al alcance de este curso y lo mejor es consultar la documentación de pandas.

- DataFrame.to_csv()
- DataFrame.to_json()
- DataFrame.to_excel()
- DataFrame.to_html()

## `DataFrame.to_datetime` y `DatetimeIndex`
En muchas ocasiones, la columnas que contienen fechas son importadas como texto (`object`) y lo que se requiere es tenerlas como objetos datetime.

In [10]:
df.drop(index=100, inplace=True)

In [11]:
df['Date'] = pd.to_datetime(df['Date'])
df.head()

Unnamed: 0,Date,Open,High,Low,Close*,Adj Close**,Volume
0,2021-02-08,39169.54,44269.26,38080.92,44269.26,44269.26,92605095936
1,2021-02-07,39250.19,39621.84,37446.15,38903.44,38903.44,65500641143
2,2021-02-06,38138.39,40846.55,38138.39,39266.01,39266.01,71326033653
3,2021-02-05,36931.55,38225.91,36658.76,38144.31,38144.31,58598066402
4,2021-02-04,37475.11,38592.18,36317.5,36926.07,36926.07,68838074392


Por otro lado, en otras ocasiones se requiere que las etiquetas de los índices de las columnas sean objetos datetime. Para esto se utiliza `DataFrame.DatetimeIndex(Serie)`. La Serie o columna que se convertirá en un índice tipo datetime puede contener objetos datetime o ser `str` con un formato que pueda ser convertido a un datetime.

In [12]:
df.index = pd.DatetimeIndex(df['Date'])

In [13]:
df

Unnamed: 0_level_0,Date,Open,High,Low,Close*,Adj Close**,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2021-02-08,2021-02-08,39169.54,44269.26,38080.92,44269.26,44269.26,92605095936
2021-02-07,2021-02-07,39250.19,39621.84,37446.15,38903.44,38903.44,65500641143
2021-02-06,2021-02-06,38138.39,40846.55,38138.39,39266.01,39266.01,71326033653
2021-02-05,2021-02-05,36931.55,38225.91,36658.76,38144.31,38144.31,58598066402
2021-02-04,2021-02-04,37475.11,38592.18,36317.50,36926.07,36926.07,68838074392
...,...,...,...,...,...,...,...
2020-11-05,2020-11-05,14133.73,15706.40,14102.09,15579.85,15579.85,40856321439
2020-11-04,2020-11-04,13950.49,14218.77,13580.47,14133.71,14133.71,35116364962
2020-11-03,2020-11-03,13550.45,13984.98,13325.44,13950.30,13950.30,29869951617
2020-11-02,2020-11-02,13737.03,13808.32,13243.16,13550.49,13550.49,30771455468


In [14]:
df.drop(columns='Date')

Unnamed: 0_level_0,Open,High,Low,Close*,Adj Close**,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2021-02-08,39169.54,44269.26,38080.92,44269.26,44269.26,92605095936
2021-02-07,39250.19,39621.84,37446.15,38903.44,38903.44,65500641143
2021-02-06,38138.39,40846.55,38138.39,39266.01,39266.01,71326033653
2021-02-05,36931.55,38225.91,36658.76,38144.31,38144.31,58598066402
2021-02-04,37475.11,38592.18,36317.50,36926.07,36926.07,68838074392
...,...,...,...,...,...,...
2020-11-05,14133.73,15706.40,14102.09,15579.85,15579.85,40856321439
2020-11-04,13950.49,14218.77,13580.47,14133.71,14133.71,35116364962
2020-11-03,13550.45,13984.98,13325.44,13950.30,13950.30,29869951617
2020-11-02,13737.03,13808.32,13243.16,13550.49,13550.49,30771455468


In [15]:
df

Unnamed: 0_level_0,Date,Open,High,Low,Close*,Adj Close**,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2021-02-08,2021-02-08,39169.54,44269.26,38080.92,44269.26,44269.26,92605095936
2021-02-07,2021-02-07,39250.19,39621.84,37446.15,38903.44,38903.44,65500641143
2021-02-06,2021-02-06,38138.39,40846.55,38138.39,39266.01,39266.01,71326033653
2021-02-05,2021-02-05,36931.55,38225.91,36658.76,38144.31,38144.31,58598066402
2021-02-04,2021-02-04,37475.11,38592.18,36317.50,36926.07,36926.07,68838074392
...,...,...,...,...,...,...,...
2020-11-05,2020-11-05,14133.73,15706.40,14102.09,15579.85,15579.85,40856321439
2020-11-04,2020-11-04,13950.49,14218.77,13580.47,14133.71,14133.71,35116364962
2020-11-03,2020-11-03,13550.45,13984.98,13325.44,13950.30,13950.30,29869951617
2020-11-02,2020-11-02,13737.03,13808.32,13243.16,13550.49,13550.49,30771455468
