# Entender el índice en DataFrames
El índice en un DataFrame de Pandas es una estructura fundamental que permite identificar de manera única cada fila dentro del DataFrame.  
Cada DataFrame tiene un índice que puede ser explícito o implícito. Por defecto, Pandas asigna un índice implícito que es una secuencia de enteros comenzando desde 0. Sin embargo, es posible personalizar este índice para que utilice valores significativos extraídos de los datos, lo que puede facilitar la manipulación y el análisis de los mismos.

El índice en los DataFrames de Pandas es una herramienta poderosa que facilita la identificación y manipulación de datos de manera eficiente. Entender cómo configurar y utilizar el índice adecuadamente es esencial para aprovechar al máximo las capacidades de los DataFrames en Pandas. 

## Tipos de índices
### Índice numérico secuencial (por defecto):

In [2]:
import pandas as pd

data = {'Nombre': ['Ana', 'Luis', 'Marta'], 'Edad': [23, 35, 29]}
df = pd.DataFrame(data)
print(df)


  Nombre  Edad
0    Ana    23
1   Luis    35
2  Marta    29


### Índice basado en una columna existente:

Aquí, el índice se establece en la columna Nombre, permitiendo identificar las filas por el valor del nombre.

In [5]:
import pandas as pd

data = {'Nombre': ['Ana', 'Luis', 'Marta'], 'Edad': [23, 35, 29]}
df.set_index('Nombre', inplace=True)
print(df)


        Edad
Nombre      
Ana       23
Luis      35
Marta     29


### Índice multi-nivel (MultiIndex):

Un MultiIndex permite tener múltiples niveles de índices, lo que es útil para datos jerárquicos.

In [9]:
import pandas as pd

arrays = [['Ana', 'Ana', 'Luis', 'Luis'], ['Math', 'Science', 'Math', 'Science']]
index = pd.MultiIndex.from_arrays(arrays, names=('Nombre', 'Asignatura'))
data = {'Notas': [90, 85, 88, 92]}
df = pd.DataFrame(data, index=index)
print(df)


                   Notas
Nombre Asignatura       
Ana    Math           90
       Science        85
Luis   Math           88
       Science        92


## Manipulación del índice
### Restablecer el índice a su valor por defecto:
Este comando restablece el índice al valor por defecto, convirtiendo el índice actual en una columna del DataFrame.

In [12]:
import pandas as pd

# Crear un DataFrame de ejemplo con un índice personalizado
data = {
    'Nombre': ['Ana', 'Juan', 'Pedro', 'Laura'],
    'Edad': [23, 25, 30, 28],
    'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Valencia']
}
df = pd.DataFrame(data)
df.set_index('Nombre', inplace=True)

print("DataFrame con índice personalizado:")
print(df)

# Restablecer el índice al valor por defecto
df.reset_index(inplace=True)

print("\nDataFrame después de restablecer el índice:")
print(df)


DataFrame con índice personalizado:
        Edad     Ciudad
Nombre                 
Ana       23     Madrid
Juan      25  Barcelona
Pedro     30    Sevilla
Laura     28   Valencia

DataFrame después de restablecer el índice:
  Nombre  Edad     Ciudad
0    Ana    23     Madrid
1   Juan    25  Barcelona
2  Pedro    30    Sevilla
3  Laura    28   Valencia


### Renombrar el índice:
Se puede asignar un nombre al índice para mayor claridad.

In [15]:
# Renombrar el índice
df.index.name = 'Identificador'
print(df)


              Nombre  Edad     Ciudad
Identificador                        
0                Ana    23     Madrid
1               Juan    25  Barcelona
2              Pedro    30    Sevilla
3              Laura    28   Valencia


### Seleccionar datos mediante el índice:

In [17]:
# Establecer la columna 'Nombre' como índice
df.set_index('Nombre', inplace=True)

# Seleccionar datos mediante el índice
fila_ana = df.loc['Ana']
print(fila_ana)


Edad          23
Ciudad    Madrid
Name: Ana, dtype: object


## Índice temporal
### Crear un índice de fechas:

In [20]:
import pandas as pd

date_rng = pd.date_range(start='2023-01-01', end='2023-01-10', freq='D')
df = pd.DataFrame(date_rng, columns=['Fecha'])
df['Datos'] = range(10)
df.set_index('Fecha', inplace=True)
print(df)


            Datos
Fecha            
2023-01-01      0
2023-01-02      1
2023-01-03      2
2023-01-04      3
2023-01-05      4
2023-01-06      5
2023-01-07      6
2023-01-08      7
2023-01-09      8
2023-01-10      9


### Operaciones con índices temporales:

In [24]:
# Seleccionar datos de una fecha específica
print(df.loc['2023-01-03'])

# Seleccionar datos de un rango de fechas
print(df.loc['2023-01-03':'2023-01-05'])


Datos    2
Name: 2023-01-03 00:00:00, dtype: int64
            Datos
Fecha            
2023-01-03      2
2023-01-04      3
2023-01-05      4


## Índice duplicado

Es posible que un DataFrame tenga índices duplicados, aunque en general no es recomendable porque puede complicar las operaciones de manipulación y análisis.

 ### <span style="background-color: yellow">Detectar índices duplicados: </span>

In [30]:
import pandas as pd

df = pd.DataFrame({'Nombre': ['Ana', 'Luis', 'Ana'], 'Edad': [23, 35, 29]})
df.set_index('Nombre', inplace=True)
print(df.index.duplicated())

[False False  True]


### Eliminar índices duplicados:

In [33]:
df = df[~df.index.duplicated(keep='first')]
print(df)


        Edad
Nombre      
Ana       23
Luis      35


## Índice jerárquico (MultiIndex)
En situaciones donde los datos tienen múltiples niveles de categorización, se puede utilizar un índice jerárquico o MultiIndex.

### Crear un MultiIndex:


In [37]:
import pandas as pd

arrays = [['Ana', 'Ana', 'Luis', 'Luis'], ['Math', 'Science', 'Math', 'Science']]
index = pd.MultiIndex.from_arrays(arrays, names=('Nombre', 'Asignatura'))
data = {'Notas': [90, 85, 88, 92]}
df = pd.DataFrame(data, index=index)
print(df)


                   Notas
Nombre Asignatura       
Ana    Math           90
       Science        85
Luis   Math           88
       Science        92


### Acceso a datos con MultiIndex:

In [40]:
# Seleccionar todas las asignaturas de 'Ana'
print(df.loc['Ana'])

# Seleccionar la nota de 'Luis' en 'Math'
print(df.loc[('Luis', 'Math')])


            Notas
Asignatura       
Math           90
Science        85
Notas    88
Name: (Luis, Math), dtype: int64
