<a href="https://colab.research.google.com/github/Victorvv1/Curso-de-Analisis-de-Datos-/blob/main/Indexacion_y_Seleccion_de_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Indexación y selección de Datos

In [None]:
import pandas as pd

## Selección de Datos en Series

### Series como diccionarios

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

Unnamed: 0,0
a,0.25
b,0.5
c,0.75
d,1.0


In [None]:
data['b']

np.float64(0.5)

In [None]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [None]:
'a' in data

True

In [None]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [None]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [None]:
data['e'] = 1.25
data

Unnamed: 0,0
a,0.25
b,0.5
c,0.75
d,1.0
e,1.25


### Series como Array Unidimensional de Numpy

In [None]:
# Podemos usar segmentación, máscaras e indexación avanzada
data['a':'c']

Unnamed: 0,0
a,0.25
b,0.5
c,0.75


In [None]:
data[0:2]

Unnamed: 0,0
a,0.25
b,0.5


In [None]:
data[(data > 0.3) & (data < 0.8)]

Unnamed: 0,0
b,0.5
c,0.75


## loc y iloc

In [None]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

Unnamed: 0,0
1,a
3,b
5,c


In [None]:
data[1]

'a'

In [None]:
data[1:3]

Unnamed: 0,0
3,b
5,c


Debido a esta posible confusión en el caso de índices enteros, Pandas proporciona atributos especiales *indexer* que exponen explícitamente ciertos esquemas de indexación.
Estos no son métodos funcionales, sino atributos que exponen una interfaz de segmentación específica a los datos de la `Serie`.

En primer lugar, el atributo `loc` permite la indexación y la segmentación que siempre hacen referencia al índice explícito

In [None]:
data.loc[1]

'a'

In [None]:
data.loc[1:3]

Unnamed: 0,0
1,a
3,b


In [None]:
data.iloc[1]

'b'

In [None]:
data.iloc[1:3]

Unnamed: 0,0
3,b
5,c


Un principio rector del código Python es que "lo explícito es mejor que lo implícito". La naturaleza explícita de `loc` e `iloc` las hace útiles para mantener un código limpio y legible; especialmente en el caso de índices enteros, su uso consistente puede prevenir errores sutiles debido a la convención mixta de indexación y segmentación.

## Selección de Datos en DataFrames
Como una matriz bidimensional y como un diccionario de estrucuturas.

### DataFrame como Diccionario

In [None]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'Florida': 170312, 'New York': 141297,
                  'Pennsylvania': 119280})
pop = pd.Series({'California': 39538223, 'Texas': 29145505,
                 'Florida': 21538187, 'New York': 20201249,
                 'Pennsylvania': 13002700})
data = pd.DataFrame({'area': area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,39538223
Texas,695662,29145505
Florida,170312,21538187
New York,141297,20201249
Pennsylvania,119280,13002700


In [None]:
data['area']

Unnamed: 0,area
California,423967
Texas,695662
Florida,170312
New York,141297
Pennsylvania,119280


In [None]:
data.area # no utilizar

Unnamed: 0,area
California,423967
Texas,695662
Florida,170312
New York,141297
Pennsylvania,119280


 Aunque este es un atajo útil, ¡ten en cuenta que no funciona en todos los casos! Por ejemplo, si los nombres de las columnas no son cadenas de texto, o si los nombres de las columnas entran en conflicto con métodos del `DataFrame`, este acceso de estilo atributo no es posible. Por ejemplo, el `DataFrame` tiene un método `pop`, por lo que `data.pop` apuntará a este método en lugar de a la columna `pop`:

In [None]:
data.pop is data['pop']

False

In [None]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,39538223,93.257784
Texas,695662,29145505,41.896072
Florida,170312,21538187,126.463121
New York,141297,20201249,142.97012
Pennsylvania,119280,13002700,109.009893


## DataFrame como Array de dos dimensiones

In [None]:
data.values

array([[4.23967000e+05, 3.95382230e+07, 9.32577842e+01],
       [6.95662000e+05, 2.91455050e+07, 4.18960717e+01],
       [1.70312000e+05, 2.15381870e+07, 1.26463121e+02],
       [1.41297000e+05, 2.02012490e+07, 1.42970120e+02],
       [1.19280000e+05, 1.30027000e+07, 1.09009893e+02]])

In [None]:
data.T

Unnamed: 0,California,Texas,Florida,New York,Pennsylvania
area,423967.0,695662.0,170312.0,141297.0,119280.0
pop,39538220.0,29145500.0,21538190.0,20201250.0,13002700.0
density,93.25778,41.89607,126.4631,142.9701,109.0099


In [None]:
data.values[0]

array([4.23967000e+05, 3.95382230e+07, 9.32577842e+01])

In [None]:
data['area']

Unnamed: 0,area
California,423967
Texas,695662
Florida,170312
New York,141297
Pennsylvania,119280


Para la indexación de estilo array, necesitamos otra convención.
En este caso, Pandas vuelve a utilizar los indexadores `loc` e `iloc` mencionados anteriormente.
Con el indexador `iloc`, podemos indexar el array subyacente como si fuera un array NumPy simple (utilizando el índice implícito de Python), pero el índice `DataFrame` y las etiquetas de columna se conservan en el resultado:

In [None]:
data

Unnamed: 0,area,pop,density
California,423967,39538223,93.257784
Texas,695662,29145505,41.896072
Florida,170312,21538187,126.463121
New York,141297,20201249,142.97012
Pennsylvania,119280,13002700,109.009893


In [None]:
data.iloc[:3, :2]

Unnamed: 0,area,pop
California,423967,39538223
Texas,695662,29145505
Florida,170312,21538187


In [None]:
data.loc[:'Florida', :'pop']

Unnamed: 0,area,pop
California,423967,39538223
Texas,695662,29145505
Florida,170312,21538187


In [None]:
data.loc[data.density > 120, ['pop', 'density']]

Unnamed: 0,pop,density
Florida,21538187,126.463121
New York,20201249,142.97012


In [None]:
data.iloc[0,2] = 90
data

Unnamed: 0,area,pop,density
California,423967,39538223,90.0
Texas,695662,29145505,41.896072
Florida,170312,21538187,126.463121
New York,141297,20201249,142.97012
Pennsylvania,119280,13002700,109.009893


### La diferencia entre indexación y segmentación en DataFrames
Esta sección explica una aparente inconsistencia en la forma de indexar DataFrames en Pandas que puede resultar confusa al principio, pero que tiene sentido práctico.

1. **Indexación con corchetes simples `[]` y una etiqueta:**
   - Cuando usas `data['Florida']`, estás seleccionando **columnas**
   - La forma `data['nombre_columna']` siempre selecciona columnas

2. **Segmentación con corchetes simples `[]` y dos puntos `:`:**
   - Cuando usas `data['Florida':'New York']`, sorprendentemente estás seleccionando **filas**
   - Esto selecciona todas las filas desde 'Florida' hasta 'New York' (inclusive) según el índice

3. **Segmentación por números de posición:**
   - `data[1:3]` selecciona filas por su posición numérica (no por etiqueta)
   - Selecciona las filas en las posiciones 1 y 2 (pero no la 3, siguiendo la convención de Python)

4. **Mascarado booleano:**
   - `data[data.density > 120]` filtra **filas** (no columnas)
   - Selecciona todas las filas donde el valor en la columna 'density' es mayor que 120

### ¿Por qué esta inconsistencia?

Esta aparente inconsistencia existe porque:

1. Se mantiene la compatibilidad con NumPy, haciendo que sea más familiar para quienes ya conocen NumPy
2. Resulta útil en la práctica, permitiendo operaciones comunes de manera más concisa
3. Sigue la lógica de que las etiquetas únicas son para columnas, mientras que rangos y máscaras booleanas son para filas

Aunque estas convenciones pueden parecer estar en desacuerdo con la idea general de que en Pandas se trabaja principalmente con etiquetas/nombres, fueron incluidas porque facilitan el trabajo práctico de análisis de datos.

# Ejercicio de Indexación y Selección de Datos en Pandas

En este ejercicio practicarás diferentes métodos de indexación y selección de datos en Pandas, tanto en objetos Series como DataFrames.

```python
import pandas as pd
import numpy as np

# PARTE 1: Trabajando con Series
# 1.1 Crea una Serie con los valores [10, 20, 30, 40, 50] y los índices ['a', 'b', 'c', 'd', 'e']
# Tu código aquí

# 1.2 Accede al valor correspondiente al índice 'c' usando la notación de diccionario
# Tu código aquí

# 1.3 Accede a los valores correspondientes a los índices 'b' hasta 'd' utilizando slicing
# Tu código aquí

# 1.4 Accede a los valores correspondientes a las posiciones 1 y 3 usando indexación implícita (posiciones)
# Tu código aquí

# 1.5 Crea una máscara booleana que seleccione los valores mayores a 25 y aplícala
# Tu código aquí

# 1.6 Utiliza indexación fancy para seleccionar los valores correspondientes a los índices 'a', 'c', 'e'
# Tu código aquí

# 1.7 Crea una nueva Serie con índices numéricos [1, 3, 5, 7, 9]
# y valores ['A', 'B', 'C', 'D', 'E']
# Tu código aquí

# 1.8 Extrae el valor en el índice 5 usando .loc
# Tu código aquí

# 1.9 Extrae el valor en la posición 2 (tercer elemento) usando .iloc
# Tu código aquí

# PARTE 2: Trabajando con DataFrames
# 2.1 Crea un DataFrame con los siguientes datos:
# - Columnas: 'nombre', 'edad', 'ciudad', 'salario'
# - Datos:
#   * Ana, 28, Madrid, 45000
#   * Pablo, 34, Barcelona, 55000
#   * Lucía, 29, Valencia, 42000
#   * Mario, 42, Sevilla, 62000
#   * Sofía, 31, Madrid, 51000
# Tu código aquí

# 2.2 Accede a la columna 'ciudad' usando notación de diccionario
# Tu código aquí

# 2.3 Accede a la columna 'edad' usando notación de atributo
# Tu código aquí

# 2.4 Selecciona las filas desde la posición 1 hasta la 3 (sin incluir la 4)
# Tu código aquí

# 2.5 Selecciona las filas correspondientes a 'Pablo' hasta 'Mario'
# Tu código aquí

# 2.6 Añade una nueva columna 'experiencia' con los valores [3, 8, 4, 15, 6]
# Tu código aquí

# 2.7 Calcula y añade una columna 'salario_hora' que sea el salario dividido entre
# (experiencia * 500)
# Tu código aquí

# 2.8 Selecciona las filas donde el salario es mayor a 50000
# Tu código aquí

# 2.9 Selecciona las columnas 'nombre' y 'salario' para las personas de Madrid
# Tu código aquí

# 2.10 Utiliza .loc para seleccionar las filas de 'Pablo' a 'Mario' y las columnas 'edad' y 'ciudad'
# Tu código aquí

# 2.11 Utiliza .iloc para seleccionar:
# - Primera y última fila
# - Segunda y tercera columna
# Tu código aquí

# 2.12 Modifica el salario de 'Lucía' a 46000
# Tu código aquí

# 2.13 Selecciona las filas donde el salario_hora es mayor que 12
# Tu código aquí

# PARTE 3: Combinando técnicas avanzadas
# 3.1 Ordena el DataFrame por salario de mayor a menor
# Tu código aquí

# 3.2 Selecciona el nombre y la ciudad de las 2 personas con mayor salario
# Tu código aquí

# 3.3 Calcula y añade una columna 'categoria' que sea:
# - 'Junior' si experiencia < 5
# - 'Senior' si experiencia >= 5 y experiencia < 10
# - 'Experto' si experiencia >= 10
# Pista: utiliza np.select() o una función aplicada con .apply()
# Tu código aquí

# 3.4 Agrupa el DataFrame por 'ciudad' y calcula el salario promedio por ciudad
# Tu código aquí

# 3.5 Reemplaza los valores de 'Madrid' por 'MAD' y 'Barcelona' por 'BCN' en la columna 'ciudad'
# Tu código aquí
```

In [None]:
import numpy as np
import pandas as pd
# PARTE 1: Trabajando con Series
# 1.1 Crea una Serie con los valores [10, 20, 30, 40, 50] y los índices ['a', 'b', 'c', 'd', 'e']
serie = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print("Serie creada:")
print(serie)

# 1.2 Accede al valor correspondiente al índice 'c' usando la notación de diccionario
valor_c = serie['c']
print(f"\nValor en el índice 'c': {valor_c}")

# 1.3 Accede a los valores correspondientes a los índices 'b' hasta 'd' utilizando slicing
slice_bd = serie['b':'d']
print("\nValores de 'b' a 'd':")
print(slice_bd)

# 1.4 Accede a los valores correspondientes a las posiciones 1 y 3 usando indexación implícita (posiciones)
posiciones_1_3 = serie[[1, 3]]  # otra forma: serie.iloc[[1, 3]]
print("\nValores en posiciones 1 y 3:")
print(posiciones_1_3)

# 1.5 Crea una máscara booleana que seleccione los valores mayores a 25 y aplícala
mascara = serie > 25
valores_mayores_25 = serie[mascara]
print("\nValores mayores a 25:")
print(valores_mayores_25)

# 1.6 Utiliza indexación fancy para seleccionar los valores correspondientes a los índices 'a', 'c', 'e'
fancy_seleccion = serie[['a', 'c', 'e']]
print("\nValores en índices 'a', 'c', 'e':")
print(fancy_seleccion)

# 1.7 Crea una nueva Serie con índices numéricos [1, 3, 5, 7, 9]
# y valores ['A', 'B', 'C', 'D', 'E']
serie_numerica = pd.Series(['A', 'B', 'C', 'D', 'E'], index=[1, 3, 5, 7, 9])
print("\nSerie con índices numéricos:")
print(serie_numerica)

# 1.8 Extrae el valor en el índice 5 usando .loc
valor_loc = serie_numerica.loc[5]
print(f"\nValor en índice 5 usando .loc: {valor_loc}")

# 1.9 Extrae el valor en la posición 2 (tercer elemento) usando .iloc
valor_iloc = serie_numerica.iloc[2]
print(f"\nValor en posición 2 usando .iloc: {valor_iloc}")

Serie creada:
a    10
b    20
c    30
d    40
e    50
dtype: int64

Valor en el índice 'c': 30

Valores de 'b' a 'd':
b    20
c    30
d    40
dtype: int64

Valores en posiciones 1 y 3:
b    20
d    40
dtype: int64

Valores mayores a 25:
c    30
d    40
e    50
dtype: int64

Valores en índices 'a', 'c', 'e':
a    10
c    30
e    50
dtype: int64

Serie con índices numéricos:
1    A
3    B
5    C
7    D
9    E
dtype: object

Valor en índice 5 usando .loc: C

Valor en posición 2 usando .iloc: C


  posiciones_1_3 = serie[[1, 3]]  # otra forma: serie.iloc[[1, 3]]


In [None]:
# 2.1 Crea un DataFrame con los siguientes datos:
# - Columnas: 'nombre', 'edad', 'ciudad', 'salario'
# - Datos:
#   * Ana, 28, Madrid, 45000
#   * Pablo, 34, Barcelona, 55000
#   * Lucía, 29, Valencia, 42000
#   * Mario, 42, Sevilla, 62000
#   * Sofía, 31, Madrid, 51000
datos = {
    'nombre': ['Ana', 'Pablo', 'Lucía', 'Mario', 'Sofía'],
    'edad': [28, 34, 29, 42, 31],
    'ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Madrid'],
    'salario': [45000, 55000, 42000, 62000, 51000]
}
df = pd.DataFrame(datos)
# Establece la columna 'nombre' como índice
df.set_index('nombre', inplace=True)
print("\nDataFrame creado:")
print(df)

# 2.2 Accede a la columna 'ciudad' usando notación de diccionario
ciudad_col = df['ciudad']
print("\nColumna 'ciudad':")
print(ciudad_col)

# 2.3 Accede a la columna 'edad' usando notación de atributo
edad_col = df.edad
print("\nColumna 'edad':")
print(edad_col)

# 2.4 Selecciona las filas desde la posición 1 hasta la 3 (sin incluir la 4)
filas_1_3 = df.iloc[1:3]
print("\nFilas desde posición 1 hasta 3 (sin incluir la 4):")
print(filas_1_3)

# 2.5 Selecciona las filas correspondientes a 'Pablo' hasta 'Mario'
filas_pablo_mario = df.loc['Pablo':'Mario']
print("\nFilas desde 'Pablo' hasta 'Mario':")
print(filas_pablo_mario)

# 2.6 Añade una nueva columna 'experiencia' con los valores [3, 8, 4, 15, 6]
df['experiencia'] = [3, 8, 4, 15, 6]
print("\nDataFrame con columna 'experiencia':")
print(df)

# 2.7 Calcula y añade una columna 'salario_hora' que sea el salario dividido entre
# (experiencia * 500)
df['salario_hora'] = df['salario'] / (df['experiencia'] * 500)
print("\nDataFrame con columna 'salario_hora':")
print(df)

# 2.8 Selecciona las filas donde el salario es mayor a 50000
salario_alto = df[df['salario'] > 50000]
print("\nPersonas con salario > 50000:")
print(salario_alto)

# 2.9 Selecciona las columnas 'salario' para las personas de Madrid
madrid_salarios = df.loc[df['ciudad'] == 'Madrid', ['salario']]
print("\nSalarios de personas en Madrid:")
print(madrid_salarios)

# 2.10 Utiliza .loc para seleccionar las filas de 'Pablo' a 'Mario' y las columnas 'edad' y 'ciudad'
seleccion_loc = df.loc['Pablo':'Mario', ['edad', 'ciudad']]
print("\nSelección con .loc (filas 'Pablo' a 'Mario', columnas 'edad' y 'ciudad'):")
print(seleccion_loc)

# 2.11 Utiliza .iloc para seleccionar:
# - Primera y última fila
# - Segunda y tercera columna
seleccion_iloc = df.iloc[[0, -1], [1, 2]]
print("\nSelección con .iloc (primera y última fila, segunda y tercera columna):")
print(seleccion_iloc)

# 2.12 Modifica el salario de 'Lucía' a 46000
df.loc['Lucía', 'salario'] = 46000
# También actualiza el salario_hora para mantener consistencia
df.loc['Lucía', 'salario_hora'] = 46000 / (df.loc['Lucía', 'experiencia'] * 500)
print("\nDataFrame después de modificar el salario de Lucía:")
print(df)

# 2.13 Selecciona las filas donde el salario_hora es mayor que 12
salario_hora_alto = df[df['salario_hora'] > 12]
print("\nPersonas con salario_hora > 12:")
print(salario_hora_alto)


DataFrame creado:
        edad     ciudad  salario
nombre                          
Ana       28     Madrid    45000
Pablo     34  Barcelona    55000
Lucía     29   Valencia    42000
Mario     42    Sevilla    62000
Sofía     31     Madrid    51000

Columna 'ciudad':
nombre
Ana         Madrid
Pablo    Barcelona
Lucía     Valencia
Mario      Sevilla
Sofía       Madrid
Name: ciudad, dtype: object

Columna 'edad':
nombre
Ana      28
Pablo    34
Lucía    29
Mario    42
Sofía    31
Name: edad, dtype: int64

Filas desde posición 1 hasta 3 (sin incluir la 4):
        edad     ciudad  salario
nombre                          
Pablo     34  Barcelona    55000
Lucía     29   Valencia    42000

Filas desde 'Pablo' hasta 'Mario':
        edad     ciudad  salario
nombre                          
Pablo     34  Barcelona    55000
Lucía     29   Valencia    42000
Mario     42    Sevilla    62000

DataFrame con columna 'experiencia':
        edad     ciudad  salario  experiencia
nombre                 

In [None]:
# PARTE 3: Combinando técnicas avanzadas
# 3.1 Ordena el DataFrame por salario de mayor a menor
df_ordenado = df.sort_values('salario', ascending=False)
print("\nDataFrame ordenado por salario (mayor a menor):")
print(df_ordenado)

# 3.2 Selecciona el nombre y la ciudad de las 2 personas con mayor salario
top2_salarios = df_ordenado.iloc[:2][['ciudad']]
print("\nCiudades de las 2 personas con mayor salario:")
print(top2_salarios)

# 3.3 Calcula y añade una columna 'categoria' que sea:
# - 'Junior' si experiencia < 5
# - 'Senior' si experiencia >= 5 y experiencia < 10
# - 'Experto' si experiencia >= 10
condiciones = [
    (df['experiencia'] < 5),
    (df['experiencia'] >= 5) & (df['experiencia'] < 10),
    (df['experiencia'] >= 10)
]
categorias = ['Junior', 'Senior', 'Experto']
df['categoria'] = np.select(condiciones, categorias, default='Desconocido')
print("\nDataFrame con columna 'categoria':")
print(df)

# 3.4 Agrupa el DataFrame por 'ciudad' y calcula el salario promedio por ciudad
salario_por_ciudad = df.groupby('ciudad')['salario'].mean()
print("\nSalario promedio por ciudad:")
print(salario_por_ciudad)

# 3.5 Reemplaza los valores de 'Madrid' por 'MAD' y 'Barcelona' por 'BCN' en la columna 'ciudad'
df['ciudad'] = df['ciudad'].replace({'Madrid': 'MAD', 'Barcelona': 'BCN'})
print("\nDataFrame con ciudades reemplazadas:")
print(df)


DataFrame ordenado por salario (mayor a menor):
        edad     ciudad  salario  experiencia  salario_hora
nombre                                                     
Mario     42    Sevilla    62000           15      8.266667
Pablo     34  Barcelona    55000            8     13.750000
Sofía     31     Madrid    51000            6     17.000000
Lucía     29   Valencia    46000            4     23.000000
Ana       28     Madrid    45000            3     30.000000

Ciudades de las 2 personas con mayor salario:
           ciudad
nombre           
Mario     Sevilla
Pablo   Barcelona

DataFrame con columna 'categoria':
        edad     ciudad  salario  experiencia  salario_hora categoria
nombre                                                               
Ana       28     Madrid    45000            3     30.000000    Junior
Pablo     34  Barcelona    55000            8     13.750000    Senior
Lucía     29   Valencia    46000            4     23.000000    Junior
Mario     42    Sevilla   