<a href="https://colab.research.google.com/github/fmr693/Evaluaci-n-DEVOPS/blob/main/Ejercicios.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Capítulo 5 – Getting Started with pandas
## Ejercicios prácticos

Este notebook contiene ejercicios organizados por las secciones del Capítulo 5 del libro *Python for Data Analysis* de Wes McKinney.

> Los ejercicios marcados con **\*** han sido añadidos en una segunda revisión para cubrir temas que faltaban en la versión original.

In [4]:
import numpy as np
import pandas as pd

---
## 5.1 Introducción a las estructuras de datos de pandas
### Series

**Ejercicio 1.** Crea una `Series` con los valores `[10, 20, 30, 40, 50]`. Imprime sus valores y su índice.

In [7]:
serie = pd.Series([10, 20, 30, 40, 50])
print(serie.values)
print(serie.index)

[10 20 30 40 50]
RangeIndex(start=0, stop=5, step=1)


**Ejercicio 2.** Crea una `Series` con los nombres de 4 países como índice y su población (en millones) como valores. Accede al valor de uno de ellos usando su etiqueta.

In [11]:
serie2 = pd.Series([1000000, 2000000, 3000000, 4000000], index =['españa', 'francia', 'italia', 'alemania'])
serie2
print(serie2['francia'])

2000000


**Ejercicio 3.** Dado el diccionario `{"Python": 95, "R": 80, "SQL": 88, "Java": 70}`, conviértelo en una `Series`. Luego conviértelo de vuelta a diccionario usando `.to_dict()`.

In [15]:
datos = {"Python": 95, "R": 80, "SQL": 88, "Java": 70}
serie3 = pd.Series(datos)
serie3
serie3.to_dict()

{'Python': 95, 'R': 80, 'SQL': 88, 'Java': 70}

**Ejercicio 4.** Usando la `Series` del ejercicio anterior, filtra solo los lenguajes con puntuación mayor a 85. Luego multiplica todos los valores por 1.1.

In [17]:
datos = {"Python": 95, "R": 80, "SQL": 88, "Java": 70}
serie3 = pd.Series(datos)
print(serie3[serie3 > 85])
print(serie3 * 1.1)


Python    95
SQL       88
dtype: int64
Python    104.5
R          88.0
SQL        96.8
Java       77.0
dtype: float64


**Ejercicio 5.** Crea una `Series` con índice `["A", "B", "C", "D"]` pasando un diccionario que solo tenga datos para `"A"`, `"B"` y `"C"`. Detecta los valores faltantes con `isna()`.

In [19]:
datos = {
    "A": 10,
    "B": 20,
    "C": 30
}

s = pd.Series(datos, index=["A", "B", "C", "D"])
print(s)
print(s.isna)

A    10.0
B    20.0
C    30.0
D     NaN
dtype: float64
<bound method Series.isna of A    10.0
B    20.0
C    30.0
D     NaN
dtype: float64>


**Ejercicio 6.** Asigna un nombre (`name`) a la `Series` del ejercicio 2 y un nombre al índice (`index.name`). Imprime la Serie para verificarlo.

In [21]:
serie2 = pd.Series([1000000, 2000000, 3000000, 4000000], index =['españa', 'francia', 'italia', 'alemania'])
serie2
print(serie2['francia'])

serie2.name = 'europa'
serie2.index.name = 'paises'
serie2



2000000


Unnamed: 0_level_0,europa
paises,Unnamed: 1_level_1
españa,1000000
francia,2000000
italia,3000000
alemania,4000000


---
### DataFrame

**Ejercicio 7.** Crea un `DataFrame` a partir del siguiente diccionario y visualiza las primeras 3 filas con `.head(3)`:
```python
{"nombre": ["Ana", "Luis", "Marta", "Carlos", "Elena"],
 "edad": [23, 35, 29, 41, 27],
 "ciudad": ["Madrid", "Barcelona", "Sevilla", "Valencia", "Bilbao"]}
```

In [24]:
data = {
 "nombre": ["Ana", "Luis", "Marta", "Carlos", "Elena"],
 "edad": [23, 35, 29, 41, 27],
 "ciudad": ["Madrid", "Barcelona", "Sevilla", "Valencia", "Bilbao"]
 }
frame = pd.DataFrame(data)
frame
print(frame.head(3))

  nombre  edad     ciudad
0    Ana    23     Madrid
1   Luis    35  Barcelona
2  Marta    29    Sevilla


**Ejercicio 8.** A partir del `DataFrame` anterior, reordena las columnas como `["ciudad", "nombre", "edad"]`. Luego agrega una columna llamada `"activo"` que no existe en el diccionario original (debe aparecer con `NaN`).

In [29]:
data = {
 "nombre": ["Ana", "Luis", "Marta", "Carlos", "Elena"],
 "edad": [23, 35, 29, 41, 27],
 "ciudad": ["Madrid", "Barcelona", "Sevilla", "Valencia", "Bilbao"]
 }

df = pd.DataFrame(data, columns=['ciudad', 'nombre', 'edad'])
df

data2 = pd.DataFrame(df, columns=['ciudad', 'nombre', 'edad', 'activo'])
data2

Unnamed: 0,ciudad,nombre,edad,activo
0,Madrid,Ana,23,
1,Barcelona,Luis,35,
2,Sevilla,Marta,29,
3,Valencia,Carlos,41,
4,Bilbao,Elena,27,


**Ejercicio 9.** Del `DataFrame` del ejercicio 7, accede a la columna `"edad"` de dos formas distintas (notación de diccionario y notación de atributo). Luego accede a la segunda fila usando `.iloc`.

In [33]:
data = {
 "nombre": ["Ana", "Luis", "Marta", "Carlos", "Elena"],
 "edad": [23, 35, 29, 41, 27],
 "ciudad": ["Madrid", "Barcelona", "Sevilla", "Valencia", "Bilbao"]
 }
frame = pd.DataFrame(data)

print(frame['edad'])
#print(frame.2)

print(frame.iloc[2])

0    23
1    35
2    29
3    41
4    27
Name: edad, dtype: int64
nombre      Marta
edad           29
ciudad    Sevilla
Name: 2, dtype: object


**Ejercicio 10.** Crea una nueva columna booleana `"mayor_30"` que indique si cada persona tiene más de 30 años. Luego elimina esa columna con `del`.

In [35]:
data = {
 "nombre": ["Ana", "Luis", "Marta", "Carlos", "Elena"],
 "edad": [23, 35, 29, 41, 27],
 "ciudad": ["Madrid", "Barcelona", "Sevilla", "Valencia", "Bilbao"]
 }
frame = pd.DataFrame(data)

frame['mayor_30'] = frame['edad'] > 30
frame

Unnamed: 0,nombre,edad,ciudad,mayor_30
0,Ana,23,Madrid,False
1,Luis,35,Barcelona,True
2,Marta,29,Sevilla,False
3,Carlos,41,Valencia,True
4,Elena,27,Bilbao,False


**\* Ejercicio 11.** Asigna una `Series` con índice `[1, 3, 5]` y valores `[100, 200, 300]` a una nueva columna de un `DataFrame` con índice `[0, 1, 2, 3, 4, 5]`. Observa cómo pandas realinea automáticamente por índice e introduce `NaN` donde no hay coincidencia.

In [39]:
frame = pd.DataFrame({
    "numero": ["1", "2", "3", "4", "5"]
})
valores = pd.Series([100, 300, 500], index=[0, 2, 4])

frame["valor"] = valores

print(frame)


  numero  valor
0      1  100.0
1      2    NaN
2      3  300.0
3      4    NaN
4      5  500.0


**Ejercicio 12.** Crea un `DataFrame` a partir de un diccionario anidado (diccionario de diccionarios) con al menos 2 columnas y 3 filas. Transfórmalo con `.T` y observa el resultado.

**\* Ejercicio 13.** Crea un `DataFrame` a partir de una **lista de diccionarios**, donde cada diccionario representa una fila. Luego crea otro `DataFrame` a partir de un **ndarray 2D** de NumPy especificando nombres de filas y columnas.

**Ejercicio 14.** Asigna un nombre al índice y a las columnas del `DataFrame` del ejercicio 12. Convierte el `DataFrame` a un array NumPy con `.to_numpy()`.

---
### Index Objects

**Ejercicio 15.** Crea una `Series` con índice `["x", "y", "z"]`. Extrae el índice y verifica con `in` si `"y"` y `"w"` están contenidos en él.

**\* Ejercicio 16.** Demuestra que los objetos `Index` son **inmutables**: crea un índice e intenta modificar uno de sus elementos directamente. Captura el error con un bloque `try/except` e imprime el mensaje de error.

**\* Ejercicio 17.** Crea dos objetos `pd.Index` con valores parcialmente solapados. Calcula:
- Su **unión** con `.union()`
- Su **intersección** con `.intersection()`
- Su **diferencia** con `.difference()`

**Ejercicio 18.** Crea un `pd.Index` con valores duplicados como `["a", "a", "b", "c", "c"]`. Usa `.is_unique` para verificar si tiene duplicados, y `.unique()` para obtener los valores únicos.

---
## 5.2 Funcionalidad Esencial
### Reindexing

**Ejercicio 19.** Crea una `Series` con índice `["a", "b", "c"]` y reindéxala a `["a", "b", "c", "d", "e"]`. Observa los valores faltantes introducidos.

**Ejercicio 20.** Crea una `Series` con valores `["rojo", "verde", "azul"]` en los índices `[0, 2, 4]`. Reindéxala a `[0, 1, 2, 3, 4]` usando `method="ffill"` para rellenar hacia adelante.

**Ejercicio 21.** Crea un `DataFrame` de 3×3 con índice `["a", "c", "d"]`. Reindéxalo para agregar la fila `"b"` usando `fill_value=0` (en lugar de `NaN`). Luego reindéxalo también en columnas para incluir una columna inexistente, también con `fill_value=0`.

---
### Dropping Entries from an Axis

**Ejercicio 22.** Crea una `Series` con 5 elementos e índices de letras. Elimina dos elementos usando `.drop()` con una lista de índices.

**Ejercicio 23.** Crea un `DataFrame` de 4×4. Elimina dos filas usando `.drop(index=[...])` y luego elimina una columna usando `.drop(columns=[...])`.

---
### Indexing, Selection, and Filtering

**Ejercicio 24.** Crea una `Series` con índice `["a", "b", "c", "d"]`. Selecciona los elementos con índice `"b"` y `"d"` usando `.loc`. Selecciona los elementos en las posiciones 0 y 2 usando `.iloc`.

**Ejercicio 25.** Usando la misma `Series`, filtra todos los valores mayores al promedio.

**Ejercicio 26.** Crea un `DataFrame` de 4×4 con índices de estados y columnas con nombres. Selecciona:
- Una sola columna
- Las primeras 2 filas con slicing
- Filas donde un valor de columna sea mayor a 5

---
### Selection on DataFrame with loc and iloc

**Ejercicio 27.** Con el `DataFrame` del ejercicio anterior, usa `.loc` para seleccionar una fila por etiqueta y dos columnas específicas al mismo tiempo.

**Ejercicio 28.** Usa `.iloc` para seleccionar la tercera fila y las columnas en posiciones 1 y 3. Luego selecciona un subconjunto de filas y columnas usando slices con `.iloc`.

**Ejercicio 29.** Modifica todos los valores de una fila completa del `DataFrame` usando `.iloc[fila] = valor`. Luego modifica todos los valores donde una condición booleana se cumpla usando `.loc`.

**\* Ejercicio 30.** Demuestra el **pitfall de indexación con enteros**: crea una `Series` con `RangeIndex` (índice 0, 1, 2) e intenta acceder a `ser[-1]`. Captura el error con `try/except`. Luego resuélvelo correctamente usando `.iloc[-1]`.

**\* Ejercicio 31.** Demuestra el problema del **chained indexing**: crea un `DataFrame` e intenta modificar valores encadenando dos selecciones (ej. `df[condicion]["col"] = valor`). Observa el `SettingWithCopyWarning`. Luego corrige la operación con una única expresión `.loc[condicion, "col"] = valor` y verifica que el cambio se aplica al DataFrame original.

---
### Arithmetic and Data Alignment

**Ejercicio 32.** Crea dos `Series` con índices que solo se solapen parcialmente. Súmalas y observa cómo se manejan los valores no coincidentes.

**Ejercicio 33.** Crea dos `DataFrames` de distinto tamaño (diferente número de filas y columnas). Súmalos y observa el resultado. Luego repite usando `.add(fill_value=0)` para evitar los `NaN`.

**\* Ejercicio 34.** Usa los **métodos aritméticos inversos**: dado un escalar `10`, calcula `10 / df` de dos formas equivalentes — con el operador `/` directamente y con el método `.rdiv(10)`. Verifica que los resultados son idénticos.

---
### Operations between DataFrame and Series

**Ejercicio 35.** Crea un `DataFrame` de 3×3 con valores numéricos. Extrae la primera fila como `Series` y réstala a todo el `DataFrame` (broadcasting por columnas).

**Ejercicio 36.** Usando el mismo `DataFrame`, extrae una columna como `Series` y réstala al `DataFrame` usando `.sub(..., axis="index")` para hacer broadcasting por filas.

---
### Function Application and Mapping

**Ejercicio 37.** Crea un `DataFrame` con valores negativos y positivos. Aplica `np.abs()` para obtener los valores absolutos.

**Ejercicio 38.** Crea un `DataFrame` de números aleatorios. Usa `.apply()` para calcular el rango (máximo - mínimo) de cada columna. Luego repite aplicando la función a lo largo de las filas (`axis="columns"`).

**Ejercicio 39.** Usa `.apply()` con una función que devuelva una `Series` con el mínimo y el máximo de cada columna.

**Ejercicio 40.** Usa `.map()` en una `Series` de floats para formatear cada número con 2 decimales como string (ej. `"3.14"`).

**\* Ejercicio 41.** Usa **`applymap`** (o `map` en versiones recientes de pandas) para aplicar una función elemento a elemento a **todo el `DataFrame`**. Por ejemplo, formatea todos los floats con 2 decimales. Compara con el ejercicio anterior donde se usó `.map()` sobre una sola columna.

---
### Sorting and Ranking

**Ejercicio 42.** Crea una `Series` con un índice desordenado de letras. Ordénala por índice con `.sort_index()` y luego por valores con `.sort_values()`.

**Ejercicio 43.** Crea una `Series` con algunos valores `NaN`. Ordénala y observa dónde aparecen los `NaN`. Repite usando `na_position="first"`.

**Ejercicio 44.** Crea un `DataFrame` con dos columnas numéricas. Ordénalo por una columna, luego por dos columnas a la vez.

**Ejercicio 45.** Crea una `Series` con valores repetidos (ej. `[7, 2, 7, 4, 2]`). Calcula el ranking con `.rank()` usando el método por defecto (promedio), con `method="first"` y en orden descendente con `ascending=False`.

---
### Axis Indexes with Duplicate Labels

**Ejercicio 46.** Crea una `Series` con índices duplicados. Verifica si el índice es único con `.index.is_unique`. Luego accede a un índice duplicado y observa el tipo de resultado, y a uno único.

---
## 5.3 Summarizing and Computing Descriptive Statistics

**Ejercicio 47.** Crea un `DataFrame` con algunos valores `NaN`. Calcula la suma por columna y luego por fila. Prueba también con `skipna=False`.

**Ejercicio 48.** Con el mismo `DataFrame`, calcula la media por fila (`axis="columns"`), el máximo por columna, y usa `.idxmax()` para obtener el índice del valor máximo de cada columna.

**Ejercicio 49.** Usa `.cumsum()` en una `Series` numérica para obtener la suma acumulada. Luego aplica `.describe()` al `DataFrame` del ejercicio 47.

**Ejercicio 50.** Crea una `Series` de texto con valores repetidos (ej. categorías). Aplica `.describe()` y observa las estadísticas alternativas para datos no numéricos.

**\* Ejercicio 51.** Calcula el **cuantil 25%, 50% y 75%** de una `Series` numérica usando `.quantile()`. Luego calcula el cambio porcentual entre valores consecutivos de la misma `Series` usando `.pct_change()`.

---
### Correlation and Covariance

**\* Ejercicio 52.** Crea dos `Series` numéricas del mismo tamaño con alguna correlación entre ellas. Calcula su **correlación** con `.corr()` y su **covarianza** con `.cov()`.

**\* Ejercicio 53.** Crea un `DataFrame` con 4 columnas numéricas simulando variables financieras. Calcula la **matriz de correlación** completa con `.corr()` y la **matriz de covarianza** completa con `.cov()`.

**\* Ejercicio 54.** Usando el `DataFrame` del ejercicio anterior, aplica `.corrwith()` pasando una de sus columnas como `Series`. Observa la correlación de esa columna con todas las demás.

---
### Unique Values, Value Counts, and Membership

**Ejercicio 55.** Crea una `Series` con valores repetidos como `["manzana", "pera", "manzana", "naranja", "pera", "pera"]`. Usa `.unique()` para obtener los valores únicos y `.value_counts()` para contar las frecuencias.

**Ejercicio 56.** Usa `.isin()` en la `Series` anterior para crear una máscara booleana que filtre solo los valores `"manzana"` y `"naranja"`. Aplica esa máscara para obtener el subconjunto.

**\* Ejercicio 57.** Usa **`pd.value_counts()`** como función de nivel superior (no como método de `Series`), pasándole un array NumPy directamente. Compara el resultado con el de llamar `.value_counts()` sobre una `Series`.

**Ejercicio 58.** Crea un `DataFrame` con 3 columnas de valores enteros del 1 al 5. Aplica `pd.value_counts` a todas las columnas usando `.apply()` y rellena los `NaN` con 0.

**\* Ejercicio 59.** Usa **`DataFrame.value_counts()`** (el método del propio DataFrame) sobre un `DataFrame` con 2 columnas para contar las **combinaciones únicas de valores entre filas**. Observa que el resultado usa un índice jerárquico y compáralo con `.value_counts()` sobre una sola columna.

**\* Ejercicio 60.** Usa **`Index.get_indexer()`** para obtener las posiciones enteras de una lista de valores dentro de un `Index` de valores únicos. Por ejemplo: dados los valores `["c", "a", "b", "b", "c"]` y el índice único `["a", "b", "c"]`, obtén el array de posiciones correspondiente.