# **Obtención y preparación de datos**

# OD13. Edición de Estructuras en Pandas - SOLUCION

## <font color='blue'>**Modificación de elementos en una Serie**</font>

Podemos modificar un valor de una serie usando la notación corchetes, y haciendo referencia a índices o a las etiquetas.

In [11]:
import numpy as np
import pandas as pd

In [12]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [13]:
s[0] = -1
s["b"] = -2
s

a   -1
b   -2
c    3
d    4
e    5
dtype: int64

Podemos asignar un valor a un rango, definido por índices o por etiquetas, asignando el valor a cada uno de los elementos involucrados en el rango.

In [14]:
s[1:3] = 0
s

a   -1
b    0
c    0
d    4
e    5
dtype: int64

In [15]:
s["b":"d"] = -2
s

a   -1
b   -2
c   -2
d   -2
e    5
dtype: int64

Si el rango está delimitado por números (haciendo referencia a la posición de los elementos), el último elemento del rango no se incluye. Por el contrario, si está delimitado por etiquetas, el último elemento sí se incluye.

Al rango podemos asignar también una lista de valores, aunque en este caso la lista deberá tener el mismo número de elementos que el rango en cuestión.

In [16]:
s[1:3] = [0, 1]
s

a   -1
b    0
c    1
d   -2
e    5
dtype: int64

In [17]:
s["b":"d"] = [10, 11, 12]
s

a    -1
b    10
c    11
d    12
e     5
dtype: int64

Si asignamos un valor haciendo referencia a una etiqueta que no existe en el índice, se añade dicha etiqueta al índice y se le asigna el valor.

In [18]:
s["f"] = 0
s

a    -1
b    10
c    11
d    12
e     5
f     0
dtype: int64

Esto solo funciona con etiquetas. Si utilizamos un índice y éste no existe en
la serie, se devolverá un error.

In [19]:
try:
    s[6] = 11
except Exception as e:
    print(type(e).__doc__)

Sequence index out of range.


Si usamos un rango con etiquetas y alguna de las etiquetas no existe, solo se asigna el valor a las existentes.

In [20]:
s["f":"h"] = -1
s

a    -1
b    10
c    11
d    12
e     5
f    -1
dtype: int64

Por último, también podemos usar en la selección una lista -tanto de índices como de etiquetas-, en cuyo caso se seleccionan los valores indicados en el orden indicado. Por ejemplo, podemos usar la lista ["c", "a"] para asignar a los elementos correspondientes los valores 1 y 2, respectivamente.

In [21]:
s[["c", "a"]] = [1, 2]
s

a     2
b    10
c     1
d    12
e     5
f    -1
dtype: int64

In [22]:
s[[1, 0]] = [20, 21]
s

a    21
b    20
c     1
d    12
e     5
f    -1
dtype: int64

## <font color='blue'>**Eliminación de elementos en una Serie**</font>

El método `pandas.Series.drop` devuelve una copia de la serie tras eliminar el elemento cuya etiqueta se especifica como argumento.

In [23]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [24]:
r = s.drop("a")
r

b    2
c    3
d    4
e    5
dtype: int64

In [25]:
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

En este ejemplo se ha pasado como único argumento la etiqueta del elemento a eliminar, y el método ha devuelto la serie sin dicho elemento. Si la etiqueta no se encontrase en la serie, se devolvería un error.

También se puede pasar como argumento no una etiqueta, sino una lista de etiquetas. En este caso se eliminarán todos los elementos con dichas etiquetas.

In [26]:
r = s.drop(["d", "a"])
r

b    2
c    3
e    5
dtype: int64

Las etiquetas no tienen que estar en orden.

El argumento `inplace = True` realiza la eliminación inplace (modificando directamente la serie).

In [27]:
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

Este método exige el uso de etiquetas para seleccionar los elementos a eliminar. Esto significa que si en un momento dado necesitamos eliminar uno o más elementos por su índice, deberemos convertirlos en sus correspondientes etiquetas, lo que resulta extremadamente sencillo seleccionando los elementos adecuados del index.

In [28]:
s = pd.Series([1, 2, 3, 4, 5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

Si se desea eliminar los elementos cuyos índices son 1 y 3, basta utilizar el atributo `index` para que devuelve todas las etiquetas.

In [29]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

list(s.index[[1, 3]])

['b', 'd']

In [30]:
s.drop(s.index[[1, 3]])

a    1
c    3
e    5
dtype: int64

Otra forma para eliminar un elemento de una serie es el método `pandas.Series.pop`. Al igual que con el método `drop`, éste solo acepta una etiqueta y devuelve el valor correspondiente a dicha etiqueta, eliminándolo de la serie in-place.

In [31]:
s = pd.Series([1, 2, 3, 4, 5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [32]:
s.pop(1)

2

In [33]:
s

0    1
2    3
3    4
4    5
dtype: int64

Si la etiqueta no se encuentra en el index, el método devolverá un error.

## <font color='blue'>**Método `where` en series**</font>

El método `pandas.Series.where` permite filtrar los valores de una serie de forma que solo los que cumplan cierta condición se mantengan. Los valores que no la cumplan son sustituidos por un valor (`NaN` por defecto).

In [34]:
s = pd.Series(np.arange(0,10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

Por ejemplo, filtrar los elementos de $s$ que sean pares.

In [35]:
s.where(s % 2 == 0)

0    0.0
1    NaN
2    2.0
3    NaN
4    4.0
5    NaN
6    6.0
7    NaN
8    8.0
9    NaN
dtype: float64

Los valores que no cumplen la condición son sustituidos por `NaN`. Es posible modificar este valor de reemplazo pasando al método como segundo argumento el valor que se quiere fijar.

In [36]:
s.where(s % 2 == 0, -1)

0    0
1   -1
2    2
3   -1
4    4
5   -1
6    6
7   -1
8    8
9   -1
dtype: int64

## <font color='blue'>**Modificación de Dataframes**</font>

Existe una gran variedad de formas para seleccionar elementos o bloques de elementos de un dataframe, y cada una de estas selecciones puede ser utilizada para modificar los valores contenidos en el dataframe.

Podemos modificar un valor concreto usando los métodos `loc` o `iloc`, en función de que queramos usar sus etiquetas o índices.



In [37]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [38]:
df.iloc[1, 2] = -1
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,-1
c,6,7,8
d,9,10,11


Es posible modificar una columna completa seleccionándola y asignándole, por ejemplo, una lista con los nuevos valores.

In [39]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["A"] = -1
df

Unnamed: 0,A,B,C
a,-1,1,2
b,-1,4,5
c,-1,7,8
d,-1,10,11


En este caso, la longitud de la lista conteniendo los valores a insertar deberá coincidir con la longitud de la columna, salvo que en lugar de una lista se esté asignando un único valor, en cuyo caso se propagará a toda la columna.

Si la selección es un bloque de datos de un tamaño arbitrario, nos encontramos en el mismo escenario: o bien insertamos datos con el mismo tamaño que la selección, o insertamos un único valor que se propagará a toda la selección.

In [40]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = [[-1, -2], [-3, -4]]
df

Unnamed: 0,A,B,C
a,0,1,2
b,-1,-2,5
c,-3,-4,8
d,9,10,11


In [41]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = -1
df

Unnamed: 0,A,B,C
a,0,1,2
b,-1,-1,5
c,-1,-1,8
d,9,10,11


También es posible insertar datos en una columna o fila inexistente, en cuyo caso se crea y se le asignan los valores en cuestión.

In [42]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["D"] = [10, 20, 30, 40]
df

Unnamed: 0,A,B,C,D
a,0,1,2,10
b,3,4,5,20
c,6,7,8,30
d,9,10,11,40


In [43]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["e"] = [10, 20, 30]
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,10,20,30


## <font color='blue'>**Método `where` en dataframes**</font>

De forma semejante a las series, el método de los dataframes `where` filtra los valores contenidos en el dataframe de forma que solo los que cumplan cierta condición se mantengan. El resto de valores son sustituidos por un valor que, por defecto, es `NaN`.

In [44]:
df = pd.DataFrame(np.arange(12).reshape(-1, 3), columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


Filtrar los valores múltiplos de 2:

In [45]:
df.where(df % 2 == 0)

Unnamed: 0,A,B,C
0,0.0,,2.0
1,,4.0,
2,6.0,,8.0
3,,10.0,


Todos aquellos valores que no son múltiplo de 2 son sustituidos por `NaN`. Si, por ejemplo, quisiéramos cambiar de signo a los valores que no cumplen la condición impuesta, lo haríamos así:

In [46]:
df.where(df % 2 == 0, -df)

Unnamed: 0,A,B,C
0,0,-1,2
1,-3,4,-5
2,6,-7,8
3,-9,10,-11


## <font color='blue'>**Eliminación de elementos en un dataframe**</font>

El método `pandas.DataFrame.drop` elimina las filas o columnas indicadas y devuelve el resultado, permitiéndose diferentes criterios para especificarlas.

El primer criterio consiste en indicar la lista de etiquetas a eliminar y el eje al que pertenecen.

In [47]:
df = pd.DataFrame(np.arange(16).reshape([4, 4]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


Eliminar las filas cuyas etiquetas son "a" y "c".

In [48]:
df.drop(["a", "c"], axis = 0)

Unnamed: 0,A,B,C,D
b,4,5,6,7
d,12,13,14,15


In [49]:
df.drop(["a", "c"])

Unnamed: 0,A,B,C,D
b,4,5,6,7
d,12,13,14,15


Obsérvese que lo que se muestra es el resultado de eliminar las filas indicadas del dataframe. Éste no se modifica salvo que utilicemos el argumento `inplace = True`.

Para eliminar columnas, habría que indicar el eje correspondiente.

In [50]:
df.drop(["B", "D"], axis = 1)

Unnamed: 0,A,C
a,0,2
b,4,6
c,8,10
d,12,14


Si no especificamos el `axis=1` para que se eliminen las columnas, nos dará un error.

In [51]:
try:
    df.drop(["B", "D"])
except Exception as e:
    print(type(e).__doc__)

Mapping key not found.


Otra alternativa para especificar si se están eliminando filas o columnas es utilizar directamente los parámetros `index` y `columns`. Así, otra forma de eliminar las filas $a$ y $c$ sería la siguiente:



In [52]:
df.drop(index = ["a", "c"])

Unnamed: 0,A,B,C,D
b,4,5,6,7
d,12,13,14,15


In [53]:
df.drop(columns = ["B", "D"])

Unnamed: 0,A,C
a,0,2
b,4,6
c,8,10
d,12,14


### <font color='green'>Actividad 1</font>

En la Liga del Diplomado juegan 6 equipos: Equipo A, Equipo B, Equipo C, Equipo D, Equipo E y el **Equipo de Profes** (Campeón invicto en todas las ediciones del Diplomado).

La imagen muestra la tabla resumen con los resultados de la liga el último año.
<br><br>
<img src='https://drive.google.com/uc?export=view&id=1xW3fW4RrTim0N6hGjT51QxBOW-e36if8' width="800" align="center" style="margin-right: 20px">
<br><br>
1. Generar el dataframe __tabla_posiciones__ con la información de la tabla anterior.
2. Determinar para cada equipo la diferencia de goles (goles a favor -  goles en contra) y agregar esta información al dataframe.
3. Determinar la posición de cada equipo en la liga y presentar la información ordenada.
4. Durante la confrontación entre el Equipo A y el **Equipo de Profes** que fue ganada por A. El equipo A tenía más jugadores en cancha que los reglamentarios (tramposos!!!), por lo que la comisión disciplinaria decidió: i) descontar los puntos al equipo A y entregarlos (justamente) al **Equipo de Profes**, ii) finalizar el partido por un marcador de 3-0 a favor de los profes. Realice las ediciones correspondientes en el dataframe y entregue la tabla de posiciones final.
5. El premio al fair play se entrega al equipo con mejor comportamiento, para ello, se deben sumar las tarjetas acumuladas (tanto amarillas como rojas) en donde a las tarjetas rojas se les aplica un castigo multiplicándolas por 2, en caso de empate se selecciona al con menor número de tarjetas rojas, si se mantiene el empate el premio es para el equipo con menor número de tarjetas totales. Cree las columnas fair play con el indicador descrito y la columna tarjetas totales y determine el ganador del premio.
6. El último lugar de la tabla desciende de la liga y por lo tanto debe ser eliminado del dataframe.


In [59]:
# Tu código aquí ...

# Parte 1

# Generar el dataframe tabla_posiciones con la información de la tabla anterior.
tabla_posiciones = pd.DataFrame({
    "Puntos": [30,25,27,17,19,23],
    "Goles a Favor": [65,45,60,30,25,45],
    "Goles en Contra": [10,15,20,60,30,20],
    "Tarjetas Amarillas": [7,2,4,4,9,4],
    "Tarjetas Rojas": [3,2,2,4,5,1]
},
    index = ["Equipo A", "Equipo B", "Equipo Profes", "Equipo C","Equipo D","Equipo E"]
)
tabla_posiciones

Unnamed: 0,Puntos,Goles a Favor,Goles en Contra,Tarjetas Amarillas,Tarjetas Rojas
Equipo A,30,65,10,7,3
Equipo B,25,45,15,2,2
Equipo Profes,27,60,20,4,2
Equipo C,17,30,60,4,4
Equipo D,19,25,30,9,5
Equipo E,23,45,20,4,1


In [60]:
# Parte 2

# Se crea una nueva columna restando los goles a favor menos los goles en contra
tabla_posiciones['Diferencia Goles'] = tabla_posiciones["Goles a Favor"]- tabla_posiciones["Goles en Contra"]
tabla_posiciones

Unnamed: 0,Puntos,Goles a Favor,Goles en Contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia Goles
Equipo A,30,65,10,7,3,55
Equipo B,25,45,15,2,2,30
Equipo Profes,27,60,20,4,2,40
Equipo C,17,30,60,4,4,-30
Equipo D,19,25,30,9,5,-5
Equipo E,23,45,20,4,1,25


In [61]:
# Parte 3

# Se ordenan de manera descendente en función de la columna "puntos".
tabla_posiciones.sort_values('Puntos', ascending= False)

Unnamed: 0,Puntos,Goles a Favor,Goles en Contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia Goles
Equipo A,30,65,10,7,3,55
Equipo Profes,27,60,20,4,2,40
Equipo B,25,45,15,2,2,30
Equipo E,23,45,20,4,1,25
Equipo D,19,25,30,9,5,-5
Equipo C,17,30,60,4,4,-30


In [62]:
# Parte 4

# Supuestos: en el partido anterior A ganó 3 - 0 por lo que se eliminan 3 goles
# Se modifican los parametros especificando columna  y fila y restando o sumando
# tres puntos según corresponda.
tabla_posiciones['Goles a Favor']['Equipo A'] -= 3
tabla_posiciones['Goles a Favor']['Equipo Profes'] += 3
tabla_posiciones['Puntos']['Equipo A'] -= 3
tabla_posiciones['Puntos']['Equipo Profes'] += 3

# Nuevamente se ordenan los datos de manera descendente en función de la
# columna "puntos".
tabla_posiciones.sort_values('Puntos', ascending= False)

Unnamed: 0,Puntos,Goles a Favor,Goles en Contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia Goles
Equipo Profes,30,63,20,4,2,40
Equipo A,27,62,10,7,3,55
Equipo B,25,45,15,2,2,30
Equipo E,23,45,20,4,1,25
Equipo D,19,25,30,9,5,-5
Equipo C,17,30,60,4,4,-30


In [63]:
# Parte 5

tabla_posiciones['Fairplay'] = tabla_posiciones['Tarjetas Amarillas'] + tabla_posiciones['Tarjetas Rojas']*2
tabla_posiciones['Total Tarjetas'] = tabla_posiciones['Tarjetas Amarillas'] + tabla_posiciones['Tarjetas Rojas']

tabla_posiciones_fp = tabla_posiciones.sort_values(['Fairplay','Tarjetas Rojas','Total Tarjetas'], ascending=(True,True,True))

print(f'El premio Fair Play es para: {tabla_posiciones_fp.index[0]} \n')
tabla_posiciones_fp

El premio Fair Play es para: Equipo E 



Unnamed: 0,Puntos,Goles a Favor,Goles en Contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia Goles,Fairplay,Total Tarjetas
Equipo E,23,45,20,4,1,25,6,5
Equipo B,25,45,15,2,2,30,6,4
Equipo Profes,30,63,20,4,2,40,8,6
Equipo C,17,30,60,4,4,-30,12,8
Equipo A,27,62,10,7,3,55,13,10
Equipo D,19,25,30,9,5,-5,19,14


In [64]:
# Parte 6

posiciones_final = tabla_posiciones.sort_values('Puntos', ascending= False)
posiciones_final.drop(index = [posiciones_final.index[-1]])

Unnamed: 0,Puntos,Goles a Favor,Goles en Contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia Goles,Fairplay,Total Tarjetas
Equipo Profes,30,63,20,4,2,40,8,6
Equipo A,27,62,10,7,3,55,13,10
Equipo B,25,45,15,2,2,30,6,4
Equipo E,23,45,20,4,1,25,6,5
Equipo D,19,25,30,9,5,-5,19,14


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Dado un DataFrame con registros de ventas y retornos de productos, debes calcular la tasa de retorno y almacenarla en una Serie.

```
dates = pd.date_range('20230101', periods=10)
df1 = pd.DataFrame({
    'sales': np.random.randint(50, 200, len(dates)),
    'returns': np.random.randint(1, 20, len(dates))
}, index=dates)
```

1. Calcula la tasa de retorno como returns / sales.
2. Almacena el resultado en una Serie con el mismo índice de fechas.
3. Une esta Serie al DataFrame original como una nueva columna llamada 'return_rate'.


In [65]:
# Tu código aquí ...

# Definición del DataFrame
dates = pd.date_range('20230101', periods=10)
df1 = pd.DataFrame({
    'sales': np.random.randint(50, 200, len(dates)),
    'returns': np.random.randint(1, 20, len(dates))
}, index=dates)

# 1. Calcular tasa de retorno
return_rate = df1['returns'] / df1['sales']

# 2. Almacenar el resultado en una Serie con el mismo índice de fechas
# En realidad, el resultado anterior ya es una Serie con el mismo índice de fechas

# 3. Unir esta Serie al DataFrame original como una nueva columna
df1['return_rate'] = return_rate

print(df1)


            sales  returns  return_rate
2023-01-01     57       18     0.315789
2023-01-02    141       16     0.113475
2023-01-03    118        3     0.025424
2023-01-04     98       12     0.122449
2023-01-05    102        7     0.068627
2023-01-06    157       12     0.076433
2023-01-07    173        5     0.028902
2023-01-08    144       11     0.076389
2023-01-09    132       14     0.106061
2023-01-10     97       16     0.164948


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

Tienes un DataFrame de precios de acciones y una Serie que representa el volumen de acciones negociadas. Algunos días, el volumen es desconocido y aparece como NaN en la Serie. Tu objetivo es llenar estos valores, pero no con un método simple.

```
dates = pd.date_range('20230101', periods=8)
df2 = pd.DataFrame({
    'price': np.random.randn(len(dates)).cumsum() + 50
}, index=dates)

volume = pd.Series(np.where(np.random.choice([True, False], len(dates)), np.random.randint(1000, 5000, len(dates)), np.nan), index=dates)
```

1. En los días con volumen faltante, llena el valor con el volumen del día anterior si el precio de la acción ha aumentado, o con el volumen del día siguiente si el precio ha disminuido.
2. Añade la Serie de volumen al DataFrame como una nueva columna.


In [66]:
# Tu código aquí ...

# Definición del DataFrame y la Serie
dates = pd.date_range('20230101', periods=8)
df2 = pd.DataFrame({
    'price': np.random.randn(len(dates)).cumsum() + 50
}, index=dates)

volume = pd.Series(np.where(np.random.choice([True, False], len(dates)), np.random.randint(1000, 5000, len(dates)), np.nan), index=dates)

# 1. Llenar valores faltantes de volumen en función del cambio de precio
for i in range(1, len(df2) - 1): # Ignoramos el primer y último día por simplicidad, podríamos manejarlos como casos especiales
    if np.isnan(volume.iloc[i]):
        # Si el precio aumentó, usamos el volumen del día anterior
        if df2['price'].iloc[i] > df2['price'].iloc[i-1]:
            volume.iloc[i] = volume.iloc[i-1]
        # De lo contrario, usamos el volumen del día siguiente
        else:
            volume.iloc[i] = volume.iloc[i+1]

# 2. Añadir la Serie de volumen al DataFrame
df2['volume'] = volume

print(df2)

                price  volume
2023-01-01  50.178342  2168.0
2023-01-02  49.177958  3724.0
2023-01-03  48.387391  4409.0
2023-01-04  46.415410  4409.0
2023-01-05  47.248076  4409.0
2023-01-06  46.709059  3978.0
2023-01-07  45.879753  3978.0
2023-01-08  47.073463  3099.0


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Tienes un DataFrame con información de ventas y gastos por departamento. Se te pide extraer ciertos departamentos y realizar una transformación en los datos.

```
departments = ["HR", "Sales", "Tech", "Admin", "Finance"]
df3 = pd.DataFrame({
    'sales': np.random.randint(10, 100, len(departments)),
    'expenses': np.random.randint(10, 50, len(departments))
}, index=departments)
```

1. Extrae sólo los departamentos "Sales" y "Tech".
2. Crea una Serie que represente el margen de beneficio (definido como sales - expenses).
3. Combina esta Serie con el subconjunto del DataFrame original utilizando pd.concat.


In [68]:
# Tu código aquí ...

# Definición del DataFrame
departments = ["HR", "Sales", "Tech", "Admin", "Finance"]
df3 = pd.DataFrame({
    'sales': np.random.randint(10, 100, len(departments)),
    'expenses': np.random.randint(10, 50, len(departments))
}, index=departments)

# 1. Extrae sólo los departamentos "Sales" y "Tech"
subset = df3.loc[["Sales", "Tech"]]

# 2. Crea una Serie que represente el margen de beneficio
profit_margin = subset['sales'] - subset['expenses']

# 3. Combina esta Serie con el subconjunto del DataFrame original
combined = pd.concat([subset, profit_margin.rename("profit_margin")], axis=1)

print(combined)

       sales  expenses  profit_margin
Sales     61        39             22
Tech      81        12             69


In [69]:
# Otra forma sin usar concat

# Definición del DataFrame
departments = ["HR", "Sales", "Tech", "Admin", "Finance"]
df3 = pd.DataFrame({
    'sales': np.random.randint(10, 100, len(departments)),
    'expenses': np.random.randint(10, 50, len(departments))
}, index=departments)

# 1. Extrae sólo los departamentos "Sales" y "Tech"
subset = df3.loc[["Sales", "Tech"]]

# 2. Crea una Serie que represente el margen de beneficio
subset["profit_margin"] = subset['sales'] - subset['expenses']

print(subset)

       sales  expenses  profit_margin
Sales     46        38              8
Tech      38        40             -2


<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Estás trabajando con un DataFrame que contiene ventas trimestrales y anuales de diferentes años. Tu objetivo es calcular el promedio de ventas trimestrales para cada año y agregarlo como una nueva entrada en la Serie.

```
years = [2021, 2022, 2023]
entries = ["Q1", "Q2", "Q3", "Q4", "Annual"]
index = pd.MultiIndex.from_product([years, entries], names=["Year", "Entry"])
df4 = pd.DataFrame({
    'sales': np.random.randint(500, 1500, len(index))
}, index=index)
```

1. Calcula el promedio de ventas trimestrales para cada año (no consideres la entrada "Annual").
2. Añade esta información como una nueva entrada llamada "Quarterly_avg" en el DataFrame original.


In [74]:
# Tu código aquí ...

# Definición del DataFrame
years = [2021, 2022, 2023]
entries = ["Q1", "Q2", "Q3", "Q4", "Annual"]
index = pd.MultiIndex.from_product([years, entries], names=["Year", "Entry"])
df4 = pd.DataFrame({
    'sales': np.random.randint(500, 1500, len(index))
}, index=index)

# Aseguramos que el MultiIndex esté lexicográficamente ordenado
df4 = df4.sort_index()

# 1. Calcula el promedio de ventas trimestrales para cada año
quarterly_avg = df4.loc[(slice(None), slice("Q1", "Q4")), :].groupby("Year").mean()
quarterly_avg["Entry"] = "Quarterly_avg"

# Convertir el índice 'Year' en una columna y reiniciar el índice
quarterly_avg.reset_index(inplace=True)

# Crear un nuevo MultiIndex para quarterly_avg
quarterly_avg.set_index(["Year", "Entry"], inplace=True)

# 2. Unir el DataFrame original con el nuevo DataFrame de promedios trimestrales
df4 = pd.concat([df4, quarterly_avg], axis=0).sort_index()

print(df4)

                      sales
Year Entry                 
2021 Annual         1338.00
     Q1              984.00
     Q2             1190.00
     Q3             1369.00
     Q4             1136.00
     Quarterly_avg  1169.75
2022 Annual          645.00
     Q1             1425.00
     Q2              520.00
     Q3              714.00
     Q4             1013.00
     Quarterly_avg   918.00
2023 Annual          819.00
     Q1             1248.00
     Q2             1182.00
     Q3             1454.00
     Q4             1095.00
     Quarterly_avg  1244.75


<font color='green'>Fin Actividad 5</font>