# **Obtención y preparación de datos**

# OD13. Edición de Estructuras en Pandas

## <font color='blue'>**Modificación de elementos en una Serie**</font>

Podemos modificar un valor de una serie usando la notación corchetes, y haciendo referencia a índices o a las etiquetas.

In [None]:
import numpy as np
import pandas as pd

Siempr

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

Unnamed: 0,0
a,1
b,2
c,3
d,4
e,5


In [None]:
s[0] = -1
s["b"] = -2
s

  s[0] = -1


Unnamed: 0,0
a,-1
b,-2
c,3
d,4
e,5


Podemos asignar un valor a un rango, definido por índices o por etiquetas, asignando el valor a cada uno de los elementos involucrados en el rango.

In [None]:
s[1:3] = 0
s

Unnamed: 0,0
a,-1
b,0
c,0
d,4
e,5


In [None]:
s["b":"d"] = -2
s

Unnamed: 0,0
a,-1
b,-2
c,-2
d,-2
e,5


Si el rango está delimitado por números (haciendo referencia a la posición de los elementos), el último elemento del rango no se incluye. Por el contrario, si está delimitado por etiquetas, el último elemento sí se incluye.

Al rango podemos asignar también una lista de valores, aunque en este caso la lista deberá tener el mismo número de elementos que el rango en cuestión.

In [None]:
s[1:3] = [0, 1]
s

Unnamed: 0,0
a,-1
b,0
c,1
d,-2
e,5


In [None]:
s["b":"d"] = [10, 11, 12]
s

Unnamed: 0,0
a,-1
b,10
c,11
d,12
e,5


Si asignamos un valor haciendo referencia a una etiqueta que no existe en el índice, se añade dicha etiqueta al índice y se le asigna el valor.

In [None]:
s["f"] = 0
s

Unnamed: 0,0
a,-1
b,10
c,11
d,12
e,5
f,0


Esto solo funciona con etiquetas. Si utilizamos un índice y éste no existe en
la serie, se devolverá un error.

In [None]:
try:
    s[6] = 11
except Exception as e:
    print(type(e).__doc__)

Sequence index out of range.


  s[6] = 11


Si usamos un rango con etiquetas y alguna de las etiquetas no existe, solo se asigna el valor a las existentes.

In [None]:
s["f":"h"] = -1
s

Unnamed: 0,0
a,-1
b,10
c,11
d,12
e,5
f,-1


Por último, también podemos usar en la selección una lista -tanto de índices como de etiquetas-, en cuyo caso se seleccionan los valores indicados en el orden indicado. Por ejemplo, podemos usar la lista ["c", "a"] para asignar a los elementos correspondientes los valores 1 y 2, respectivamente.

In [None]:
s[["c", "a"]] = [1, 2]
s

Unnamed: 0,0
a,2
b,10
c,1
d,12
e,5
f,-1


In [None]:
s[[1, 0]] = [20, 21]
s

  s[[1, 0]] = [20, 21]


Unnamed: 0,0
a,21
b,20
c,1
d,12
e,5
f,-1


## <font color='blue'>**Eliminación de elementos en una Serie**</font>

El método `pandas.Series.drop` devuelve una copia de la serie tras eliminar el elemento cuya etiqueta se especifica como argumento.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

Unnamed: 0,0
a,1
b,2
c,3
d,4
e,5


In [None]:
r = s.drop("a")
r

Unnamed: 0,0
b,2
c,3
d,4
e,5


In [None]:
s

Unnamed: 0,0
a,1
b,2
c,3
d,4
e,5


En este ejemplo se ha pasado como único argumento la etiqueta del elemento a eliminar, y el método ha devuelto la serie sin dicho elemento. Si la etiqueta no se encontrase en la serie, se devolvería un error.

También se puede pasar como argumento no una etiqueta, sino una lista de etiquetas. En este caso se eliminarán todos los elementos con dichas etiquetas.

In [None]:
r = s.drop(["d", "a"])
r

Unnamed: 0,0
b,2
c,3
e,5


Las etiquetas no tienen que estar en orden.

El argumento `inplace = True` realiza la eliminación inplace (modificando directamente la serie).

In [None]:
s

Unnamed: 0,0
a,1
b,2
c,3
d,4
e,5


Este método exige el uso de etiquetas para seleccionar los elementos a eliminar. Esto significa que si en un momento dado necesitamos eliminar uno o más elementos por su índice, deberemos convertirlos en sus correspondientes etiquetas, lo que resulta extremadamente sencillo seleccionando los elementos adecuados del index.

In [None]:
s = pd.Series([1, 2, 3, 4, 5])
s

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


Si se desea eliminar los elementos cuyos índices son 1 y 3, basta utilizar el atributo `index` para que devuelve todas las etiquetas.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

list(s.index[[1, 3]])

['b', 'd']

In [None]:
s.drop(s.index[[1, 3]])

Unnamed: 0,0
a,1
c,3
e,5


Otra forma para eliminar un elemento de una serie es el método `pandas.Series.pop`. Al igual que con el método `drop`, éste solo acepta una etiqueta y devuelve el valor correspondiente a dicha etiqueta, eliminándolo de la serie in-place.

In [None]:
s = pd.Series([1, 2, 3, 4, 5])
s

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [None]:
s.pop(1)

2

In [None]:
s

Unnamed: 0,0
0,1
2,3
3,4
4,5


Si la etiqueta no se encuentra en el index, el método devolverá un error.

## <font color='blue'>**Método `where` en series**</font>

El método `pandas.Series.where` permite filtrar los valores de una serie de forma que solo los que cumplan cierta condición se mantengan. Los valores que no la cumplan son sustituidos por un valor (`NaN` por defecto).

In [None]:
s = pd.Series(np.arange(0,10))
s

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4
5,5
6,6
7,7
8,8
9,9


Por ejemplo, filtrar los elementos de $s$ que sean pares.

In [None]:
s.where(s % 2 == 0)

Unnamed: 0,0
0,0.0
1,
2,2.0
3,
4,4.0
5,
6,6.0
7,
8,8.0
9,


Los valores que no cumplen la condición son sustituidos por `NaN`. Es posible modificar este valor de reemplazo pasando al método como segundo argumento el valor que se quiere fijar.

In [None]:
s.where(s % 2 == 0, -1)

Unnamed: 0,0
0,0
1,-1
2,2
3,-1
4,4
5,-1
6,6
7,-1
8,8
9,-1


## <font color='blue'>**Modificación de Dataframes**</font>

Existe una gran variedad de formas para seleccionar elementos o bloques de elementos de un dataframe, y cada una de estas selecciones puede ser utilizada para modificar los valores contenidos en el dataframe.

Podemos modificar un valor concreto usando los métodos `loc` o `iloc`, en función de que queramos usar sus etiquetas o índices.



In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [None]:
df.iloc[1, 2] = -1
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,-1
c,6,7,8
d,9,10,11


Es posible modificar una columna completa seleccionándola y asignándole, por ejemplo, una lista con los nuevos valores.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["A"] = -1
df

Unnamed: 0,A,B,C
a,-1,1,2
b,-1,4,5
c,-1,7,8
d,-1,10,11


En este caso, la longitud de la lista conteniendo los valores a insertar deberá coincidir con la longitud de la columna, salvo que en lugar de una lista se esté asignando un único valor, en cuyo caso se propagará a toda la columna.

Si la selección es un bloque de datos de un tamaño arbitrario, nos encontramos en el mismo escenario: o bien insertamos datos con el mismo tamaño que la selección, o insertamos un único valor que se propagará a toda la selección.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = [[-1, -2], [-3, -4]]
df

Unnamed: 0,A,B,C
a,0,1,2
b,-1,-2,5
c,-3,-4,8
d,9,10,11


In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = -1
df

Unnamed: 0,A,B,C
a,0,1,2
b,-1,-1,5
c,-1,-1,8
d,9,10,11


También es posible insertar datos en una columna o fila inexistente, en cuyo caso se crea y se le asignan los valores en cuestión.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["D"] = [10, 20, 30, 40]
df

Unnamed: 0,A,B,C,D
a,0,1,2,10
b,3,4,5,20
c,6,7,8,30
d,9,10,11,40


In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["e"] = [10, 20, 30]
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,10,20,30


## <font color='blue'>**Método `where` en dataframes**</font>

De forma semejante a las series, el método de los dataframes `where` filtra los valores contenidos en el dataframe de forma que solo los que cumplan cierta condición se mantengan. El resto de valores son sustituidos por un valor que, por defecto, es `NaN`.

In [None]:
df = pd.DataFrame(np.arange(12).reshape(-1, 3), columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


Filtrar los valores múltiplos de 2:

In [None]:
df.where(df % 2 == 0)

Unnamed: 0,A,B,C
0,0.0,,2.0
1,,4.0,
2,6.0,,8.0
3,,10.0,


Todos aquellos valores que no son múltiplo de 2 son sustituidos por `NaN`. Si, por ejemplo, quisiéramos cambiar de signo a los valores que no cumplen la condición impuesta, lo haríamos así:

In [None]:
df.where(df % 2 == 0, -df)

Unnamed: 0,A,B,C
0,0,-1,2
1,-3,4,-5
2,6,-7,8
3,-9,10,-11


## <font color='purple'> __EXPERIMENTO__: </font>

### explorando la edicion de datos utilizando loc e iloc
en este experimento presentamos opciones de edicion y agregación de datos en pandas utilizando estos metodos.

In [None]:
# partimos por crear un dataframe con distintos tipos de datos
np.random.seed(7)
data = {
    'A': np.random.randint(1, 100, 10),
    'B': np.random.choice(['x', 'y', 'z'], 10),
    'C': np.random.randn(10),
    'D': np.random.choice([True, False], 10)
}
df = pd.DataFrame(data, index=[f'row{i}' for i in range(1, 11)])

print("DataFrame Original:")
df

DataFrame Original:


Unnamed: 0,A,B,C,D
row1,48,x,1.61112,False
row2,69,y,-0.989401,True
row3,26,z,1.211046,True
row4,68,z,1.075517,True
row5,84,z,0.569272,True
row6,24,x,-0.204139,False
row7,93,z,0.883571,False
row8,58,x,-0.836544,False
row9,15,x,0.645055,False
row10,24,x,-0.450069,True


Usando loc
- Modifiquemos el valor en la columna C para todas las filas donde el valor de B sea 'y', incrementándolo en 5.

In [None]:
df.loc[df['B'] == 'y', 'C'] += 5
print("\nDataFrame después de modificar C donde B es 'y':")
df


DataFrame después de modificar C donde B es 'y':


Unnamed: 0,A,B,C,D
row1,48,x,1.61112,False
row2,69,y,4.010599,True
row3,26,z,1.211046,True
row4,68,z,1.075517,True
row5,84,z,0.569272,True
row6,24,x,-0.204139,False
row7,93,z,0.883571,False
row8,58,x,-0.836544,False
row9,15,x,0.645055,False
row10,24,x,-0.450069,True


Usando iloc
- Supongamos que queremos multiplicar por -1 los valores en la columna C para las primeras cinco filas.

In [None]:
df.iloc[:5, df.columns.get_loc('C')] *= -1
print("\nDataFrame después de modificar C para las primeras cinco filas:")
df


DataFrame después de modificar C para las primeras cinco filas:


Unnamed: 0,A,B,C,D
row1,48,x,-1.61112,False
row2,69,y,-4.010599,True
row3,26,z,-1.211046,True
row4,68,z,-1.075517,True
row5,84,z,-0.569272,True
row6,24,x,-0.204139,False
row7,93,z,0.883571,False
row8,58,x,-0.836544,False
row9,15,x,0.645055,False
row10,24,x,-0.450069,True


Finalmente, combinemos métodos para obtener un subconjunto del DataFrame basado en condiciones complejas. Supongamos que queremos seleccionar todas las filas donde la columna A es mayor que la media de la columna A, pero solo queremos ver las columnas B y D.

In [None]:
# Media de A
mean_A = df['A'].mean()

# Selección combinada usando loc
filter = df.loc[df['A'] > mean_A, ['B', 'D']]
print("\nSubconjunto donde A es mayor que la media de A (mostrando B y D):")
filter


Subconjunto donde A es mayor que la media de A (mostrando B y D):


Unnamed: 0,B,D
row2,y,True
row4,z,True
row5,z,True
row7,z,False
row8,x,False


### <font color='purple'>Fin experimento </font>

## <font color='blue'>**Eliminación de elementos en un dataframe**</font>

El método `pandas.DataFrame.drop` elimina las filas o columnas indicadas y devuelve el resultado, permitiéndose diferentes criterios para especificarlas.

El primer criterio consiste en indicar la lista de etiquetas a eliminar y el eje al que pertenecen.

In [None]:
df = pd.DataFrame(np.arange(16).reshape([4, 4]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


Eliminar las filas cuyas etiquetas son "a" y "c".

In [None]:
df.drop(["a", "c"], axis = 0)

Unnamed: 0,A,B,C,D
b,4,5,6,7
d,12,13,14,15


In [None]:
df.drop(["a", "c"])

Unnamed: 0,A,B,C,D
b,4,5,6,7
d,12,13,14,15


Obsérvese que lo que se muestra es el resultado de eliminar las filas indicadas del dataframe. Éste no se modifica salvo que utilicemos el argumento `inplace = True`.

Para eliminar columnas, habría que indicar el eje correspondiente.

In [None]:
df.drop(["B", "D"], axis = 1)

Unnamed: 0,A,C
a,0,2
b,4,6
c,8,10
d,12,14


Si no especificamos el `axis=1` para que se eliminen las columnas, nos dará un error.

In [None]:
try:
    df.drop(["B", "D"])
except Exception as e:
    print(type(e).__doc__)

Mapping key not found.


Otra alternativa para especificar si se están eliminando filas o columnas es utilizar directamente los parámetros `index` y `columns`. Así, otra forma de eliminar las filas $a$ y $c$ sería la siguiente:



In [None]:
df.drop(index = ["a", "c"])

Unnamed: 0,A,B,C,D
b,4,5,6,7
d,12,13,14,15


In [None]:
df.drop(columns = ["B", "D"])

Unnamed: 0,A,C
a,0,2
b,4,6
c,8,10
d,12,14


### <font color='green'>Actividad 1</font>

En la Liga del Diplomado juegan 6 equipos: Equipo A, Equipo B, Equipo C, Equipo D, Equipo E y el **Equipo de Profes** (Campeón invicto en todas las ediciones del Diplomado).

La imagen muestra la tabla resumen con los resultados de la liga el último año.
<br><br>
<img src='https://drive.google.com/uc?export=view&id=1xW3fW4RrTim0N6hGjT51QxBOW-e36if8' width="800" align="center" style="margin-right: 20px">
<br><br>
1. Generar el dataframe __tabla_posiciones__ con la información de la tabla anterior.
2. Determinar para cada equipo la diferencia de goles (goles a favor -  goles en contra) y agregar esta información al dataframe.
3. Determinar la posición de cada equipo en la liga y presentar la información ordenada.
4. Durante la confrontación entre el Equipo A y el **Equipo de Profes** que fue ganada por A. El equipo A tenía más jugadores en cancha que los reglamentarios (tramposos!!!), por lo que la comisión disciplinaria decidió: i) descontar los puntos al equipo A y entregarlos (justamente) al **Equipo de Profes**, ii) finalizar el partido por un marcador de 3-0 a favor de los profes. Realice las ediciones correspondientes en el dataframe y entregue la tabla de posiciones final.
5. El premio al fair play se entrega al equipo con mejor comportamiento, para ello, se deben sumar las tarjetas acumuladas (tanto amarillas como rojas) en donde a las tarjetas rojas se les aplica un castigo multiplicándolas por 2, en caso de empate se selecciona al con menor número de tarjetas rojas, si se mantiene el empate el premio es para el equipo con menor número de tarjetas totales. Cree las columnas fair play con el indicador descrito y la columna tarjetas totales y determine el ganador del premio.
6. El último lugar de la tabla desciende de la liga y por lo tanto debe ser eliminado del dataframe.


In [None]:
# Tu código aquí ...
# 1) Generar el dataframe tabla_posiciones con la información de la tabla anterior.
datos = {
    "Equipo": ["Equipo A", "Equipo B", "Equipo Profes", "Equipo C", "Equipo D", "Equipo E"],
    "Puntos": [30, 25, 27, 17, 19, 23],
    "Goles a favor": [65, 45, 60, 30, 25, 45],
    "Goles en contra": [10, 15, 20, 60, 30, 20],
    "Tarjetas Amarillas": [7, 2, 4, 4, 9, 4],
    "Tarjetas Rojas": [3, 2, 2, 4, 5, 1]
}

tabla_posiciones = pd.DataFrame(datos)
tabla_posiciones


Unnamed: 0,Equipo,Puntos,Goles a favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas
0,Equipo A,30,65,10,7,3
1,Equipo B,25,45,15,2,2
2,Equipo Profes,27,60,20,4,2
3,Equipo C,17,30,60,4,4
4,Equipo D,19,25,30,9,5
5,Equipo E,23,45,20,4,1


In [None]:
# 2) Determinar para cada equipo la diferencia de goles (goles a favor - goles en contra) y agregar esta información al dataframe.
tabla_posiciones['Diferencia de Goles'] = tabla_posiciones['Goles a favor'] - tabla_posiciones['Goles en contra']
tabla_posiciones


Unnamed: 0,Equipo,Puntos,Goles a favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de Goles
0,Equipo A,30,65,10,7,3,55
1,Equipo B,25,45,15,2,2,30
2,Equipo Profes,27,60,20,4,2,40
3,Equipo C,17,30,60,4,4,-30
4,Equipo D,19,25,30,9,5,-5
5,Equipo E,23,45,20,4,1,25


In [None]:
# 3) Determinar la posición de cada equipo en la liga y presentar la información ordenada.
tabla_posiciones = tabla_posiciones.sort_values(by=['Puntos', 'Diferencia de Goles'], ascending = False)
tabla_posiciones.reset_index(drop=True, inplace=True)
tabla_posiciones


Unnamed: 0,Equipo,Puntos,Goles a favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de Goles
0,Equipo A,30,65,10,7,3,55
1,Equipo Profes,27,60,20,4,2,40
2,Equipo B,25,45,15,2,2,30
3,Equipo E,23,45,20,4,1,25
4,Equipo D,19,25,30,9,5,-5
5,Equipo C,17,30,60,4,4,-30


In [None]:
# 4.1) descontar los puntos al equipo A y entregarlos (justamente) al Equipo de Profes
tabla_posiciones.loc[tabla_posiciones["Equipo"] == "Equipo A", "Puntos"] -= 3
tabla_posiciones.loc[tabla_posiciones["Equipo"] == "Equipo Profes", "Puntos"] += 3
tabla_posiciones


Unnamed: 0,Equipo,Puntos,Goles a favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de Goles
0,Equipo A,27,65,10,7,3,55
1,Equipo Profes,30,60,20,4,2,40
2,Equipo B,25,45,15,2,2,30
3,Equipo E,23,45,20,4,1,25
4,Equipo D,19,25,30,9,5,-5
5,Equipo C,17,30,60,4,4,-30


In [None]:
# 4.2) finalizar el partido por un marcador de 3-0 a favor de los profes. Realice las ediciones correspondientes en el dataframe y entregue la tabla de posiciones final.
tabla_posiciones.iloc[1,2] = 63
tabla_posiciones.iloc[1,3] = 17
tabla_posiciones.iloc[0,2] = 62
tabla_posiciones.iloc[0,3] = 13
tabla_posiciones['Diferencia de Goles'] = tabla_posiciones['Goles a favor'] - tabla_posiciones['Goles en contra']
tabla_posiciones = tabla_posiciones.sort_values(by=['Puntos', 'Diferencia de Goles'], ascending = False)
tabla_posiciones.reset_index(drop=True, inplace=True)
tabla_posiciones

Unnamed: 0,Equipo,Puntos,Goles a favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de Goles
0,Equipo Profes,30,63,17,4,2,46
1,Equipo A,27,62,13,7,3,49
2,Equipo B,25,45,15,2,2,30
3,Equipo E,23,45,20,4,1,25
4,Equipo D,19,25,30,9,5,-5
5,Equipo C,17,30,60,4,4,-30


In [None]:
 # 5) Cree las columnas fair play con el indicador descrito y la columna tarjetas totales y determine el ganador del premio.
 tabla_posiciones['Tarjetas Totales'] = tabla_posiciones['Tarjetas Amarillas'] + tabla_posiciones['Tarjetas Rojas'] * 2
 tabla_posiciones['Fair Play'] = 0
 tabla_posiciones.loc[(tabla_posiciones['Tarjetas Totales'] == tabla_posiciones['Tarjetas Totales'].min()) & (tabla_posiciones['Tarjetas Rojas'] == tabla_posiciones['Tarjetas Rojas'].min()), 'Fair Play'] = 1
 ganador_premio = tabla_posiciones[tabla_posiciones['Fair Play'] == 1]['Equipo']
 print(f"El ganador del premio Fair Play es {ganador_premio.values}")
 tabla_posiciones

El ganador del premio Fair Play es ['Equipo E']


Unnamed: 0,Equipo,Puntos,Goles a favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de Goles,Tarjetas Totales,Fair Play
0,Equipo Profes,30,63,17,4,2,46,8,0
1,Equipo A,27,62,13,7,3,49,13,0
2,Equipo B,25,45,15,2,2,30,6,0
3,Equipo E,23,45,20,4,1,25,6,1
4,Equipo D,19,25,30,9,5,-5,19,0
5,Equipo C,17,30,60,4,4,-30,12,0


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Dado un DataFrame con registros de ventas y retornos de productos, debes calcular la tasa de retorno y almacenarla en una Serie.

```
dates = pd.date_range('20230101', periods=10)
df1 = pd.DataFrame({
    'sales': np.random.randint(50, 200, len(dates)),
    'returns': np.random.randint(1, 20, len(dates))
}, index=dates)
```

1. Calcula la tasa de retorno como returns / sales.
2. Almacena el resultado en una Serie con el mismo índice de fechas.
3. Une esta Serie al DataFrame original como una nueva columna llamada 'return_rate'.


In [None]:
# Tu código aquí ...
# 1) Calcula la tasa de retorno como returns / sales.
dates = pd.date_range('20230101', periods=10)
df1 = pd.DataFrame({
    'sales': np.random.randint(50, 200, len(dates)),
    'returns': np.random.randint(1, 20, len(dates))
}, index=dates)
df1['return_rate'] = df1['returns'] / df1['sales']
df1

Unnamed: 0,sales,returns,return_rate
2023-01-01,133,1,0.007519
2023-01-02,51,8,0.156863
2023-01-03,194,1,0.005155
2023-01-04,168,5,0.029762
2023-01-05,143,4,0.027972
2023-01-06,142,2,0.014085
2023-01-07,121,4,0.033058
2023-01-08,73,2,0.027397
2023-01-09,60,5,0.083333
2023-01-10,85,2,0.023529


In [None]:
# 2) Almacena el resultado en una Serie con el mismo índice de fechas.
return_rate = df1['return_rate']
return_rate

Unnamed: 0,return_rate
2023-01-01,0.007519
2023-01-02,0.156863
2023-01-03,0.005155
2023-01-04,0.029762
2023-01-05,0.027972
2023-01-06,0.014085
2023-01-07,0.033058
2023-01-08,0.027397
2023-01-09,0.083333
2023-01-10,0.023529


In [None]:
# 3) Une esta Serie al DataFrame original como una nueva columna llamada 'return_rate'.
df1['return_rate'] = return_rate
df1

Unnamed: 0,sales,returns,return_rate
2023-01-01,133,1,0.007519
2023-01-02,51,8,0.156863
2023-01-03,194,1,0.005155
2023-01-04,168,5,0.029762
2023-01-05,143,4,0.027972
2023-01-06,142,2,0.014085
2023-01-07,121,4,0.033058
2023-01-08,73,2,0.027397
2023-01-09,60,5,0.083333
2023-01-10,85,2,0.023529


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

Tienes un DataFrame de precios de acciones y una Serie que representa el volumen de acciones negociadas. Algunos días, el volumen es desconocido y aparece como NaN en la Serie. Tu objetivo es llenar estos valores, pero no con un método simple.

```
dates = pd.date_range('20230101', periods=8)
df2 = pd.DataFrame({
    'price': np.random.randn(len(dates)).cumsum() + 50
}, index=dates)

volume = pd.Series(np.where(np.random.choice([True, False], len(dates)), np.random.randint(1000, 5000, len(dates)), np.nan), index=dates)
```

1. En los días con volumen faltante, llena el valor con el volumen del día anterior si el precio de la acción ha aumentado, o con el volumen del día siguiente si el precio ha disminuido.
2. Añade la Serie de volumen al DataFrame como una nueva columna.


In [None]:
# Tu código aquí ...
dates = pd.date_range('20230101', periods=8)
df2 = pd.DataFrame({
    'price': np.random.randn(len(dates)).cumsum() + 50
}, index=dates)

volume = pd.Series(np.where(np.random.choice([True, False], len(dates)), np.random.randint(1000, 5000, len(dates)), np.nan), index=dates)

def impute_volume(volume, prices):
    for i in range(1, len(volume) - 1):
        if np.isnan(volume.iloc[i]):
            if prices.iloc[i] > prices.iloc[i - 1]:  # Precio ha aumentado
                volume.iloc[i] = volume.iloc[i - 1]
            elif prices.iloc[i] < prices.iloc[i - 1]:  # Precio ha disminuido
                volume.iloc[i] = volume.iloc[i + 1]
    # Agregamos otra imputacion si quedan valores NaN en principio o final
    volume.fillna(method='ffill', inplace=True)
    volume.fillna(method='bfill', inplace=True)
    return volume

# llenar los valores faltantes en la serie de volumen
impute_volume = impute_volume(volume.copy(), df2['price'])
df2['volume'] = impute_volume
df2


  volume.fillna(method='ffill', inplace=True)
  volume.fillna(method='bfill', inplace=True)


Unnamed: 0,price,volume
2023-01-01,50.234839,1844.0
2023-01-02,50.1956,1844.0
2023-01-03,49.594678,1622.0
2023-01-04,50.720513,1622.0
2023-01-05,50.758461,1654.0
2023-01-06,48.842808,1654.0
2023-01-07,50.35028,1654.0
2023-01-08,51.533958,1654.0


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Tienes un DataFrame con información de ventas y gastos por departamento. Se te pide extraer ciertos departamentos y realizar una transformación en los datos.

```
departments = ["HR", "Sales", "Tech", "Admin", "Finance"]
df3 = pd.DataFrame({
    'sales': np.random.randint(10, 100, len(departments)),
    'expenses': np.random.randint(10, 50, len(departments))
}, index=departments)
```

1. Extrae sólo los departamentos "Sales" y "Tech".
2. Crea una Serie que represente el margen de beneficio (definido como sales - expenses).
3. Combina esta Serie con el subconjunto del DataFrame original utilizando pd.concat.


In [None]:
# Tu código aquí ...
departments = ["HR", "Sales", "Tech", "Admin", "Finance"]
df3 = pd.DataFrame({
    'sales': np.random.randint(10, 100, len(departments)),
    'expenses': np.random.randint(10, 50, len(departments))
}, index=departments)
# 1) Extrae sólo los departamentos "Sales" y "Tech".
selection = df3.loc[["Sales", "Tech"]]

# 2) Crea una Serie que represente el margen de beneficio (definido como sales - expenses).
profit_margin = selection['sales'] - selection['expenses']
profit_margin.name = 'profit_margin'

# 3) Combina esta Serie con el subconjunto del DataFrame original utilizando pd.concat.
result = pd.concat([selection, profit_margin], axis=1)
result


Unnamed: 0,sales,expenses,profit_margin
Sales,69,36,33
Tech,45,33,12


<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Estás trabajando con un DataFrame que contiene ventas trimestrales y anuales de diferentes años. Tu objetivo es calcular el promedio de ventas trimestrales para cada año y agregarlo como una nueva entrada en la Serie.

```
years = [2021, 2022, 2023]
entries = ["Q1", "Q2", "Q3", "Q4", "Annual"]
index = pd.MultiIndex.from_product([years, entries], names=["Year", "Entry"])
df4 = pd.DataFrame({
    'sales': np.random.randint(500, 1500, len(index))
}, index=index)
```

1. Calcula el promedio de ventas trimestrales para cada año (no consideres la entrada "Annual").
2. Añade esta información como una nueva entrada llamada "Quarterly_avg" en el DataFrame original.


In [None]:
# Tu código aquí ...
years = [2021, 2022, 2023]
entries = ["Q1", "Q2", "Q3", "Q4", "Annual"]
index = pd.MultiIndex.from_product([years, entries], names=["Year", "Entry"])
df4 = pd.DataFrame({
    'sales': np.random.randint(500, 1500, len(index))
}, index=index)

# Filtrar las entradas trimestrales (sin "Annual")
quarterly_data = df4[df4.index.get_level_values('Entry') != 'Annual']

# Calcular el promedio de ventas trimestrales por año
quarterly_avg = quarterly_data.groupby(level='Year').mean()
quarterly_avg.index = pd.MultiIndex.from_product([quarterly_avg.index, ['Quarterly_avg']], names=['Year', 'Entry'])

print("\nPromedio de ventas trimestrales por año:")
print(quarterly_avg)

# Combinar el DataFrame original con los promedios
df4_with_avg = pd.concat([df4, quarterly_avg])
print("\nDataFrame combinado con promedios:")
df4_with_avg



Promedio de ventas trimestrales por año:
                      sales
Year Entry                 
2021 Quarterly_avg   978.00
2022 Quarterly_avg  1172.25
2023 Quarterly_avg  1100.50

DataFrame combinado con promedios:


Unnamed: 0_level_0,Unnamed: 1_level_0,sales
Year,Entry,Unnamed: 2_level_1
2021,Q1,631.0
2021,Q2,913.0
2021,Q3,1408.0
2021,Q4,960.0
2021,Annual,1347.0
2022,Q1,1297.0
2022,Q2,1148.0
2022,Q3,1066.0
2022,Q4,1178.0
2022,Annual,873.0


<font color='green'>Fin Actividad 5</font>