# **Obtención y preparación de datos**

# OPD12. Edición de Estructuras en Pandas

## <font color='blue'>**Modificación de elementos en una Serie**</font>

Podemos modificar un valor de una serie usando la notación corchetes, y haciendo referencia a índices o a las etiquetas.

In [None]:
import numpy as np
import pandas as pd

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

In [None]:
s[0] = -1
s["b"] = -2
s

Podemos asignar un valor a un rango, definido por índices o por etiquetas, asignando el valor a cada uno de los elementos involucrados en el rango.

In [None]:
s[1:3] = 0
s

In [None]:
s["b":"d"] = -2
s

Si el rango está delimitado por números (haciendo referencia a la posición de los elementos), el último elemento del rango no se incluye. Por el contrario, si está delimitado por etiquetas, el último elemento sí se incluye.

Al rango podemos asignar también una lista de valores, aunque en este caso la lista deberá tener el mismo número de elementos que el rango en cuestión.

In [None]:
s[1:3] = [0, 1]
s

In [None]:
s["b":"d"] = [10, 11, 12]
s

Si asignamos un valor haciendo referencia a una etiqueta que no existe en el índice, se añade dicha etiqueta al índice y se le asigna el valor.

In [None]:
s["f"] = 0
s

Esto solo funciona con etiquetas. Si utilizamos un índice y éste no existe en
la serie, se devolverá un error.

In [None]:
try:
    s[6] = 11
except Exception as e:
    print(type(e).__doc__)

Si usamos un rango con etiquetas y alguna de las etiquetas no existe, solo se asigna el valor a las existentes.

In [None]:
s["f":"h"] = -1
s

Por último, también podemos usar en la selección una lista -tanto de índices como de etiquetas-, en cuyo caso se seleccionan los valores indicados en el orden indicado. Por ejemplo, podemos usar la lista ["c", "a"] para asignar a los elementos correspondientes los valores 1 y 2, respectivamente.

In [None]:
s[["c", "a"]] = [1, 2]
s

In [None]:
s[[1, 0]] = [20, 21]
s

## <font color='blue'>**Eliminación de elementos en una Serie**</font>

El método `pandas.Series.drop` devuelve una copia de la serie tras eliminar el elemento cuya etiqueta se especifica como argumento.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

In [None]:
r = s.drop("a")
r

In [None]:
s

En este ejemplo se ha pasado como único argumento la etiqueta del elemento a eliminar, y el método ha devuelto la serie sin dicho elemento. Si la etiqueta no se encontrase en la serie, se devolvería un error.

También se puede pasar como argumento no una etiqueta, sino una lista de etiquetas. En este caso se eliminarán todos los elementos con dichas etiquetas.

In [None]:
r = s.drop(["d", "a"])
r

Las etiquetas no tienen que estar en orden.

El argumento `inplace = True` realiza la eliminación inplace (modificando directamente la serie).

In [None]:
s

Este método exige el uso de etiquetas para seleccionar los elementos a eliminar. Esto significa que si en un momento dado necesitamos eliminar uno o más elementos por su índice, deberemos convertirlos en sus correspondientes etiquetas, lo que resulta extremadamente sencillo seleccionando los elementos adecuados del index.

In [None]:
s = pd.Series([1, 2, 3, 4, 5])
s

Si se desea eliminar los elementos cuyos índices son 1 y 3, basta utilizar el atributo `index` para que devuelve todas las etiquetas.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

list(s.index[[1, 3]])

In [None]:
s.drop(s.index[[1, 3]])

Otra forma para eliminar un elemento de una serie es el método `pandas.Series.pop`. Al igual que con el método `drop`, éste solo acepta una etiqueta y devuelve el valor correspondiente a dicha etiqueta, eliminándolo de la serie in-place.

In [None]:
s = pd.Series([1, 2, 3, 4, 5])
s

In [None]:
s.pop(1)

In [None]:
s

Si la etiqueta no se encuentra en el index, el método devolverá un error.

## <font color='blue'>**Método `where` en series**</font>

El método `pandas.Series.where` permite filtrar los valores de una serie de forma que solo los que cumplan cierta condición se mantengan. Los valores que no la cumplan son sustituidos por un valor (`NaN` por defecto).

In [None]:
s = pd.Series(np.arange(0,10))
s

Por ejemplo, filtrar los elementos de $s$ que sean pares.

In [None]:
s.where(s % 2 == 0)

Los valores que no cumplen la condición son sustituidos por `NaN`. Es posible modificar este valor de reemplazo pasando al método como segundo argumento el valor que se quiere fijar.

In [None]:
s.where(s % 2 == 0, -1)

## <font color='blue'>**Modificación de Dataframes**</font>

Existe una gran variedad de formas para seleccionar elementos o bloques de elementos de un dataframe, y cada una de estas selecciones puede ser utilizada para modificar los valores contenidos en el dataframe.

Podemos modificar un valor concreto usando los métodos `loc` o `iloc`, en función de que queramos usar sus etiquetas o índices.



In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df

In [None]:
df.iloc[1, 2] = -1
df

Es posible modificar una columna completa seleccionándola y asignándole, por ejemplo, una lista con los nuevos valores.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["A"] = -1
df

En este caso, la longitud de la lista conteniendo los valores a insertar deberá coincidir con la longitud de la columna, salvo que en lugar de una lista se esté asignando un único valor, en cuyo caso se propagará a toda la columna.

Si la selección es un bloque de datos de un tamaño arbitrario, nos encontramos en el mismo escenario: o bien insertamos datos con el mismo tamaño que la selección, o insertamos un único valor que se propagará a toda la selección.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = [[-1, -2], [-3, -4]]
df

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = -1
df

También es posible insertar datos en una columna o fila inexistente, en cuyo caso se crea y se le asignan los valores en cuestión.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["D"] = [10, 20, 30, 40]
df

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["e"] = [10, 20, 30]
df

## <font color='blue'>**Método `where` en dataframes**</font>

De forma semejante a las series, el método de los dataframes `where` filtra los valores contenidos en el dataframe de forma que solo los que cumplan cierta condición se mantengan. El resto de valores son sustituidos por un valor que, por defecto, es `NaN`.

In [None]:
df = pd.DataFrame(np.arange(12).reshape(-1, 3), columns = ["A", "B", "C"])
df

Filtrar los valores múltiplos de 2:

In [None]:
df.where(df % 2 == 0)

Todos aquellos valores que no son múltiplo de 2 son sustituidos por `NaN`. Si, por ejemplo, quisiéramos cambiar de signo a los valores que no cumplen la condición impuesta, lo haríamos así:

In [None]:
df.where(df % 2 == 0, -df)

## <font color='blue'>**Eliminación de elementos en un dataframe**</font>

El método `pandas.DataFrame.drop` elimina las filas o columnas indicadas y devuelve el resultado, permitiéndose diferentes criterios para especificarlas.

El primer criterio consiste en indicar la lista de etiquetas a eliminar y el eje al que pertenecen.

In [None]:
df = pd.DataFrame(np.arange(16).reshape([4, 4]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C", "D"])
df

Eliminar las filas cuyas etiquetas son "a" y "c".

In [None]:
df.drop(["a", "c"], axis = 0)

In [None]:
df.drop(["a", "c"])

Obsérvese que lo que se muestra es el resultado de eliminar las filas indicadas del dataframe. Éste no se modifica salvo que utilicemos el argumento `inplace = True`.

Para eliminar columnas, habría que indicar el eje correspondiente.

In [None]:
df.drop(["B", "D"], axis = 1)

Si no especificamos el `axis=1` para que se eliminen las columnas, nos dará un error.

In [None]:
try:
    df.drop(["B", "D"])
except Exception as e:
    print(type(e).__doc__)

Otra alternativa para especificar si se están eliminando filas o columnas es utilizar directamente los parámetros `index` y `columns`. Así, otra forma de eliminar las filas $a$ y $c$ sería la siguiente:



In [None]:
df.drop(index = ["a", "c"])

In [None]:
df.drop(columns = ["B", "D"])

## <font color='green'>Actividad 1</font>

En la Liga del Diplomado juegan 6 equipos: Equipo A, Equipo B, Equipo C, Equipo D, Equipo E y el **Equipo de Profes** (Campeón invicto en todas las ediciones del Diplomado).

La imagen muestra la tabla resumen con los resultados de la liga el último año.
<br><br>
<img src='https://drive.google.com/uc?export=view&id=1xW3fW4RrTim0N6hGjT51QxBOW-e36if8' width="800" align="center" style="margin-right: 20px">
<br><br>
1. Generar el dataframe __tabla_posiciones__ con la información de la tabla anterior.
2. Determinar para cada equipo la diferencia de goles (goles a favor -  goles en contra) y agregar esta información al dataframe.
3. Determinar la posición de cada equipo en la liga y presentar la información ordenada.
4. Durante la confrontación entre el Equipo A y el **Equipo de Profes** que fue ganada por A. El equipo A tenía más jugadores en cancha que los reglamentarios (tramposos!!!), por lo que la comisión disciplinaria decidió: i) descontar los puntos al equipo A y entregarlos (justamente) al **Equipo de Profes**, ii) finalizar el partido por un marcador de 3-0 a favor de los profes. Realice las ediciones correspondientes en el dataframe y entregue la tabla de posiciones final.
5. El premio al fair play se entrega al equipo con mejor comportamiento, para ello, se deben sumar las tarjetas acumuladas (tanto amarillas como rojas) en donde a las tarjetas rojas se les aplica un castigo multiplicándolas por 2, en caso de empate se selecciona al con menor número de tarjetas rojas, si se mantiene el empate el premio es para el equipo con menor número de tarjetas totales. Cree las columnas fair play con el indicador descrito y la columna tarjetas totales y determine el ganador del premio.
6. El último lugar de la tabla desciende de la liga y por lo tanto debe ser eliminado del dataframe.


In [None]:
# Tu código aquí ...


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Dado un DataFrame con registros de ventas y retornos de productos, debes calcular la tasa de retorno y almacenarla en una Serie.

```
dates = pd.date_range('20230101', periods=10)
df1 = pd.DataFrame({
    'sales': np.random.randint(50, 200, len(dates)),
    'returns': np.random.randint(1, 20, len(dates))
}, index=dates)
```

1. Calcula la tasa de retorno como returns / sales.
2. Almacena el resultado en una Serie con el mismo índice de fechas.
3. Une esta Serie al DataFrame original como una nueva columna llamada 'return_rate'.


In [None]:
# Tu código aquí ...



<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

Tienes un DataFrame de precios de acciones y una Serie que representa el volumen de acciones negociadas. Algunos días, el volumen es desconocido y aparece como NaN en la Serie. Tu objetivo es llenar estos valores, pero no con un método simple.

```
dates = pd.date_range('20230101', periods=8)
df2 = pd.DataFrame({
    'price': np.random.randn(len(dates)).cumsum() + 50
}, index=dates)

volume = pd.Series(np.where(np.random.choice([True, False], len(dates)), np.random.randint(1000, 5000, len(dates)), np.nan), index=dates)
```

1. En los días con volumen faltante, llena el valor con el volumen del día anterior si el precio de la acción ha aumentado, o con el volumen del día siguiente si el precio ha disminuido.
2. Añade la Serie de volumen al DataFrame como una nueva columna.


In [None]:
# Tu código aquí ...



<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Tienes un DataFrame con información de ventas y gastos por departamento. Se te pide extraer ciertos departamentos y realizar una transformación en los datos.

```
departments = ["HR", "Sales", "Tech", "Admin", "Finance"]
df3 = pd.DataFrame({
    'sales': np.random.randint(10, 100, len(departments)),
    'expenses': np.random.randint(10, 50, len(departments))
}, index=departments)
```

1. Extrae sólo los departamentos "Sales" y "Tech".
2. Crea una Serie que represente el margen de beneficio (definido como sales - expenses).
3. Combina esta Serie con el subconjunto del DataFrame original utilizando pd.concat.


In [None]:
# Tu código aquí ...



<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Estás trabajando con un DataFrame que contiene ventas trimestrales y anuales de diferentes años. Tu objetivo es calcular el promedio de ventas trimestrales para cada año y agregarlo como una nueva entrada en la Serie.

```
years = [2021, 2022, 2023]
entries = ["Q1", "Q2", "Q3", "Q4", "Annual"]
index = pd.MultiIndex.from_product([years, entries], names=["Year", "Entry"])
df4 = pd.DataFrame({
    'sales': np.random.randint(500, 1500, len(index))
}, index=index)
```

1. Calcula el promedio de ventas trimestrales para cada año (no consideres la entrada "Annual").
2. Añade esta información como una nueva entrada llamada "Quarterly_avg" en el DataFrame original.


In [None]:
# Tu código aquí ...



<font color='green'>Fin Actividad 5</font>