# **Obtención y preparación de datos**

# OD13. Edición de Estructuras en Pandas

## <font color='blue'>**Modificación de elementos en una Serie**</font>

Podemos modificar un valor de una serie usando la notación corchetes, y haciendo referencia a índices o a las etiquetas.

In [None]:
import numpy as np
import pandas as pd

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"]) #index explicito
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [None]:
s[0] = -1 #posicion
s["b"] = -2 #index
s

a   -1
b   -2
c    3
d    4
e    5
dtype: int64

Podemos asignar un valor a un rango, definido por índices o por etiquetas, asignando el valor a cada uno de los elementos involucrados en el rango.

In [None]:
s[1:3] = 0 #slice posicion
s

a   -1
b    0
c    0
d    4
e    5
dtype: int64

In [None]:
s["b":"d"] = -2 #slice index
s

a   -1
b   -2
c   -2
d   -2
e    5
dtype: int64

Si el rango está delimitado por números (haciendo referencia a la posición de los elementos), el último elemento del rango no se incluye. Por el contrario, si está delimitado por etiquetas, el último elemento sí se incluye. <font color="red">Importantísimo</font>

Al rango podemos asignar también una lista de valores, aunque en este caso la lista deberá tener el mismo número de elementos que el rango en cuestión.

In [None]:
s[1:3] = [0, 1] #definir un slice con una lista
s

a   -1
b    0
c    1
d   -2
e    5
dtype: int64

In [None]:
s["b":"d"] = [10, 11, 12] #slice con index
s

a    -1
b    10
c    11
d    12
e     5
dtype: int64

Si asignamos un valor haciendo referencia a una etiqueta que no existe en el índice, se añade dicha etiqueta al índice y se le asigna el valor.

In [None]:
s["f"] = 0 #se añade a la serie
s

a    -1
b    10
c    11
d    12
e     5
f     0
dtype: int64

In [None]:
s[6] = 11 #no funciona con la posición
s

IndexError: ignored

Esto solo funciona con etiquetas. Si utilizamos un índice y éste no existe en la serie, se devolverá un error.

Si usamos un rango con etiquetas y alguna de las etiquetas no existe, solo se asigna el valor a las existentes.

In [None]:
s["f":"h"] = -1 #solo se asigna a f
s

a    -1
b    10
c    11
d    12
e     5
f    -1
dtype: int64

Por último, también podemos usar en la selección una lista -tanto de índices como de etiquetas-, en cuyo caso se seleccionan los valores indicados en el orden indicado. Por ejemplo, podemos usar la lista ["c", "a"] para asignar a los elementos correspondientes los valores 1 y 2, respectivamente.

In [None]:
s[["c", "a"]] = [1, 2] #se reemplaza por el orden de la lista de index
s

a     2
b    10
c     1
d    12
e     5
f    -1
dtype: int64

In [None]:
s[[1, 0]] = [20, 21] #lo mismo pero por lista de posición
s

a    21
b    20
c     1
d    12
e     5
f    -1
dtype: int64

## <font color='blue'>**Eliminación de elementos en una Serie**</font>

El método **pandas.Series.drop** devuelve una copia de la serie tras eliminar el elemento cuya etiqueta se especifica como argumento.

In [None]:
s = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [None]:
r = s.drop("a") #elimina la serie con index a
r

b    2
c    3
d    4
e    5
dtype: int64

En este ejemplo se ha pasado como único argumento la etiqueta del elemento a eliminar, y el método ha devuelto la serie sin dicho elemento. Si la etiqueta no se encontrase en la serie, se devolvería un error.

También se puede pasar como argumento no una etiqueta, sino una lista de etiquetas. En este caso se eliminarán todos los elementos con dichas etiquetas.

In [None]:
r = s.drop(["d", "a"]) #elimina la lista con los index
r

b    2
c    3
e    5
dtype: int64

Las etiquetas no tienen que estar en orden.

El argumento **inplace = True** realiza la eliminación inplace (modificando directamente la serie). <font color="red">Con inplace no es necesario crear una nueva variable</font>

In [None]:
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

Este método exige el uso de etiquetas para seleccionar los elementos a eliminar. Esto significa que si en un momento dado necesitamos eliminar uno o más elementos por su índice, deberemos convertirlos en sus correspondientes etiquetas, lo que resulta extremadamente sencillo seleccionando los elementos adecuados del index.

In [None]:
s = pd.Series([1, 2, 3, 4, 5]) #sin especificar index, este se crea desde 0 a n-1 
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

Si se desea eliminar los elementos cuyos índices son 1 y 3, basta utilizar el atributo *index* para que devuelve todas las etiquetas.

In [None]:
s.index[[1, 3]]

Int64Index([1, 3], dtype='int64')

In [None]:
s.drop(s.index[[1, 3]]) #usar .index

0    1
2    3
4    5
dtype: int64

Otra forma para eliminar un elemento de una serie es el método **pandas.Series.pop**. Al igual que con el método drop, éste solo acepta una etiqueta y devuelve el valor correspondiente a dicha etiqueta, eliminándolo de la serie in-place.

In [None]:
s = pd.Series([1, 2, 3, 4, 5])
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [None]:
s.pop(1) #elimina el index

2

In [None]:
s #el resultante no tiene el index en pop

0    1
2    3
3    4
4    5
dtype: int64

Si la etiqueta no se encuentra en el index, el método devolverá un error.

## <font color='blue'>**Método where en series**</font>

El método **pandas.Series.where** permite filtrar los valores de una serie de forma que solo los que cumplan cierta condición se mantengan. Los valores que no la cumplan son sustituidos por un valor (NaN por defecto).

In [None]:
s = pd.Series(np.arange(0,10))
s

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

Por ejemplo, filtrar los elementos de $s$ que sean pares.

In [None]:
s.where(s % 2 == 0) #no filtra, identifica aquellos que cumplen la condición, si no, queda como NaN

0    0.0
1    NaN
2    2.0
3    NaN
4    4.0
5    NaN
6    6.0
7    NaN
8    8.0
9    NaN
dtype: float64

Los valores que no cumplen la condición son sustituidos por NaN. Es posible modificar este valor de reemplazo pasando al método como segundo argumento el valor que se quiere fijar.

In [None]:
s.where(s % 2 == 0, -1) #Tiene un 2do argumento, que reemplaza el valor cuando no cumple la condición

0    0
1   -1
2    2
3   -1
4    4
5   -1
6    6
7   -1
8    8
9   -1
dtype: int64

## <font color='blue'>**Modificación de Dataframes**</font>

Existe una gran variedad de formas para seleccionar elementos o bloques de elementos de un dataframe, y cada una de estas selecciones puede ser utilizada para modificar los valores contenidos en el dataframe.

Podemos modificar un valor concreto usando los métodos **loc** o **iloc**, en función de que queramos usar sus etiquetas o índices.



In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [None]:
df.iloc[1, 2] = -1 #.iloc (index location) para las posiciones
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,-1
c,6,7,8
d,9,10,11


Es posible modificar una columna completa seleccionándola y asignándole, por ejemplo, una lista con los nuevos valores.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["A"] = -1
df

Unnamed: 0,A,B,C
a,-1,1,2
b,-1,4,5
c,-1,7,8
d,-1,10,11


En este caso, la longitud de la lista conteniendo los valores a insertar deberá coincidir con la longitud de la columna, salvo que en lugar de una lista se esté asignando un único valor, en cuyo caso se propagará a toda la columna.

Si la selección es un bloque de datos de un tamaño arbitrario, nos encontramos en el mismo escenario: o bien insertamos datos con el mismo tamaño que la selección, o insertamos un único valor que se propagará a toda la selección.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = [[-1, -2], [-3, -4]] #.loc por index, en este caso es un slice
df

Unnamed: 0,A,B,C
a,0,1,2
b,-1,-2,5
c,-3,-4,8
d,9,10,11


In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["b":"c", "A":"B"] = -1 #en vez de una lista, se reemplaza por una constante
df

Unnamed: 0,A,B,C
a,0,1,2
b,-1,-1,5
c,-1,-1,8
d,9,10,11


También es posible insertar datos en una columna o fila inexistente, en cuyo caso se crea y se le asignan los valores en cuestión.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df["D"] = [10, 20, 30, 40] #reemplaza la columna
df

Unnamed: 0,A,B,C,D
a,0,1,2,10
b,3,4,5,20
c,6,7,8,30
d,9,10,11,40


In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C"])
df.loc["e"] = [10, 20, 30] #se reemplaza la fila
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,10,20,30


## <font color='blue'>**Método where en dataframes**</font>

De forma semejante a las series, el método de los dataframes **where** filtra los valores contenidos en el dataframe de forma que solo los que cumplan cierta condición se mantengan. El resto de valores son sustituidos por un valor que, por defecto, es NaN.

In [None]:
df = pd.DataFrame(np.arange(12).reshape(-1, 3), columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


Filtrar los valores múltiplos de 2:

In [None]:
df.where(df % 2 == 0) #True cumple condición (mantiene valores), False no cumple condición (NaN) 

Unnamed: 0,A,B,C
0,0.0,,2.0
1,,4.0,
2,6.0,,8.0
3,,10.0,


Todos aquellos valores que no son múltiplo de 2 son sustituidos por NaN. Si, por ejemplo, quisiéramos cambiar de signo a los valores que no cumplen la condición impuesta, lo haríamos así:

In [None]:
df.where(df % 2 == 0, -df) #Reemplaza los False por el negativo del dataframe

Unnamed: 0,A,B,C
0,0,-1,2
1,-3,4,-5
2,6,-7,8
3,-9,10,-11


## <font color='blue'>**Eliminación de elementos en un dataframe**</font>

El método **pandas.DataFrame.drop** elimina las filas o columnas indicadas y devuelve el resultado, permitiéndose diferentes criterios para especificarlas.

El primer criterio consiste en indicar la lista de etiquetas a eliminar y el eje al que pertenecen.

In [None]:
df = pd.DataFrame(np.arange(16).reshape([4, 4]), 
                  index = ["a", "b", "c", "d"],
                  columns = ["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


Eliminar las filas cuyas etiquetas son "a" y "c".

In [None]:
df.drop(["a", "c"], axis = 0) #rows

Unnamed: 0,A,B,C,D
b,4,5,6,7
d,12,13,14,15


In [None]:
df.drop(["a", "c"]) #rows es por defecto (para visualizar inplace=False, para modificar inplace=True)

Unnamed: 0,A,B,C,D
b,4,5,6,7
d,12,13,14,15


Obsérvese que lo que se muestra es el resultado de eliminar las filas indicadas del dataframe. Éste no se modifica salvo que utilicemos el argumento **inplace = True**.

Para eliminar columnas, habría que indicar el eje correspondiente.

In [None]:
df.drop(["B", "D"], axis = 1) #axis es igual a 0 por defecto, para eliminar columnas es necesario indicar la dimensión

Unnamed: 0,A,C
a,0,2
b,4,6
c,8,10
d,12,14


Otra alternativa para especificar si se están eliminando filas o columnas es utilizar directamente los parámetros **index** y **columns**. Así, otra forma de eliminar las filas "a" y "c" sería la siguiente:



In [None]:
df.drop(index = ["a", "c"]) #mas convencional, en vez de axis=0, se usa index

Unnamed: 0,A,B,C,D
b,4,5,6,7
d,12,13,14,15


In [None]:
df.drop(columns = ["B", "D"]) #reemplaza a la opción axis=1

Unnamed: 0,A,C
a,0,2
b,4,6
c,8,10
d,12,14


## <font color='green'>Actividad 1</font>

En la liga del diplomado juegan 6 equipos: Equipo A, Equipo B, Equipo C, Equipo D, Equipo E y el **Equipo de Profes** (Campeón invicto).

La imagen muestra la tabla resumen con los resultados de la liga.

<img src='https://drive.google.com/uc?export=view&id=1xW3fW4RrTim0N6hGjT51QxBOW-e36if8' width="800" align="center" style="margin-right: 20px">

1. Generar el dataframe tabla_posiciones con la información de la tabla anterior.
2. Determinar para cada equipo la diferencia de goles (goles a favor -  goles en contra) y agregar esta información al dataframe.
3. Determinar la posición de cada equipo en la liga y presentar la información ordenada.
4. Durante la confrontación entre el Equipo A y el **Equipo de Profes** que fue ganada por A. El equipo A tenía más jugadores en cancha que los reglamentarios (tramposos!!!), por lo que la comisión disciplinaria decidió: i) descontar los puntos al equipo A y entregarlos (justamente) al **Equipo de Profes**, ii) finalizar el partido por un marcador de 3-0 a favor de los profes. Realice las ediciones correspondientes en el dataframe y entregue la tabla de posiciones final.
5. El premio al fair play se entrega al equipo con mejor comportamiento, para ello, se deben sumar las tarjetas acumuladas (tanto amarillas como rojas) en donde a las tarjetas rojas se les aplica un castigo multiplicándolas por 2, en caso de empate se selecciona al con menor número de tarjetas rojas, si se mantiene el empate el premio es para el equipo con menor número de tarjetas totales. Cree las columnas fair play con el indicador descrito y la columna tarjetas totales y determine el ganador del premio.
6. El último lugar de la tabla desciende de la liga y por lo tanto debe ser eliminado del dataframe.


In [None]:
#solución 1
pos = pd.DataFrame({
    "Puntos": [30, 25, 27, 17, 19, 23],
    "Goles a Favor": [65, 45, 60, 30, 25, 40],
    "Goles en contra": [10, 15, 20, 60, 30, 20],
    "Tarjetas Amarillas": [7, 2, 4, 4, 9, 4],
    "Tarjetas Rojas": [3, 2, 2, 4, 5, 1]
},
    index = ["Equipo A", "Equipo B", "Equipo Profes", "Equipo C", "Equipo D", "Equipo E"] 
)
pos


Unnamed: 0,Puntos,Goles a Favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas
Equipo A,30,65,10,7,3
Equipo B,25,45,15,2,2
Equipo Profes,27,60,20,4,2
Equipo C,17,30,60,4,4
Equipo D,19,25,30,9,5
Equipo E,23,40,20,4,1


In [None]:
#Solución 2
pos['Diferencia de goles']=pos['Goles a Favor']-pos['Goles en contra']
pos

Unnamed: 0,Puntos,Goles a Favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de goles
Equipo A,30,65,10,7,3,55
Equipo B,25,45,15,2,2,30
Equipo Profes,27,60,20,4,2,40
Equipo C,17,30,60,4,4,-30
Equipo D,19,25,30,9,5,-5
Equipo E,23,40,20,4,1,20


In [None]:
#Solución 3
pos.sort_values(by=['Puntos'],ascending=False,inplace=True)
pos

Unnamed: 0,Puntos,Goles a Favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de goles
Equipo A,30,65,10,7,3,55
Equipo Profes,27,60,20,4,2,40
Equipo B,25,45,15,2,2,30
Equipo E,23,40,20,4,1,20
Equipo D,19,25,30,9,5,-5
Equipo C,17,30,60,4,4,-30


In [None]:
#Solución 4 #asumiendo que el equipo A haya ganado 1-0 y que tanto a los puntos, también se registro los goles 
pos.loc['Equipo A']['Puntos']=pos.loc['Equipo A']['Puntos']-3
pos.loc['Equipo Profes']['Puntos']=pos.loc['Equipo Profes']['Puntos']+3
pos.loc['Equipo Profes']['Goles a Favor']=pos.loc['Equipo Profes']['Goles a Favor']+3
pos.loc['Equipo A']['Goles en contra']=pos.loc['Equipo A']['Goles en contra']+3
pos.loc['Equipo A']['Goles a Favor']=pos.loc['Equipo A']['Goles a Favor']-1
pos.loc['Equipo Profes']['Goles en contra']=pos.loc['Equipo Profes']['Goles en contra']-0
pos['Diferencia de goles']=pos['Goles a Favor']-pos['Goles en contra']
pos.sort_values(by=['Puntos'],ascending=False,inplace=True)
pos

Unnamed: 0,Puntos,Goles a Favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de goles
Equipo Profes,30,63,20,4,2,43
Equipo A,27,64,13,7,3,51
Equipo B,25,45,15,2,2,30
Equipo E,23,40,20,4,1,20
Equipo D,19,25,30,9,5,-5
Equipo C,17,30,60,4,4,-30


In [None]:
#Solución 5
pos['fair play']=pos['Tarjetas Amarillas']+pos['Tarjetas Rojas']*2
pos.sort_values(by=['fair play','Tarjetas Rojas', 'Tarjetas Amarillas'],ascending=True,inplace=True) 
pos

Unnamed: 0,Puntos,Goles a Favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de goles,fair play
Equipo E,23,40,20,4,1,20,6
Equipo B,25,45,15,2,2,30,6
Equipo Profes,30,63,20,4,2,43,8
Equipo C,17,30,60,4,4,-30,12
Equipo A,27,64,13,7,3,51,13
Equipo D,19,25,30,9,5,-5,19


In [None]:
#Solución 6
pos.sort_values(by=['Puntos'],ascending=False,inplace=True)
#pos.drop(pos.index[len(pos)-1],inplace=True) #Alternativa 1
pos.drop(pos.index[-1],inplace=True) #Alternativa 2
pos

Unnamed: 0,Puntos,Goles a Favor,Goles en contra,Tarjetas Amarillas,Tarjetas Rojas,Diferencia de goles,fair play
Equipo Profes,30,63,20,4,2,43,8
Equipo A,27,64,13,7,3,51,13
Equipo B,25,45,15,2,2,30,6
Equipo E,23,40,20,4,1,20,6
Equipo D,19,25,30,9,5,-5,19


<font color='green'>Fin Actividad 1</font>