# **Obtención y preparación de datos**

# OD11. Selección en Dataframes

Desde un punto de vista semántico, un dataframe puede ser considerado semejante a un diccionario de series, en el que las claves son los nombres de las columnas y los valores, las columnas (que son series pandas).

In [1]:
import pandas as pd
import numpy as np

In [2]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Sí", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
    index = ["Ene", "Feb", "Mar", "Abr"] 
)
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Sí,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


Es posible utilizar la sintaxis de los diccionarios para seleccionar la columna Entradas.

In [3]:
print(type(ventas["Entradas"]))

<class 'pandas.core.series.Series'>


In [4]:
ventas["Entradas"] #Al llamar al indice debe ser el nombre exacto - es caso sensitivo.

Ene    41
Feb    32
Mar    56
Abr    18
Name: Entradas, dtype: int64

Esto significa que podemos realizar una selección en dicho resultado para, por ejemplo, extraer el valor correspondiente a febrero.

In [5]:
ventas["Entradas"]["Feb"]

32

In [78]:
#Genera error
ventas["Entradas", "Feb"] #genera error cuando ambas selecciones se hacen en un mismo [] separados por una coma 

TypeError: ignored

Usar comas para separar no funciona y por lo tanto nos entrega un error.

Si, una vez seleccionada una columna, le asignamos una lista o array (o serie) de valores de la misma longitud, estamos modificando dicha columna del dataframe.

In [7]:
ventas["Entradas"] = [33, 25, 40, 12] #misma longitud del dataframe
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,33,17,66,No,1.43
Feb,25,54,54,Sí,1.16
Mar,40,6,49,No,-0.67
Abr,12,78,66,No,0.77


Si asignamos un único valor escalar, este se propaga por toda la columna.

In [8]:
ventas["Salidas"] = 1 #si es valor único, reemplaza todas
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,33,1,66,No,1.43
Feb,25,1,54,Sí,1.16
Mar,40,1,49,No,-0.67
Abr,12,1,66,No,0.77


In [79]:
#genera error
ventas["Salidas"] = [1, 3, 4] #cuando la lista no es del tamaño del dataframe, genera error
ventas

TypeError: ignored

Si estuviésemos asignando un array cuya longitud no coincidiese con la de la columna (y no estuviésemos asignando un escalar), obtendríamos un error.

Si asignamos una serie pandas se consideran los índices del dataframe y de la serie, haciendo coincidir los valores cuyos índices sean los mismos en ambas estructuras (si dicha columna no existe, se crea). En el caso de que haya valores en la serie con índices que no se encuentren en el dataframe, se descartan. Y en el caso de que haya índices en el dataframe que no se encuentren en la serie, se asigna un valor *NaN*.

Así, en el siguiente ejemplo, estamos añadiendo una serie cuyos índices son "Ene", "Mar", "Abr" y "May". Es decir, la serie no tiene un valor para el índice "Feb" que sí se encuentra en el dataframe (se asigna un *NaN*), e incluye el índice "May" que no se encuentra en el dataframe y se descarta.

In [10]:
ventas["Perdidas"] = pd.Series([5, 4, 6, 8], index = ["Ene", "Mar", "Abr", "May"]) #descarta nuevos index
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio,Perdidas
Ene,33,1,66,No,1.43,5.0
Feb,25,1,54,Sí,1.16,
Mar,40,1,49,No,-0.67,4.0
Abr,12,1,66,No,0.77,6.0


Los valores asignados pueden proceder del propio dataframe:

In [11]:
ventas["Ganancias"] = (ventas["Entradas"]*2) - (ventas["Valoración"]/10)
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio,Perdidas,Ganancias
Ene,33,1,66,No,1.43,5.0,59.4
Feb,25,1,54,Sí,1.16,,44.6
Mar,40,1,49,No,-0.67,4.0,75.1
Abr,12,1,66,No,0.77,6.0,17.4


También podemos acceder a una columna con la llamada "notación punto".

In [12]:
ventas.Ganancias = 1
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio,Perdidas,Ganancias
Ene,33,1,66,No,1.43,5.0,1
Feb,25,1,54,Sí,1.16,,1
Mar,40,1,49,No,-0.67,4.0,1
Abr,12,1,66,No,0.77,6.0,1


Deberemos tener en cuenta que con esta notación no es posible crear nuevas columnas ni eliminarlas y que solo funcionará si el nombre de la columna no incluye espacios en blanco y no coincide con ninguna palabra reservada de Python.

In [13]:
ventas["lim"] = np.where(ventas["Límite"]=="No","0","1") #columna condicional (condición, valores True, valores False)
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio,Perdidas,Ganancias,lim
Ene,33,1,66,No,1.43,5.0,1,0
Feb,25,1,54,Sí,1.16,,1,1
Mar,40,1,49,No,-0.67,4.0,1,0
Abr,12,1,66,No,0.77,6.0,1,0


El uso de un rango numérico entre los corchetes realiza una selección de filas, lo que puede parecer una cierta incoherencia.

In [14]:
import numpy as np
df = pd.DataFrame(np.arange(18).reshape([6, 3]), #ojo con el reshape entre []
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [15]:
df = pd.DataFrame(np.arange(18).reshape((6, 3)), #También funciona con ()
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [16]:
df[2:5]

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14


El equipo de pandas lo justifica diciendo que esta sintaxis resulta extremadamente conveniente al tratarse de un tipo de selección frecuentemente usada. Esto es cierto, pero el hecho de que selecciones aparentemente semejantes (df[1,2], df[[1, 2]], df[1:3, 5], etc.) devuelvan un error no facilita su comprensión.

Se devuelven las filas entre el primer valor del rango (incluido) y el último (sin incluir). También podríamos haber usado las etiquetas del índice.

In [17]:
df["b":"d"] #slice

Unnamed: 0,A,B,C
b,3,4,5
c,6,7,8
d,9,10,11


In [18]:
df[:3] #los 3 1ros

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [19]:
df[:"c"] #los 3 1ros, señalados por index name

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


Al situar entre los corchetes una lista de etiquetas, estaremos seleccionando columnas en el orden en el que aparecen en la lista y con formato dataframe:

In [20]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [21]:
print(type(df[["C", "A"]]))
df[["C", "A"]] #doble corchete para columnas

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,C,A
a,2,0
b,5,3
c,8,6
d,11,9
e,14,12
f,17,15


También es posible extraer de forma segura una columna de un dataframe usando el método **pandas.DataFrame.get**. Éste extrae la columna indicada devolviendo un valor alternativo (por defecto *None*) si dicha columna no existe.

In [22]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.get("A") #get también se usa para columnas

a     0
b     3
c     6
d     9
e    12
f    15
Name: A, dtype: int64

In [23]:
df.get("D") #No existe columna (output:None)

Al igual que ocurre con las series, el método **pandas.DataFrame.loc** permite seleccionar un conjunto de filas y columnas por etiquetas. Este método acepta diferentes argumentos.

In [24]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [25]:
df.loc["c"]

A    6
B    7
C    8
Name: c, dtype: int64

El resultado es una serie pandas con las etiquetas de columnas del dataframe original como índice.

Es necesario mencionar que el argumento será siempre interpretado como etiqueta, aun cuando pueda estar representando un índice válido.

In [26]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = [1, 3, 0, 4],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
1,0,1,2
3,3,4,5
0,6,7,8
4,9,10,11


In [27]:
df.loc[0]

A    6
B    7
C    8
Name: 0, dtype: int64

Si la etiqueta no existe, se devuelve un error (nuevamente, aun cuando la etiqueta sea un número que pueda estar representando un índice válido).

Si pasamos a loc una lista de etiquetas, estaremos extrayendo las filas cuyas etiquetas se indican, y en el orden en el que aparezcan en la lista.

In [28]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [29]:
df.loc[["c", "a", "e"]]

Unnamed: 0,A,B,C
c,6,7,8
a,0,1,2
e,12,13,14


Al contrario de lo que ocurre cuando solo indicamos una etiqueta, el resultado es un dataframe. Y lo es aún cuando la lista contenga un único elemento.

In [30]:
print(type(df.loc[["c"]]))
df.loc[["c"]]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B,C
c,6,7,8


Otra opción es utilizar rangos limitados por etiquetas.

In [31]:
df.loc["b":"d"]

Unnamed: 0,A,B,C
b,3,4,5
c,6,7,8
d,9,10,11


Obsérvese que la selección incluye todas las filas incluyendo las dos de los extremos del rango.

En los ejemplos vistos hasta ahora estamos extrayendo una o varias filas para todas las columnas. En posible, por supuesto, especificar qué filas y qué columnas exactas queremos extraer. Así, si utilizamos una única etiqueta para indicar la fila, y una única etiqueta para indicar la columna, separadas por una coma, estaremos extrayendo un único valor.

In [32]:
df.loc["a", "C"] #con comas para identificar fila columna, se usa .loc

2

Podemos sustituir una de las dos etiquetas por el símbolo de dos puntos (:), lo que supondrá seleccionar todos los elementos de ese eje.

In [33]:
df.loc[:, "A"] #return una serie

a     0
b     3
c     6
d     9
e    12
f    15
Name: A, dtype: int64

Esto supone que, por ejemplo, las dos expresiones siguientes devuelven el mismo resultado:

In [34]:
df.loc["b"] #return una serie

A    3
B    4
C    5
Name: b, dtype: int64

In [35]:
df.loc["b",:] #return una serie

A    3
B    4
C    5
Name: b, dtype: int64

Los métodos vistos pueden combinarse. Podemos, por ejemplo, seleccionar la intersección de las filas e y c (en este orden) y la columna B.

In [36]:
df.loc[["e", "c"], "B"]

e    13
c     7
Name: B, dtype: int64

El método **pandas.DataFrame.iloc** permite realizar selecciones por posición. Tal y como cabría esperar, pueden utilizarse diferentes tipos de argumentos que determinan qué elementos se están extrayendo.

In [37]:
df = pd.DataFrame(np.random.randint(0, 10, 18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,2,8,4
b,8,5,7
c,2,7,2
d,6,0,6
e,5,2,0
f,1,6,1


In [38]:
df.iloc[2] #return una serie

A    2
B    7
C    2
Name: c, dtype: int64

El número indicado siempre será tratado como posición, y no como etiqueta.

In [39]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = [3, 2, 1, 0],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
3,0,1,2
2,3,4,5
1,6,7,8
0,9,10,11


In [40]:
df.iloc[3] #iloc muestra la posición del index

A     9
B    10
C    11
Name: 0, dtype: int64

Si el número es negativo, hace referencia al final del dataframe.



In [41]:
df.iloc[-1]

A     9
B    10
C    11
Name: 0, dtype: int64

Si utilizamos como argumento una lista o array de números, estamos extrayendo las filas cuyos índices son los elementos del mismo, y en el orden en el que aparecen en él.

In [42]:
df = pd.DataFrame(np.random.randint(0, 10, 18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,3,5,0
b,1,1,4
c,2,0,1
d,4,1,9
e,1,7,7
f,9,3,7


In [43]:
df.iloc[-1::-2] #Parte desde la ultima fila y retrocede 2 filas

Unnamed: 0,A,B,C
f,9,3,7
d,4,1,9
b,1,1,4


In [44]:
df.iloc[[3, 1]] #fila 4 y 2

Unnamed: 0,A,B,C
d,4,1,9
b,1,1,4


Si utilizamos un rango de números, como en el siguiente ejemplo en el que indicamos como argumento 2:4, estamos extrayendo las filas cuyos índices van de la primera cifra del rango incluida (2 en el ejemplo) hasta la última cifra sin incluir (4 en el ejemplo).

In [45]:
df.iloc[2:4] #slice

Unnamed: 0,A,B,C
c,2,0,1
d,4,1,9


Como suele ser habitual, si no se especifica el primer valor, se consideran las filas desde la primera. Y si no se especifica el último valor, se consideran las filas hasta la última (incluida).

In [46]:
df.iloc[:3] #slice

Unnamed: 0,A,B,C
a,3,5,0
b,1,1,4
c,2,0,1


In [47]:
df.iloc[1::-1] #slice empieza en 2 y ternmina en 1

Unnamed: 0,A,B,C
b,1,1,4
a,3,5,0


También pueden usarse valores negativos para especificar el comienzo o el final del rango.

Si añadimos un segundo argumento, estaremos haciendo referencia al índice de columna.

In [48]:
df.iloc[3, 1] #con coma, se refiere al index de las columnas

1

En ocasiones nos encontraremos con que resultaría de utilidad poder realizar selecciones mezclando etiquetas e índices, y los métodos vistos, loc e iloc, solo permiten el uso de etiquetas o de índices, respectivamente. Para poder mezclar ambos tipos de referencias podemos recurrir a los métodos **pandas.Index.get_loc** y **pandas.Index.get_indexer**, métodos asociados a los índices de un dataframe.

El primero, **get_loc**, devuelve el índice de la etiqueta que se adjunte como parámetro. El segundo, **get_indexer**, devuelve un array con los índices de las etiquetas que se adjunten en forma de lista como parámetro.

In [49]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df                                                                                                                   

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


<font color="red">usar los métodos .get_loc() y get_indexer()</font>

Si aplicamos los métodos comentados al índice de columnas haciendo referencia a etiquetas de columnas, obtenemos los siguientes resultados:

In [50]:
df.columns.get_loc("B") #obtiene la posición de la locación B (usar el prefijo columns)

1

In [51]:
df.columns.get_indexer(["A", "C"]) #obtiene las posiciones de varias locaciones (usar el prefijo columns)

array([0, 2])

En el primer caso hemos pasado la etiqueta "B" y el método ha devuelto su índice (1). En el segundo caso hemos pasado una lista de etiquetas y hemos obtenido un array con sus índices.

Si ejecutamos estos métodos en el índice de filas:

In [52]:
df.index.get_loc("d") #funciona tanto para filas como para columnas (usar el prefijo index)

3

In [53]:
df.index.get_indexer(["c", "e"]) #idem a lo anterior (usar el prefijo index)

array([2, 4])

In [54]:
df.index.get_indexer(["B", "A", "e", "c"]) #cuando se mezclan filas con columnas, las columnas toman el valor -1

array([-1, -1,  4,  2])

In [55]:
df.columns.get_indexer(["B", "A", "e", "c"]) #cuando se mezclan filas con columnas, las filas toman el valor -1

array([ 1,  0, -1, -1])

Ahora que sabemos cómo convertir etiquetas en sus índices equivalentes, podemos seleccionar datos de un dataframe mezclando etiquetas e índices si convertimos las etiquetas y utilizamos el método iloc ya visto. Por ejemplo, si quisiéramos extraer del anterior dataframe el dato que ocupa la fila "c" y la columna de índice 2, podríamos conseguirlo del siguiente modo:

In [56]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df  

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [57]:
df.iloc[df.index.get_loc("c"), 2] #get_loc busca la posición del index usando index.get_loc

8

O si deseásemos obtener de las filas 5 y 3 (en este orden) los valores correspondientes a las columnas C y A (en este orden), podríamos hacerlo con la siguiente expresión:

In [58]:
df.iloc[[5, 3], df.columns.get_indexer(["C", "A"])] #columns.get_indexer para columnas

Unnamed: 0,C,A
f,17,15
d,11,9


Otro método especialmente útil para la selección es el uso de listas de booleanos. Nuevamente puede parecer un tanto incoherente aunque, en este caso, su uso sí es extremadamente conveniente.

Si partimos del mismo dataframe usado en la sección anterior, podemos crear una lista de booleanos (que, por motivos puramente pedagógicos, asignamos a una variable, *mask*) y realizar la selección con ella entre los corchetes. Vemos a continuación que este método también selecciona filas del dataframe.

In [59]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
mask = [True, False, True, False, False, True] #filtro de filas
df[mask]

Unnamed: 0,A,B,C
a,0,1,2
c,6,7,8
f,15,16,17


El vector de booleanos deberá tener la misma longitud que el índice de filas (es decir, un booleano por fila) y la selección devolverá aquellas filas para las que el elemento correspondiente del vector tome el valor *True*.

La verdadera potencia de este estilo de selección se pone de manifiesto cuando la máscara se genera a partir de los datos del propio dataframe. Por ejemplo, si queremos seleccionar las filas para las que el valor de la columna A sea mayor que 7:

In [60]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [61]:
df[df.A > 7]

Unnamed: 0,A,B,C
d,9,10,11
e,12,13,14
f,15,16,17


Este tipo de filtrados resultan muy frecuentes en entornos de análisis, de ahí que la posibilidad de realizarlos sin necesidad de recurrir a métodos adicionales (loc, iloc o get, por ejemplo) resulte tan conveniente.

Con loc podemos usar directamente una expresión de comparación como la vista:

In [62]:
df.loc[df.B > 6] #.loc funciona para booleanos

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


Sin embargo, con iloc nos veremos obligados a extraer los valores del dataframe resultante de la comparación -tal y como ocurría con las series- pues, de otro modo, obtendremos un error.

In [63]:
df.iloc[(df.B > 6).values] #iloc necesita concluir con .values

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


**Evitamos problemas si, tal y como sugiere pandas, utilizamos siempre el método loc.**

Al igual que ocurre con las series, también los dataframes tienen un método que permite extraer elementos del mismo de forma aleatoria: **pandas.DataFrame.sample**. Este método permite especificar el número de elementos a extraer (o el porcentaje respecto del total, parámetros **n** y **frac**, respectivamente), si la extracción se realiza con reemplazo o no (parámetro **replace**), los pesos a aplicar a los elementos para realizar una extracción aleatoria ponderada (parámetro **weights**) y una semilla para el generador de números aleatorios que asegure la reproducibilidad de la extracción (parámetro **random_state**). También es posible indicar el eje a lo largo del cual se desea realizar la extracción (por defecto se extraen filas, correspondiente al eje 0).

In [64]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.sample(3, random_state = 18) #seed es random_state

Unnamed: 0,A,B,C
f,15,16,17
e,12,13,14
b,3,4,5


Si especificamos como eje el valor 1, estaremos extrayendo columnas.

In [65]:
df.sample(2, random_state = 18, axis = 1)

Unnamed: 0,A,B
a,0,1
b,3,4
c,6,7
d,9,10
e,12,13
f,15,16


Si hacemos uso del parámetro **frac**, podemos especificar el porcentaje de elementos a extraer.

In [66]:
df.sample(frac = 0.6, random_state = 18)

Unnamed: 0,A,B,C
f,15,16,17
e,12,13,14
b,3,4,5
a,0,1,2


Otra forma de extraer datos es la proporcionada por el método **pandas.DataFrame.pop**, que extrae y elimina una columna de un dataframe.

In [67]:
df = pd.DataFrame(np.arange(15).reshape([3, 5]),
                  index = ["a", "b", "c"],
                  columns = ["A", "B", "C", "D", "E"])
df

Unnamed: 0,A,B,C,D,E
a,0,1,2,3,4
b,5,6,7,8,9
c,10,11,12,13,14


In [68]:
columna = df.pop("B") #pop también elimina columnas 
columna

a     1
b     6
c    11
Name: B, dtype: int64

In [69]:
df

Unnamed: 0,A,C,D,E
a,0,2,3,4
b,5,7,8,9
c,10,12,13,14


## <font color='green'>Actividad 1</font>

Escribir una función que reciba un DataFrame con el formato del ejercicio 2, una lista de meses, y devuelva el balance (ventas - gastos) para los siguientes periodos:

1. Enero a Marzo
2. Abril a Junio
3. Todo el periodo

In [70]:
#Solución
ventas_gastos = np.array([[30500, 22000], 
                           [35600, 23400],
                           [28300, 18100],
                          [33900, 20700],
                          [31450, 25620],
                          [33040, 25500]])

def balances(ventas_gastos):
    df_ventas_gastos=pd.DataFrame(ventas_gastos,
                        index = ['Enero','Febrero', 'Marzo','Abril','Mayo','Junio'],
                        columns = ["Ventas", "Gastos"]) #definir dataframe con Index y nombres de columnas
    
    df_ventas_gastos["Balance"] = df_ventas_gastos["Ventas"] - df_ventas_gastos["Gastos"] #definir nueva columna con cálculo de balance
    ventas1 = sum(df_ventas_gastos.loc[["Enero","Febrero","Marzo"]]["Balance"])  #filtrar período ene-mar
    ventas2 = sum(df_ventas_gastos.loc[["Abril","Mayo","Junio"]]["Balance"])  #filtrar período abr-jun
    ventas3 = sum(df_ventas_gastos["Balance"])  #mostrar todo el período
    print(f'El balance del periodo Ene-Mar fue {ventas1}') #imprimir en pantalla resultados
    print(f'El balance del periodo Abr-Jun fue {ventas2}')
    print(f'El balance del periodo Ene-Jun fue {ventas3}')
    return df_ventas_gastos #retornar dataframe con balance

balances(ventas_gastos)


El balance del periodo Ene-Mar fue 30900
El balance del periodo Abr-Jun fue 26570
El balance del periodo Ene-Jun fue 57470


Unnamed: 0,Ventas,Gastos,Balance
Enero,30500,22000,8500
Febrero,35600,23400,12200
Marzo,28300,18100,10200
Abril,33900,20700,13200
Mayo,31450,25620,5830
Junio,33040,25500,7540


In [71]:
#Solución definiendo array 
import numpy as np

ventas = [30500, 35600, 28300, 33900, 31450, 33040]
gastos = [22000, 23400, 18100, 20700, 25620, 25500]
indice = ["Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio"]

df = pd.DataFrame(np.array([ventas, gastos]).transpose(), #de list se crea un array y a posterior se traspone
                  index = indice,
                  columns = ["Ventas", "Gastos"])

df["Neto"] = df["Ventas"] - df["Gastos"]

def neto(df, meses):
    df["Neto"] = df["Ventas"] - df["Gastos"]
    return df[["Neto"]].loc[meses]

neto(df, ["Enero", "Febrero", "Marzo"]) #Balance período ene-mar

Unnamed: 0,Neto
Enero,8500
Febrero,12200
Marzo,10200


In [72]:
neto(df, ["Abril", "Mayo", "Junio"]) #Balance período abr-jun

Unnamed: 0,Neto
Abril,13200
Mayo,5830
Junio,7540


In [73]:
neto(df, ["Enero", "Febrero", "Marzo","Abril", "Mayo", "Junio"]) #Balance período completo

Unnamed: 0,Neto
Enero,8500
Febrero,12200
Marzo,10200
Abril,13200
Mayo,5830
Junio,7540


In [74]:
#usando slices (.loc) y retornando 3 dataframes
ventas_gastos = np.array([[30500, 22000], 
                           [35600, 23400],
                           [28300, 18100],
                          [33900, 20700],
                          [31450, 25620],
                          [33040, 25500]])

def balances(arreglo):
    df_ventas_gastos=pd.DataFrame(ventas_gastos,
                        index = ['Enero','Febrero', 'Marzo','Abril','Mayo','Junio'],
                        columns = ["Ventas", "Gastos"])
    df_ventas_gastos["Balance"] = df_ventas_gastos["Ventas"] - df_ventas_gastos["Gastos"]
    v1 = df_ventas_gastos.loc["Enero":"Marzo", 'Balance'] 
    v2 = df_ventas_gastos.loc["Abril":"Junio", 'Balance']
    v3 = df_ventas_gastos.loc[:, 'Balance']
    return v1 , v2,  v3

res1, res2, res3 = balances(ventas_gastos)

In [75]:
pd.DataFrame(res1)

Unnamed: 0,Balance
Enero,8500
Febrero,12200
Marzo,10200


In [76]:
pd.DataFrame(res2)

Unnamed: 0,Balance
Abril,13200
Mayo,5830
Junio,7540


In [80]:
pd.DataFrame(res3)

Unnamed: 0,Balance
Enero,8500
Febrero,12200
Marzo,10200
Abril,13200
Mayo,5830
Junio,7540


<font color='green'>Fin Actividad 1</font>