# Manejo de *Series* y *DataFrames*

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import math
import statistics
import scipy.stats as stats
import seaborn as sns

Las Series y los DataFrames, del módulo *Pandas* dos tipo de objetos (*class*) muy útiles para la presentación y manejo de los datos. Junto con *Numpy*, son de las bibliotecas más usadas para el análisis inicial, exploratorio, de los datos.

# Bases: listas, tuplas y *arrays*. *Numpy*

Dos estructuras elementales de Python base son las tuplas y las listas. Estos objetos se utilizan para almacenar distintos tipo de datos, incluso dentro de una misma tupla o lista. Son elementos iterables, lo cual quiere decir que se pueden hacer operaciones sobre cada elemento.

In [None]:
tupla1 = (1, 2, 3, 4, 'Hola', True, 9.63)
for x in tupla1:
    print(x)

1
2
3
4
Hola
True
9.63


In [None]:
lista1 = [1, 2, 3, 4, 'Hola', True, 9.63]
print(lista1)

[1, 2, 3, 4, 'Hola', True, 9.63]


En ambos casos, incluimos enteros, cadenas de caracteres, booleanos (*True*) y números de punto flotante. Lo que diferencia a estas estructuras es que los datos de las tuplas no pueden ser modificados, mientras que los de las listas, sí.

Las listas son en ese sentido más flexibles, por lo que nos concentraremos en ellas. Pero muchas de las cosas que digamos de ellas son características compartidas con las tuplas.

### Listas

Las listas pueden concatenarse

In [None]:
lista1 = [1, 2, 3, 4]
lista2 = [5, 6, 7, 8]
lista3 = lista1 + lista2
print(lista1)
print(lista2)
print(lista3)


[1, 2, 3, 4]
[5, 6, 7, 8]
[1, 2, 3, 4, 5, 6, 7, 8]


El operador suma no define una operación matemática en este caso, sino la unión de dos listas en una. Ténganlo presente a esto, para comparar qué pasa con los *arrays*.

Se puede acceder a los elementos de una lista a partir de su posición. Todos los conteos en Python comienzan desde el cero.

In [None]:
print(lista2[3]) # Se imprime el cuarto elemento
print(lista1[0]) # Se imprime el primer elemento

8
1


Se puede arrancar al revés, por ejemplo, si uno no sabe qué lugar ocupa el último elemento.

In [None]:
lista3[-1] # Se imprime el último elemento

8

Por último, mencionamos las denominadas *list comprehensions*, que son formas de crear listas a partir de otras estructuras (por ejemplo, otra lista) usando **bucles** de forma más eficiente.

Por ejemplo, si quisiéramos armar una nueva lista a partir de los valores de la lista 3, podríamos hacer un bucle *for* tradicional.

In [None]:
lista4 = []
for x in lista3:
    a = x*15698
    lista4.append(a) # Método para adicional elementos a una lista.
lista4

[15698, 31396, 47094, 62792, 78490, 94188, 109886, 125584]

Comparemos con la siguiente línea de código

In [None]:
lista5 = [x*15698 for x in lista3]
lista5

[15698, 31396, 47094, 62792, 78490, 94188, 109886, 125584]

## *Arrays*

Los arrays son también iterables, pero presentan ciertas diferencias con una lista. Una de ellas es que no acepta elementos de distinto tipos: si arracamos con cadenas de caracteres, todos los datos han de ser cadenas de caracteres. O bien, *Numpy* convierte los datos para que todos sean del mismo tipo. Si no puede hacerlo, devuelve un error

In [None]:
array1 = np.array([1, 'Hola']) # Integer y string. Convierte todo a string
array1

array(['1', 'Hola'], dtype='<U11')

In [None]:
array1 = np.array([1, 63.6]) # Iinteger y float. Convierte todo a float.
array1

array([ 1. , 63.6])

In [None]:
array1 = np.array([63+8, 3456.0, 'Hola', True]) # Distintos tipos. Convierte todos a string.
array1

array(['71', '3456.0', 'Hola', 'True'], dtype='<U32')

In [None]:
data = [1, 2, "tres", 4]
# array = np.array(data, dtype=int)  # Intento de conversión explícita con dtype: queremos que convierta a número entero
# ValueError: invalid literal for int() with base 10: 'tres'

También se puede acceder a ellos por la posición.

In [None]:
print(array1[0])
print(array1[-1])

71
True


Lo distintivo de los arrays es que permiten la propiedad distributiva y las operaciones vectoriales, en las cuales el elemento de una posición opera con el elemento de otro objeto en la misma posición.

#### Distributiva

In [None]:
array1 = np.array([1, 2, 3, 4, 5, 6])
array2 = 2 * array1
array2

array([ 2,  4,  6,  8, 10, 12])

### Operación vectorial

In [None]:
array3 = array1 + array2
array3

array([ 3,  6,  9, 12, 15, 18])

## *Series*

Las series son una *class* de Pandas que sirven para almacenar datos. Tienen una serie de métodos muy útiles y una forma distinta de índices.

In [None]:
serie1 = pd.Series([3, 4, 5, 6, 7, 'asdf'])
serie1

0       3
1       4
2       5
3       6
4       7
5    asdf
dtype: object

In [None]:
serie1[0] + 1

4

La columna de la izquierda es la que contiene los **índices** de la serie. La columna de la derecha son los **valores** de la serie. Como se puede ver, admite distintos tipos de datos y no los convierte (de otra forma, el código de la anterior celda debería haber arrojado un error).

Las series tienen un método interesante para calcular estadísticos descriptivos, llamado *dsecribe()*

In [None]:
serie1 = pd.Series([3, 4, 5, 6, 7])
serie1.describe()

count    5.000000
mean     5.000000
std      1.581139
min      3.000000
25%      4.000000
50%      5.000000
75%      6.000000
max      7.000000
dtype: float64

A su vez, el objeto devuelto por *describe()* es una serie, por lo cual podemos usar los mismos métodos que para cualquier otra serie.

In [None]:
# Tomar un valor específico de la serie. Acá las letras son índices o nombres de fila
serie1.describe()['std']

1.5811388300841898

El método *sort_index()* ordena la serie por el índice. El índice se ordena alfabéticamente en este caso. Configurando el argumento *ascending*, el orden es inverso.

In [None]:
serie1.describe().sort_index() # Ordenar por el índice

25%      4.000000
50%      5.000000
75%      6.000000
count    5.000000
max      7.000000
mean     5.000000
min      3.000000
std      1.581139
dtype: float64

El método *sort_values()* ordena la serie por los valores. Configurando el argumento *ascending*, el orden es inverso. Los valores deben poder ser ordenables, por lo que un *string* y un *float* no son compatibles y el código lanza un error.

In [None]:
serie1.describe().sort_values() # Ordenar por los valores

std      1.581139
min      3.000000
25%      4.000000
count    5.000000
mean     5.000000
50%      5.000000
75%      6.000000
max      7.000000
dtype: float64

In [None]:
serie1 = pd.Series([4654, 2, 3, 4, 5.0])
serie1.sort_values()

1       2.0
2       3.0
3       4.0
4       5.0
0    4654.0
dtype: float64

Si quisiera reordenar por valores pero que los índices no se mantengan unidos al valor, sino que se queden en su posición, usamos *reset_index()*. Este método convierte la serie en un *DataFrame* con los índices originales como una columna. Esto implica la generación de nuevos índices, a la izquierda de dicha columna. No funciona para las series de *describe()*.

In [None]:
serie1 = pd.Series([4654, 2, 3, 4, 5.0])
serie1.sort_values().reset_index()

Unnamed: 0,index,0
0,1,2.0
1,2,3.0
2,3,4.0
3,4,5.0
4,0,4654.0


In [None]:
serie1 = pd.Series([4654, 2, 3, 4, 5.0])
serie1.describe().sort_values()

min         2.000000
25%         3.000000
50%         4.000000
count       5.000000
75%         5.000000
mean      933.600000
std      2079.767126
max      4654.000000
dtype: float64

In [None]:
serie1 = pd.Series([4654, 2, 3, 4, 5.0])
serie1.describe().sort_values().reset_index()

Unnamed: 0,index,0
0,min,2.0
1,25%,3.0
2,50%,4.0
3,count,5.0
4,75%,5.0
5,mean,933.6
6,std,2079.767126
7,max,4654.0


### Iteración

In [None]:
# Crear una Serie de ejemplo
serie1 = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])


In [None]:
# Iterar sobre la Serie
a= serie1.items()
print(a)


<zip object at 0x00000244F8A6E7C0>


El objeto que devuelve *items* no puede mostrarse por sí. Debe ser convertido a lista o tupla.

In [None]:
print(list(a))

[('a', 10), ('b', 20), ('c', 30), ('d', 40)]


In [None]:
# Iteración
for indice, valor in serie1.items():
    print(f"Iterando - Índice: {indice}, Valor: {valor}")

Iterando - Índice: a, Valor: 10
Iterando - Índice: b, Valor: 20
Iterando - Índice: c, Valor: 30
Iterando - Índice: d, Valor: 40


### Agregar NaN

Los NaN son los valores nulos, *missing*, etc.

In [None]:
mi_lista = [1, 2, 3, 4]
mi_lista.append(np.nan)
print(mi_lista)


[1, 2, 3, 4, nan]


In [None]:
# Crear una Serie inicial
mi_serie = pd.Series([1, 2, 3, 4])

# Crear una nueva Serie con el valor NaN
nueva_serie = pd.Series([np.nan])

# Concatenar ambas Series
mi_serie = pd.concat([mi_serie, nueva_serie], ignore_index = True)

print(mi_serie)



0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64


El método *concat()* permite unir varias series (recuerde que lo que hacíamos para concatenar listas en *Pandas* y *Numpy* generaba operaciones vectoriales). Mediante el argumento *ignore_index* generamos un nuevo índice para la nueva serie.

In [None]:
# Crear una Serie inicial
mi_serie = pd.Series([1, 2, 3, 4])

# Crear una nueva Serie con el valor NaN
nueva_serie = pd.Series([pd.NA])

# Concatenar ambas Series
mi_serie = pd.concat([mi_serie, nueva_serie], ignore_index=True)

print(mi_serie)


0       1
1       2
2       3
3       4
4    <NA>
dtype: object


## *DataFrames*

Los *DataFrames* o **df** son básicamente tablas. Comparten la característica de indexación con las series. Cada columna podría ser pensada como una serie.

Los df se construyen a partir de **diccionarios**, en los que los nombres de las claves son los encabezados de las columnas y los valores son los datos del df.

In [None]:
# Crear un DataFrame de prueba
df = pd.DataFrame({
    "Nombre": ["Juan", "María", "Pedro", "Ana", "Luis"],
    "Edad": [25, 30, 35, 28, 40],
    "Ciudad": ["Madrid", "Barcelona", "Sevilla", "Valencia", "Bilbao"],
    "Puntaje": [85.5, 90.0, 88.0, 92.5, 79.0],
})
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje
0,Juan,25,Madrid,85.5
1,María,30,Barcelona,90.0
2,Pedro,35,Sevilla,88.0
3,Ana,28,Valencia,92.5
4,Luis,40,Bilbao,79.0


Para df muy extensos, se puede usar el método *head()*

In [None]:
df.head(3) # Se muestran las primeras 3 filas

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje
0,Juan,25,Madrid,85.5
1,María,30,Barcelona,90.0
2,Pedro,35,Sevilla,88.0


Se pueden mostrar las columnas que nos interesan solamente.

In [None]:
df['Ciudad']

0       Madrid
1    Barcelona
2      Sevilla
3     Valencia
4       Bilbao
Name: Ciudad, dtype: object

In [None]:
df[["Nombre", "Edad"]]

Unnamed: 0,Nombre,Edad
0,Juan,25
1,María,30
2,Pedro,35
3,Ana,28
4,Luis,40


También se pueden hacer operaciones distributivas y vectoriales.

In [None]:
df['Edad'] * 25

0     625
1     750
2     875
3     700
4    1000
Name: Edad, dtype: int64

In [None]:
df['Edad'] + df['Puntaje']

0    110.5
1    120.0
2    123.0
3    120.5
4    119.0
dtype: float64

In [None]:
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje
0,Juan,25,Madrid,85.5
1,María,30,Barcelona,90.0
2,Pedro,35,Sevilla,88.0
3,Ana,28,Valencia,92.5
4,Luis,40,Bilbao,79.0


### Guardar nuevas variables

In [None]:
df['Religión'] = ['Cristiano', 'Cristiano', 'Musulmán', 'Judío', 'Ateo']
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje,Religión
0,Juan,25,Madrid,85.5,Cristiano
1,María,30,Barcelona,90.0,Cristiano
2,Pedro,35,Sevilla,88.0,Musulmán
3,Ana,28,Valencia,92.5,Judío
4,Luis,40,Bilbao,79.0,Ateo


### Sobreescribir una variable

Es necesario que coincidan exactemente las claves. De otro modo, se genera una nueva columna.

In [None]:
df['Edad'] = [465456, 4684, 316, 5698, 64]
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje,Religión
0,Juan,465456,Madrid,85.5,Cristiano
1,María,4684,Barcelona,90.0,Cristiano
2,Pedro,316,Sevilla,88.0,Musulmán
3,Ana,5698,Valencia,92.5,Judío
4,Luis,64,Bilbao,79.0,Ateo


¿Qué estructuras soportan las columnas de un df?

- Listas

- Tuplas

- Valores de diccionarios

- Valores de *Series* (es lo más razonable. Aunque también admitiría los índices).

- Arrays.

In [None]:
df['Tupla'] = (1, 2, 3, 4, 5)
df['Series'] = pd.Series([1, 2, 3, 4, 5])
df['Series - Índice'] = pd.Series([1, 2, 3, 4, 5]).index
df['Array'] = np.array([1, 2, 3, 4, np.NaN])
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje,Religión,Tupla,Series,Series - Índice,Array
0,Juan,465456,Madrid,85.5,Cristiano,1,1,0,1.0
1,María,4684,Barcelona,90.0,Cristiano,2,2,1,2.0
2,Pedro,316,Sevilla,88.0,Musulmán,3,3,2,3.0
3,Ana,5698,Valencia,92.5,Judío,4,4,3,4.0
4,Luis,64,Bilbao,79.0,Ateo,5,5,4,


In [None]:
df['Puntaje'].describe()

count     5.000000
mean     87.000000
std       5.159942
min      79.000000
25%      85.500000
50%      88.000000
75%      90.000000
max      92.500000
Name: Puntaje, dtype: float64

### Eliminar una columna

Una de las alternativas posibles es ir a donde está el código original y sacar la columna que queremos. Pero esto no siempre es posible. Por ejemplo, si se agregó después de la creación del df, porque el df ya almacenó dicha variable.

Esto también implica que los cambios de nombre de las columnas deben ser manejados con cuidado. Lo que sucede es que se genera una nueva columna con otro nombre pero queda guardada la columna anterior. Por ejemplo, supongamos que queremos dejar de llamar "Edad" a una variable, y queremos llamarla "Años".

In [None]:
df['Años'] =  df['Edad']
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje,Religión,Tupla,Series,Series - Índice,Array,Años
0,Juan,465456,Madrid,85.5,Cristiano,1,1,0,1.0,465456
1,María,4684,Barcelona,90.0,Cristiano,2,2,1,2.0,4684
2,Pedro,316,Sevilla,88.0,Musulmán,3,3,2,3.0,316
3,Ana,5698,Valencia,92.5,Judío,4,4,3,4.0,5698
4,Luis,64,Bilbao,79.0,Ateo,5,5,4,,64


Una posibilidad es usar el comando *del*. Lógicamente, la acción es irreversible. Si se vuelve a ejecutar el código una vez eliminada la columna, como esta ya no existe, arroja una error.

In [None]:
del df["Años"]

In [None]:
df

Unnamed: 0,Nombre,Edad,Ciudad,Puntaje,Religión,Tupla,Series,Series - Índice,Array
0,Juan,465456,Madrid,85.5,Cristiano,1,1,0,1.0
1,María,4684,Barcelona,90.0,Cristiano,2,2,1,2.0
2,Pedro,316,Sevilla,88.0,Musulmán,3,3,2,3.0
3,Ana,5698,Valencia,92.5,Judío,4,4,3,4.0
4,Luis,64,Bilbao,79.0,Ateo,5,5,4,


Otra forma de eliminar tanto filas como columnas es el método drop(), cuya documentación dejamos a continuación: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html

### Group by

Primero, aprendamos a importar datos

In [None]:
df = pd.read_csv("a-que-se-destina-el-gasto.csv") # importamos datos
df['Ejercicio'] = df['Ejercicio'].str.replace(',', '').astype(int)
df['Ejecutado'] = df['Ejecutado'].str.replace(',', '').astype(float)
df['Presupuestado'] = df['Presupuestado'].str.replace(',', '').astype(float)  # Reemplazamos el separador de miles para poder convertir el tipo de dato
df.head(10)

Unnamed: 0,Ejercicio,Finalidad,Funcion,Presupuestado,Ejecutado,% Ejecutado
0,2023,ADMINISTRACION GUBERNAMENTAL,Información y Estadística Básicas,16577.1,15109.06,91.14
1,2023,ADMINISTRACION GUBERNAMENTAL,Administración Fiscal,26186.41,23390.44,89.32
2,2023,ADMINISTRACION GUBERNAMENTAL,Control de la Gestión Pública,29874.03,29516.41,98.8
3,2023,SERVICIOS ECONOMICOS,Seguros y Finanzas,41512.95,41228.58,99.31
4,2023,SERVICIOS DE DEFENSA Y SEGURIDAD,Inteligencia,66480.81,64453.86,96.95
5,2023,SERVICIOS ECONOMICOS,"Comercio, Turismo y Otros Servicios",101675.23,81244.3,79.91
6,2023,SERVICIOS SOCIALES,Trabajo,123897.4,117657.44,94.96
7,2023,SERVICIOS ECONOMICOS,Ecología y Desarrollo Sostenible,126587.4,119254.75,94.21
8,2023,SERVICIOS DE DEFENSA Y SEGURIDAD,Sistema Penal,152013.86,147412.03,96.97
9,2023,ADMINISTRACION GUBERNAMENTAL,Legislativa,167872.14,166555.77,99.22


Ahora vamos a agrupar una variable, "Ejecutado", con *groupby*

In [None]:
grouped_data = df.groupby('Finalidad')['Ejecutado'].sum()
grouped_data # Se genera un nuevo DataFrame.

Finalidad
ADMINISTRACION GUBERNAMENTAL         2349060.47
DEUDA PUBLICA                        3472800.84
SERVICIOS DE DEFENSA Y SEGURIDAD     1710841.61
SERVICIOS ECONOMICOS                 5647579.07
SERVICIOS SOCIALES                  24845207.08
Name: Ejecutado, dtype: float64

Podemos resetear el índice para que nos quede un df como lo conocemos.

In [None]:
grouped_data = df.groupby('Finalidad')['Ejecutado'].sum().reset_index()
grouped_data

Unnamed: 0,Finalidad,Ejecutado
0,ADMINISTRACION GUBERNAMENTAL,2349060.47
1,DEUDA PUBLICA,3472800.84
2,SERVICIOS DE DEFENSA Y SEGURIDAD,1710841.61
3,SERVICIOS ECONOMICOS,5647579.07
4,SERVICIOS SOCIALES,24845207.08


Podemos realizar distintas operaciones, no solo sumatorias.

In [None]:
grouped_data2 = df.groupby('Finalidad')['Ejecutado'].count().reset_index() # Cuenta cuantas filas pertenecen a cada categoría
grouped_data2

Unnamed: 0,Finalidad,Ejecutado
0,ADMINISTRACION GUBERNAMENTAL,8
1,DEUDA PUBLICA,1
2,SERVICIOS DE DEFENSA Y SEGURIDAD,4
3,SERVICIOS ECONOMICOS,8
4,SERVICIOS SOCIALES,8


Podemos usar múltiples criterios de agrupación

In [None]:
grouped_data2 = df.groupby(['Finalidad', 'Funcion'])['Ejecutado'].sum()
grouped_data2

Finalidad                         Funcion                            
ADMINISTRACION GUBERNAMENTAL      Administración Fiscal                     23390.44
                                  Control de la Gestión Pública             29516.41
                                  Dirección Superior Ejecutiva             179799.31
                                  Información y Estadística Básicas         15109.06
                                  Judicial                                 755451.51
                                  Legislativa                              166555.77
                                  Relaciones Exteriores                    231757.64
                                  Relaciones Interiores                    947480.33
DEUDA PUBLICA                     Servicio de la Deuda Pública            3472800.84
SERVICIOS DE DEFENSA Y SEGURIDAD  Defensa                                  636075.97
                                  Inteligencia                              6445

Acá hay dos opciones, o bien se usa *reset_index()* y se vuelve a un df de una sola "dimesión", o bien se usa el método *to_frame()* para darle el aspecto usual y mantener el doble agrupamiento.

In [None]:
grouped_data2 = df.groupby(['Finalidad', 'Funcion'])['Ejecutado'].sum()
grouped_data2 = grouped_data2.to_frame()
grouped_data2

Unnamed: 0_level_0,Unnamed: 1_level_0,Ejecutado
Finalidad,Funcion,Unnamed: 2_level_1
ADMINISTRACION GUBERNAMENTAL,Administración Fiscal,23390.44
ADMINISTRACION GUBERNAMENTAL,Control de la Gestión Pública,29516.41
ADMINISTRACION GUBERNAMENTAL,Dirección Superior Ejecutiva,179799.31
ADMINISTRACION GUBERNAMENTAL,Información y Estadística Básicas,15109.06
ADMINISTRACION GUBERNAMENTAL,Judicial,755451.51
ADMINISTRACION GUBERNAMENTAL,Legislativa,166555.77
ADMINISTRACION GUBERNAMENTAL,Relaciones Exteriores,231757.64
ADMINISTRACION GUBERNAMENTAL,Relaciones Interiores,947480.33
DEUDA PUBLICA,Servicio de la Deuda Pública,3472800.84
SERVICIOS DE DEFENSA Y SEGURIDAD,Defensa,636075.97


In [None]:
grouped_data2 = df.groupby(['Finalidad', 'Funcion'])['Ejecutado'].sum().reset_index()
grouped_data2

Unnamed: 0,Finalidad,Funcion,Ejecutado
0,ADMINISTRACION GUBERNAMENTAL,Administración Fiscal,23390.44
1,ADMINISTRACION GUBERNAMENTAL,Control de la Gestión Pública,29516.41
2,ADMINISTRACION GUBERNAMENTAL,Dirección Superior Ejecutiva,179799.31
3,ADMINISTRACION GUBERNAMENTAL,Información y Estadística Básicas,15109.06
4,ADMINISTRACION GUBERNAMENTAL,Judicial,755451.51
5,ADMINISTRACION GUBERNAMENTAL,Legislativa,166555.77
6,ADMINISTRACION GUBERNAMENTAL,Relaciones Exteriores,231757.64
7,ADMINISTRACION GUBERNAMENTAL,Relaciones Interiores,947480.33
8,DEUDA PUBLICA,Servicio de la Deuda Pública,3472800.84
9,SERVICIOS DE DEFENSA Y SEGURIDAD,Defensa,636075.97


Como se ve, lo que se hace con la agrupación y el reseteo es reordenar las categorías para que aparezcan juntas. Esto nos lleva a otra función posible, la de ordenación. Como en las series, se puede ordenar por índice o por valores, de forma ascendente o descendente.

Si observan el df original, está ordenado de menor a mayor en base a la columna "Ejecutado". Vamos a ordenarla en base a la columna "% Ejecutado" y luego en base al índice.

In [None]:
df.sort_values(['% Ejecutado']).head(9)

Unnamed: 0,Ejercicio,Finalidad,Funcion,Presupuestado,Ejecutado,% Ejecutado
10,2023,SERVICIOS ECONOMICOS,Industria,173003.03,121036.3,69.96
15,2023,SERVICIOS SOCIALES,Vivienda y Urbanismo,440841.69,335090.8,76.01
27,2023,DEUDA PUBLICA,Servicio de la Deuda Pública,4492722.0,3472800.84,77.3
13,2023,ADMINISTRACION GUBERNAMENTAL,Dirección Superior Ejecutiva,225460.49,179799.31,79.75
5,2023,SERVICIOS ECONOMICOS,"Comercio, Turismo y Otros Servicios",101675.23,81244.3,79.91
12,2023,SERVICIOS ECONOMICOS,"Agricultura, Ganadería y Pesca",221207.91,194791.2,88.06
16,2023,SERVICIOS SOCIALES,Agua Potable y Alcantarillado,475506.5,423228.44,89.01
1,2023,ADMINISTRACION GUBERNAMENTAL,Administración Fiscal,26186.41,23390.44,89.32
0,2023,ADMINISTRACION GUBERNAMENTAL,Información y Estadística Básicas,16577.1,15109.06,91.14


Una aclaración importante: si la instrucción en el código no está guardada en una "variable" (usando el argot de Python), todas las modificaciones que hagamos no impactan en el df "original". A su vez, nada de lo que hagamos en el df "original", es decir, el primero que creamos al **importar** los datos, impacta en el archivo desde el cual los importamos.

In [None]:
df.head(5)

Unnamed: 0,Ejercicio,Finalidad,Funcion,Presupuestado,Ejecutado,% Ejecutado
0,2023,ADMINISTRACION GUBERNAMENTAL,Información y Estadística Básicas,16577.1,15109.06,91.14
1,2023,ADMINISTRACION GUBERNAMENTAL,Administración Fiscal,26186.41,23390.44,89.32
2,2023,ADMINISTRACION GUBERNAMENTAL,Control de la Gestión Pública,29874.03,29516.41,98.8
3,2023,SERVICIOS ECONOMICOS,Seguros y Finanzas,41512.95,41228.58,99.31
4,2023,SERVICIOS DE DEFENSA Y SEGURIDAD,Inteligencia,66480.81,64453.86,96.95


In [None]:
df.sort_index(ascending = False).head(5)

Unnamed: 0,Ejercicio,Finalidad,Funcion,Presupuestado,Ejecutado,% Ejecutado
28,2023,SERVICIOS SOCIALES,Seguridad Social,16964540.6,16792800.8,98.99
27,2023,DEUDA PUBLICA,Servicio de la Deuda Pública,4492722.0,3472800.84,77.3
26,2023,SERVICIOS ECONOMICOS,"Energía, Combustibles y Minería",3425057.11,3204959.06,93.57
25,2023,SERVICIOS SOCIALES,Educación y Cultura,2846909.22,2757049.65,96.84
24,2023,SERVICIOS SOCIALES,Promoción y Asistencia Social,2569894.03,2477261.14,96.4
