## 1.	Introducción
En el actual panorama de la ciencia de datos y el análisis de información, la capacidad de manipular y comprender los datos de manera eficiente es esencial para la toma de decisiones informadas. En este contexto, las bibliotecas de Python como NumPy y Pandas han emergido como herramientas fundamentales para llevar a cabo tareas de análisis de datos de manera efectiva.
NumPy es la biblioteca fundamental para la computación científica en Python la cual nos brinda las herramientas necesarias para trabajar con estructuras de datos multidimensionales, en particular, los arrays y matrices. A través de sus funciones universales, es posible realizar operaciones matemáticas y estadísticas en estos arrays, permitiéndonos obtener información valiosa de los datos de manera rápida y eficiente
Pandas se erige como una herramienta indispensable para el análisis de datos más avanzado. Esta biblioteca introduce dos estructuras esenciales: las Series y los DataFrames. Las Series, similares a arrays unidimensionales, pero con etiquetas, nos permiten trabajar con datos de manera más organizada y etiquetada. Por otro lado, los DataFrames, estructuras bidimensionales similares a tablas de bases de datos, nos ofrecen una forma flexible y potente de almacenar, manipular y analizar datos.

### 1.1.	Objetivos
>- Desarrollar una base sólida en el uso de Numpy y Pandas.
>- Aplicación efectiva de funciones universales y estadísticas en Numpy.
>- Dominar las operaciones de filtrado y manipulación en Pandas.
>- Optimización y eficiencia en el manejo de datos
>- Aplicar funciones estadísticas en pandas. 


## 2.	Numpy
>NumPy (Numerical Python) es una biblioteca de programación en Python que proporciona soporte para realizar cálculos numéricos y operaciones matemáticas eficientes en matrices y arrays multidimensionales. Esta biblioteca es esencial en el ámbito del análisis de datos, la ciencia de datos y la computación científica debido a su capacidad para manejar grandes conjuntos de datos de manera rápida y eficiente. La característica principal de NumPy es su objeto fundamental, el "array", que es una estructura de datos multidimensional que permite almacenar elementos del mismo tipo. Estos arrays ofrecen ventajas significativas en términos de rendimiento y eficiencia en comparación con las listas de Python tradicionales, ya que están implementados en C y permiten la realización de operaciones vectorizadas y matriciales.<br><br>
>En resumen, NumPy proporciona:
>- **Arrays Multidimensionales:** NumPy introduce el concepto de arrays multidimensionales, que son colecciones homogéneas de datos. Estos arrays pueden tener una, dos o más dimensiones, lo que los hace ideales para representar datos como matrices, imágenes y tensores.
>- **Funciones Matemáticas Optimizadas:** NumPy proporciona una amplia gama de funciones matemáticas y operaciones que están optimizadas para trabajar con arrays. Estas funciones permiten realizar cálculos complejos de manera más rápida que utilizando bucles de Python estándar.
>- **Broadcasting:** NumPy permite realizar operaciones entre arrays de diferentes tamaños y formas mediante el broadcasting, lo que facilita la realización de cálculos en datos que no tienen la misma estructura.
>- **Integración con otras Bibliotecas:** NumPy es la base de muchas otras bibliotecas científicas en Python, como SciPy, pandas y scikit-learn. Esto significa que aprender NumPy es esencial para trabajar de manera efectiva con otras herramientas de análisis y visualización de datos.




### 2.1.	Instalación y Configuración

**A.	Instalación NumPy**
>Para instalar NumPy en tu entorno de desarrollo, tienes dos opciones principales: utilizar el gestor de paquetes pip o conda

<center>

|entorno|comando|obs|
|--|---|---|
|pip|pip install numpy||
|conda|conda install numpy|si estás utilizando el entorno de Anaconda|

In [43]:
!pip install numpy



**B.	Comprobación de la instalación y versión**
>Después de la instalación, es importante verificar que NumPy se haya instalado correctamente y conocer la versión que estás utilizando.
>- Abre una terminal o consola de comandos.
>- Inicia el intérprete de Python o IDE.
>- Importa NumPy y verifica su versión:


In [44]:
import numpy as np
print("Versión de NumPy:", np.__version__)


Versión de NumPy: 1.23.5


**C.	Conceptos básicos de arrays en NumPy**
* **Creación de arrays unidimensionales y multidimensionales:** En NumPy, los arrays son la piedra angular. Pueden ser unidimensionales (vectores) o multidimensionales (matrices). Para crear arrays, utilizamos la función numpy.array()


In [45]:
import numpy as np

# Crear un array unidimensional (vector)
vector = np.array([1, 2, 3, 4, 5])

# Crear un array bidimensional (matriz)
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

print('matriz \n', matriz)

print('vector \n', vector)


matriz 
 [[1 2 3]
 [4 5 6]
 [7 8 9]]
vector 
 [1 2 3 4 5]


* **Acceso a elementos y rebanado (slicing) en arrays:** Los elementos en un array NumPy se indexan desde 0. Para acceder a un elemento específico, se utiliza el índice correspondiente.

In [46]:
print(vector[0])  # Acceder al primer elemento del vector (índice 0)
print(matriz[1, 1])  # Acceder al elemento en la fila 1 y columna 1 de la matriz


1
5


* **Propiedades de los arrays: forma, tamaño, tipo de datos:** Los arrays tienen propiedades que proporcionan información útil sobre ellos.

In [47]:
print('Forma del vector: ', vector.shape)
print('Forma de la matriz (filas, columnas): ', matriz.shape)
print('Tamaño total del vector: ', vector.size)
print('Tamaño total de la matriz: ', matriz.size)
print('Tipo de datos en el vector: ', vector.dtype)
print('Tipo de datos en la matriz: ', matriz.dtype)


Forma del vector:  (5,)
Forma de la matriz (filas, columnas):  (3, 3)
Tamaño total del vector:  5
Tamaño total de la matriz:  9
Tipo de datos en el vector:  int32
Tipo de datos en la matriz:  int32


### 2.2.	Operaciones básicas con NumPy

**A.	Operaciones aritméticas y broadcasting**
* **Realización de operaciones elementales con arrays:** NumPy permite realizar operaciones aritméticas de manera eficiente en arrays completos sin la necesidad de bucles explícitos.


In [48]:
import numpy as np

a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Suma de arrays
suma = a + b
print('suma: ',suma)

# Resta de arrays
resta = a - b
print('resta: ',resta)

# Multiplicación de arrays
producto = a * b
print('producto: ',producto)

# División de arrays
division = a / b
print('division: ',division)

suma:  [5 7 9]
resta:  [-3 -3 -3]
producto:  [ 4 10 18]
division:  [0.25 0.4  0.5 ]


* **Broadcasting:** cómo NumPy trata operaciones con arrays de diferentes dimensiones, Broadcasting es una característica poderosa que permite realizar operaciones entre arrays de diferentes formas y dimensiones sin necesidad de que tengan las mismas dimensiones exactas.

In [49]:
matrix = np.array([[1, 2, 3], [4, 5, 6]])

# Sumar una constante a cada fila de la matriz
resultado = matrix + [10, 20, 30]
print('Sumar: \n',resultado)

# Multiplicar cada columna por un factor
resultado = matrix * [[1], [2]]
print('Multiplicar: \n',resultado)

Sumar: 
 [[11 22 33]
 [14 25 36]]
Multiplicar: 
 [[ 1  2  3]
 [ 8 10 12]]


**B.	Funciones Universales**
>Las funciones universales (ufuncs) en NumPy son funciones que operan elemento por elemento en los arrays NumPy, permitiendo realizar operaciones matemáticas y lógicas de manera eficiente. Estas funciones son esenciales para realizar cálculos numéricos en Python de manera vectorizada, lo que mejora significativamente la velocidad y eficiencia de las operaciones en comparación con los bucles tradicionales.


**np.add():** Suma dos arrays elemento por elemento.

In [50]:
import numpy as np
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])
result = np.add(arr1, arr2)  # [5, 7, 9]
result

array([5, 7, 9])

**np.subtract():** Resta dos arrays elemento por elemento.

In [51]:
arr1 = np.array([10, 20, 30])
arr2 = np.array([5, 10, 15])
result = np.subtract(arr1, arr2)  # [5, 10, 15]
result

array([ 5, 10, 15])

**np.multiply():** Multiplica dos arrays elemento por elemento.

In [52]:
arr1 = np.array([2, 3, 4])
arr2 = np.array([5, 6, 7])
result = np.multiply(arr1, arr2)  # [10, 18, 28]
result

array([10, 18, 28])

**np.divide():** Divide dos arrays elemento por elemento.

In [53]:
arr1 = np.array([10, 20, 30])
arr2 = np.array([2, 4, 6])
result = np.divide(arr1, arr2)  # [5.0, 5.0, 5.0]
result

array([5., 5., 5.])

**np.exp():** Calcula la exponencial de cada elemento en un array.

In [54]:
arr = np.array([1, 2, 3])
result = np.exp(arr)  # [2.71828183, 7.3890561, 20.08553692]
result

array([ 2.71828183,  7.3890561 , 20.08553692])

**np.log():** Calcula el logaritmo natural de cada elemento en un array.

In [55]:
arr = np.array([1, 10, 100])
result = np.log(arr)  # [0.0, 2.30258509, 4.60517019]
result

array([0.        , 2.30258509, 4.60517019])

**np.sin():** Calcula el seno de cada elemento en un array.

In [56]:
arr = np.array([0, np.pi/2, np.pi])
result = np.sin(arr)  # [0.0, 1.0, 1.2246468e-16]
result

array([0.0000000e+00, 1.0000000e+00, 1.2246468e-16])

**np.cos():** Calcula el coseno de cada elemento en un array.

In [57]:
arr = np.array([0, np.pi/2, np.pi])
result = np.cos(arr)  # [1.0, 6.123233995736766e-17, -1.0]
result

array([ 1.000000e+00,  6.123234e-17, -1.000000e+00])

**np.sqrt():** Calcula la raíz cuadrada de cada elemento en un array.

In [58]:
arr = np.array([4, 9, 16])
result = np.sqrt(arr)  # [2.0, 3.0, 4.0]
result

array([2., 3., 4.])

**np.maximum():** Devuelve el elemento máximo entre dos arrays elemento por elemento.

In [59]:
arr1 = np.array([3, 8, 5])
arr2 = np.array([6, 2, 9])
result = np.maximum(arr1, arr2)  # [6, 8, 9]
result

array([6, 8, 9])

**np.minimum():** Devuelve el elemento mínimo entre dos arrays elemento por elemento.

In [60]:
arr1 = np.array([3, 8, 5])
arr2 = np.array([6, 2, 9])
result = np.minimum(arr1, arr2)  # [3, 2, 5]
result

array([3, 2, 5])

**np.power():** Calcula la potencia de cada elemento en un array.

In [61]:
arr = np.array([2, 3, 4])
result = np.power(arr, 3)  # [8, 27, 64]
result

array([ 8, 27, 64], dtype=int32)

### 2.3.	Indexado y selección avanzada
>Es posible realizar indexado y selección avanzada para acceder y manipular elementos de matrices de formas diversas. Esto te permite realizar operaciones complejas y eficientes en conjuntos de datos multidimensionales.

* **Indexado básico:** El indexado en NumPy es similar al indexado en las listas de Python, pero con la posibilidad de trabajar con múltiples dimensiones. Puedes acceder a elementos individuales de una matriz utilizando índices.

In [62]:
import numpy as np

arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

# Accediendo a elementos individuales
print(arr[0, 1])  # Output: 2
print(arr[2, 0])  # Output: 7


2
7


* **Slicing (rebanado):** Puedes utilizar el slicing para extraer subconjuntos de una matriz. El slicing en NumPy funciona similar al de las listas de Python.

In [63]:
# Extrayendo una submatriz
sub_matrix = arr[1:3, 1:3]
print(sub_matrix)

[[5 6]
 [8 9]]


* **Indexado booleano:** El indexado booleano te permite seleccionar elementos de una matriz basados en una condición booleana.

In [64]:
bool_mask = arr > 5
print(bool_mask)
# Output: [[False False False]
#          [False False  True]
#          [ True  True  True]]

selected_values = arr[bool_mask]
print(selected_values)  # Output: [6 7 8 9]


[[False False False]
 [False False  True]
 [ True  True  True]]
[6 7 8 9]


* **Selección avanzada con índices:** Puedes usar matrices de índices para seleccionar elementos específicos de una matriz.

In [65]:
row_indices = np.array([0, 1, 2])
col_indices = np.array([1, 2, 0])
selected_elements = arr[row_indices, col_indices]
print(selected_elements)  # Output: [2 6 7]


[2 6 7]


* **Selección por condición lógica:** La función np.where() te permite seleccionar elementos basados en una condición lógica.

In [66]:
selected_indices = np.where(arr > 5)
print(selected_indices)  
# Output: (array([1, 2, 2, 2]), array([2, 0, 1, 2]))


(array([1, 2, 2, 2], dtype=int64), array([2, 0, 1, 2], dtype=int64))


* **Selección con el método np.take():** El método np.take() te permite seleccionar elementos de una matriz utilizando índices en forma de matriz.

In [67]:
indices = np.array([[0, 2],
                    [1, 2]])
selected_values = np.take(arr, indices)
print(selected_values)
# Output: [[1 3]
#          [5 6]]


[[1 3]
 [2 3]]


* **Indexación Fancy (Indexación Elegante):** La indexación elegante (fancy indexing) te permite seleccionar elementos de una matriz utilizando listas o matrices de índices. Esto te proporciona una forma poderosa de seleccionar elementos no contiguos o específicos de una matriz.

In [68]:
indices = [0, 2]
selected_rows = arr[indices]
print(selected_rows)  # Output: [[1 2 3]
                      #          [7 8 9]]


[[1 2 3]
 [7 8 9]]


* **Indexación avanzada con máscaras booleanas:** Además de utilizar máscaras booleanas para seleccionar elementos, también puedes modificar elementos basados en condiciones lógicas.

In [69]:
arr[arr > 5] = 0
print(arr)
# Output: [[1 2 3]
#          [4 5 0]
#          [0 0 0]]


[[1 2 3]
 [4 5 0]
 [0 0 0]]


* **Indexación con el método np.ix_:** El método np.ix_ te permite seleccionar subconjuntos de una matriz utilizando índices para diferentes dimensiones en forma más conveniente.

In [70]:
row_indices = np.array([0, 2])
col_indices = np.array([1, 2])
selected_submatrix = arr[np.ix_(row_indices, col_indices)]
print(selected_submatrix)
# Output: [[2 3]
#          [0 0]]


[[2 3]
 [0 0]]


* **Indexación con np.meshgrid():** La función np.meshgrid() se utiliza para generar matrices de coordenadas a partir de vectores unidimensionales. Esto es especialmente útil cuando necesitas evaluar una función en una malla de puntos. Puedes combinar las matrices generadas con np.meshgrid() para indexar elementos en una matriz multidimensional.

In [71]:
x = np.array([0, 1, 2])
y = np.array([10, 20, 30])
X, Y = np.meshgrid(x, y)

print(X)
# Output: [[0 1 2]
#          [0 1 2]
#          [0 1 2]]

print(Y)
# Output: [[10 10 10]
#          [20 20 20]
#          [30 30 30]]

# Indexando elementos utilizando las matrices X e Y
selected_elements = X + Y
print(selected_elements)
# Output: [[10 11 12]
#          [20 21 22]
#          [30 31 32]]


[[0 1 2]
 [0 1 2]
 [0 1 2]]
[[10 10 10]
 [20 20 20]
 [30 30 30]]
[[10 11 12]
 [20 21 22]
 [30 31 32]]


## 3.	Pandas
>Pandas es una biblioteca de Python ampliamente utilizada para el análisis y manipulación de datos. Proporciona estructuras de datos flexibles y eficientes, como Series y DataFrames, que permiten trabajar con datos de manera más conveniente. Pandas es esencial en el análisis de datos, ya que simplifica tareas como la carga de datos, la limpieza, la transformación y el análisis, lo que acelera el proceso de toma de decisiones informadas basadas en datos.<br><br>
Importancia:
>- Facilita la manipulación de datos: Pandas proporciona estructuras de datos que permiten almacenar y manipular datos de manera más intuitiva que las listas o arrays de NumPy. Esto simplifica tareas como filtrado, agrupación, transformación y agregación de datos.
>- Limpieza de datos: Pandas ofrece herramientas para detectar y manejar valores faltantes, duplicados y errores en los datos, lo que es crucial para obtener resultados confiables en el análisis.
>- Análisis exploratorio: Las funciones y métodos de Pandas permiten realizar análisis exploratorios de manera rápida, lo que ayuda a comprender la estructura y las características de los datos.
>- Integración con otras bibliotecas: Pandas se integra fácilmente con otras bibliotecas populares de Python para análisis de datos, como Matplotlib, Seaborn y Scikit-learn, lo que proporciona una suite completa de herramientas para análisis y visualización.
>- Manipulación de series de tiempo: Pandas está diseñado para trabajar de manera eficiente con series de tiempo, lo que lo convierte en una elección natural para análisis financieros y económicos.


### 3.1.	Instalación y Configuración

**A.	Instalación NumPy**
>Para instalar NumPy en tu entorno de desarrollo, tienes dos opciones principales: utilizar el gestor de paquetes pip o conda

<center>

|entorno|comando|obs|
|--|---|---|
|pip|pip install pandas||
|conda|conda install pandas|si estás utilizando el entorno de Anaconda|

In [72]:
!pip install pandas



**B.	Comprobación de la instalación y versión**
>Después de la instalación, es importante verificar que Pandas se haya instalado correctamente y conocer la versión que estás utilizando.
>- Abre una terminal o consola de comandos.
>- Inicia el intérprete de Python o IDE.
>- Importa Pandas y verifica su versión:


In [73]:
import pandas as pd
print("Versión de Pandas:", pd.__version__)


Versión de Pandas: 1.5.3


**C.	Estructuras de datos principales: Series y DataFrames**
<center>


![image.png](attachment:image.png)

* **Series**: Una Serie es una estructura de datos unidimensional que puede contener datos de diversos tipos, como números, cadenas y fechas. Se asemeja a una columna en una hoja de cálculo y tiene etiquetas de índice para cada elemento. Para crear una Serie:

In [74]:
serie = pd.Series([10, 20, 30, 40, 50])
type(serie)

pandas.core.series.Series

* **DataFrames:** Un DataFrame es una estructura de datos bidimensional, similar a una tabla en una base de datos o una hoja de cálculo. Está compuesto por una colección de Series y comparte un índice común. Para crear un DataFrame:

In [75]:
data = {'Nombre': ['Juan', 'María', 'Carlos'],
        'Edad': [25, 30, 28]}
df = pd.DataFrame(data)
type(df)

pandas.core.frame.DataFrame

* **Index:** El objeto Index se utiliza para etiquetar filas o columnas en un DataFrame o Serie. Puede contener etiquetas únicas y es inmutable. En un DataFrame, hay dos objetos Index: el índice de filas y el índice de columnas.

In [76]:
import pandas as pd

data = {'Nombre': ['Alice', 'Bob', 'Charlie'],
        'Edad': [25, 30, 22]}
df = pd.DataFrame(data)
index = df.index
index

RangeIndex(start=0, stop=3, step=1)

**D.	Selección de filas y columnas en DataFrames.**

* **Selección de Columnas:** Puedes acceder a una columna específica utilizando la notación de corchetes [] y el nombre de la columna como una clave. Esto devolverá una Serie que contiene los valores de la columna seleccionada.

In [77]:
import pandas as pd

data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}
df = pd.DataFrame(data)

column_A = df['A']  # Acceso a la columna 'A'
print(column_A)
# Output:
# 0    1
# 1    2
# 2    3
# Name: A, dtype: int64


0    1
1    2
2    3
Name: A, dtype: int64


* **Selección de Filas:** Puedes acceder a filas específicas utilizando la notación de corchetes [] y un rango de índices o una condición booleana. Esto devolverá un DataFrame que contiene las filas seleccionadas.

In [78]:
import pandas as pd

data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}
index_labels = ['row1', 'row2', 'row3']
df = pd.DataFrame(data, index=index_labels)

# Acceso a filas utilizando índices
subset_rows = df[1:3]  # Filas con índices 1 y 2 (excluye 3)
print(subset_rows)
# Output:
#        A  B
# row2  2  5
# row3  3  6



      A  B
row2  2  5
row3  3  6


**E.	índices**
>Un índice en Pandas es una estructura que etiqueta y proporciona acceso eficiente a las filas de un DataFrame o a los elementos de una Serie. Los índices son una parte esencial de las estructuras de datos en Pandas, ya que permiten un acceso rápido a los datos basado en estas etiquetas en lugar de depender de las posiciones numéricas.


**Tipos de índices en Pandas**
* **Index por defecto:** Cuando creas un DataFrame sin especificar un índice, Pandas asigna un índice por defecto que es simplemente una secuencia numérica que comienza desde 0.


In [79]:
import pandas as pd

data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}
df = pd.DataFrame(data)
print(df)
# Output:
#    A  B
# 0  1  4
# 1  2  5
# 2  3  6


   A  B
0  1  4
1  2  5
2  3  6


* **Index personalizado:** Puedes establecer tus propias etiquetas de índice al crear un DataFrame. Esto es útil cuando deseas etiquetar tus filas de manera más significativa, como usar fechas o nombres únicos.

In [80]:
import pandas as pd

data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}
index_labels = ['row1', 'row2', 'row3']
df = pd.DataFrame(data, index=index_labels)
print(df)
# Output:
#        A  B
# row1  1  4
# row2  2  5
# row3  3  6


      A  B
row1  1  4
row2  2  5
row3  3  6


* **MultiIndex :** El MultiIndex es una extensión del Index que permite tener múltiples niveles de etiquetas en un índice. Se utiliza para manejar datos con múltiples dimensiones y es especialmente útil para indexar y organizar datos jerárquicos.

In [81]:
import pandas as pd

data = {'Ventas': [100, 150, 200, 120, 180],
        'Gastos': [70, 100, 90, 80, 120]}
index = pd.MultiIndex.from_tuples([('Q1', 'Enero'), ('Q1', 'Febrero'), ('Q2', 'Marzo'), ('Q2', 'Abril'), ('Q2', 'Mayo')],
                                  names=['Trimestre', 'Mes'])
df = pd.DataFrame(data, index=index)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas,Gastos
Trimestre,Mes,Unnamed: 2_level_1,Unnamed: 3_level_1
Q1,Enero,100,70
Q1,Febrero,150,100
Q2,Marzo,200,90
Q2,Abril,120,80
Q2,Mayo,180,120


**Características clave de los índices:**
* **Etiquetas únicas:** Cada etiqueta de índice debe ser única, lo que garantiza una identificación única para cada fila o elemento.
* **Inmutabilidad:** Una vez que se crea un índice, generalmente no se puede modificar directamente. Esto garantiza la coherencia y la integridad de los datos.
* **Facilita la alineación de datos:** Los índices permiten la alineación automática de datos cuando se realizan operaciones entre DataFrames o Series diferentes. Esto es especialmente útil cuando se combinan o se realizan operaciones aritméticas.
* **Acceso eficiente:** Los índices proporcionan un acceso rápido a los datos utilizando las etiquetas en lugar de las posiciones numéricas.


**F.	Carga de datos desde diferentes fuentes**
>Puede cargar datos desde diferentes fuentes utilizando diversas funciones proporcionadas por Pandas. Aquí hay ejemplos de cómo cargar datos desde diferentes fuentes:


In [82]:
import pandas as pd

# Cargar datos desde un archivo CSV
data = pd.read_csv('sueldo_funcionarios_2019.csv')


In [83]:
# Asegúrate de tener la biblioteca `openpyxl` instalada: pip install openpyxl
import pandas as pd

# Cargar datos desde una hoja específica de un archivo Excel
data = pd.read_excel('sueldo_funcionarios_2019.xlsx', sheet_name='sueldo_funcionarios_2019')


In [84]:
import pandas as pd

# Cargar datos desde una URL
url = 'http://cdn.buenosaires.gob.ar/datosabiertos/datasets/sueldo-funcionarios/sueldo_funcionarios_2019.csv'
data = pd.read_csv(url)

### 3.2.	Manipulación de Datos con Pandas
>La manipulación de datos es una parte esencial del análisis de datos y la ciencia de datos en general. Pandas es una biblioteca de Python ampliamente utilizada para la manipulación y análisis de datos. Proporciona estructuras de datos flexibles y eficientes, como DataFrames y Series, que permiten trabajar con datos tabulares y de series temporales de manera eficiente.


**A.	Indexing**
>el "indexing" se refiere a la forma en que accedes y manipulas los datos almacenados en un DataFrame o una Serie. El "indexing" detallado en Pandas se puede dividir en dos categorías principales: indexación por etiquetas (label-based indexing), e indexación por posición (integer-based indexing).
<center>


![image.png](attachment:image.png)

* **Indexación por etiquetas (Label-Based Indexing):** En la indexación por etiquetas, utilizas las etiquetas de las filas y las columnas para acceder a los datos. El índice de fila y el índice de columna se pueden establecer de manera personalizada. Algunos métodos y atributos utilizados para la indexación por etiquetas son:

In [85]:
import pandas as pd
data = {
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
}

df = pd.DataFrame(data, index=['row1', 'row2', 'row3'])


* **.loc[row_label, column_label]:** Accede a un elemento o a un subconjunto de datos utilizando las etiquetas de fila y columna.

In [86]:
element = df.loc['row2', 'B']
print(element)  # Output: 5


5


* **.at[row_label, column_label]:** Accede a un único elemento utilizando las etiquetas de fila y columna, similar a .loc pero más rápido para acceder a un solo valor.

In [87]:
element = df.at['row2', 'B']
print(element)  # Output: 5


5


* **.loc[row_label]:** Accede a una fila completa utilizando la etiqueta de fila.

In [88]:
row_data = df.loc['row1']
print(row_data)


A    1
B    4
C    7
Name: row1, dtype: int64


* **.loc[:, column_label]:** Accede a una columna completa utilizando la etiqueta de columna.

In [89]:
column_data = df.loc[:, 'B']
print(column_data)

row1    4
row2    5
row3    6
Name: B, dtype: int64


* **Indexación por posición (Integer-Based Indexing):** En la indexación por posición, utilizas las posiciones numéricas de las filas y columnas para acceder a los datos. Las filas y columnas se numeran desde 0. Algunos métodos y atributos utilizados para la indexación por posición son:

* **.iloc[row_index, column_index]:** Accede a un elemento o a un subconjunto de datos utilizando las posiciones numéricas de fila y columna

In [90]:
element = df.iloc[1, 2]
print(element)  # Output: 8

8


* **.iat[row_index, column_index]:** Accede a un único elemento utilizando las posiciones numéricas de fila y columna, similar a .iloc pero más rápido para acceder a un solo valor.

In [91]:
element = df.iat[1, 2]
print(element)  # Output: 8


8


* **.iloc[row_index]:** Accede a una fila completa utilizando la posición numérica de fila.

In [92]:
row_data = df.iloc[0]
print(row_data)

A    1
B    4
C    7
Name: row1, dtype: int64


* **.iloc[:, column_index]:** Accede a una columna completa utilizando la posición numérica de columna.

In [93]:
column_data = df.iloc[:, 1]
print(column_data)

row1    4
row2    5
row3    6
Name: B, dtype: int64


**B.	Filtros con Pandas**
>Filtrar datos es una tarea común en el análisis de datos utilizando la biblioteca Pandas en Python. Pandas ofrece métodos muy útiles para filtrar filas o columnas de un DataFrame según ciertas condiciones.

In [94]:
import pandas as pd
df = pd.read_csv('sueldo_funcionarios_2019.csv')

* **Filtrado simple:** Filtrar filas basadas en una única condición.

In [95]:
condicion_salario = df['total_salario_bruto_i_+_ii'] > 200000
df[condicion_salario]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.00,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.00,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.00,224516.62,
5,27-13221055-7,2019,1,BOU PEREZ,ANA MARIA,Ministerio de Salud,224516.62,0.00,224516.62,
6,27-13092400-5,2019,1,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,224516.62,0.00,224516.62,
...,...,...,...,...,...,...,...,...,...,...
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,


* **Filtrado por una condición de cadena:** Filtrar filas basadas en una condición de cadena en una columna.

In [96]:
condicion_nombre = df['funcionario_apellido'].str.startswith('F')
df[condicion_nombre]


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
6,27-13092400-5,2019,1,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
20,20-22293622-6,2019,1,FERNANDEZ,DIEGO HERNAN,SECR Integración Social y Urbana,204017.27,0.0,204017.27,
21,27-30744939-6,2019,1,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,204017.27,0.0,204017.27,
38,27-13092400-5,2019,2,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
52,20-22293622-6,2019,2,FERNANDEZ,DIEGO HERNAN,SECR Integración Social y Urbana,204017.27,0.0,204017.27,
53,27-30744939-6,2019,2,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,204017.27,0.0,204017.27,
70,27-13092400-5,2019,3,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,231167.76,0.0,231167.76,
84,20-22293622-6,2019,3,FERNANDEZ,DIEGO HERNAN,SECR Integración Social y Urbana,210061.14,0.0,210061.14,
85,27-30744939-6,2019,3,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,210061.14,0.0,210061.14,
101,27-13092400-5,2019,4,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,249661.6,0.0,249661.6,


* **Filtrado por múltiples condiciones:** Filtrar filas basadas en múltiples condiciones utilizando operadores lógicos.

In [97]:
condicion_multiple = (df['total_salario_bruto_i_+_ii'] > 200000) & (df['mes'] == 12)
df[condicion_multiple]


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
343,27-13221055-7,2019,12,BOU PEREZ,ANA MARIA,Ministerio de Salud,82526.92,121497.97,204024.89,baja al 9/12
345,20-14699669-9,2019,12,MOCCIA,FRANCO,Ministerio de Desarrollo Urbano y Transporte,82526.92,121497.97,204024.89,baja al 9/12
347,27-24030362-6,2019,12,TAGLIAFERRI,GUADALUPE,Ministerio de Desarrollo Humano y Hábitat,82526.92,121497.97,204024.89,baja al 9/12
349,20-16461252-0,2019,12,GONZALEZ BERNALDO DE QUIROS,FERNAN,Ministerio de Salud,192562.83,16046.9,208609.73,alta desde el 10/12
350,27-31925246-6,2019,12,MIGLIORE,MARIA,Ministerio de Desarrollo Humano y Hábitat,192562.83,16046.9,208609.73,alta desde el 10/12
353,27-28755948-3,2019,12,MUZZIO,MARIA CLARA,Ministerio de Espacio Público e Higiene Urbana,192562.83,16046.9,208609.73,alta desde el 10/12
355,20-20008464-1,2019,12,GIUSTI,JOSE LUIS,Ministerio de Desarrollo Económico y Producción,192562.83,16046.9,208609.73,alta desde el 10/12
357,20-17110752-1,2019,12,MACCHIAVELLI,EDUARDO ALBERTO,SECR Ambiente,192562.83,16046.9,208609.73,alta desde el 10/12
359,20-31164337-2,2019,12,DI BENEDETTO,FEDERICO,"SECR Comunicación, Contenidos y Participación ...",187539.45,15628.29,203167.74,alta desde el 10/12
361,20-28908968-4,2019,12,COELHO CHICANO,CHRISTIAN,SECR de Medios,187539.45,15628.29,203167.74,alta desde el 10/12


* **Filtrado por valores en una lista:** Filtrar filas basadas en si los valores de una columna están en una lista dada.

In [98]:
valores_deseados = ['Ministerio de Salud', 'SECR de Medios']
condicion_lista = df['reparticion'].isin(valores_deseados)
df[condicion_lista]

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
5,27-13221055-7,2019,1,BOU PEREZ,ANA MARIA,Ministerio de Salud,224516.62,0.0,224516.62,
15,20-16891528-5,2019,1,NACHON,MARCELO JORGE,SECR de Medios,218659.66,0.0,218659.66,
37,27-13221055-7,2019,2,BOU PEREZ,ANA MARIA,Ministerio de Salud,224516.62,0.0,224516.62,
47,20-16891528-5,2019,2,NACHON,MARCELO JORGE,SECR de Medios,218659.66,0.0,218659.66,
69,27-13221055-7,2019,3,BOU PEREZ,ANA MARIA,Ministerio de Salud,231167.76,0.0,231167.76,
79,20-16891528-5,2019,3,NACHON,MARCELO JORGE,SECR de Medios,225137.3,0.0,225137.3,
100,27-13221055-7,2019,4,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.6,0.0,249661.6,
110,20-16891528-5,2019,4,NACHON,MARCELO JORGE,SECR de Medios,243148.69,0.0,243148.69,
131,27-13221055-7,2019,5,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.6,0.0,249661.6,
141,20-16891528-5,2019,5,NACHON,MARCELO JORGE,SECR de Medios,243148.69,0.0,243148.69,


* **Filtrado por valores nulos:** Filtrar filas basadas en si una columna tiene valores nulos.

In [99]:
condicion_nulos = df['aguinaldo_ii'].isna()
df[condicion_nulos]


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones


* **Filtrado inverso:** Filtrar filas que no cumplen una cierta condición utilizando el operador ~.

In [100]:
condicion_inversa = ~df['funcionario_apellido'].str.contains('MACCHIAVELLI')
df[condicion_inversa]


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.80,0.00,197745.80,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.80,0.00,197745.80,
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.00,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.00,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.00,224516.62,
...,...,...,...,...,...,...,...,...,...,...
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,


* **Filtrado por categoría de texto:** Filtrar filas basadas en una categoría específica en una columna categórica.

In [101]:
categoria_deseada = 'Ministerio de Salud'
condicion_categoria = df['reparticion'] == categoria_deseada
df[condicion_categoria]


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
5,27-13221055-7,2019,1,BOU PEREZ,ANA MARIA,Ministerio de Salud,224516.62,0.0,224516.62,
37,27-13221055-7,2019,2,BOU PEREZ,ANA MARIA,Ministerio de Salud,224516.62,0.0,224516.62,
69,27-13221055-7,2019,3,BOU PEREZ,ANA MARIA,Ministerio de Salud,231167.76,0.0,231167.76,
100,27-13221055-7,2019,4,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.6,0.0,249661.6,
131,27-13221055-7,2019,5,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.6,0.0,249661.6,
162,27-13221055-7,2019,6,BOU PEREZ,ANA MARIA,Ministerio de Salud,249661.6,124830.8,374492.4,
193,27-13221055-7,2019,7,BOU PEREZ,ANA MARIA,Ministerio de Salud,263531.98,0.0,263531.98,
224,27-13221055-7,2019,8,BOU PEREZ,ANA MARIA,Ministerio de Salud,263531.98,0.0,263531.98,
255,27-13221055-7,2019,9,BOU PEREZ,ANA MARIA,Ministerio de Salud,275089.75,0.0,275089.75,
286,27-13221055-7,2019,10,BOU PEREZ,ANA MARIA,Ministerio de Salud,275089.75,0.0,275089.75,


* **Filtrado por condición compleja:** Filtrar filas basadas en condiciones complejas usando paréntesis para agrupar condiciones.

In [102]:
condicion_compleja = ((df['total_salario_bruto_i_+_ii'] > 200000) | (df['aguinaldo_ii'] > 15000)) & (df['mes'] == 12)
df[condicion_compleja]


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
343,27-13221055-7,2019,12,BOU PEREZ,ANA MARIA,Ministerio de Salud,82526.92,121497.97,204024.89,baja al 9/12
344,27-30744939-6,2019,12,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,74991.86,110404.68,185396.54,baja al 9/12
345,20-14699669-9,2019,12,MOCCIA,FRANCO,Ministerio de Desarrollo Urbano y Transporte,82526.92,121497.97,204024.89,baja al 9/12
346,20-16891528-5,2019,12,NACHON,MARCELO JORGE,SECR de Medios,80374.05,118328.46,198702.51,baja al 9/12
347,27-24030362-6,2019,12,TAGLIAFERRI,GUADALUPE,Ministerio de Desarrollo Humano y Hábitat,82526.92,121497.97,204024.89,baja al 9/12
348,20-22709722-2,2019,12,LOPEZ,MATIAS,SECR Desarrollo Ciudadano,74991.86,110404.68,185396.54,baja al 9/12
349,20-16461252-0,2019,12,GONZALEZ BERNALDO DE QUIROS,FERNAN,Ministerio de Salud,192562.83,16046.9,208609.73,alta desde el 10/12
350,27-31925246-6,2019,12,MIGLIORE,MARIA,Ministerio de Desarrollo Humano y Hábitat,192562.83,16046.9,208609.73,alta desde el 10/12
353,27-28755948-3,2019,12,MUZZIO,MARIA CLARA,Ministerio de Espacio Público e Higiene Urbana,192562.83,16046.9,208609.73,alta desde el 10/12
354,20-20008464-1,2019,12,GIUSTI,JOSE LUIS,UPE Transferencia de Funciones y Facultades en...,74991.86,110404.68,185396.54,baja al 9/12


* **query():** Filtrar usando query() con condiciones de cadena y operador OR


In [103]:
df.query("(funcionario_nombre == 'FERNAN') | (funcionario_nombre == 'CHRISTIAN')")


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones


* **Usar métodos .query() con variables:** Puedes definir variables en tu entorno y utilizarlas en tus consultas .query() para facilitar el filtrado.

In [104]:
monto_minimo = 200000
df.query("`total_salario_bruto_i_+_ii` > @monto_minimo")


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.00,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.00,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.00,224516.62,
5,27-13221055-7,2019,1,BOU PEREZ,ANA MARIA,Ministerio de Salud,224516.62,0.00,224516.62,
6,27-13092400-5,2019,1,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,224516.62,0.00,224516.62,
...,...,...,...,...,...,...,...,...,...,...
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,


* **Usar el método .query() con condiciones más complejas:** Puedes aplicar condiciones más complejas utilizando la función .query() y aprovechar las variables definidas en tu entorno.

In [105]:
min_salario = 180000
max_mes = 6
df.query("asignacion_por_cargo_i > @min_salario & mes <= @max_mes")


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.80,0.00,197745.80,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.80,0.00,197745.80,
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.00,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.00,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.00,224516.62,
...,...,...,...,...,...,...,...,...,...,...
183,20-16891539-0,2019,6,ROBREDO,GONZALO,Ente de Turismo Ley Nº 2627,226866.41,113433.21,340299.62,
184,27-26690980-8,2019,6,UHALDE,MARIA PAULA,SECR Cultura Ciudadana y Función Pública,226866.41,113433.21,340299.62,
185,20-25567686-6,2019,6,BENEGAS,FERNANDO,SECR Coordinación General,226866.41,113433.21,340299.62,
186,20-28908968-4,2019,6,COELHO CHICANO,CHRISTIAN,SS Contenidos,226866.41,113433.21,340299.62,


* **Usar el método .eval() para evaluar expresiones:** Puedes utilizar este método para evaluar expresiones en el contexto del DataFrame y filtrar según el resultado.

In [106]:
df[df.eval("aguinaldo_ii > `total_salario_bruto_i_+_ii` * 0.2")]


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
157,20-17692128-6,2019,6,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,228396.40,114198.20,342594.60,
158,20-17735449-0,2019,6,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,228396.40,114198.20,342594.60,
159,27-24483014-0,2019,6,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,249661.60,124830.80,374492.40,
160,20-13872301-2,2019,6,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,249661.60,165196.76,414858.36,
161,20-25641207-2,2019,6,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,249661.60,124830.80,374492.40,
...,...,...,...,...,...,...,...,...,...,...
379,20-16891539-0,2019,12,ROBREDO,GONZALO,Ente de Turismo Ley Nº 2627,249972.86,124986.43,374959.29,
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,


Usar métodos .apply() o .map() para aplicar funciones personalizadas: Puedes utilizar estos métodos para aplicar funciones a columnas y filtrar filas basadas en el resultado de la función.

In [107]:
def funcion_filtrado(row):
    return row['total_salario_bruto_i_+_ii'] > 200000

df[df.apply(funcion_filtrado, axis=1)]


Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.00,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.00,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.00,224516.62,
5,27-13221055-7,2019,1,BOU PEREZ,ANA MARIA,Ministerio de Salud,224516.62,0.00,224516.62,
6,27-13092400-5,2019,1,FREDA,MONICA BEATRIZ,Sindicatura General de la Ciudad de Buenos Aires,224516.62,0.00,224516.62,
...,...,...,...,...,...,...,...,...,...,...
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,


**C.	Vectorización con Pandas**
>La "vectorización" en el contexto de pandas se refiere a aplicar operaciones en forma de vectores (arrays) en lugar de utilizar bucles explícitos para manipular datos en un DataFrame. Esto es importante porque pandas está optimizado para operar en columnas completas de datos de manera eficiente, en lugar de operar en elementos individuales.
En lugar de iterar a través de filas o columnas de un DataFrame usando bucles, puedes utilizar operaciones vectorizadas que son mucho más eficientes y rápidas. Las operaciones vectorizadas están implementadas en las funciones de pandas y NumPy, que es una biblioteca de álgebra lineal en Python.


* **Operaciones aritméticas:** En lugar de iterar a través de las filas de un DataFrame para realizar operaciones aritméticas, puedes simplemente aplicar las operaciones directamente a las columnas:

In [108]:
import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)

# Operación aritmética vectorizada
df['C'] = df['A'] + df['B']
df['C']

0    5
1    7
2    9
Name: C, dtype: int64

* **Funciones de transformación:** En lugar de aplicar una función a cada elemento en un bucle, puedes usar funciones vectorizadas de pandas:

In [109]:
# Aplicar una función a una columna
df['D'] = df['C'].apply(lambda x: x * 2)
df['D']

0    10
1    14
2    18
Name: D, dtype: int64

* **Funciones de agregación:** En lugar de iterar a través de filas para calcular sumas, promedios u otras estadísticas, puedes usar funciones de agregación de pandas:

In [110]:
# Calcular la suma y el promedio de una columna
sum_c = df['C'].sum()
avg_c = df['C'].mean()
sum_c, avg_c

(21, 7.0)

* **Uso de operaciones booleanas:** Las operaciones booleanas también se pueden vectorizar para filtrar datos:

In [111]:
# Filtrar filas basadas en una condición
filtered_df = df[df['C'] > 8]
filtered_df

Unnamed: 0,A,B,C,D
2,3,6,9,18


* **Aplicación de funciones de NumPy:** Pandas es compatible con NumPy, por lo que puedes aplicar funciones de NumPy a columnas de un DataFrame para operaciones matemáticas más avanzadas:

In [112]:
import numpy as np

df['E'] = np.sqrt(df['C'])
df['E']

0    2.236068
1    2.645751
2    3.000000
Name: E, dtype: float64

**¿Cuál es la relevancia de utilizar Pandas en lugar de crear nuestras propias funciones en el lenguaje Python y procesar datos mediante bucles 'for' de manera nativa?**

In [113]:
import pandas as pd
from numpy.random import random
import time
# Crear dos listas de 1,000,000 de números aleatorios
num_elements = 1000000
data1, data2 = random(num_elements), random(num_elements)

# Utilizando Pandas para la multiplicación
df1, df2 = pd.Series(data1), pd.Series(data2)
start_time = time.time()
result_pandas = df1 * df2
pandas_time = time.time() - start_time

# Utilizando bucle 'for' para la multiplicación sin Pandas
result_native = []
start_time = time.time()
for i in range(num_elements):
    result_native.append(data1[i] * data2[i])
native_time = time.time() - start_time

print(f"Tiempo con Pandas: {pandas_time:.6f} segundos")
print(f"Tiempo sin Pandas: {native_time:.6f} segundos")


Tiempo con Pandas: 0.003000 segundos
Tiempo sin Pandas: 0.456000 segundos


Otra forma de medir el tiempo de ejecución de código en Jupyter Notebook:

In [114]:
%timeit result_pandas = df1 * df2

3.19 ms ± 200 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [115]:
%%time
for i in range(num_elements):
    result_native.append(data1[i] * data2[i])

CPU times: total: 469 ms
Wall time: 469 ms


Al utilizar %timeit antes de una línea de código, Jupyter Notebook ejecutará esa línea varias veces y calculará un tiempo promedio de ejecución. Por otro lado, %%time al principio de una celda calcula el tiempo de ejecución de la celda completa.

### 3.3.	Análisis Exploratorio de Datos
>El análisis exploratorio de datos (EDA, por sus siglas en inglés) es una fase crucial en cualquier proyecto de análisis de datos, ya que te permite comprender mejor tus datos, identificar patrones, detectar valores atípicos y formular hipótesis iniciales antes de aplicar técnicas más avanzadas de modelado. La librería de Python llamada pandas es ampliamente utilizada para llevar a cabo el análisis exploratorio de datos debido a su facilidad de uso y capacidades de manipulación de datos.


In [117]:
import pandas as pd
df = pd.read_csv('sueldo_funcionarios_2019.csv')


•	Mostrar las primeras filas del DataFrame

In [118]:
df.head(5)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
0,20-17692128-6,2019,1,RODRIGUEZ LARRETA,HORACIO ANTONIO,Jefe de Gobierno,197745.8,0.0,197745.8,
1,20-17735449-0,2019,1,SANTILLI,DIEGO CESAR,Vicejefatura de Gobierno,197745.8,0.0,197745.8,
2,27-24483014-0,2019,1,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,224516.62,0.0,224516.62,
3,20-13872301-2,2019,1,ASTARLOA,GABRIEL MARIA,Procuración General de la Ciudad de Buenos Aires,224516.62,0.0,224516.62,
4,20-25641207-2,2019,1,AVOGADRO,ENRIQUE LUIS,Ministerio de Cultura,224516.62,0.0,224516.62,


•	Mostrar las ultimas filas del DataFrame

In [119]:
df.tail(5)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
380,20-26735689-1,2019,12,MENDEZ,JUAN JOSE,SECR Transporte y Obras Públicas,249972.86,124986.43,374959.29,
381,20-23864572-8,2019,12,STRAFACE,FERNANDO DIEGO,SECR General y Relaciones Internacionales,275089.75,137544.87,412634.62,
382,20-21981279-6,2019,12,SCRENCI SILVA,BRUNO GUIDO,Ministerio de Gobierno,275089.75,137544.87,412634.62,
383,20-30593774-7,2019,12,AVELLANEDA,PATRICIO IGNACIO,"SECR Planificación, Evaluación y Coordinación ...",249972.86,124986.43,374959.29,
384,27-27011181-0,2019,12,FERNANDEZ,KARINA BEATRIZ,SECR Asuntos Estratégicos,187539.45,15628.29,203167.74,alta desde el 10/12


•	Mostrar las filas aleatorias del DataFrame

In [120]:
df.sample(5)

Unnamed: 0,cuil,anio,mes,funcionario_apellido,funcionario_nombre,reparticion,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii,observaciones
97,27-24483014-0,2019,4,ACUÑA,MARIA SOLEDAD,Ministerio de Educación e Innovación,249661.6,0.0,249661.6,
344,27-30744939-6,2019,12,FERRERO,GENOVEVA,SECR Administración de Seguridad y Emergencias,74991.86,110404.68,185396.54,baja al 9/12
237,20-22366623-0,2019,8,COSTANTINO,SERGIO GABRIEL,SECR Integración Social Para Personas Mayores,239470.36,0.0,239470.36,
166,20-14699669-9,2019,6,MOCCIA,FRANCO,Ministerio de Desarrollo Urbano y Transporte,249661.6,124830.8,374492.4,
113,20-22366623-0,2019,4,COSTANTINO,SERGIO GABRIEL,SECR Integración Social Para Personas Mayores,226866.41,0.0,226866.41,


•	Obtener información general sobre el DataFrame

In [121]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 385 entries, 0 to 384
Data columns (total 10 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   cuil                        385 non-null    object 
 1   anio                        385 non-null    int64  
 2   mes                         385 non-null    int64  
 3   funcionario_apellido        385 non-null    object 
 4   funcionario_nombre          385 non-null    object 
 5   reparticion                 385 non-null    object 
 6   asignacion_por_cargo_i      385 non-null    float64
 7   aguinaldo_ii                385 non-null    float64
 8   total_salario_bruto_i_+_ii  385 non-null    float64
 9   observaciones               24 non-null     object 
dtypes: float64(3), int64(2), object(5)
memory usage: 30.2+ KB


•	Mostrar las propiedades del DataFrame

In [123]:
# La propiedad shape nos devuelve una tupla (filas,columnas)
df.shape


(385, 10)

•	Mostrar las columnas del DataFrame

In [125]:
df.describe()

Unnamed: 0,anio,mes,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii
count,385.0,385.0,385.0,385.0,385.0
mean,2019.0,6.631169,234234.368,20282.084883,254516.452883
std,0.0,3.539077,35043.160085,45248.840725,51434.98787
min,2019.0,1.0,74991.86,0.0,185396.54
25%,2019.0,4.0,224516.62,0.0,224516.62
50%,2019.0,7.0,239470.36,0.0,245811.62
75%,2019.0,10.0,249972.87,0.0,263531.98
max,2019.0,12.0,275089.75,170855.56,445945.31


•	Contar los valores únicos en una columna categórica

In [127]:
df['reparticion'].value_counts()

SECR Desarrollo Ciudadano                                         13
Ministerio de Salud                                               13
SECR Justicia y Seguridad                                         13
SECR de Medios                                                    13
Jefe de Gobierno                                                  12
SECR Legal y Técnica                                              12
SS Contenidos                                                     12
Ente de Turismo Ley Nº 2627                                       12
Consejo de los Derechos de Niñas, Niños y Adoles - Presidencia    12
Vicejefatura de Gobierno                                          12
UPE Transferencia de Funciones y Facultades en Materia de Seg.    12
SECR Administración de Seguridad y Emergencias                    12
SECR Integración Social y Urbana                                  12
SECR Integración Social Para Personas Mayores                     12
SECR Planificación, Evaluación y C

•	Matriz de correlación para entender las relaciones entre columnas numéricas

In [130]:
df.select_dtypes(include=['number']).corr()

Unnamed: 0,anio,mes,asignacion_por_cargo_i,aguinaldo_ii,total_salario_bruto_i_+_ii
anio,,,,,
mes,,1.0,0.177291,0.314095,0.397108
asignacion_por_cargo_i,,0.177291,1.0,-0.198631,0.506569
aguinaldo_ii,,0.314095,-0.198631,1.0,0.7444
total_salario_bruto_i_+_ii,,0.397108,0.506569,0.7444,1.0


**básicas**
* **mean():** Calcula el promedio de los valores.
* **sum():** Calcula la suma de los valores.
* **min():** Encuentra el valor mínimo.
* **max():** Encuentra el valor máximo.
* **count():** Cuenta la cantidad de valores no nulos.


In [132]:
# Ejemplos de funciones de agregación básicas
promedio = df['asignacion_por_cargo_i'].mean()
suma = df['asignacion_por_cargo_i'].sum()
minimo = df['aguinaldo_ii'].min()
maximo = df['aguinaldo_ii'].max()
conteo = df['funcionario_nombre'].count()

print(f"Promedio: {promedio}")
print(f"Suma: {suma}")
print(f"Mínimo: {minimo}")
print(f"Máximo: {maximo}")
print(f"Conteo: {conteo}")


Promedio: 234234.36800000002
Suma: 90180231.68
Mínimo: 0.0
Máximo: 170855.56
Conteo: 385


**Otras funciones de agregación:**
* **median():** Calcula la mediana de los valores.
* **std():** Calcula la desviación estándar.
* **var():** Calcula la varianza.
* **quantile(q):** Calcula el percentil q de los valores.
* **agg(func):** Permite aplicar múltiples funciones de agregación a la vez.


In [133]:
# Ejemplos de otras funciones de agregación
mediana = df['asignacion_por_cargo_i'].median()
desviacion_estandar = df['asignacion_por_cargo_i'].std()
varianza = df['aguinaldo_ii'].var()
percentil_75 = df['aguinaldo_ii'].quantile(0.75)

print(f"Mediana: {mediana}")
print(f"Desviación Estándar: {desviacion_estandar}")
print(f"Varianza: {varianza}")
print(f"Percentil 75: {percentil_75}")


Mediana: 239470.36
Desviación Estándar: 35043.160084661766
Varianza: 2047457586.9414985
Percentil 75: 0.0


* **Funciones de agregación con groupby:** Puedes usar la función groupby() junto con las funciones de agregación para calcular estadísticas agrupadas por categorías.

In [137]:
# Ejemplo de agregación con groupby
agregaciones_por_categoria = df.groupby('mes')['asignacion_por_cargo_i'].mean()
print(agregaciones_por_categoria)


mes
1     212227.708750
2     212227.708750
3     219685.341290
4     236137.854516
5     236137.854516
6     236839.533226
7     249178.916774
8     249178.916774
9     260197.725484
10    260584.525484
11    260584.525484
12    193651.840952
Name: asignacion_por_cargo_i, dtype: float64
