In [1]:
import pandas as pd
import numpy as np

## Pandas Illustrated: La gu√≠a visual definitiva sobre los pandas

![image.png](attachment:image.png)

Pandas es un est√°ndar de la industria para analizar datos en Python. Con unas pocas pulsaciones de teclas, puede cargar, filtrar, reestructurar y visualizar gigabytes de informaci√≥n heterog√©nea. Desarrollado sobre la biblioteca NumPy, toma prestados muchos de sus conceptos y convenciones de sintaxis, por lo que si se siente c√≥modo con NumPy, Pandas le resultar√° una herramienta bastante familiar. E incluso si nunca ha o√≠do hablar de NumPy, Pandas ofrece una

Gran oportunidad para resolver problemas de an√°lisis de datos con poca o ninguna experiencia en programaci√≥n.
Hay muchas gu√≠as de Pandas. En esta en particular, se espera que tengas un conocimiento b√°sico de NumPy. Si no lo tienes, te sugiero que leas la gu√≠a ilustrada de NumPy para tener una idea de qu√© es una matriz de NumPy, en qu√© aspectos es superior a una lista de Python y c√≥mo ayuda a evitar bucles en operaciones elementales.
Dos caracter√≠sticas clave que Pandas aporta a las matrices de NumPy son:

1. Tipos heterog√©neos: cada columna puede tener su propio tipo;
2. √çndice: mejora la velocidad de b√∫squeda de las columnas especificadas.

Resulta que estas caracter√≠sticas son suficientes para hacer de Pandas un competidor poderoso tanto para las hojas de c√°lculo como para las bases de datos.
Polars, la reciente reencarnaci√≥n de Pandas (escrita en Rust, por lo tanto m√°s r√°pida¬π) ya no usa NumPy en segundo plano, pero la sintaxis es bastante similar, por lo que aprender Pandas tambi√©n te permitir√° sentirte c√≥modo con Polars.

El art√≠culo consta de cuatro partes:

Parte 1. Motivaci√≥n
Parte 2. Series e √≠ndices
Parte 3. DataFrames
Parte 4. MultiIndex

‚Ä¶ y es bastante extenso, aunque f√°cil de leer ya que se compone principalmente de im√°genes.
Para una lectura de 1 minuto de los ‚Äúprimeros pasos‚Äù en Pandas, puedo recomendar una excelente Introducci√≥n visual a Pandas¬≤ de Jay Alammar.



## Parte 1. Motivaci√≥n y presentaci√≥n
Supongamos que tiene un archivo con un mill√≥n de l√≠neas de valores separados por comas como este:

![image.png](attachment:image.png)

Y necesitas dar respuestas a preguntas b√°sicas como "¬øQu√© ciudades tienen un √°rea de m√°s de 450 km¬≤ y una poblaci√≥n de menos de 10 millones" con NumPy.
La soluci√≥n de fuerza bruta de introducir toda la tabla en una matriz NumPy no es una buena opci√≥n: normalmente, las matrices NumPy son homog√©neas (=todos los valores tienen el mismo tipo), por lo que todos los campos se interpretar√°n como cadenas y las comparaciones no funcionar√°n como se espera.
S√≠, NumPy tiene matrices estructuradas y de registro que permiten columnas de diferentes tipos, pero est√°n pensadas principalmente para interactuar con c√≥digo C. Cuando se utilizan para fines generales, tienen las siguientes desventajas:

- No son realmente intuitivas (por ejemplo, te encontrar√°s con constantes como <f8 y <U8
en todas partes);

- Tienen algunos problemas de rendimiento en comparaci√≥n con las matrices NumPy normales;

- Almacenados de forma contigua en la memoria, por lo que cada adici√≥n o eliminaci√≥n de columna requiere reasignar toda la matriz;
- A√∫n faltan muchas funciones de Pandas DataFrames.

Su pr√≥ximo intento probablemente ser√≠a almacenar cada columna como un vector NumPy separado.
Y despu√©s de eso, tal vez envolverlos en un diccionario para que sea m√°s f√°cil restaurar la integridad de la 'base de datos' si decide agregar o eliminar una fila o dos m√°s tarde. As√≠ es c√≥mo se ver√≠a:

![image.png](attachment:image.png)



A continuaci√≥n, se muestran algunos ejemplos de lo que Pandas puede hacer por usted y que NumPy no puede hacer (o requiere un esfuerzo significativo para lograrlo).

## Pandas Showcase
Considere la siguiente tabla:

![image.png](attachment:image.png)

Describe la variada l√≠nea de productos de una tienda online con un total de cuatro productos distintos. A diferencia del ejemplo anterior, se puede representar con una matriz NumPy o con un DataFrame de Pandas igualmente bien. Pero veamos algunas operaciones comunes con √©l.

## 1. Clasificaci√≥n

La ordenaci√≥n por columna es m√°s legible con Pandas, como puedes ver a continuaci√≥n:

![image.png](attachment:image.png)

Aqu√≠ argsort(a[:,1]) calcula la permutaci√≥n que hace que la segunda columna de a se ordene en orden ascendente y luego la columna externa a[‚Ä¶] reordena las filas de a ,en consecuencia. Pandas puede hacerlo en un solo paso.

## 2. Ordenar por varias columnas
Si necesitamos ordenar por columna de precio desempatando con la columna de peso, la situaci√≥n empeora para NumPy:

![image.png](attachment:image.png)

Con NumPy, primero ordenamos por peso y luego aplicamos un segundo ordenamiento por precio. Un algoritmo de ordenamiento estable garantiza que el resultado del primer ordenamiento no se pierda durante el segundo. Hay otras formas de hacerlo con NumPy, pero ninguna es tan simple y elegante como con Pandas.

## 3. Agregar una columna
Agregar columnas es mucho mejor con Pandas, tanto desde el punto de vista sint√°ctico como arquitect√≥nico:
![image.png](attachment:image.png)

Pandas no necesita reasignar memoria para toda la matriz como NumPy; simplemente agrega una referencia a una nueva columna y actualiza un ‚Äúregistro‚Äù de los nombres de las columnas.