# Pandas

*Pandas es la herramienta más importante para un data scientist o analyst.* Esencialmente se la elige para *limpiar*, *transformar* y *analizar* datos.

Pandas es una librería *open source* (con licencia BSD) que provee herramientas de alta performance y fáciles de usar para estructuras de datos y análisis de datos en Python.

Su nombre proviene de "**pan**el **da**ta", término de la econometría para data sets que hace referencia a la observación de valores a lo largo de múltiples períodos de tiempo.

> Es una herramienta de análisis de datos *"in-memory"*.  
> Posee constructores del tipo SQL.  
> Soporta analítica y estadísitca esencial, así como capacidad para graficar.  
> Dado que está construido con Cython y Numpy, requiere menos uso de memoria y funciona más rápido que una librería en Python puro.  
> Muchas personas usan pandas como reemplazo de *excel*  
*Matt Harrison*

![](https://s3-ap-southeast-2.amazonaws.com/python.quantecon.org/_static/lecture_specific/pandas/pandas_vs_rest.png)
*pandas popularity according to stackoverflow questions*

## Instalación

```sh
~$ conda install pandas
``` 

```sh
~$ pip install pandas
``` 

In [None]:
! pip install pandas

## Importando pandas

In [None]:
import pandas as pd

*pd* es el "alias" por convención para pandas

In [None]:
pd.

## Series y DataFrames

Pandas permite importar datos estructurados para manipularlos, para ello los transforma en tipos específicos de datos, propios de la librería.

* **Serie**: se puede concebir como una columna.
* **DataFrame**: tabla multidimensional compuesta por una colección de series.

![](https://github.com/LearnDataSci/articles/raw/cf779e4526a78982011f1d05166679ab8a94353c/Python%20Pandas%20Tutorial%20A%20Complete%20Introduction%20for%20Beginners/assets/series-and-dataframe.png)

### Analogías en otras estructuras de datos

| Data Structure | Dimensionality | Spreadsheet Analog | Database Analog | Linear Algebra |
|----------------|----------------|--------------------|-----------------|----------------|
| Series         | 1D             | Column             | Column          | Column Vector  |
| Dataframe      | 2D             | Single Sheet       | Table           | Matrix         |

### Index

Ambos, Series y DataFrames pueden ser referenciados por sus **índices**:

* Serie Axis 0: `0, 1, 2, 3`
*DataFrame Axis 1: `apples, oranges`

### Series

Las series se emplean para modelar datos **uni dimensionales**. Además de los datos persé, una Serie tiene algunos bits extra que incluyen:

* un index
* un nombre

#### Axis

Dado que una Serie es una estructura de una sola dimensión, tiene **un axis**.

La siguiente tabla contiene un conteo de las canciones que ciertos artistas compusieron:

| Artist | Data |
|--------|------|
| 0      | 145  |
| 1      | 142  |
| 2      | 38   |
| 3      | 13   |

❓ ¿Cómo representarías esta estructura de datos en Python?

❓ ¿Qué estructuras de datos bien conocidas poseen **index**? ¿De qué tipo son? ¿Están ordenados?

El concepto de **index** pareciera innecesario en estructuras de datos como `list`, que los implementan del tipo `int` y ya están ordenados.  
Pandas en cambio, soporta **index** de tipo `str`, `date` así como índices ordenados de manera arbitraria, incluso duplicados.  
La siguiente es una implementación de índices de tipo `str` con una estructura de tipo `dict`:  

In [None]:
songs = {
    'index': ['Paul', 'John', 'George', 'Ringo'],
    'data': [145, 142, 38, 13],
    'name': 'counts'
}

In [None]:
def get(series, index):
    value_index = series['index'].index(index)
    return series['data'][value_index]

In [None]:
get(songs, 'John')

### Creando Series desde cero

In [None]:
import pandas as pd

In [None]:
songs_2 = pd.Series(
    [145, 142, 38, 13],
    name='count'
)

In [None]:
songs_2

Una Serie es una estructura **uni-dimensional** de datos, la *"columna"* a la izquierda es **el index**, este NO forma parte de los valores de la Serie.

* El nombre genérico para un index es **axis**.
* Los valores del index (0, 1, 2, 3, 4) se denominan **axis labels**.
* Los datos (145, 132, 38 y 13) son los **values** de la Serie.

In [None]:
songs_2.index

#### Str index

In [None]:
songs_3 = pd.Series(
    [145, 142, 38, 13],
    name='count',
    index=['Paul', 'John', 'George', 'Ringo']
)

In [None]:
songs_3

In [None]:
songs_3.index

### DataFrames

Un DataFrame, a diferencia de otras formas de estructurar y almacenar datos, es una estructura **orientada a columnas**:

![](https://github.com/LearnDataSci/articles/raw/cf779e4526a78982011f1d05166679ab8a94353c/Python%20Pandas%20Tutorial%20A%20Complete%20Introduction%20for%20Beginners/assets/series-and-dataframe.png)

> Las columnas de un mismo tipo de dato se pueden comprimir fácilmente.  
> Realizar un análisis en una columna requiere cargar sólo dicha columna, mientras que en estructuras *orientadas a filas* como bases de datos, es necesario leer la base de datos completa para acceder a una columna.

### Creando DataFrames desde cero

In [None]:
data = {
    'apples': [3, 2, 0, 1], 
    'oranges': [0, 3, 7, 2]
}

In [None]:
purchases = pd.DataFrame(data)
purchases

In [None]:
type(purchases)

In [None]:
purchases.index

Cada `key` del dict *data* se transforma en el *header* de cada columna, mientras que las listas que corresponden a sus *values* componen cada columna o *serie*.

Los *index* del dataframe se autogeneraron con enteros de 0 a 3 dado que no fueron especificados.

In [None]:
purchases = pd.DataFrame(data, index=['June', 'Robert', 'Lily', 'David'])
purchases

In [None]:
purchases.index

## shape

Almacena el tamaño del DataFrame

In [None]:
purchases.shape

## head()

Retorna las primeraas `n` filas del dataframe, por defecto n es 5.

In [None]:
purchases.head()

In [None]:
purchases.head(3)

## tail()

Retorna las últimas `n` filas del dataframe, por defecto n es 5.

In [None]:
purchases.tail()

In [None]:
purchases.tail(2)

## info()

Imprime un resumen sobre las características del DataFrame, incluyendo el índice, tipo de datos y columnas, valores no nulos y uso de memoria.

In [None]:
purchases.info()

## describe()

Genera algunos datos estadísticos que incluyen las tendencias principales, dispersión y distribución del dataset.

In [None]:
purchases.describe()

## loc

Se trata de una suerte de *slicing* que permite especificar el nombre del `index` de interés

In [None]:
purchases.head()

In [None]:
purchases.loc['June']

In [None]:
purchases.loc['Lily']

## iloc

Se trata de una suerte de *slicing* que permite especificar el `index` de interés

In [None]:
purchases.head()

In [None]:
purchases.iloc[0]

In [None]:
purchases.iloc[1]

## Ejercicios

Crear una Serie a partir de *los nombres* de los **cinco** productos más vendidos en [mercadolibre](https://www.mercadolibre.com.uy/), (sección "Ofertas")

Crear una Serie a partir de los datos de la temperatura en la ciudad de Montevideo por el mes de Marzo:

| date         | temp      |
|--------------|-----------|
| '01-03-2022' | 13°-25° C |
| '02-03-2022' | 16°-28° C |
| '03-03-2022' | 16°-23° C |
| '04-03-2022' | 18°-28° C |
| '05-03-2022' | 22°-26° C |
| '06-03-2022' | 19°-25° C |
| '07-03-2022' | 20°-24° C |
| '08-03-2022' | 15°-26° C |
| '09-03-2022' | 17°-22° C |

En base al ejercicio anterior, convertir los index label de la serie en objetos de tipo `DateTime` de Python.
> 🔎 Este ejercicio requiere investigación

* Explorar la documentación de **cinco** atributos propios del objeto Serie

Crear un DatFrame con *los nombres, precios y descuentos* de los **cinco** productos más vendidos en [mercadolibre](https://www.mercadolibre.com.uy/), (sección "Ofertas")

Crear un DataFrame a partir de los datos de la temperatura en la ciudad de Montevideo por el mes de Marzo:

| date         | temp min | temp max |
|--------------|----------|----------|
| '01-03-2022' | 13       | 25       |
| '02-03-2022' | 16       | 28       |
| '03-03-2022' | 16       | 23       |
| '04-03-2022' | 18       | 28       |
| '05-03-2022' | 22       | 26       |
| '06-03-2022' | 19       | 25       |
| '07-03-2022' | 20       | 24       |
| '08-03-2022' | 15       | 26       |
| '09-03-2022' | 17       | 22       |

> el index debe ser de tipo `DateTime`

* Explorar la documentación de **cinco** atributos propios del objeto Serie