# Pandas

Pandas es una librería de código abierto enfocada al análisis y maniputación de datos, es de código abierto y escrito en python. Cuenta con estructuras de datos y funciones de análisis de datos de alto rendimiento.

Esta líbreria esta construida sobre `numpy` lo cual facilita la aplicación de cálculos matemáticos complejos de una forma bastante sencilla y eficiente.

Ademas integra funcionalidades de `matplotlib` que nos permite crear graficos directamente desde un DataFrame o Serie.

<div class="alert alert-info", role="alert">
    <b>📢 Antes de empezar</b>
    <p>
      Antes de continuar con este notebook es necesario descargar el Data Source en formato CSV y colocarlo en la carpeta <b>data/raw</b>. <br>
      <a href="https://www.kaggle.com/datasets/tunguz/online-retail">Data Source</a>
    </p>
</div>

In [1]:
import pandas as pd
import numpy as np

## 2.1 - Estructuras de datos

El núcleo de Pandas son sus dos estructuras de datos principales:
- DataFrames
- Series

### 2.1.1 DataFrames

Estructura en formato tabular (tidy data), se conforma de filas (observaciones) y columnas (variables).

Podemos crear `DataFrames` de multiples formas:
- A partir de un array de numpy.
- A partir de una lista o lista de diccionarios directamente python.
- A partir de un diccionario de python.
- Desde archivos con formatos: `CSV`, `JSON`, `XLSX`, etc.

En este notebook nos enfocaremos en los DataFrame a partir de un archivo CSV que contiene datos de ventas retail en línea.

Aquí otro notebook donde se explora la creación de DataFrames con los métodos antes mencionados.
https://github.com/pahoalapizco/numpy-pandas-introduction/blob/main/pandas/series_dataframes.ipynb

In [2]:
# DataFrame desde un archivo CSV
retail_df = pd.read_csv("../data/raw/online_retail.csv")
retail_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


### 2.1.2 Series

Una serie en pandas es una estructura unidimensional similar a un array de `numpy`, también es la estructura de una de columna de un DataFrame.

In [6]:
desc_series = retail_df["Description"]
print(type(desc_series))
desc_series.head()

<class 'pandas.core.series.Series'>


0     WHITE HANGING HEART T-LIGHT HOLDER
1                    WHITE METAL LANTERN
2         CREAM CUPID HEARTS COAT HANGER
3    KNITTED UNION FLAG HOT WATER BOTTLE
4         RED WOOLLY HOTTIE WHITE HEART.
Name: Description, dtype: object