# Pandas

Pandas es una librería de código abierto enfocada al análisis y maniputación de datos, es de código abierto y escrito en python. Cuenta con estructuras de datos y funciones de análisis de datos de alto rendimiento.

Esta líbreria esta construida sobre `numpy` lo cual facilita la aplicación de cálculos matemáticos complejos de una forma bastante sencilla y eficiente.

Ademas integra funcionalidades de `matplotlib` que nos permite crear graficos directamente desde un DataFrame o Serie.

<div class="alert alert-info", role="alert">
    <b>📢 Antes de empezar</b>
    <p>
      Antes de continuar con este notebook es necesario descargar el Data Source en formato CSV y colocarlo en la carpeta <b>data/raw</b>. <br>
      <a href="https://www.kaggle.com/datasets/tunguz/online-retail">Data Source</a>
    </p>
</div>

In [1]:
import pandas as pd
import numpy as np

## 2.1 - Estructuras de datos

El núcleo de Pandas son sus dos estructuras de datos principales:
- DataFrames
- Series

### 2.1.1 DataFrames

Estructura en formato tabular (tidy data), se conforma de filas (observaciones) y columnas (variables).

Podemos crear `DataFrames` de multiples formas:
- A partir de un array de numpy.
- A partir de una lista o lista de diccionarios directamente python.
- A partir de un diccionario de python.
- Desde archivos con formatos: `CSV`, `JSON`, `XLSX`, etc.

En este notebook nos enfocaremos en los DataFrame a partir de un archivo CSV que contiene datos de ventas retail en línea.

Aquí otro notebook donde se explora la creación de DataFrames con los métodos antes mencionados.
https://github.com/pahoalapizco/numpy-pandas-introduction/blob/main/pandas/series_dataframes.ipynb

In [2]:
# DataFrame desde un archivo CSV
retail_df = pd.read_csv("../data/raw/online_retail.csv")
retail_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


### 2.1.2 Series

Una serie en pandas es una estructura unidimensional similar a un array de `numpy`, también es la estructura de una de columna de un DataFrame.

In [3]:
desc_series = retail_df["Description"]
print(type(desc_series))
desc_series.head()

<class 'pandas.core.series.Series'>


0     WHITE HANGING HEART T-LIGHT HOLDER
1                    WHITE METAL LANTERN
2         CREAM CUPID HEARTS COAT HANGER
3    KNITTED UNION FLAG HOT WATER BOTTLE
4         RED WOOLLY HOTTIE WHITE HEART.
Name: Description, dtype: object

## 2.2 - Funciones

Pandas nos provee de multiples funciones para explorar los datos de un DataFrame y/o Serie, entre las mas utilizadas encontramos las siguientes:
- `head()`: Retorna las primeras 5 filas (por default) del DataFrame/Serie.
- `tail()`: Retorna las últimas 5 filas (por default) del DataFrame/Serie.
- `sample()`: Retorna aleatoriamente 5 dilas del del DataFrame/Serie.
- `info()`: Nos da un resumen del DataFrame.
- `describe()`: Devuelve los estadisticos principales de los de las columnas numéricas.
    - Conteos
    - media
    - Desviasión estandar
    - Caurtil 1, 2 y 4 
    - Máximo y Mínimo
- `mean()`: Media o promedio de una columna numérica.
- `std()`: Desviasión estándar.
- `median()`: Mediana de una columna/Serie numérica.
- `percentile()`: Percentiles de una columna/serie numérica.

📌 **Nota**: La función `descreibe()` en columnas categóricas (strings) nos regresa los conteos, valores únicos y frecuencias. 

### 2.2.1 head, tail & sample

In [4]:
display(retail_df.head(2), retail_df.tail(2), retail_df.sample(2))

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
145309,548893,21066,VINTAGE RED MUG,1,2011-04-04 15:54:00,2.46,,United Kingdom
110922,545701,21531,RED RETROSPOT SUGAR JAM BOWL,1,2011-03-06 15:17:00,2.55,17107.0,United Kingdom


### 2.2.2 info & describe

In [5]:
# DataFrame
display(retail_df.info(), retail_df.describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


None

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


In [6]:
# Serie
desc_series.describe()

count                                 540455
unique                                  4223
top       WHITE HANGING HEART T-LIGHT HOLDER
freq                                    2369
Name: Description, dtype: object

### 2.2.3 Funciones estadísticas

In [7]:
quantity_mean = retail_df["Quantity"].mean()
quantity_std = retail_df["Quantity"].std()
quantity_median = retail_df["Quantity"].median()
quantity_q1 = retail_df["Quantity"].quantile(.25)
print(f"Media: {quantity_mean}")
print(f"Mediana: {quantity_median}")
print(f"1er Cuartil: {quantity_q1}")
print(f"Desviasión Estandar: {quantity_std}")

Media: 9.55224954743324
Mediana: 3.0
1er Cuartil: 1.0
Desviasión Estandar: 218.08115784986612
