Apuntes de Pandas obtenidos del curso MAT281, desarrollado inicialmente por Sebastián Flores, ampliado y mejorado por Francisco Alfaro y Alonso Ogueda. Links: https://github.com/fralfaro/MAT281_2024/ (versión actual), 

<a href="https://colab.research.google.com/github/fralfaro/MAT281_2024/blob/main/docs/lectures/data_manipulation/pd_01a.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Pandas I

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/2560px-Pandas_logo.svg.png" width = "300" align="center"/>


## Introducción 

[Pandas](https://pandas.pydata.org/) es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo. 

Su objetivo es ser el bloque de construcción fundamental de alto nivel para hacer análisis de datos prácticos del mundo real en Python. Además, tiene el objetivo más amplio de convertirse en la herramienta de análisis/manipulación de datos de código abierto más potente y flexible disponible en cualquier idioma. Ya está en camino hacia este objetivo.

**Series y DataFrames**

* Las **series** son  arreglos unidimensionales con etiquetas. Se puede pensar como una generalización de los diccionarios de Python. 

<img src="https://raw.githubusercontent.com/fralfaro/MAT281_2022/main/docs/lectures/data_manipulation/data_manipulation/images/series.png" width = "300" align="center"/>


* Los **dataframe** son arreglos bidimensionales y una extensión natural de las series. Se puede pensar como la generalización de un numpy.array.

<img src="https://raw.githubusercontent.com/fralfaro/MAT281_2022/main/docs/lectures/data_manipulation/data_manipulation/images/dataframe.png" width = "800" align="center"/>

## Pandas Dataframes


Como se mencina anteriormente, los dataframes son arreglos de series, los cuales pueden ser de distintos tipos (numéricos, string, etc.). En esta parte mostraremos un ejemplo aplicado de las distintas funcionalidades de los dataframes.

### Creación de Dataframes

La creación se puede hacer de variadas formas con listas, dictionarios , numpy array , entre otros.


In [None]:
import pandas as pd
import numpy as np

In [None]:
# empty dataframe
df_empty = pd.DataFrame()
df_empty

In [None]:
# dataframe with list
df_list = pd.DataFrame(
    [
        ["nombre_01", "apellido_01", 60],
        ["nombre_02", "apellido_02", 14]
    ],
    
    columns = ["nombre", "apellido", "edad"]
)
df_list

In [None]:
# dataframe with dct
df_dct =  pd.DataFrame(
    {
        "nombre": ["nombre_01", "nombre_02",],
        "apellido": ["apellido_01", "apellido_02"],
        "edad": np.array([60,14]),
    }
)

df_dct

### Lectura de Datos

En general, cuando se trabajan con datos, estos se almacenan en algún lugar y en algún tipo de formato, por ejemplo:
* `.txt`
* `.csv`
* `.xlsx`
* `.db`
* etc.

🏀 **Ejemplo**: El conjunto de datos "player_info.csv" es una colección exhaustiva que proporciona información detallada sobre los jugadores de la NBA desde el año 1947 hasta el 2018. 

En conjunto, estas columnas ofrecen una visión completa de los jugadores de la NBA durante más de medio siglo, permitiendo análisis detallados sobre su trayectoria, características físicas y antecedentes educativos.

<img src="https://www.edigitalagency.com.au/wp-content/uploads/NBA-logo-png.png" width = "200" align="center"/>

📋**Descripción de las columnas**


| Columna      | Descripción                                                                                                                                                     |
|--------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------|
| name         | El nombre completo de cada jugador en el formato "apellido, nombre".                                                                                            |
| year_start   | El año en el que cada jugador comenzó su carrera profesional en la NBA.                                                                                         |
| year_end     | El año en el que la carrera profesional de cada jugador en la NBA llegó a su fin.                                                                                |
| position     | La posición principal en la que cada jugador se desempeña en el campo de juego (base, escolta, alero, ala-pívot, pívot).                                        |
| height       | La altura de cada jugador en pulgadas.                                                                                                                         |
| weight       | El peso de cada jugador en libras.                                                                                                                              |
| birth_date   | La fecha de nacimiento de cada jugador.                                                                                                                          |
| college      | La universidad a la que asistió cada jugador antes de ingresar a la NBA.                                                                                        |



In [None]:
# cargar datos
import os
path = os.path.join("data", "player_info.csv")
#path = 'https://raw.githubusercontent.com/fralfaro/MAT281_2024/main/docs/lectures/data_manipulation/data/player_info.csv'
df = pd.read_csv(path, sep="," )

In [None]:
# mostar resultados
df.head()

### Objetos de Pandas

En un nivel muy básico, los objetos de Pandas se pueden considerar como versiones mejoradas de matrices de `numpy` en las que las filas y columnas se identifican con etiquetas en lugar de simples índices enteros.

**DataFrame**

In [None]:
# valores
df.values

In [None]:
# indice
df.index

In [None]:
# columnas
df.columns

In [None]:
# tipo
type(df)

**Series**

In [None]:
# elegir columna (pueden ser una o varias)
pd_series = df['name']

In [None]:
# valores
pd_series.values

In [None]:
# indice
pd_series.index

In [None]:
# tipo
type(pd_series)

### Operaciones en Pandas

Las operaciones en Pandas se refieren a las acciones que se pueden realizar sobre los objetos de Pandas, como Series y DataFrames, para manipular, transformar y analizar datos. 

#### Operaciones Básicas

In [None]:
# priemras filas 
df.head()

In [None]:
# ultimas filas 
df.tail()

In [None]:
# informacion del dataframe
df.info()

In [None]:
# tipo de datos por columnas
df.dtypes

In [None]:
# filas y columnas
df.shape

In [None]:
# estadisticas basicas
df.describe()

In [None]:
# cantidad de objetos unicos - columna especifica
df['year_start'].nunique()

In [None]:
# objetos unicos por columna especifica
df['year_start'].unique()

In [None]:
# cantidad de objetos unicos - todas las columnas
df.nunique()

In [None]:
# numero de ocurrencias de cada valor en una columna
df['year_start'].value_counts()#.sort_index()

In [None]:
# ordenar valores - por columna especifica, menor a mayor
df.sort_values('year_start', ascending = True).head()

In [None]:
# ordenar valores - por columna especifica, mayor a menor
df.sort_values('year_start', ascending = False).head()

#### Operaciones Matemáticas

In [None]:
# operaciones aritmeticas
s1 = df['year_end']
s2 = df['year_start']

suma = s1+s2
resta = s1-s2
multiplicacion = s1*s2
division = s1/s2

# suma
print(f"suma: \n{suma.head()}\n")

# resta
print(f"resta: \n{resta.head()}\n")

# multiplicacion
print(f"multiplicacion: \n{multiplicacion.head()}\n")

# division
print(f"division: \n{division.head()}")

In [None]:
# operaciones estadisticas
s1 = df['year_start']

print(f"mean: {s1.mean()}") # mean
print(f"std:  {s1.std()}") # std
print(f"min:  {s1.min()}") # min
print(f"max:  {s1.max()}") # max

In [None]:
# correlaciones lineales
cols = ['year_start', 'year_end']
df[cols].corr()

#### Operaciones Avanzadas

In [None]:
# crear una columna constante
df['label'] = 'NBA'
df.head()

In [None]:
# Eliminar columna
df = df.drop('label',axis=1)
df.head()

In [None]:
# nueva columna a partir de otras dos
df['duration'] = df['year_end']-df['year_start']
df.head()

In [None]:
# mediante funciones 'apply'
df['greater_than_10'] = df['duration'].apply(lambda x: 1 if x>10 else 0)
df.head()

In [None]:
df['greater_than_10'].value_counts()

Muchas veces, en un Dataframe se necesita realizar operaciones entre  la fila actual y la fila anterior, lo cual puede ser complejo si no se utilizan las funciones correctas. A continuación se trabajan algunas de estas funciones:

1. **`shift()`**: Se utiliza para mover hacia arriba o hacia abajo los valores de una columna o serie de datos.
2. **`cumsum()`**: es una función que se utiliza para calcular la suma acumulativa de valores a lo largo de un eje en un DataFrame o una Serie.
3. **`pct_change()`**: es una función que se utiliza para calcular el cambio porcentual entre los elementos de una serie o columna en un DataFrame. 
4. **`rank()`**: es una función que se utiliza para asignar un rango a los elementos de una serie o columna en un DataFrame.

In [None]:
# aplicar funciones
df['shift'] = df['duration'].shift() # se muestra el valor de la fila anterior (la primera fila en este caso es NaN)
df['cumsum'] = df['duration'].cumsum()  # suma acumulada entre la fila actual y todas las anteriores
df['pct_change'] = df['duration'].pct_change() # porcentaje de cambio entre la fila actual y la anterior 
df['rank'] = df['duration'].rank() # ranking de los valores (donde 1 es el menor valor)
df.head()

In [None]:
cols = ['shift', 'cumsum','pct_change', 'rank']
df = df.drop(cols,axis=1)
df.head()

### Filtrar Datos

Para filtrar datos en Pandas, se utiliza el método `loc()` o `iloc()`, dependiendo de si queremos filtrar por etiquetas de índice o por posición. Para efectos prácticos, utilizaremos solo `loc()`.

In [None]:
# 'fecha' mayor a 2000
df_new = df.loc[df['year_start'] >= 2000]
df_new.head()

In [None]:
# crear condicion
valor_objetivo = 2000 
condicion = (df['year_start'] >= valor_objetivo)
condicion.head()

In [None]:
# aplicar condicion
df_new = df.loc[condicion]
df_new.head()

Veamos distintos tipos de filtros:

In [None]:
# mayor o igual a 2000
df_new = df.loc[df['year_start'] >= 2000]
df_new.head()

In [None]:
# entre 2005-2015
df_new = df.loc[df['year_start'].between(2005,2015)]
df_new.head()

In [None]:
# solo 2000
df_new = df.loc[df['year_start']==2000]
df_new.head()

In [None]:
# varias condiciones condiciones
df_new = df.loc[(df['year_start']==2000) & (df['duration']>5)]
df_new.head()

In [None]:
# Filtrar por patrón de texto 
df_new = df.loc[df['name'].str.contains('Michael')]
df_new.head()

### Valores Nulos y Duplicados

#### Valores Nulos

Un valor nulo (o faltante) representa la ausencia de un valor en una celda específica de un DataFrame o una Serie. Los valores nulos pueden ocurrir por varias razones, como datos perdidos o no disponibles, errores de medición o problemas de entrada de datos.

Los valores nulos se representan en Pandas mediante el objeto `NaN` (acrónimo de "Not a Number"). `NaN` es un valor especial de punto flotante definido en el estándar **IEEE** para representar valores no definidos o indefinidos. En Pandas, los valores nulos se representan como `NaN` para las Series y DataFrames que utilizan datos numéricos, y como `None` para las Series y DataFrames que utilizan datos no numéricos.

In [None]:
# valores nulos
df.isnull().sum()

In [None]:
# Eliminar las filas que contienen valores nulos
df_new = df.dropna()
df_new.head()

In [None]:
# Rellenar los valores nulos con un valor específico, por ejemplo cero
df_new = df.fillna(0)
df_new.head()

#### Datos Duplicados

En Pandas, se pueden manejar los datos duplicados utilizando el método `duplicated()` y `drop_duplicates()`.

* El método `duplicated()` devuelve un booleano que indica si una fila es duplicada o no, es decir, si existe otra fila con los mismos valores.
* El método `drop_duplicates()` elimina las filas duplicadas de un DataFrame.


In [None]:
# Comprobar filas duplicadas
df.duplicated().sum()

In [None]:
# Eliminar filas duplicadas
df_new = df.drop_duplicates()
df_new.head()

In [None]:
# Comprobar filas duplicadas
df_new.duplicated().sum()

### Manipulación de Fechas

Pandas se desarrolló en el contexto del modelado financiero, por lo que, contiene varias herramientas para trabajar con fechas, horas y datos indexados por tiempo.

Comenzaremos por entendender las herramientas para manejar fechas y horas en Python, antes de pasar más específicamente a las herramientas proporcionadas por Pandas. 

In [None]:
import datetime
now = datetime.datetime.now()
print(now)

Puedes acceder a partes específicas de un objeto `datetime.datetime`, como el año, el mes, el día, la hora, el minuto y el segundo. Algunos de los atributos más comunes son:

* `year`: representa el año de la fecha y la hora.
* `month`: representa el mes de la fecha y la hora, como un número entre 1 y 12.
* `day`: representa el día del mes de la fecha y la hora, como un número entre 1 y 31.
* `hour`: representa la hora del día de la fecha y la hora, como un número entre 0 y 23.
* `minute`: representa los minutos de la hora de la fecha y la hora, como un número entre 0 y 59.
* `second`: representa los segundos de la hora de la fecha y la hora, como un número entre 0 y 59.
* `microsecond`: representa los microsegundos de la hora de la fecha y la hora, como un número entre 0 y 999999.

Veamos todo lo anterior, aplicado al dataframe que estamos trabajando:

In [None]:
# cambiar formato de la fecha 
df['new_birth_date'] = pd.to_datetime(df['birth_date'])
df.head()

In [None]:
# ver atributos
df.dtypes

In [None]:
# calcular atributos como año, mes, dia, ...
df['year'] = df['new_birth_date'].dt.year
df['month'] = df['new_birth_date'].dt.month
df['day'] = df['new_birth_date'].dt.day
df['hour'] = df['new_birth_date'].dt.hour
df['minute'] = df['new_birth_date'].dt.minute
df['second'] = df['new_birth_date'].dt.second
df['microsecond'] = df['new_birth_date'].dt.microsecond

df.head()

In [None]:
# lista de columnas a eliminar
columnas_a_eliminar = ['year', 'month', 'day', 'hour', 'minute', 'second', 'microsecond']

# eliminar las columnas
df = df.drop(columnas_a_eliminar, axis=1)

# mostrar dataframe
df.head()

## Referencias

1. [Python Pandas Tutorial: A Complete Introduction for Beginners](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)
2. [General functions](https://pandas.pydata.org/pandas-docs/stable/reference/general_functions.html)