<img src="images/usm.jpg" width="480" height="240" align="left"/>

# MAT281 -  Introducción a Pandas

## Objetivos de la clase

* Aprender conceptos básicos de la librería pandas.


## Contenidos

* [Pandas](#c1)

<a id='c1'></a>

## Pandas

<img src="images/pandas.jpeg" width="360" height="240" align="center"/>


[Pandas](https://pandas.pydata.org/) es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo. 

Su objetivo es ser el bloque de construcción fundamental de alto nivel para hacer análisis de datos prácticos del mundo real en Python. Además, tiene el objetivo más amplio de convertirse en la herramienta de análisis/manipulación de datos de código abierto más potente y flexible disponible en cualquier idioma. Ya está en camino hacia este objetivo.



### Series y DataFrames

* Las **series** son  arreglos unidimensionales con etiquetas. Se puede pensar como una generalización de los diccionarios de Python. 

* Los **dataframe** son arreglos bidimensionales y una extensión natural de las series. Se puede pensar como la generalización de un numpy.array.


## 1.- Pandas Series

### Operaciones Básicas con series

In [None]:
# importar libreria: pandas, os
import pandas as pd
import numpy as np
import os

In [None]:
# crear serie
my_serie = pd.Series(range(3, 33, 3), index=list('abcdefghij'))

# imprimir serie
print("serie:")
print( my_serie )

In [None]:
# tipo 
print("type:")
print( type(my_serie) )

In [None]:
# valores 
print("values:")
print(my_serie.values)

In [None]:
# indice
print("index:")
print(my_serie.index)

In [None]:
# acceder al valor de la serie: directo
print("direct:")
print(my_serie['b'])

In [None]:
# acceder al valor de la serie: loc
print("loc:")
print(my_serie.loc['b'])

In [None]:
# acceder al valor de la serie: iloc
print("iloc:")
print(my_serie.iloc[1])

In [None]:
# editar valores
print("edit:")
print("\nold 'd':",my_serie.loc['d'] )
my_serie.loc['d'] = 1000
print("new 'd':",my_serie.loc['d'] )

###  Manejo de Fechas

Pandas también trae módulos para trabajar el formato de fechas.

In [None]:
# crear serie de fechas
date_rng = pd.date_range(start='1/1/2019', end='1/03/2019', freq='4H')

# imprimir serie
print("serie:")
print( date_rng )

In [None]:
# tipo 
print("type:\n")
print( type(date_rng) )

In [None]:
# elementos de datetime a string 
string_date_rng = [str(x) for x in date_rng]

print("datetime to string: \n")
print( np.array(string_date_rng) )

In [None]:
# elementos de string a datetime 
timestamp_date_rng = pd.to_datetime(string_date_rng, infer_datetime_format=True)

print("string to datetime:\n")
print( timestamp_date_rng )

In [None]:
# obtener fechas
print("date:\n")
print(timestamp_date_rng.date)

In [None]:
# obtener horas
print("hour:\n")
print(timestamp_date_rng.hour)

### Operaciones matemáticas

Al igual que numpy, las series de pandas pueden realizar operaciones matemáticas similares (mientrás los arreglos a operar sean del tipo numérico). Por otro lado existen otras funciones de utilidad.

In [None]:
# crear serie
s1 = pd.Series([1,1,1,2,2,2,3,3,3,4,5,5,5,5])


print(f"max:    {s1.max()}") # maximo
print(f"min:    {s1.min()}") # minimo
print(f"mean:   {s1.mean()}") # promedio
print(f"median: {s1.median()}") # mediana

###  Masking

Existen módulos para acceder a valores que queremos que cumplan una determinada regla. Por ejemplo, acceder al valor máximo de una serie. En este caso a esta regla la denominaremos *mask*.


In [None]:
# 1. definir valor maximo 
n_max = s1.max()

# 2.- definir "mask" que busca el valor
mask = s1 == n_max

# 3.- aplicar mask sobre la serie
s1[mask]

### Valores Nulos o datos perdidos

En algunas ocaciones, los arreglos no tienen información en una determinada posición, lo cual puede ser perjudicial si no se tiene control sobre estos valores.

### a) Encontrar valores nulos

In [None]:
# crear serie
s_null = pd.Series([1,2,np.nan,4,5,6,7,np.nan,9])
s_null

In [None]:
# mask valores nulos
print("is null?:\n")
print(s_null.isnull() )

In [None]:
# filtrar valores nulos
print("null serie: \n")
print(s_null[s_null.isnull()] )

### b) Encontrar valores no nulos

In [None]:
# imprimir serie
print("serie:")
print( s_null )

In [None]:
# mask valores no nulos
print("\nis not null?:")
print(s_null.notnull() )

In [None]:
# filtrar valores no nulos
print("\nserie with not null values")
print(s_null[s_null.notnull()] )

La pregunta que nos queda hacer es: ¿ Qué se debe hacer con los valores nulos ?, la respuesta es **depende**.

   * Si tenemos muchos datos, lo más probable es que se puedan eliminar estos datos sin culpa.
   * Si se tienen poco datos, lo más probable es que se necesite inputar un valor por defecto a los valores nulos (**ejemplo**: el promedio).

## 2.- Pandas Dataframes

### Trabajando  con DataFrames


<img src="images/dataframe.png" width="360" height="240" align="center"/>


Como se mencina anteriormente, los dataframes son arreglos de series, los cuales pueden ser de distintos tipos (numéricos, string, etc.). En esta parte mostraremos un ejemplo aplicado de las distintas funcionalidades de los dataframes.

### Creación de dataframes

La creación se puede hacer de variadas formas con listas, dictionarios , numpy array , entre otros.


In [None]:
# empty dataframe
df_empty = pd.DataFrame()
df_empty

In [None]:
# dataframe with list
df_list = pd.DataFrame(
    [
        ["nombre_01", "apellido_01", 60],
        ["nombre_02", "apellido_02", 14]
    ], columns = ["nombre", "apellido", "edad"]
)
df_list

In [None]:
# dataframe with dct
df_dct =  pd.DataFrame(
    {
        "nombre": ["nombre_01", "nombre_02"],
        "apellido": ["apellido_01", "apellido_02"],
        "edad": np.array([60,14]),
    }
)
df_dct

### Lectura de datos con dataframes

En general, cuando se trabajan con datos, estos se almacenan en algún lugar y en algún tipo de formato, por ejemplo:
 * .txt
 * .csv
 * .xlsx
 * .db
 * etc.
 
 

Para cada formato, existe un módulo para realizar la lectura de datos. En este caso, se analiza el conjunto de datos 'player_data.csv', el cual muestra informacion básica de algunos jugadores de la NBA.

<img src="images/nba_logo.jpg" width="360" height="240" align="center"/>


In [None]:
# load data
player_data = pd.read_csv(os.path.join('data', 'player_data.csv'), index_col='name')

### Módulos básicos

Existen módulos para comprender rápidamente la naturaleza del dataframe.

In [None]:
# first 5 rows
print("first 5 rows:")
player_data.head(5)

In [None]:
# last 5 rows
print("\nlast 5 rows:")
player_data.tail(5)

In [None]:
# tipo
print("\ntype of dataframe:")
type(player_data)

In [None]:
# tipo por columns
print("\ntype of columns:")
player_data.dtypes

In [None]:
# dimension
print("\nshape:")
player_data.shape

In [None]:
# columna posicion
print("\ncolumn 'position': ")
player_data['position'].head()

### Exploración de datos

Existen módulos de pandas que realizan resumen de la información que dispone el dataframe.

In [None]:
# descripcion 
player_data.describe(include='all')

### Operando sobre Dataframes

Cuando se trabaja con un conjunto de datos, se crea una dinámica de preguntas y respuestas, en donde a medida que necesito información, se va accediendo al dataframe. En algunas ocaciones es directo, basta un simple módulo, aunque en otras será necesaria realizar operaciones un poco más complejas. 

Por ejemplo, del conjunto de datos en estudio, se esta interesado en responder las siguientes preguntas:


### a) Determine si el dataframe tiene valores nulos  

In [None]:
player_data.notnull().all(axis=1).head(10)

### b) Elimine los valores nulos del dataframe

In [None]:
player_data = player_data[lambda df: df.notnull().all(axis=1)]
player_data.head()

### c) Determinar el tiempo de cada jugador en su posición.

In [None]:
# Determinar el tiempo de cada jugador en su posición.
player_data['duration'] = player_data['year_end'] - player_data['year_start']
player_data.head()

### d) Castear la fecha de str a objeto datetime

In [None]:
# Castear la fecha de str a objeto datetime
player_data['birth_date_dt'] = pd.to_datetime(player_data['birth_date'], format="%B %d, %Y")
player_data.head()

### e) Determinar todas las posiciones.

In [None]:
# Determinar todas las posiciones.
positions = player_data['position'].unique()
positions

### f) Iterar sobre cada posición y encontrar el mayor valor.

In [None]:
# Iterar sobre cada posición y encontrar el mayor valor.
nba_position_duration = pd.Series()
for position in positions:
    df_aux = player_data.loc[lambda x: x['position'] == position]
    max_duration = df_aux['duration'].max()
    nba_position_duration.loc[position] = max_duration
nba_position_duration

### g) Dermine los jugadores más altos de la NBA

In [None]:
# iteracion jugador mas alto
height_split = player_data['height'].str.split('-')
for player, height_list in height_split.items():
    if height_list == height_list:
        # Para manejar el caso en que la altura sea nan.
        height = int(height_list[0]) * 30.48 + int(height_list[1]) * 2.54
        player_data.loc[player, "height_cm"] = height
    else:
        player_data.loc[player, "height_cm"] = np.nan

max_height = player_data['height_cm'].max()
tallest_player = player_data.loc[lambda x: x['height_cm'] == max_height].index.tolist()
print(tallest_player)

## Referencia

1. [Python Pandas Tutorial: A Complete Introduction for Beginners](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)
2. [General functions](https://pandas.pydata.org/pandas-docs/stable/reference/general_functions.html)