<img src="images/usm.jpg" width="480" height="240" align="left"/>

# MAT281 -  Introducción a Pandas

## Objetivos de la clase

* Aprender conceptos básicos de la librería pandas.


## Contenidos

* [Pandas](#c1)

<a id='c1'></a>

## Pandas

<img src="images/pandas.jpeg" width="360" height="240" align="center"/>


[Pandas](https://pandas.pydata.org/) es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para que trabajar con datos "relacionales" o "etiquetados" sea fácil e intuitivo. 

Su objetivo es ser el bloque de construcción fundamental de alto nivel para hacer análisis de datos prácticos del mundo real en Python. Además, tiene el objetivo más amplio de convertirse en la herramienta de análisis/manipulación de datos de código abierto más potente y flexible disponible en cualquier idioma. Ya está en camino hacia este objetivo.



### Series y DataFrames

* Las **series** son  arreglos unidimensionales con etiquetas. Se puede pensar como una generalización de los diccionarios de Python. 

* Los **dataframe** son arreglos bidimensionales y una extensión natural de las series. Se puede pensar como la generalización de un numpy.array.


## 1.- Pandas Series

### Operaciones Básicas con series

In [1]:
# importar libreria: pandas, os
import pandas as pd
import numpy as np
import os

In [2]:
# crear serie
my_serie = pd.Series(range(3, 33, 3), index=list('abcdefghij'))

# imprimir serie
print("serie:")
print( my_serie )

serie:
a     3
b     6
c     9
d    12
e    15
f    18
g    21
h    24
i    27
j    30
dtype: int64


In [3]:
# tipo 
print("type:")
print( type(my_serie) )

type:
<class 'pandas.core.series.Series'>


In [4]:
# valores 
print("values:")
print(my_serie.values)

values:
[ 3  6  9 12 15 18 21 24 27 30]


In [5]:
# indice
print("index:")
print(my_serie.index)

index:
Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'], dtype='object')


In [6]:
# acceder al valor de la serie: directo
print("direct:")
print(my_serie['b'])

direct:
6


In [7]:
# acceder al valor de la serie: loc
print("loc:")
print(my_serie.loc['b'])

loc:
6


In [8]:
# acceder al valor de la serie: iloc
print("iloc:")
print(my_serie.iloc[1])

iloc:
6


In [9]:
# editar valores
print("edit:")
print("\nold 'd':",my_serie.loc['d'] )
my_serie.loc['d'] = 1000
print("new 'd':",my_serie.loc['d'] )

edit:

old 'd': 12
new 'd': 1000


###  Manejo de Fechas

Pandas también trae módulos para trabajar el formato de fechas.

In [10]:
# crear serie de fechas
date_rng = pd.date_range(start='1/1/2019', end='1/03/2019', freq='4H')

# imprimir serie
print("serie:")
print( date_rng )

serie:
DatetimeIndex(['2019-01-01 00:00:00', '2019-01-01 04:00:00',
               '2019-01-01 08:00:00', '2019-01-01 12:00:00',
               '2019-01-01 16:00:00', '2019-01-01 20:00:00',
               '2019-01-02 00:00:00', '2019-01-02 04:00:00',
               '2019-01-02 08:00:00', '2019-01-02 12:00:00',
               '2019-01-02 16:00:00', '2019-01-02 20:00:00',
               '2019-01-03 00:00:00'],
              dtype='datetime64[ns]', freq='4H')


In [11]:
# tipo 
print("type:\n")
print( type(date_rng) )

type:

<class 'pandas.core.indexes.datetimes.DatetimeIndex'>


In [12]:
# elementos de datetime a string 
string_date_rng = [str(x) for x in date_rng]

print("datetime to string: \n")
print( np.array(string_date_rng) )

datetime to string: 

['2019-01-01 00:00:00' '2019-01-01 04:00:00' '2019-01-01 08:00:00'
 '2019-01-01 12:00:00' '2019-01-01 16:00:00' '2019-01-01 20:00:00'
 '2019-01-02 00:00:00' '2019-01-02 04:00:00' '2019-01-02 08:00:00'
 '2019-01-02 12:00:00' '2019-01-02 16:00:00' '2019-01-02 20:00:00'
 '2019-01-03 00:00:00']


In [13]:
# elementos de string a datetime 
timestamp_date_rng = pd.to_datetime(string_date_rng, infer_datetime_format=True)

print("string to datetime:\n")
print( timestamp_date_rng )

string to datetime:

DatetimeIndex(['2019-01-01 00:00:00', '2019-01-01 04:00:00',
               '2019-01-01 08:00:00', '2019-01-01 12:00:00',
               '2019-01-01 16:00:00', '2019-01-01 20:00:00',
               '2019-01-02 00:00:00', '2019-01-02 04:00:00',
               '2019-01-02 08:00:00', '2019-01-02 12:00:00',
               '2019-01-02 16:00:00', '2019-01-02 20:00:00',
               '2019-01-03 00:00:00'],
              dtype='datetime64[ns]', freq=None)


In [14]:
# obtener fechas
print("date:\n")
print(timestamp_date_rng.date)

date:

[datetime.date(2019, 1, 1) datetime.date(2019, 1, 1)
 datetime.date(2019, 1, 1) datetime.date(2019, 1, 1)
 datetime.date(2019, 1, 1) datetime.date(2019, 1, 1)
 datetime.date(2019, 1, 2) datetime.date(2019, 1, 2)
 datetime.date(2019, 1, 2) datetime.date(2019, 1, 2)
 datetime.date(2019, 1, 2) datetime.date(2019, 1, 2)
 datetime.date(2019, 1, 3)]


In [15]:
# obtener horas
print("hour:\n")
print(timestamp_date_rng.hour)

hour:

Int64Index([0, 4, 8, 12, 16, 20, 0, 4, 8, 12, 16, 20, 0], dtype='int64')


### Operaciones matemáticas

Al igual que numpy, las series de pandas pueden realizar operaciones matemáticas similares (mientrás los arreglos a operar sean del tipo numérico). Por otro lado existen otras funciones de utilidad.

In [16]:
# crear serie
s1 = pd.Series([1,1,1,2,2,2,3,3,3,4,5,5,5,5])


print(f"max:    {s1.max()}") # maximo
print(f"min:    {s1.min()}") # minimo
print(f"mean:   {s1.mean()}") # promedio
print(f"median: {s1.median()}") # mediana

max:    5
min:    1
mean:   3.0
median: 3.0


###  Masking

Existen módulos para acceder a valores que queremos que cumplan una determinada regla. Por ejemplo, acceder al valor máximo de una serie. En este caso a esta regla la denominaremos *mask*.


In [17]:
# 1. definir valor maximo 
n_max = s1.max()

# 2.- definir "mask" que busca el valor
mask = s1 == n_max

# 3.- aplicar mask sobre la serie
s1[mask]

10    5
11    5
12    5
13    5
dtype: int64

### Valores Nulos o datos perdidos

En algunas ocaciones, los arreglos no tienen información en una determinada posición, lo cual puede ser perjudicial si no se tiene control sobre estos valores.

### a) Encontrar valores nulos

In [18]:
# crear serie
s_null = pd.Series([1,2,np.nan,4,5,6,7,np.nan,9])
s_null

0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
5    6.0
6    7.0
7    NaN
8    9.0
dtype: float64

In [19]:
# mask valores nulos
print("is null?:\n")
print(s_null.isnull() )

is null?:

0    False
1    False
2     True
3    False
4    False
5    False
6    False
7     True
8    False
dtype: bool


In [20]:
# filtrar valores nulos
print("null serie: \n")
print(s_null[s_null.isnull()] )

null serie: 

2   NaN
7   NaN
dtype: float64


### b) Encontrar valores no nulos

In [21]:
# imprimir serie
print("serie:")
print( s_null )

serie:
0    1.0
1    2.0
2    NaN
3    4.0
4    5.0
5    6.0
6    7.0
7    NaN
8    9.0
dtype: float64


In [22]:
# mask valores no nulos
print("\nis not null?:")
print(s_null.notnull() )


is not null?:
0     True
1     True
2    False
3     True
4     True
5     True
6     True
7    False
8     True
dtype: bool


In [23]:
# filtrar valores no nulos
print("\nserie with not null values")
print(s_null[s_null.notnull()] )


serie with not null values
0    1.0
1    2.0
3    4.0
4    5.0
5    6.0
6    7.0
8    9.0
dtype: float64


La pregunta que nos queda hacer es: ¿ Qué se debe hacer con los valores nulos ?, la respuesta es **depende**.

   * Si tenemos muchos datos, lo más probable es que se puedan eliminar estos datos sin culpa.
   * Si se tienen poco datos, lo más probable es que se necesite inputar un valor por defecto a los valores nulos (**ejemplo**: el promedio).

## 2.- Pandas Dataframes

### Trabajando  con DataFrames


<img src="images/dataframe.png" width="360" height="240" align="center"/>


Como se mencina anteriormente, los dataframes son arreglos de series, los cuales pueden ser de distintos tipos (numéricos, string, etc.). En esta parte mostraremos un ejemplo aplicado de las distintas funcionalidades de los dataframes.

### Creación de dataframes

La creación se puede hacer de variadas formas con listas, dictionarios , numpy array , entre otros.


In [24]:
# empty dataframe
df_empty = pd.DataFrame()
df_empty

In [25]:
# dataframe with list
df_list = pd.DataFrame(
    [
        ["nombre_01", "apellido_01", 60],
        ["nombre_02", "apellido_02", 14]
    ], columns = ["nombre", "apellido", "edad"]
)
df_list

Unnamed: 0,nombre,apellido,edad
0,nombre_01,apellido_01,60
1,nombre_02,apellido_02,14


In [26]:
# dataframe with dct
df_dct =  pd.DataFrame(
    {
        "nombre": ["nombre_01", "nombre_02"],
        "apellido": ["apellido_01", "apellido_02"],
        "edad": np.array([60,14]),
    }
)
df_dct

Unnamed: 0,nombre,apellido,edad
0,nombre_01,apellido_01,60
1,nombre_02,apellido_02,14


### Lectura de datos con dataframes

En general, cuando se trabajan con datos, estos se almacenan en algún lugar y en algún tipo de formato, por ejemplo:
 * .txt
 * .csv
 * .xlsx
 * .db
 * etc.
 
 

Para cada formato, existe un módulo para realizar la lectura de datos. En este caso, se analiza el conjunto de datos 'player_data.csv', el cual muestra informacion básica de algunos jugadores de la NBA.

<img src="images/nba_logo.jpg" width="360" height="240" align="center"/>


In [27]:
# load data
player_data = pd.read_csv(os.path.join('data', 'player_data.csv'), index_col='name')

### Módulos básicos

Existen módulos para comprender rápidamente la naturaleza del dataframe.

In [28]:
# first 5 rows
print("first 5 rows:")
player_data.head(5)

first 5 rows:


Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles"
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University


In [29]:
# last 5 rows
print("\nlast 5 rows:")
player_data.tail(5)


last 5 rows:


Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Ante Zizic,2018,2018,F-C,6-11,250.0,"January 4, 1997",
Jim Zoet,1983,1983,C,7-1,240.0,"December 20, 1953",Kent State University
Bill Zopf,1971,1971,G,6-1,170.0,"June 7, 1948",Duquesne University
Ivica Zubac,2017,2018,C,7-1,265.0,"March 18, 1997",
Matt Zunic,1949,1949,G-F,6-3,195.0,"December 19, 1919",George Washington University


In [30]:
# tipo
print("\ntype of dataframe:")
type(player_data)


type of dataframe:


pandas.core.frame.DataFrame

In [31]:
# tipo por columns
print("\ntype of columns:")
player_data.dtypes


type of columns:


year_start      int64
year_end        int64
position       object
height         object
weight        float64
birth_date     object
college        object
dtype: object

In [32]:
# dimension
print("\nshape:")
player_data.shape


shape:


(4550, 7)

In [33]:
# columna posicion
print("\ncolumn 'position': ")
player_data['position'].head()


column 'position': 


name
Alaa Abdelnaby         F-C
Zaid Abdul-Aziz        C-F
Kareem Abdul-Jabbar      C
Mahmoud Abdul-Rauf       G
Tariq Abdul-Wahad        F
Name: position, dtype: object

### Exploración de datos

Existen módulos de pandas que realizan resumen de la información que dispone el dataframe.

In [34]:
# descripcion 
player_data.describe(include='all')

Unnamed: 0,year_start,year_end,position,height,weight,birth_date,college
count,4550.0,4550.0,4549,4549,4544.0,4519,4248
unique,,,7,28,,4161,473
top,,,G,6-7,,"September 21, 1990",University of Kentucky
freq,,,1574,473,,3,99
mean,1985.076264,1989.272527,,,208.908011,,
std,20.974188,21.874761,,,26.268662,,
min,1947.0,1947.0,,,114.0,,
25%,1969.0,1973.0,,,190.0,,
50%,1986.0,1992.0,,,210.0,,
75%,2003.0,2009.0,,,225.0,,


### Operando sobre Dataframes

Cuando se trabaja con un conjunto de datos, se crea una dinámica de preguntas y respuestas, en donde a medida que necesito información, se va accediendo al dataframe. En algunas ocaciones es directo, basta un simple módulo, aunque en otras será necesaria realizar operaciones un poco más complejas. 

Por ejemplo, del conjunto de datos en estudio, se esta interesado en responder las siguientes preguntas:


### a) Determine si el dataframe tiene valores nulos  

In [35]:
player_data.notnull().all(axis=1).head(10)

name
Alaa Abdelnaby          True
Zaid Abdul-Aziz         True
Kareem Abdul-Jabbar     True
Mahmoud Abdul-Rauf      True
Tariq Abdul-Wahad       True
Shareef Abdur-Rahim     True
Tom Abernethy           True
Forest Able             True
John Abramovic          True
Alex Abrines           False
dtype: bool

### b) Elimine los valores nulos del dataframe

In [36]:
player_data = player_data[lambda df: df.notnull().all(axis=1)]
player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles"
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University


### c) Determinar el tiempo de cada jugador en su posición.

In [37]:
# Determinar el tiempo de cada jugador en su posición.
player_data['duration'] = player_data['year_end'] - player_data['year_start']
player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college,duration
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University,4
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University,9
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles",19
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University,10
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University,5


### d) Castear la fecha de str a objeto datetime

In [38]:
# Castear la fecha de str a objeto datetime
player_data['birth_date_dt'] = pd.to_datetime(player_data['birth_date'], format="%B %d, %Y")
player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college,duration,birth_date_dt
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University,4,1968-06-24
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University,9,1946-04-07
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles",19,1947-04-16
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University,10,1969-03-09
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University,5,1974-11-03


### e) Determinar todas las posiciones.

In [39]:
# Determinar todas las posiciones.
positions = player_data['position'].unique()
positions

array(['F-C', 'C-F', 'C', 'G', 'F', 'F-G', 'G-F'], dtype=object)

### f) Iterar sobre cada posición y encontrar el mayor valor.

In [40]:
# Iterar sobre cada posición y encontrar el mayor valor.
nba_position_duration = pd.Series()
for position in positions:
    df_aux = player_data.loc[lambda x: x['position'] == position]
    max_duration = df_aux['duration'].max()
    nba_position_duration.loc[position] = max_duration
nba_position_duration

  


F-C    22
C-F    18
C      20
G      19
F      18
F-G    18
G-F    19
dtype: int64

### g) Dermine los jugadores más altos de la NBA

In [41]:
# iteracion jugador mas alto
height_split = player_data['height'].str.split('-')
for player, height_list in height_split.items():
    if height_list == height_list:
        # Para manejar el caso en que la altura sea nan.
        height = int(height_list[0]) * 30.48 + int(height_list[1]) * 2.54
        player_data.loc[player, "height_cm"] = height
    else:
        player_data.loc[player, "height_cm"] = np.nan

max_height = player_data['height_cm'].max()
tallest_player = player_data.loc[lambda x: x['height_cm'] == max_height].index.tolist()
print(tallest_player)

['Manute Bol']


## Referencia

1. [Python Pandas Tutorial: A Complete Introduction for Beginners](https://www.learndatasci.com/tutorials/python-pandas-tutorial-complete-introduction-for-beginners/)
2. [General functions](https://pandas.pydata.org/pandas-docs/stable/reference/general_functions.html)