<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Logo_UTFSM.png" width="200" alt="utfsm-logo" align="left"/>

# MAT281
### Aplicaciones de la Matemática en la Ingeniería

## Módulo 02
## Clase 02: Manipulación de Datos

## Objetivos

* Comprender objetos de pandas
* Poder realizar manipulación de datos

## Contenidos
* [Introducción a Pandas](#pandas)
* [Series](#series)
* [DataFrames](#dataframes)

<a id='pandas'></a>
## Introducción a Pandas

Desde el [repositorio](https://github.com/pandas-dev/pandas) oficial:

pandas is a Python package providing fast, flexible, and expressive data structures designed to make working with "relational" or "labeled" data both easy and intuitive. It aims to be the fundamental high-level building block for doing practical, **real world** data analysis in Python. Additionally, it has the broader goal of becoming **the most powerful and flexible open source data analysis / manipulation tool available in any language**. It is already well on its way towards this goal.

### Principales Características

* Easy handling of missing data (represented as NaN) in floating point as well as non-floating point data
* Size mutability: columns can be inserted and deleted from DataFrame and higher dimensional objects
* Automatic and explicit data alignment: objects can be explicitly aligned to a set of labels, or the user can simply ignore the labels and let Series, DataFrame, etc. automatically align the data for you in computations
* Powerful, flexible group by functionality to perform split-apply-combine operations on data sets, for both aggregating and transforming data
* Make it easy to convert ragged, differently-indexed data in other Python and NumPy data structures into DataFrame objects
* Intelligent label-based slicing, fancy indexing, and subsetting of large data sets
* Intuitive merging and joining data sets
* Flexible reshaping and pivoting of data sets
* Hierarchical labeling of axes (possible to have multiple labels per tick)
* Robust IO tools for loading data from flat files (CSV and delimited), Excel files, databases, and saving/loading data from the ultrafast HDF5 format
* Time series-specific functionality: date range generation and frequency conversion, moving window statistics, moving window linear regressions, date shifting and lagging, etc.

In [1]:
import pandas as pd

In [2]:
pd.__version__

'0.25.1'

<a id='series'></a>
## Series

Arreglos unidimensionales con etiquetas. Se puede pensar como una generalización de los diccionarios de Python.

In [3]:
pd.Series?

[0;31mInit signature:[0m
[0mpd[0m[0;34m.[0m[0mSeries[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mdata[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mindex[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mdtype[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mname[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mcopy[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mfastpath[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m     
One-dimensional ndarray with axis labels (including time series).

Labels need not be unique but must be a hashable type. The object
supports both integer- and label-based indexing and provides a host of
methods for performing operations involving the index. Statistical
methods from ndarray have been overridden to automatically exclude
missing data (currentl

Para crear una instancia de una serie existen muchas opciones, las más comunes son:

* A partir de una lista.
* A partir de un _numpy.array_.
* A partir de un diccionario.
* A partir de un archivo (por ejemplo un csv).

In [4]:
my_serie = pd.Series(range(3, 33, 3))
my_serie

0     3
1     6
2     9
3    12
4    15
5    18
6    21
7    24
8    27
9    30
dtype: int64

In [5]:
type(my_serie)

pandas.core.series.Series

In [6]:
# Presiona TAB y sorpréndete con la cantidad de métodos y atributos que poseen!
# my_serie.

Las series son arreglos unidemensionales que constan de _data_ e _index_.

In [7]:
# Data
my_serie.values

array([ 3,  6,  9, 12, 15, 18, 21, 24, 27, 30])

In [8]:
type(my_serie.values)

numpy.ndarray

In [9]:
# Index
my_serie.index

RangeIndex(start=0, stop=10, step=1)

In [10]:
type(my_serie.index)

pandas.core.indexes.range.RangeIndex

¿Te fijaste que el index es de otra clase?

A diferencia de Numpy, pandas ofrece más flexibilidad para los valores e índices.

In [11]:
my_serie_2 = pd.Series(range(3, 33, 3), index=list('abcdefghij'))
my_serie_2

a     3
b     6
c     9
d    12
e    15
f    18
g    21
h    24
i    27
j    30
dtype: int64

### Acceder a los valores de una

In [12]:
my_serie_2['b']

6

In [13]:
my_serie_2.loc['b']

6

In [14]:
my_serie_2.iloc[1]

6

```loc```?? ```iloc```??

In [15]:
# pd.Series.loc?

A modo de resumen:

* ```loc``` es un método que hace referencia a las etiquetas (*labels*) del objeto .
* ```iloc``` es un método que hace referencia posicional del objeto.

**Consejo**: Si quieres editar valores siempre utiliza ```loc``` y/o ```iloc```.

In [16]:
my_serie_2.loc['d'] = 1000

In [17]:
my_serie_2

a       3
b       6
c       9
d    1000
e      15
f      18
g      21
h      24
i      27
j      30
dtype: int64

¿Y si quiero escoger más de un valor?

In [18]:
my_serie_2.loc["b":"e"]  # Incluso retorna el último valor!

b       6
c       9
d    1000
e      15
dtype: int64

In [19]:
my_serie_2.iloc[1:5]  # Incluso retorna el último valor!

b       6
c       9
d    1000
e      15
dtype: int64

Sorpresa! También puedes filtrar según condiciones!

En la mayoría de los tutoriales en internet encontrarás algo como lo siguiente:

In [20]:
my_serie_2[my_serie_2 % 2 == 0]

b       6
d    1000
f      18
h      24
j      30
dtype: int64

Lo siguiente se conoce como _mask_, y se basa en el siguiente hecho:

In [21]:
my_serie_2 % 2 == 0  # Retorna una serie con valores booleanos pero los mismos index!

a    False
b     True
c    False
d     True
e    False
f     True
g    False
h     True
i    False
j     True
dtype: bool

Si es una serie resultante de otra operación, tendrás que guardarla en una variable para así tener el nombre y luego acceder a ella. La siguiente manera puede qeu sea un poco más verboso, pero te otorga más flexibilidad.

In [22]:
my_serie_2.loc[lambda s: s % 2 == 0]

b       6
d    1000
f      18
h      24
j      30
dtype: int64

Una función lambda es una función pequeña y anónima. Pueden tomar cualquer número de argumentos pero solo tienen una expresión.

### Trabajar con fechas

Pandas incluso permite que los index sean fechas! Por ejemplo, a continuación se crea una serie con las tendencia de búsqueda de *data science* en Google.

In [23]:
import os

In [24]:
ds_trend = pd.read_csv(os.path.join('data', 'dataScienceTrend.csv'), index_col=0, squeeze=True)

In [25]:
ds_trend.head(10)

week
2013-09-29    15
2013-10-06    15
2013-10-13    14
2013-10-20    14
2013-10-27    14
2013-11-03    14
2013-11-10    15
2013-11-17    16
2013-11-24    12
2013-12-01    17
Name: trend, dtype: int64

In [26]:
ds_trend.tail(10)

week
2018-07-22     84
2018-07-29     86
2018-08-05     82
2018-08-12     83
2018-08-19     91
2018-08-26     93
2018-09-02    100
2018-09-09     93
2018-09-16     98
2018-09-23     93
Name: trend, dtype: int64

In [27]:
ds_trend.dtype

dtype('int64')

In [28]:
ds_trend.index

Index(['2013-09-29', '2013-10-06', '2013-10-13', '2013-10-20', '2013-10-27',
       '2013-11-03', '2013-11-10', '2013-11-17', '2013-11-24', '2013-12-01',
       ...
       '2018-07-22', '2018-07-29', '2018-08-05', '2018-08-12', '2018-08-19',
       '2018-08-26', '2018-09-02', '2018-09-09', '2018-09-16', '2018-09-23'],
      dtype='object', name='week', length=261)

**OJO!** Los valores del Index son _strings_ (_object_ es una generalización). 

**Solución:** _Parsear_ a elementos de fecha con la función ```pd.to_datetime()```.

In [29]:
# pd.to_datetime?

In [30]:
ds_trend.index = pd.to_datetime(ds_trend.index, format='%Y-%m-%d')

In [31]:
ds_trend.index

DatetimeIndex(['2013-09-29', '2013-10-06', '2013-10-13', '2013-10-20',
               '2013-10-27', '2013-11-03', '2013-11-10', '2013-11-17',
               '2013-11-24', '2013-12-01',
               ...
               '2018-07-22', '2018-07-29', '2018-08-05', '2018-08-12',
               '2018-08-19', '2018-08-26', '2018-09-02', '2018-09-09',
               '2018-09-16', '2018-09-23'],
              dtype='datetime64[ns]', name='week', length=261, freq=None)

Para otros tipos de _parse_ puedes visitar la documentación [aquí](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior).


La idea de los elementos de fecha es poder realizar operaciones que resulten naturales para el ser humano. Por ejemplo:

In [32]:
ds_trend.index.min()

Timestamp('2013-09-29 00:00:00')

In [33]:
ds_trend.index.max()

Timestamp('2018-09-23 00:00:00')

In [34]:
ds_trend.index.max() - ds_trend.index.min()

Timedelta('1820 days 00:00:00')

Volviendo a la Serie, podemos trabajar con todos sus elementos, por ejemplo, determinar rápidamente la máxima tendencia.

In [35]:
max_trend = ds_trend.max()
max_trend 

100

Para determinar el _index_ correspondiente al valor máximo usualmente se utilizan dos formas:

* Utilizar una máscara (*mask*)
* Utilizar métodos ya implementados

In [36]:
# Mask
ds_trend[ds_trend == max_trend]

week
2018-09-02    100
Name: trend, dtype: int64

In [37]:
# Built-in method
ds_trend.idxmax()

Timestamp('2018-09-02 00:00:00')

<a id='dataframes'></a>
## DataFrames

Arreglo bidimensional y extensión natural de una serie. Podemos pensarlo como la generalización de un numpy.array.

Utilizando el dataset de los jugadores de la NBA la flexibilidad de pandas se hace mucho más visible. No es necesario que todos los elementos sean del mismo tipo!

In [38]:
player_data = pd.read_csv(os.path.join('data', 'player_data.csv'), index_col='name')
player_data.head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles"
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University


In [39]:
type(player_data)

pandas.core.frame.DataFrame

In [40]:
player_data.info(memory_usage=True)

<class 'pandas.core.frame.DataFrame'>
Index: 4550 entries, Alaa Abdelnaby to Matt Zunic
Data columns (total 7 columns):
year_start    4550 non-null int64
year_end      4550 non-null int64
position      4549 non-null object
height        4549 non-null object
weight        4544 non-null float64
birth_date    4519 non-null object
college       4248 non-null object
dtypes: float64(1), int64(2), object(4)
memory usage: 284.4+ KB


In [41]:
player_data.dtypes

year_start      int64
year_end        int64
position       object
height         object
weight        float64
birth_date     object
college        object
dtype: object

Puedes pensar que un dataframe es una colección de series

In [42]:
player_data['birth_date'].head()

name
Alaa Abdelnaby            June 24, 1968
Zaid Abdul-Aziz           April 7, 1946
Kareem Abdul-Jabbar      April 16, 1947
Mahmoud Abdul-Rauf        March 9, 1969
Tariq Abdul-Wahad      November 3, 1974
Name: birth_date, dtype: object

In [43]:
type(player_data['birth_date'])

pandas.core.series.Series

### Exploración 

In [44]:
player_data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
year_start,4550.0,1985.076264,20.974188,1947.0,1969.0,1986.0,2003.0,2018.0
year_end,4550.0,1989.272527,21.874761,1947.0,1973.0,1992.0,2009.0,2018.0
weight,4544.0,208.908011,26.268662,114.0,190.0,210.0,225.0,360.0


In [45]:
player_data.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
year_start,4550,,,,1985.08,20.9742,1947.0,1969.0,1986.0,2003.0,2018.0
year_end,4550,,,,1989.27,21.8748,1947.0,1973.0,1992.0,2009.0,2018.0
position,4549,7.0,G,1574.0,,,,,,,
height,4549,28.0,6-7,473.0,,,,,,,
weight,4544,,,,208.908,26.2687,114.0,190.0,210.0,225.0,360.0
birth_date,4519,4161.0,"November 18, 1969",3.0,,,,,,,
college,4248,473.0,University of Kentucky,99.0,,,,,,,


In [46]:
player_data.max()

year_start    2018.0
year_end      2018.0
weight         360.0
dtype: float64

Para extraer elementos lo más recomendable es el método loc.

In [47]:
player_data.loc['Zaid Abdul-Aziz', 'college']

'Iowa State University'

Evita acceder con doble corchete

In [48]:
player_data['college']['Zaid Abdul-Aziz']

'Iowa State University'

Aunque en ocasiones funcione, no se asegura que sea siempre así. [Más info aquí.](https://pandas.pydata.org/pandas-docs/stable/indexing.html#why-does-assignment-fail-when-using-chained-indexing)

In [59]:
player_data['position'].value_counts()

G      1574
F      1290
C       502
F-C     388
G-F     360
C-F     219
F-G     216
Name: position, dtype: int64

### Valores perdidos/nulos

Pandas ofrece herramientas para trabajar con valors nulos, pero es necesario conocerlas y saber aplicarlas. Por ejemplo, el método ```isnull()``` entrega un booleano si algún valor es nulo.

Por ejemplo: ¿Qué jugadores no tienen registrado su fecha de nacimiento?

In [49]:
player_data.index.shape

(4550,)

In [58]:
player_data.loc[lambda x: x['birth_date'].isnull()]

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Bill Allen,1968,1968,C-F,6-8,205.0,,New Mexico State University
Don Bielke,1956,1956,C,6-7,240.0,,Valparaiso University
Clarence Brookins,1971,1971,F,6-4,190.0,,Temple University
Walter Byrd,1970,1970,F,6-7,205.0,,Temple University
Ken Corley,1947,1947,C,6-5,210.0,,Oklahoma State Teachers College
Mack Daughtry,1971,1971,G,6-3,175.0,,Albany State University
Harry Dinnel,1968,1968,F-G,6-4,200.0,,Pepperdine University
Rich Dumas,1969,1969,G,6-3,170.0,,Northeastern State University
Gene Gillette,1947,1947,F,6-2,205.0,,Saint Mary's College of California
Darrell Hardy,1968,1968,F,6-7,220.0,,Baylor University


Si deseamos encontrar todas las filas que contengan por lo menos un valor nulo.

In [51]:
player_data.isnull()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,False,False,False,False,False,False,False
Zaid Abdul-Aziz,False,False,False,False,False,False,False
Kareem Abdul-Jabbar,False,False,False,False,False,False,False
Mahmoud Abdul-Rauf,False,False,False,False,False,False,False
Tariq Abdul-Wahad,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
Ante Zizic,False,False,False,False,False,False,True
Jim Zoet,False,False,False,False,False,False,False
Bill Zopf,False,False,False,False,False,False,False
Ivica Zubac,False,False,False,False,False,False,True


In [52]:
# pd.DataFrame.any?

In [53]:
rows_null_mask = player_data.isnull().any(axis=1)  # axis=1 hace referencia a las filas.
rows_null_mask.head()

name
Alaa Abdelnaby         False
Zaid Abdul-Aziz        False
Kareem Abdul-Jabbar    False
Mahmoud Abdul-Rauf     False
Tariq Abdul-Wahad      False
dtype: bool

In [54]:
player_data[rows_null_mask].head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alex Abrines,2017,2018,G-F,6-6,190.0,"August 1, 1993",
Alexis Ajinca,2009,2017,C,7-2,248.0,"May 6, 1988",
Furkan Aldemir,2015,2015,F-C,6-10,240.0,"August 9, 1991",
Bill Allen,1968,1968,C-F,6-8,205.0,,New Mexico State University
David Andersen,2010,2011,C,6-11,245.0,"June 23, 1980",


In [55]:
player_data[rows_null_mask].shape

(337, 7)

Para determinar aquellos que no tienen valors nulos el prodecimiento es similar.

In [56]:
player_data.loc[lambda x: x.notnull().all(axis=1)].head()

Unnamed: 0_level_0,year_start,year_end,position,height,weight,birth_date,college
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Alaa Abdelnaby,1991,1995,F-C,6-10,240.0,"June 24, 1968",Duke University
Zaid Abdul-Aziz,1969,1978,C-F,6-9,235.0,"April 7, 1946",Iowa State University
Kareem Abdul-Jabbar,1970,1989,C,7-2,225.0,"April 16, 1947","University of California, Los Angeles"
Mahmoud Abdul-Rauf,1991,2001,G,6-1,162.0,"March 9, 1969",Louisiana State University
Tariq Abdul-Wahad,1998,2003,F,6-6,223.0,"November 3, 1974",San Jose State University


Pandas incluso ofrece opciones para eliminar elementos nulos!

In [54]:
pd.DataFrame.dropna?

[0;31mSignature:[0m
[0mpd[0m[0;34m.[0m[0mDataFrame[0m[0;34m.[0m[0mdropna[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mself[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0maxis[0m[0;34m=[0m[0;36m0[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mhow[0m[0;34m=[0m[0;34m'any'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0mthresh[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0msubset[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0minplace[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Remove missing values.

See the :ref:`User Guide <missing_data>` for more on which values are
considered missing, and how to work with missing data.

Parameters
----------
axis : {0 or 'index', 1 or 'columns'}, default 0
    Determine if rows or columns which contain missing values are
    removed.

    * 0, or 'index' : Drop rows which contain missing values.
    * 1,

In [55]:
# Cualquier registro con null
print(player_data.dropna().shape)
# Filas con elementos nulos
print(player_data.dropna(axis=0).shape)
# Columnas con elementos nulos
print(player_data.dropna(axis=1).shape)

(4213, 7)
(4213, 7)
(4550, 2)


## Resumen
* Pandas posee una infinidad de herramientas para trabajar con datos, incluyendo la carga, manipulación, operaciones y filtrado de datos.
* La documentación oficial (y StackOverflow) son tus mejores amigos.
* La importancia está en darle sentido a los datos, no solo a coleccionarlos.